CN112784897A - 图像处理方法、装置、设备和存储介质 - Google Patents

图像处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112784897A
CN112784897A CN202110077536.3A CN202110077536A CN112784897A CN 112784897 A CN112784897 A CN 112784897A CN 202110077536 A CN202110077536 A CN 202110077536A CN 112784897 A CN112784897 A CN 112784897A
Authority
CN
China
Prior art keywords
resolution
decoding
network
coding
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110077536.3A
Other languages
English (en)
Other versions
CN112784897B (zh
Inventor
王健
龙翔
孙昊
金智勇
丁二锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110077536.3A priority Critical patent/CN112784897B/zh
Publication of CN112784897A publication Critical patent/CN112784897A/zh
Priority to US17/505,889 priority patent/US11893708B2/en
Priority to EP21207470.2A priority patent/EP3958184A3/en
Application granted granted Critical
Publication of CN112784897B publication Critical patent/CN112784897B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]

Abstract

本申请公开了一种图像处理方法、装置、设备和存储介质,涉及图像处理技术领域,尤其涉及计算机视觉、深度学习等人工智能领域。具体实现方案为:将待处理图像输入至编码网络,得到基本图像特征;其中,所述编码网络包括级联的至少两个编码交叠子网络;所述编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理;将所述基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,所述解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。本申请提高了目标图像特征的语义表达能力,为像素点分类结果准确度的提高奠定了基础。

Description

图像处理方法、装置、设备和存储介质
技术领域
本申请涉及图像处理技术领域,尤其涉及计算机视觉、深度学习等人工智能领域。
背景技术
密集预测是一种基于密集像素的图像处理任务,具体为针对整张待处理图像中的每个像素点进行分类,以实现语义分割、边界预测、图像复原或图像定位等目的。
针对密集预测问题,现有技术在对待处理图像进行特征提取时,存在所提取特征语义表达能力较差的情况,严重影响密集预测结果准确度。
发明内容
本申请提供了一种图像处理方法、装置、设备和存储介质。
根据本申请的一方面,提供了一种图像处理方法,包括:
将待处理图像输入至编码网络,得到基本图像特征;其中,所述编码网络包括级联的至少两个编码交叠子网络;所述编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理;
将所述基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,所述解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。
根据本申请的另一方面,还提供了一种图像处理装置,包括:
基本图像特征得到模块,用于将待处理图像输入至编码网络,得到基本图像特征;其中,所述编码网络包括级联的至少两个编码交叠子网络;所述编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理;
目标图像特征得到模块,用于将所述基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,所述解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。
根据本申请的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请实施例提供的任意一种图像处理方法。
根据本申请的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本申请实施例提供的任意一种图像处理方法。
根据本申请的另一方面,还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请实施例提供的任意一种图像处理方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请实施例提供的一种图像处理方法的流程图;
图2是本申请实施例提供的一种特征提取网络的结构示意图;
图3是本申请实施例提供的一种编码交叠子网络的结构示意图;
图4是本申请实施例提供的另一种编码交叠子网络的结构示意图;
图5是本申请实施例提供的一种解码交叠子网络的结构示意图;
图6是本申请实施例提供的另一种解码交叠子网络的结构示意图;
图7是本申请实施例提供的另一种特征提取网络的结构示意图;
图8是现有技术中的一种特征提取网络的结构示意图;
图9是本申请实施例提供的一种图像处理装置的结构图;
图10是用来实现本申请实施例的图像处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例提供的各图像处理方法和图像处理装置,适用于在解决密集预测问题时,基于深度学习等人工智能技术,对待处理图像进行图像特征提取的情况。本申请所提供的各图像处理方法,可以由图像处理装置执行,该装置采用软件和/或硬件实现,并具体配置于电子设备中。
参见图1所示的一种图像处理方法,包括:
S101、将待处理图像输入至编码网络,得到基本图像特征;其中,编码网络包括级联的至少两个编码交叠子网络;编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理。
S102、将基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。
为了便于理解,参见图2所示的一种特征提取网络结构图,对基本图像特征和目标图像特征的生成过程进行详细说明。
如图2所示,该特征提取模型包括编码网络21和解码网络22。其中,编码网络21中包括级联的至少两个编码交叠子网络211;解码网络22中包括级联的至少两个解码交叠子网络221。其中,编码交叠子网络211用于对所输入数据在至少两个分辨率上进行编码融合处理,以实现对所输入数据的特征提取;解码交叠子网络221用于对所输入数据在至少两个分辨率上进行解码融合处理,以实现对所输入数据的特征重构。
当编码交叠子网络211对所输入数据在至少两个分辨率上进行编码处理时,可以首先对所输入数据的分辨率进行调整,得到至少两个不同分辨率的输入数据;分别对至少两个分辨率的输入数据进行编码处理,提取出包括至少两个感受野下的输出数据;以及,对至少两个感受野下的输出数据进行特征融合,提高了编码结果中所包含语义信息的丰富性和全面性。
当解码交叠子网络221对所输入数据在至少两个分辨率上进行解码处理时,可以首先对所输入数据的分辨率进行调整,得到至少两个不同分辨率的输入数据;分别对至少两个分辨率的输入数据进行解码处理,得到包括至少两个尺度的重构数据;以及,对至少两个尺度下的重构数据进行特征融合,提高了解码结果中所包含语义信息的丰富性和全面性。
其中,编码网络21中的编码交叠子网络211的数量,可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。解码网络22中的解码交叠子网络221的数量,可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。其中,编码交叠子网络211和解码交叠子网络221的数量可以相同或不同。
其中,基本图像特征包括待处理图像中的上下文信息,用于表征待处理图像的全局特征;例如可以根据编码网络21中各编码交叠子网络211所输出数据中,分辨率最低的多个数据中的至少一个加以确定。
需要说明的是,在进行解码处理的过程中,通过解码网络22中级联的至少一个解码交叠子网络221,对基本图像特征逐级进行不同尺度下的特征解码和特征融合,从而在基本图像特征的基础上,不断叠加局部细节信息,从而使最终生成的目标图像特征中所携带语义信息更加丰富、全面,提高了目标图像特征的语义表达能力。
为了便于后续使用,通常目标图像特征的分辨率与待处理图像的分辨率相同。示例性地,目标图像特征可用于对待处理图像的密集预测,也即根据目标图像特征对待处理图像中的各像素点进行分类,从而为图像语义分割、边界预测、图像复原或图像定位等的实现,提供数据参照。
本申请实施例通过在解码网络中设置级联的至少一个解码交叠子网络,逐级对基本图像特征进行不同尺度的编码融合处理。通过将解码交叠子网络的数量设置为至少一个,从而增加了目标图像特征生成过程的推理次数,使得在基本图像特征的基础上,进行不同尺度下局部细节特征的叠加,从而使最终生成的目标图像特征中所携带语义信息更加丰富、全面,提高了目标图像特征的语义表达能力,为像素点分类结果也即密集预测结果的准确度的提高奠定了基础。
为了实现对现有HRNet的复用,可以将编码网络中首部的编码交叠子网络的输入数据设置为待处理图像,从而仅通过该编码交叠子网络对待处理图像进行特征编码即可。而编码网络中非首部的编码交叠子网络的输入数据,可以根据前一编码交叠子网络的输出数据确定,且分辨率依次降低,从而达到对所输入数据在不同分辨率下进行特征编码和特征融合的目的。
示例性地,针对各非首部的编码交叠子网络,可以根据该非首部的编码交叠子网络的前一编码交叠子网络的输出数据,生成至少两个分辨率的数据,并将所生成数据作为该非首部的编码交叠子网络的输入数据。
在一个具体实现方式中,可以根据设定下采样频率对前一编码交叠子网络进行至少一次下采样,生成至少一个下采样结果;将前一编码交叠子网络的输出数据和至少一个下采样结果中的至少两个,作为该非首部的编码交叠子网络的输入数据。其中,设定下采样频率数值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
为了保证不同编码交叠子网络能够提取出不同尺度的信息,同时增加特征提取过程的感受野,各非首部的编码交叠子网络的输入数据分辨率依次降低。
需要说明的是,为了保证各非首部的编码交叠子网络能够实现在少两个分辨率上的编码融合处理,编码交叠子网络的输入数据的数量通常设置为至少两个。值得注意的是,本申请对各非首部的编码交叠子网络中输入数据的数量不做任何限定,本领域技术人员可以根据实际需要进行具体数量的设定或调整。当然,不同编码交叠子网络中输入数据的数量可以相同或不同。一般的,为了简化编码网络的构建逻辑,通常将非首部的编码交叠子网络的输入数据数量设置为相同;相应的,将各非首部的编码交叠子网络的模型结构设置为相同或相似的结构。
为了进一步完善编码交叠子网络的模型结构,参见图3所示的一种编码交叠子网络的结构图,对编码交叠子网络的具体结构进行详细说明。
其中,编码网络30中非首部的编码交叠子网络31包括至少两个编码卷积层311;至少两个编码卷积层311的输入数据的分辨率不同。
在一个具体实现方式中,可以根据设定下采样频率对前一编码交叠子网络的输出数据进行至少一次下采样,生成至少一个下采样结果;将前一编码交叠子网络的输出数据和至少一个下采样结果数据中的至少两个不同分辨率数据,分别作为该非首部的编码交叠子网络31中各编码卷积层311的输入数据。其中,设定下采样频率数值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
值得注意的是,相同编码交叠子网络中进行至少两次下采样时,所采用的设定下采样频率可以相同或不同;不同编码交叠子网络中进行下采样时,所采用的设定下采样频率也可以相同或不同。
需要说明的是,不同非首部的编码交叠子网络中所包含的编码卷积层的数量可以相同或不同,仅需保证各编码交叠子网络均具备对至少两个分辨率的输入数据进行处理的能力即可。当然,为了简化编码交叠子网络的构建逻辑,通常将各编码交叠子网络中编码卷积层的数量设置为相同。
可以理解的是,通过在各非首部编码交叠子网络中设置至少两个编码卷积层,并通过对各编码卷积层的输入数据的分辨率加以区分,使得各非首部编码交叠子网络具备多分辨率编码处理能力。
在一个可选实施例中,为了提高特征编码效率,非首部编码交叠子网络中各编码卷积层可以对所输入数据并行进行编码处理。
针对编码网络中的各非首部的编码交叠子网络,各编码卷积层用于实现对所输入数据的特征提取和特征融合操作,从而实现对所输入数据的编码融合。
在一个具体实现方式中,各编码卷积层对自身输入数据进行特征提取,得到编码特征;针对每个编码卷积层,该编码卷积层调整所属编码交叠子网络中其他编码卷积层输出的编码特征,并将调整结果与自身输出的编码特征进行特征融合,得到自身输出数据。
具体的,各编码卷积层对自身输入数据分别进行特征提取,得到对应的编码特征,由于不同编码卷积层对应输入数据的分辨率不同,进行特征提取的感受野不同,相应的,所提取的编码特征的分辨率也不同,各编码特征所携带的语义信息也不同。针对每个编码卷积层,该编码卷积层调整所属编码交叠子网络中其他编码卷积层输出的编码特征,从而使调整结果与该编码卷积层输出的编码特征的分辨率保持一致,为特征融合的顺利执行奠定了基础。相应的,将调整结果与自身输出的编码特征进行特征融合,使得编码交叠子网络的输出数据中能够携带不同维度的语义信息,从而提高了编码交叠子网络所输出数据的语义丰富性和全面性。
针对非尾部的编码交叠子网络,其自身输出数据用于作为后一编码交叠子网络的输入数据的参照数据,进行后一编码交叠子网络的输入数据的确定。针对尾部的编码交叠子网络,其自身输出数据用于进行基本图像特征的确定,并根据该基本图像特征,生成解码网络的输入数据。
需要说明的是,非首部的编码交叠子网络中的编码卷积层的数量为至少两个。另外,在深度学习领域中,通常采用卷积处理实现特征提取和特征融合等操作。因此,各编码卷积层中包括至少一个实现特征提取功能的卷积单元,还包括至少一个实现特征融合的卷积单元。
为了简化编码网络的网络结构,从而降低网络复杂度,在一个可选实施例中,可以将非首部的编码交叠子网络中编码卷积层的数量设置为两个;各编码卷积层所包含的卷积单元数量为两个。
进一步参见图4所示的一种非首部的编码交叠子网络的结构示意图。该编码交叠子网络40包括高分辨编码卷积层41和低分辨编码卷积层42。其中,高分辨编码卷积层41包括高分辨编码特征提取单元411和高分辨编码特征融合单元412;低分辨编码卷积层42包括低分辨编码特征提取单元421和低分辨编码特征融合单元422。
其中,高分辨编码特征提取单元411对自身输入数据I11进行特征提取,得到高分辨编码特征O11。低分辨编码特征提取单元421对自身输入数据I12进行特征提取,得到低分辨编码特征O21。高分辨编码特征融合单元412将低分辨编码特征O21对应的上采样结果O22与高分辨编码特征O11进行特征融合,得到自身输出数据O1;其中上采样结果O22与高分辨编码特征O11的分辨率相同。低分辨编码特征融合单元422将高分辨编码特征O11对应的下采样结果O12与低分辨编码特征O21进行特征融合,得到自身输出数据O2;其中下采样结果O12与低分辨编码特征O21的分辨率相同。
其中,输出数据O1和输出数据O2两者分辨率不同。具体的,输出数据O1分辨率高于输出数据O2分辨率。
示例性地,下采样过程可以通过max pooling(最大池化)、average pooling(平均池化)、或stride(步长)卷积等方式加以实现,本申请对此不做任何限定。由于下采样过程会出现信息丢失的情况,典型是采用stride卷积通过学习的方式降低信息损耗。
示例性地,上采样过程可以通过转置卷积或插值等方式加以实现,以实现通道维数一致性。其中插值可以采用双线性插值或现有技术的其他插值方式,本申请对此不做任何限定。
示例性地,特征融合可以采用像素点叠加的方式加以实现,当然还可以根据需要采用现有技术的其他方式实现特征融合,本申请对此不做任何限定。
若该编码交叠子网络40存在后一编码交叠子网络,则可以直接将输出数据O1和输出数据O2,分别进行下采样后得到的至少两个不同分辨率的数据,作为后一编码交叠子网络的输入数据;或者可选的,还可以对输出数据O2进行下采样得到至少两个下采样结果,并将该下采样结果和输出数据O2中至少两个不同分辨率的数据,作为后一编码交叠子网络的输入数据;或者可选的,还可以对输出数据O1进行下采样,得到至少两个下采样结果,并将该下采样结果中至少两个不同分辨率的数据作为后一编码交叠子网络的输入数据。
若该编码交叠子网络40不存在后一编码交叠子网络,则可以直接根据输出数据O1和/或输出数据O2,生成基本图像特征。其中,基本图像特征的数量可以为至少一个。
在一个具体实现方式中,可以采用下述至少一种方式,根据输出数据O1和/或输出数据O2,生成基本图像特征:直接将输出数据O1作为基本图像特征、直接将输出数据O2作为基本图像特征、将输出数据O1和输出数据O2的融合特征作为基本图像特征、以及,将输出数据O1或输出数据O2的上采样结果作为基本图像特征。
可以理解的是,通过将非首部的编码交叠子网络的具体结构细化为:包括高分辨编码特征提取单元、高分辨编码特征融合单元、低分辨编码特征提取单元和低分辨编码特征融合单元,各单元各司其职实现特征提取和特征融合,进一步完善了编码网络的编码机制。同时,本申请实施例只设置两个编码卷积层,也即高分辨编码卷积层和低分辨编码卷积层,降低了编码网络的网络复杂度,提高了编码效率。
上述各可选实施例对编码网络在不同层面进行了详细说明。以下将对解码网络的相关内容进行详述。
在一个可选实施例中,解码网络中首部的解码交叠子网络的输入数据根据编码网络中尾部的编码交叠子网络的输出数据确定。示例性地,可以直接基本图像特征进行分辨率调整,将调整结果和基本图像特征中至少两个分辨率的数据作为解码网络中首部的解码交叠子网络的输入数据。解码网络中非首部的解码交叠子网络的输入数据,根据前一解码交叠子网络的输出数据确定,且分辨率依次增高,从而达到对所输入数据在不同分辨率下进行特征解码和特征融合的目的。
示例性地,针对各非首部的解码交叠子网络,可以根据该非首部的解码交叠子网络的前一解码交叠子网络的输出数据,生成至少两个分辨率的数据,并将所生成数据作为该非首部的解码交叠子网络的输入数据。
在一个具体实现方式中,可以根据设定上采样频率对前一解码交叠子网络进行至少一次上采样,生成至少一个上采样结果;将前一解码交叠子网络的输出数据和至少一个上采样结果中的至少两个,作为该非首部的解码交叠子网络的输入数据。其中,设定上采样频率数值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。其中,设定上采样频率和前述设定下采样频率数值可以相同或不同。为了保证解码过程与编码过程的对称性,从而简化模型结果,进而降低模型复杂度,典型是将设定上采样频率和设定下采样频率的数值设置为相同。
为了保证不同解码交叠子网络能够解码得到不同尺度的信息,各解码交叠子网络的入数据分辨率依次增高。
示例性地,为了将解码过程与编码过程相对应,可以将解码网络中尾部的解码交叠子网络设置为仅对所输入数据进行特征解码即可,无需进行不同分辨率下的特征融合。
需要说明的是,为了保证各非尾部的解码交叠子网络能够实现在至少两个分辨率上的解码融合处理,解码交叠子网络的输入数据的数量通常设置为至少两个。值得注意的是,本申请对各非尾部的解码交叠子网络中输入数据的数量不做任何限定,本领域技术人员可以根据实际需要进行具体数量的设定或调整。当然,不同解码交叠子网络中输入数据的数量可以相同或不同。一般的,为了简化解码网络的构建逻辑,通常将非尾部的解码交叠子网络的输入数据数量设置为相同;相应的,将各非尾部的解码交叠子网络的模型结构设置为相同或相似的结构。
为了进一步完善解码交叠子网络的模型结构,参见图5所示的一种解码交叠子网络的结构图,对解码交叠子网络的具体结构进行详细说明。
其中,解码网络50中非尾部的解码交叠子网络51包括至少两个解码卷积层511;至少两个解码卷积层511的输入数据的分辨率不同。
在一个具体实现方式中,针对首部的解码交叠子网络,可以根据设定上采样频率对前一编码交叠子网络的输出数据进行至少一次上采样,生成至少一个上采样结果;将前一编码交叠子网络的输出数据和至少一个上采样结果数据中的至少两个不同分辨率数据,分别作为该首部解码交叠子网络51中各解码卷积层511的输入数据。其中,设定上采样频率数值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
在另一具体实现方式中,针对非首部和非尾部的解码交叠子网络,可以根据设定上采样频率对前一解码交叠子网络的输出数据进行至少一次上采样,生成至少一个上采样结果;将前一解码交叠子网络的输出数据和至少一个上采样结果数据中的至少两个不同分辨率数据,分别作为该解码交叠子网络中各解码卷积层的输入数据。其中,设定上采样频率数值可以由技术人员根据需要或经验值进行确定,或通过大量试验反复确定。
值得注意的是,相同解码交叠子网络中进行至少两次上采样时,所采用的设定上采样频率可以相同或不同;不同解码交叠子网络中进行上采样时,所采用的设定上采样频率也可以相同或不同。
需要说明的是,不同非尾部的解码交叠子网络所包含的解码卷积层的数量可以相同或不同,仅需保证各解码交叠子网络均具备对至少两个分辨率的输入数据进行处理的能力即可。当然,为了简化解码交叠子网络的构建逻辑,通常将各解码交叠子网络中解码卷积层的数量设置为相同。
可以理解的是,通过在各非尾部的解码交叠子网络中设置至少两个解码卷积层,并通过对各解码卷积层的输入数据的分辨率加以区分,使得各非尾部解码交叠子网络具备多分辨率解码处理能力。
在一个可选实施例中,为了提高特征解码效率,非尾部解码交叠子网络汇总各解码卷积层可以对所输入数据并行进行解码处理。
针对解码网络中的各非尾部的解码交叠子网络,各解码卷积层用于实现对所输入数据的特征重构和特征融合操作,从而实现对所输入数据的解码融合。
在一个具体实现方式中,各解码卷积层对自身输入数据进行特征重构,得到解码特征;针对每个解码卷积层,该解码卷积层调整所属解码交叠子网络中其他解码卷积层输出的解码特征,并将调整结果与自身输出的解码特征进行特征融合,得到自身输出数据。
具体的,各解码卷积层对自身输入数据分别进行特征重构,得到对应的解码特征,由于不同解码卷积层对应输入数据的分辨率不同,相应的,所得到的解码特征的分辨率也不同,各解码特征所携带的语义信息也不同。针对每个解码卷积层,该解码卷积层,给解码卷积层调整所属解码交叠子网络中其他解码卷积层输出的解码特征,从而使调整后结果与该解码卷积层输出的解码特征的分辨率保持一致,为特征融合的顺利还行奠定了基础。相应的,将调整结果与自身输出的解码特征进行特征融合,使得解码交叠子网络的输出数据中能够携带不同维度的语义信息,从而提高了解码交叠子网络所输出数据的语义丰富性和全面性。
针对非尾部的解码交叠子网络,其自身输出数据用于作为后一解码交叠子网络的输入数据的参照数据,进行后一解码交叠子网络的输入数据的确定。针对尾部的解码交叠子网络,其自身输出数据用于进行买不了图像的确定,用于通过对像素点分类达到密集预测的目的。
需要说明的是,非尾部的解码交叠子网络中的解码卷积层的数量为至少两个。另外,在深度学习领域中,通常采样卷积处理实现特征重构和特征融合等操作。因此,各解码卷积层中包括至少一个实现特征重构功能的卷积单元,还包括至少一个实现特征融合的卷积单元。
为了简化解码网络的网络结构,从而降低网络复杂度,在一个可选实施例中,可以将非尾部的解码交叠子网络中解码卷积层的数量设置为两个;各解码卷积层所糙汉的卷积单元数量为两个。
进一步参见图6所示的一种非尾部的解码交叠子网络的结构示意图。该解码交叠子网络60包括高分辨解码卷积层61和低分辨解码卷积层62.其中,高分辨解码卷积层61包括高分辨解码特征重构单元611和高分辨解码特征融合单元612;低分辨解码卷积层62包括低分辨解码特征重构单元621和低分辨解码特征融合单元622。
其中,高分辨解码特征重构单元611对自身输入数据I'11进行特征重构,得到高分辨解码特征O'11。低分辨解码特征重构单元621对自身输入数据I'12进行特征重构,得到低分辨解码特征O'21。高分辨解码特征融合单元612将低分辨解码特征O'21对应的上采样结果O'22与高分辨解码特征O'11进行特征融合,得到自身输出数据O'1;其中上采样结果O'22与高分辨解码特征O'11的分辨率相同。低分辨解码特征融合单元622将高分辨解码特征O'11对应的下采样结果O'12与低分辨解码特征O'21进行特征融合,得到自身输出数据O'2;其中,下采样结果O'12与低分辨解码特征O'21的分辨率相同。
其中,输出数据O'1和输出数据O'2两者分辨率不同。具体的,输出数据O'1分辨率高于输出数据O'2分辨率。
示例性地,下采样过程可以通过max pooling(最大池化)、average pooling(平均池化)、或stride(步长)卷积等方式加以实现,本申请对此不做任何限定。由于下采样过程会出现信息丢失的情况,典型是采用stride卷积通过学习的方式降低信息损耗。
示例性地,上采样过程可以通过转置卷积或插值等方式加以实现,以实现通道维数一致性。其中插值可以采用双线性插值或现有技术的其他插值方式,本申请对此不做任何限定。
示例性地,特征融合可以采用像素点叠加的方式加以实现,当然还可以根据需要采用现有技术的其他方式实现特征融合,本申请对此不做任何限定。
若该解码交叠子网络60存在后一非尾部解码交叠子网络,则可以直接将输出数据O'1和输出数据O'2,分别进行上采样后得到的至少两个不同分辨率的数据,作为后一解码交叠子网络的输入数据;或者可选的,还可以对输出数据O'2进行上采样得到至少两个上采样结果,并将该上采样结果和输出数据O'2中至少两个不同分辨率的数据,作为后一解码交叠子网络的输入数据;或者可选的,还可以对输出数据O'1进行上采样,得到至少两个上采样结果,并将该上采样结果中至少两个不同分辨率的数据作为后一解码交叠子网络的输入数据。
若该解码交叠子网络60的后一解码交叠子网络为尾部解码交叠子网络,则可以直接根据输出数据O'1和/或输出数据O'2,生成尾部输入数据;根据尾部解码交叠子网络,对尾部输入数据进行特征提取,得到目标图像特征。其中,尾部输入数据与待处理数据分辨率相同。
在一个具体实现方式中,根据输出数据O'1和/或输出数据O'2,生成尾部输入数据,可以采用下述至少一种方式加以实现:直接将输出数据O'1作为尾部输入数据、直接将输出数据O'2作为尾部输入数据、将输出数据O'1和输出数据O'2的融合特征作为尾部输入数据、以及,将输出数据O'1或输出数据O'2的上采样结果作为尾部输入数据。
可以理解的是,通过将非尾部的解码交叠子网络的具体结构细化为:包括高分辨解码特征提取单元、高分辨解码特征融合单元、低分辨解码特征提取单元和低分辨解码特征融合单元,各单元各司其职实现特征重构和特征融合,进一步完善了解码网络的解码机制。同时,本申请实施例值设置两个解码卷积层,也即高分辨解码卷积层和低分辨解码卷积层,降低了解码网络的网络复杂度,提高了解码效率。
在上述各技术方案的基础上,本申请还提供了特征提取网络的优选实施例。参见图7,该特征提取网络包括编码网络和解码网络。
示例性地,编码网络包括5个编码交叠子网络(Si,i=1-5)。其中,编码交叠子网络的数量可以由技术人员根据需要或经验值进行确定,或通过大量试验调整确定。
示例性地,首部的编码交叠子网络S1对待处理图像进行特征提取,生成自身输出数据;非首部的编码交叠子网络(Si,i=2-5)分别设置有高分辨编码卷积层L1和低分辨编码卷积层L2;高分辨编码卷积层L1包括高分辨编码特征提取单元U11和高分辨编码特征融合单元U12;低分辨编码卷积层L2包括低分辨编码特征提取单元U21和低分辨编码特征融合单元U22
示例性地,高分辨编码特征提取单元U11对前一编码交叠子网络的低分辨输出数据(前一编码交叠子网络的低分辨编码特征融合单元U22的输出数据)进行特征提取,得到高分辨编码特征;低分辨编码特征提取单元U21对前一编码交叠子网络的低分辨输出数据的下采样结果进行特征提取,得到低分辨编码特征;高分辨编码特征融合单元U12将低分辨编码特征的上采样结果(与高分辨编码特征分辨率相同)和高分辨编码特征进行特征融合,得到自身输出数据;低分辨编码特征融合单元U22将高分辨编码特征的下采样结果(与低分辨编码特征分辨率相同)和低分辨编码特征进行特征融合,得到自身输出数据。
示例性地,将尾部的编码交叠子网络的高分辨编码特征融合单元U12的输出数据作为基本图像特征,其中携带有待处理图像低频信息,例如上下文信息。
在一个可选实施例中,首部的编码交叠子网络可以通过设置一个高分辨编码卷积层L1或设置一个低分辨编码卷积层L2加以实现,该首部编码交叠子网络仅用于对待处理图像进行特征提取即可。
示例性地,解码网络包括4个解码交叠子网络(Si',i=1-4)。其中,解码交叠子网络的数量可以由技术人员根据需要或经验值进行确定,或根据编码交叠子网络的数量进行调整。本申请实施例为了简化网络结构,将解码交叠子网络的数量设置为比编码交叠子网络的数量少1个。
示例性地,非尾部的解码交叠子网络(Si',i=2-4)分别设置有高分辨解码卷积层L'1和低分辨解码卷积层L'2;高分辨解码卷积层L'1包括高分辨解码特征重构单元U'11和高分辨解码特征融合单元U'12;低分辨解码卷积层L'2包括低分辨解码特征重构单元U'21和低分辨解码特征融合单元U'22
示例性地,针对首部的解码交叠子网络S4',高分辨解码特征重构单元U'11对前一编码交叠子网络S4的基本图像特征的上采样结果(与S4的低分辨编码特征提取单元U21分辨率相同)进行特征重构,得到高分辨解码特征;低分辨解码特征重构单元U'21对前一编码交叠子网络S4的基本图像特征进行特征重构,得到低分辨解码特征;高分辨解码特征融合单元U'12将低分辨解码特征的上采样结果(与高分辨解码特征分辨率相同)和高分辨解码特征进行特征融合,得到自身输出数据;低分辨解码特征融合单元U'22将高分辨解码特征的下采样结果(与低分辨解码特征分辨率相同)和低分辨解码特征进行特征融合,得到自身输出。
示例性地,针对非首部且非尾部的解码交叠子网络(Si',i=2-3),高分辨解码特征重构单元U'11对前一解码交叠子网络的高分辨输出数据(前一解码交叠子网络的高分辨解码特征融合单元U'12的输出数据)的上采样结果(与对应的编码交叠子网络Si中低分辨编码特征提取单元U21分辨率相同)进行特征重构,得到高分辨解码特征;低分辨解码特征重构单元U'21对前一解码交叠子网络的高分辨输出数据进行特征重构,得到低分辨解码特征;高分辨解码特征融合单元U'12将低分辨解码特征的上采样结果(与高分辨解码特征分辨率相同)和高分辨解码特征进行特征融合,得到自身输出数据;低分辨解码特征融合单元U'22将高分辨解码特征的下采样结果(与低分辨解码特征分辨率相同)和低分辨解码特征进行特征融合,得到自身输出数据。
示例性地,针对尾部的解码交叠子网络S1',直接对前一解码交叠子网络S2'中高分辨解码特征融合单元U'12的输出数据进行特征提取,得到目标图像特征。
在一个可选实施例中,尾部的解码交叠子网络可以通过设置一个高分辨解码卷积层L'1或设置一个低分辨解码卷积层L'2加以实现,该首部编码交叠子网络仅用于对待处理图像进行特征提取即可。
需要说明的是,图7中相同行对应的图像特征分辨率相同,随着卷积深度的增加,图像分辨率逐渐降低。
图8为现有技术的HRNet特征提取网络,该网络设置有与图7相对应的S1-S5个阶段网络,各阶段网络中将编码过程和解耦过程耦合在一起进行。由于最终提取的目标图像特征仅与最高分辨率的输出特征进行融合,因此在目标图像特征生成过程中仅进行了1次推理,使得目标图像特征所携带语义信息较为单一,影响密集预测结果准确度。需要说明的是,相同行对应的图像特征分辨率相同,随着卷积深度的增加,图像分辨率逐渐降低。
与图8中现有技术的HRNet特征提取网络相比,本申请所采用的图像特征提取网络能够实现编码过程和解码过程的解耦,同时通过增加低辨率处理单元(如靠近底部的特征提取单元、特征融合单元和特征重构单元),减少高分辨率处理单元(如靠近顶部的特征提取单元、特征融合单元和特征重构单元),并且在解码过程中增加推理次数(S5至S1'共计4次推理,现有技术只有1次推理),丰富了目标图像特征中所携带的语义信息,从而提高了目标图像特征的语义表达能力,进而为密集预测结果准确度的提高奠定了基础。
作为上述各图像处理方法的实现,本申请还提供了一种实施图像处理方法的虚拟装置的可选实施例。
进一步参见图9所示的一种图像处理装置900,包括:基本图像特征得到模块901和目标图像特征得到模块902。其中,
基本图像特征得到模块901,用于将待处理图像输入至编码网络,得到基本图像特征;其中,所述编码网络包括级联的至少两个编码交叠子网络;所述编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理;
目标图像特征得到模块902,用于将所述基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,所述解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。
本申请实施例通过在解码网络中设置级联的至少一个解码交叠子网络,逐级对基本图像特征进行不同尺度的编码融合处理。通过将解码交叠子网络的数量设置为至少一个,从而增加了目标图像特征生成过程的推理次数,使得在基本图像特征的基础上,进行不同尺度下局部细节特征的叠加,从而使最终生成的目标图像特征中所携带语义信息更加丰富、全面,提高了目标图像特征的语义表达能力,为像素点分类结果也即密集预测结果的准确度的提高奠定了基础。
在一个可选实施例中,所述编码网络中首部的编码交叠子网络的输入数据为待处理图像;
所述编码网络中各非首部的编码交叠子网络的输入数据,根据前一编码交叠子网络的输出数据确定,且分辨率依次降低。
在一个可选实施例中,所述编码网络中非首部的编码交叠子网络包括至少两个编码卷积层;所述至少两个编码卷积层的输入数据的分辨率不同。
在一个可选实施例中,针对所述编码网络中的各非首部的编码交叠子网络,各编码卷积层对自身输入数据进行特征提取,得到编码特征;
针对每个编码卷积层,该编码卷积层调整所属编码交叠子网络中其他编码卷积层输出的编码特征,并将调整结果与自身输出的编码特征进行特征融合,得到自身输出数据。
在一个可选实施例中,非首部的编码交叠子网络包括高分辨编码卷积层和低分辨编码卷积层;所述高分辨编码卷积层包括高分辨编码特征提取单元和高分辨编码特征融合单元;所述低分辨编码卷积层包括低分辨编码特征提取单元和低分辨编码特征融合单元;
所述高分辨编码特征提取单元对自身输入数据进行特征提取,得到高分辨编码特征;
所述低分辨编码特征提取单元对自身输入数据进行特征提取,得到低分辨编码特征;
所述高分辨编码特征融合单元将所述低分辨编码特征的上采样结果和所述高分辨编码特征进行特征融合,得到自身输出数据;其中,该上采样结果与所述高分辨编码特征分辨率相同;
所述低分辨编码特征融合单元将所述高分辨编码特征的下采样结果和所述低分辨编码特征进行特征融合,得到自身输出数据;其中,该下采样结果与所述低分辨编码特征分辨率相同。
在一个可选实施例中,所述解码网络中首部的解码交叠子网络的输入数据,根据所述编码网络中尾部的编码交叠子网络的输出数据确定;
所述解码网络中各非首部的解码交叠子网的输入数据,根据前一解码交叠子网络的输出数据确定,且分辨率依次增高。
在一个可选实施例中,所述解码网络中的各非尾部的解码交叠子网络包括至少两个解码卷积层;所述至少两个解码卷积层的输入数据的分辨率不同。
在一个可选实施例中,针对所述解码网络中的各非尾部的解码交叠子网络,各解码卷积层对自身输入数据进行特征重构,得到解码特征;
针对每个解码卷积层,该解码卷积层调整所属解码交叠子网络中其他解码卷积层输出的解码特征,并将调整结果与自身输出的解码特征进行特征融合,得到自身输出数据。
在一个可选实施例中,非尾部的解码交叠子网络包括高分辨解码卷积层和低分辨解码卷积层;所述高分辨解码卷积层包括高分辨解码特征重构单元和高分辨解码特征融合单元;所述低分辨解码卷积层包括低分辨解码特征重构单元和低分辨解码特征融合单元;
所述高分辨解码特征重构单元对自身输入数据进行特征重构,得到高分辨解码特征;
所述低分辨解码特征重构单元对自身输入数据进行特征重构,得到低分辨解码特征;
所述高分辨解码特征融合单元将所述低分辨解码特征的上采样结果和所述高分辨解码特征进行特征融合,得到自身输出数据;其中,该上采样结果与所述高分辨解码特征分辨率相同;
所述低分辨解码特征融合单元将所述高分辨解码特征的下采样结果和所述低分辨解码特征进行特征融合,得到自身输出数据;其中,该下采样结果与所述低分辨解码特征分辨率相同。
上述图像处理装置可执行本申请任意实施例所提供的图像处理方法,具备执行图像处理方法相应的功能模块和有益效果。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图10示出了可以用来实施本申请的实施例的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,设备1000包括计算单元1001,其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序,来执行各种适当的动作和处理。在RAM 1003中,还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
设备1000中的多个部件连接至I/O接口1005,包括:输入单元1006,例如键盘、鼠标等;输出单元1007,例如各种类型的显示器、扬声器等;存储单元1008,例如磁盘、光盘等;以及通信单元1009,例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如图像处理方法。例如,在一些实施例中,图像处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1008。在一些实施例中,计算机程序的部分或者全部可以经由ROM1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时,可以执行上文描述的图像处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元1001可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行图像处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (21)

1.一种图像处理方法,包括:
将待处理图像输入至编码网络,得到基本图像特征;其中,所述编码网络包括级联的至少两个编码交叠子网络;所述编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理;
将所述基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,所述解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。
2.根据权利要求1所述的方法,其中,所述编码网络中首部的编码交叠子网络的输入数据为待处理图像;
所述编码网络中各非首部的编码交叠子网络的输入数据,根据前一编码交叠子网络的输出数据确定,且分辨率依次降低。
3.根据权利要求2所述的方法,其中,所述编码网络中非首部的编码交叠子网络包括至少两个编码卷积层;所述至少两个编码卷积层的输入数据的分辨率不同。
4.根据权利要求3所述的方法,其中,针对所述编码网络中的各非首部的编码交叠子网络,各编码卷积层对自身输入数据进行特征提取,得到编码特征;
针对每个编码卷积层,该编码卷积层调整所属编码交叠子网络中其他编码卷积层输出的编码特征,并将调整结果与自身输出的编码特征进行特征融合,得到自身输出数据。
5.根据权利要求4所述的方法,其中,非首部的编码交叠子网络包括高分辨编码卷积层和低分辨编码卷积层;所述高分辨编码卷积层包括高分辨编码特征提取单元和高分辨编码特征融合单元;所述低分辨编码卷积层包括低分辨编码特征提取单元和低分辨编码特征融合单元;
所述高分辨编码特征提取单元对自身输入数据进行特征提取,得到高分辨编码特征;
所述低分辨编码特征提取单元对自身输入数据进行特征提取,得到低分辨编码特征;
所述高分辨编码特征融合单元将所述低分辨编码特征的上采样结果和所述高分辨编码特征进行特征融合,得到自身输出数据;其中,该上采样结果与所述高分辨编码特征分辨率相同;
所述低分辨编码特征融合单元将所述高分辨编码特征的下采样结果和所述低分辨编码特征进行特征融合,得到自身输出数据;其中,该下采样结果与所述低分辨编码特征分辨率相同。
6.根据权利要求1所述的方法,其中,所述解码网络中首部的解码交叠子网络的输入数据,根据所述编码网络中尾部的编码交叠子网络的输出数据确定;
所述解码网络中各非首部的解码交叠子网络的输入数据,根据前一解码交叠子网络的输出数据确定,且分辨率依次增高。
7.根据权利要求6所述的方法,其中,所述解码网络中的各非尾部的解码交叠子网络包括至少两个解码卷积层;所述至少两个解码卷积层的输入数据的分辨率不同。
8.根据权利要求7所述的方法,其中,针对所述解码网络中的各非尾部的解码交叠子网络,各解码卷积层对自身输入数据进行特征重构,得到解码特征;
针对每个解码卷积层,该解码卷积层调整所属解码交叠子网络中其他解码卷积层输出的解码特征,并将调整结果与自身输出的解码特征进行特征融合,得到自身输出数据。
9.根据权利要求8所述的方法,其中,非尾部的解码交叠子网络包括高分辨解码卷积层和低分辨解码卷积层;所述高分辨解码卷积层包括高分辨解码特征重构单元和高分辨解码特征融合单元;所述低分辨解码卷积层包括低分辨解码特征重构单元和低分辨解码特征融合单元;
所述高分辨解码特征重构单元对自身输入数据进行特征重构,得到高分辨解码特征;
所述低分辨解码特征重构单元对自身输入数据进行特征重构,得到低分辨解码特征;
所述高分辨解码特征融合单元将所述低分辨解码特征进的上采样结果和所述高分辨解码特征进行特征融合,得到自身输出数据;其中,该上采样结果与所述高分辨解码特征分辨率相同;
所述低分辨解码特征融合单元将所述高分辨解码特征的下采样结果和所述低分辨解码特征进行特征融合,得到自身输出数据;其中,该下采样结果与所述低分辨解码特征分辨率相同。
10.一种图像处理装置,包括:
基本图像特征得到模块,用于将待处理图像输入至编码网络,得到基本图像特征;其中,所述编码网络包括级联的至少两个编码交叠子网络;所述编码交叠子网络对所输入数据在至少两个分辨率上进行编码融合处理;
目标图像特征得到模块,用于将所述基本图像特征输入至解码网络,得到目标图像特征,用于进行像素点分类;其中,所述解码网络包括级联的至少一个解码交叠子网络分别对所输入数据在至少两个分辨率上进行解码融合处理。
11.根据权利要求10所述的装置,其中,所述编码网络中首部的编码交叠子网络的输入数据为待处理图像;
所述编码网络中各非首部的编码交叠子网络的输入数据,根据前一编码交叠子网络的输出数据确定,且分辨率依次降低。
12.根据权利要求11所述的装置,其中,所述编码网络中非首部的编码交叠子网络包括至少两个编码卷积层;所述至少两个编码卷积层的输入数据的分辨率不同。
13.根据权利要求12所述的装置,其中,针对所述编码网络中的各非首部的编码交叠子网络,各编码卷积层对自身输入数据进行特征提取,得到编码特征;
针对每个编码卷积层,该编码卷积层调整所属编码交叠子网络中其他编码卷积层输出的编码特征,并将调整结果与自身输出的编码特征进行特征融合,得到自身输出数据。
14.根据权利要求13所述的装置,其中,非首部的编码交叠子网络包括高分辨编码卷积层和低分辨编码卷积层;所述高分辨编码卷积层包括高分辨编码特征提取单元和高分辨编码特征融合单元;所述低分辨编码卷积层包括低分辨编码特征提取单元和低分辨编码特征融合单元;
所述高分辨编码特征提取单元对自身输入数据进行特征提取,得到高分辨编码特征;
所述低分辨编码特征提取单元对自身输入数据进行特征提取,得到低分辨编码特征;
所述高分辨编码特征融合单元将所述低分辨编码特征的上采样结果和所述高分辨编码特征进行特征融合,得到自身输出数据;其中,该上采样结果与所述高分辨编码特征分辨率相同;
所述低分辨编码特征融合单元将所述高分辨编码特征的下采样结果和所述低分辨编码特征进行特征融合,得到自身输出数据;其中,该下采样结果与所述低分辨编码特征分辨率相同。
15.根据权利要求10所述的装置,其中,所述解码网络中首部的解码交叠子网络的输入数据,根据所述编码网络中尾部的编码交叠子网络的输出数据确定;
所述解码网络中各非首部的解码交叠子网的输入数据,根据前一解码交叠子网络的输出数据确定,且分辨率依次增高。
16.根据权利要求15所述的装置,其中,所述解码网络中的各非尾部的解码交叠子网络包括至少两个解码卷积层;所述至少两个解码卷积层的输入数据的分辨率不同。
17.根据权利要求16所述的装置,其中,针对所述解码网络中的各非尾部的解码交叠子网络,各解码卷积层对自身输入数据进行特征重构,得到解码特征;
针对每个解码卷积层,该解码卷积层调整所属解码交叠子网络中其他解码卷积层输出的解码特征,并将调整结果与自身输出的解码特征进行特征融合,得到自身输出数据。
18.根据权利要求17所述的装置,其中,非尾部的解码交叠子网络包括高分辨解码卷积层和低分辨解码卷积层;所述高分辨解码卷积层包括高分辨解码特征重构单元和高分辨解码特征融合单元;所述低分辨解码卷积层包括低分辨解码特征重构单元和低分辨解码特征融合单元;
所述高分辨解码特征重构单元对自身输入数据进行特征重构,得到高分辨解码特征;
所述低分辨解码特征重构单元对自身输入数据进行特征重构,得到低分辨解码特征;
所述高分辨解码特征融合单元将所述低分辨解码特征的上采样结果和所述高分辨解码特征进行特征融合,得到自身输出数据;其中,该上采样结果与所述高分辨解码特征分辨率相同;
所述低分辨解码特征融合单元将所述高分辨解码特征的下采样结果和所述低分辨解码特征进行特征融合,得到自身输出数据;其中,该下采样结果与所述低分辨解码特征分辨率相同。
19.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的一种图像处理方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的一种图像处理方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的一种图像处理方法。
CN202110077536.3A 2021-01-20 2021-01-20 图像处理方法、装置、设备和存储介质 Active CN112784897B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202110077536.3A CN112784897B (zh) 2021-01-20 2021-01-20 图像处理方法、装置、设备和存储介质
US17/505,889 US11893708B2 (en) 2021-01-20 2021-10-20 Image processing method and apparatus, device, and storage medium
EP21207470.2A EP3958184A3 (en) 2021-01-20 2021-11-10 Image processing method and apparatus, device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110077536.3A CN112784897B (zh) 2021-01-20 2021-01-20 图像处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112784897A true CN112784897A (zh) 2021-05-11
CN112784897B CN112784897B (zh) 2024-03-26

Family

ID=75757442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110077536.3A Active CN112784897B (zh) 2021-01-20 2021-01-20 图像处理方法、装置、设备和存储介质

Country Status (3)

Country Link
US (1) US11893708B2 (zh)
EP (1) EP3958184A3 (zh)
CN (1) CN112784897B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313776A (zh) * 2021-05-27 2021-08-27 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114418919B (zh) * 2022-03-25 2022-07-26 北京大甜绵白糖科技有限公司 图像融合方法及装置、电子设备和存储介质
CN115019068B (zh) * 2022-05-26 2024-02-23 杭州电子科技大学 一种基于编解码架构的渐进式显著目标识别方法
CN115331048B (zh) * 2022-07-29 2023-06-27 北京百度网讯科技有限公司 图像分类方法、装置、设备以及存储介质
CN117041601B (zh) * 2023-10-09 2024-01-12 海克斯康制造智能技术(青岛)有限公司 一种基于isp神经网络模型的图像处理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109816659A (zh) * 2019-01-28 2019-05-28 北京旷视科技有限公司 图像分割方法、装置及系统
KR20190131205A (ko) * 2018-05-16 2019-11-26 한국과학기술원 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법 및 시스템
CN110717851A (zh) * 2019-10-18 2020-01-21 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
WO2020109001A1 (fr) * 2018-11-29 2020-06-04 Commissariat A L'energie Atomique Et Aux Energies Alternatives Dispositif et procédé de super-résolution
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN111429347A (zh) * 2020-03-20 2020-07-17 长沙理工大学 图像超分辨率重建方法、装置及计算机可读存储介质
CN111598968A (zh) * 2020-06-28 2020-08-28 腾讯科技(深圳)有限公司 一种图像处理方法、装置、存储介质和电子设备
CN111784623A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346436B (zh) * 2017-06-29 2020-03-24 北京以萨技术股份有限公司 一种融合图像分类的视觉显著性检测方法
CN109598728B (zh) 2018-11-30 2019-12-27 腾讯科技(深圳)有限公司 图像分割方法、装置、诊断系统及存储介质
CN110378976B (zh) 2019-07-18 2020-11-13 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110458939B (zh) * 2019-07-24 2022-11-18 大连理工大学 基于视角生成的室内场景建模方法
CN110443842B (zh) * 2019-07-24 2022-02-15 大连理工大学 基于视角融合的深度图预测方法
CN110570350A (zh) * 2019-09-11 2019-12-13 深圳开立生物医疗科技股份有限公司 一种二维卵泡检测方法、装置和超声设备及可读存储介质
CN110599492B (zh) * 2019-09-19 2024-02-06 腾讯科技(深圳)有限公司 图像分割模型的训练方法、装置、电子设备及存储介质
CN111798462B (zh) 2020-06-30 2022-10-14 电子科技大学 一种基于ct图像的鼻咽癌放疗靶区自动勾画方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190131205A (ko) * 2018-05-16 2019-11-26 한국과학기술원 슈퍼 레졸루션(Super Resolution) 네트워크 처리방법 및 시스템
WO2020109001A1 (fr) * 2018-11-29 2020-06-04 Commissariat A L'energie Atomique Et Aux Energies Alternatives Dispositif et procédé de super-résolution
CN109816659A (zh) * 2019-01-28 2019-05-28 北京旷视科技有限公司 图像分割方法、装置及系统
CN110717851A (zh) * 2019-10-18 2020-01-21 京东方科技集团股份有限公司 图像处理方法及装置、神经网络的训练方法、存储介质
CN111311629A (zh) * 2020-02-21 2020-06-19 京东方科技集团股份有限公司 图像处理方法、图像处理装置及设备
CN111429347A (zh) * 2020-03-20 2020-07-17 长沙理工大学 图像超分辨率重建方法、装置及计算机可读存储介质
CN111598968A (zh) * 2020-06-28 2020-08-28 腾讯科技(深圳)有限公司 一种图像处理方法、装置、存储介质和电子设备
CN111784623A (zh) * 2020-09-07 2020-10-16 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOAN CHENG, AI MATSUNE, QIUYU LI, LEILEI ZHU, HUAIJUAN ZANG, SHU ZHAN: "Encoder-Decoder Residual Network for Real Super-Resolution", IEEE/ENCODER-DECODER RESIDUAL NETWORK FOR REAL SUPER-RESOLUTION, 30 April 2020 (2020-04-30) *
青晨;禹晶;肖创柏;段娟;: "深度卷积神经网络图像语义分割研究进展", 中国图象图形学报, no. 06, 16 June 2020 (2020-06-16) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313776A (zh) * 2021-05-27 2021-08-27 Oppo广东移动通信有限公司 图像处理方法、图像处理装置、存储介质与电子设备

Also Published As

Publication number Publication date
EP3958184A3 (en) 2022-05-11
CN112784897B (zh) 2024-03-26
US11893708B2 (en) 2024-02-06
EP3958184A2 (en) 2022-02-23
US20220044358A1 (en) 2022-02-10

Similar Documents

Publication Publication Date Title
CN112784897A (zh) 图像处理方法、装置、设备和存储介质
CN113792854B (zh) 一种模型训练及字库建立方法、装置、设备及存储介质
US20220148239A1 (en) Model training method and apparatus, font library establishment method and apparatus, device and storage medium
CN113889076B (zh) 语音识别及编解码方法、装置、电子设备及存储介质
CN112541878A (zh) 建立图像增强模型与图像增强的方法、装置
CN114445831A (zh) 一种图文预训练方法、装置、设备以及存储介质
KR20220130630A (ko) 이미지 처리 방법, 안면 인식 모델 훈련 방법, 장치 및 기기
CN113590858A (zh) 目标对象的生成方法、装置、电子设备以及存储介质
CN113901909B (zh) 基于视频的目标检测方法、装置、电子设备和存储介质
US20230306081A1 (en) Method for training a point cloud processing model, method for performing instance segmentation on point cloud, and electronic device
CN115376211B (zh) 唇形驱动方法、唇形驱动模型的训练方法、装置及设备
US20230102804A1 (en) Method of rectifying text image, training method, electronic device, and medium
JP2023541527A (ja) テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法
CN114724168A (zh) 深度学习模型的训练方法、文本识别方法、装置和设备
KR20220163930A (ko) 구동 가능한 3d 캐릭터 생성 방법, 장치, 전자 기기 및 기록 매체
CN114841315A (zh) 混合专家模型实现方法、系统、电子设备及存储介质
CN114119371B (zh) 视频超分模型训练方法和装置、视频超分处理方法和装置
CN114020950A (zh) 图像检索模型的训练方法、装置、设备以及存储介质
CN111768466A (zh) 图像填充方法、装置、设备及存储介质
CN114187318B (zh) 图像分割的方法、装置、电子设备以及存储介质
CN115578261A (zh) 图像处理方法、深度学习模型的训练方法、装置
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质
CN114187892A (zh) 一种风格迁移合成方法、装置及电子设备
CN114913325B (zh) 语义分割方法、装置及计算机程序产品
CN113553413A (zh) 对话状态的生成方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant