CN109447247A - 获得卷积神经网络的方法及装置 - Google Patents

获得卷积神经网络的方法及装置 Download PDF

Info

Publication number
CN109447247A
CN109447247A CN201811281755.8A CN201811281755A CN109447247A CN 109447247 A CN109447247 A CN 109447247A CN 201811281755 A CN201811281755 A CN 201811281755A CN 109447247 A CN109447247 A CN 109447247A
Authority
CN
China
Prior art keywords
sampling
convolutional neural
neural networks
branch
characteristic pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811281755.8A
Other languages
English (en)
Other versions
CN109447247B (zh
Inventor
郭梓超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201811281755.8A priority Critical patent/CN109447247B/zh
Publication of CN109447247A publication Critical patent/CN109447247A/zh
Application granted granted Critical
Publication of CN109447247B publication Critical patent/CN109447247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像处理技术领域,提供一种获得卷积神经网络的方法及装置。其中,卷积神经网络中包括至少一个采样结构,采样结构的每个采样分支按照不同的采样参数对卷积神经网络中产生的特征图进行采样,采样后的特征图由每个采样分支的采样结果按照每个采样分支的加权系数加权平均后获得,该方法包括:通过训练卷积神经网络确定每个采样结构的每个采样分支的加权系数;在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。上述方法自动选择针对当前训练集最优的采样方式,有效降低了模型设计过程中的人工负担,其适用范围较广,且获得的卷积神经网络性能较好。

Description

获得卷积神经网络的方法及装置
技术领域
本发明涉及图像处理技术领域,具体而言,涉及一种获得卷积神经网络的方法及装置。
背景技术
图像语义分割是计算机视觉的基本任务之一,是计算机理解图像或视频的重要一环,其目的是对输入图像的每一个像素都预测出它的类别标签,因此理论上要求输出的预测图像大小与输入图像大小相同。现有的语义分割方法大多基于卷积神经网络,并且为了让网络获取更大的感受野和减少模型的计算量,网络往往会先对图像进行下采样(downsample),并在最后用上采样(upsample)恢复输出图像的大小,使得与输入图像一致。
在现有技术中,可以设计不同的采样参数进行下采样或上采样,然而,目前并没有具体的理论依据可以证明采用哪种采样参数的效果更好,因此语义分割模型的设计仍然需要人工不断尝试,费时费力。
发明内容
有鉴于此,本发明实施例提供一种获得卷积神经网络的方法及装置,在多种采样方式中自动选择最优的采样方式来构建卷积神经网络,大大降低了模型设计过程中的人工负担。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种获得卷积神经网络的方法,卷积神经网络中包括至少一个采样结构,采样结构包括多个采样分支,每个采样分支按照不同的采样参数对卷积神经网络中产生的特征图进行采样,采样后的特征图由每个采样分支的采样结果按照每个采样分支的加权系数加权平均后获得,方法包括:
通过训练卷积神经网络确定每个采样结构的每个采样分支的加权系数;
在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。
上述方法在设计针对某项图像处理任务的卷积神经网络时,将将可供选择的采样方式设计为采样结构中不同的采样分支,并为每个采样分支分配一个加权系数,然后通过对样本的训练确定这些加权系数的值,在最后获得的可用于图像处理任务的卷积神经网络中仅保留每个采样结构中权重最大的采样分支,。
其中,加权系数的大小反映了采样分支在构建采样后的特征图时的重要性占比,从这个意义上说,权重最大的采样分支可以认为是基于当前的训练集选择的一个最优的采样分支,从而获得的卷积神经网络性能良好,适用于相应的图像处理任务。
同时,选择采样分支的过程是完全自动化的,用户只需在初始时提供可供选择的采样参数即可,并不需要干预模型优化的过程,大大降低了模型设计过程中的人工负担。而最终选择出的采样分支还可以作为评估不同采样方式的理论依据。
此外,该方法是一种通用的方法,并不受不同的数据集以及硬件环境的影响,可用于各类图像处理任务,例如图像语义分割、图像分类、图像识别等任务中采样部分的设计,具有广泛的适用范围。
结合第一方面,在第一方面的第一种可能的实现方式中,采样参数包括采样方法以及采样倍数。
采样方法是指某种具体的采样算法,采样倍数对于下采样就是下采样倍数(缩小倍数),对于上采样就是上采样倍数(放大倍数),当然不排除采样参数还包括其他参数的情况。
结合第一方面的第一种可能的实现方式,在第一方面的二种可能的实现方式中,采样结构为下采样结构,每个下采样分支按照不同的下采样方法以及相同的下采样倍数对特征图进行下采样。
在该实现方式中,每个下采样分支的下采样倍数是相同的,从而可以确保各个下采样分支的采样结果可以加权平均。
结合第一方面的第二种可能的实现方式,在第一方面的三种可能的实现方式中,下采样方法包括平均池化、最大池化、卷积或深度可分离卷积。
以上列举了一些常见的下采样方法,当然还可以采用其他的下采样方法。
结合第一方面的第一种可能的实现方式,在第一方面的四种可能的实现方式中,采样结构为上采样结构,每个上采样分支按照不同的上采样方法以及相同的上采样倍数对特征图进行上采样。
在该实现方式中,每个上采样分支的上采样倍数是相同的,从而可以确保各个上采样分支的采样结果可以加权平均。
结合第一方面的第四种可能的实现方式,在第一方面的五种可能的实现方式中,上采样方法包括双线性插值、最近邻插值或反卷积。
以上列举了一些常见的上采样方法,当然还可以采用其他的上采样方法。
结合第一方面的第一种可能的实现方式,在第一方面的六种可能的实现方式中,采样结构的每个采样分支均包括下采样部分以及上采样部分,下采样部分按照与所在采样分支对应的下采样方法以及与所在采样分支对应的下采样倍数对特征图进行下采样,上采样部分按照与所在采样分支对应的上采样方法以及与所在采样分支对应的上采样倍数对下采样后的特征图进行上采样,其中,每个采样分支对应的下采样倍数和上采样倍数的比值相同。
在该实现方式中,每个采样分支对应的下采样倍数和上采样倍数的比值是相同的,从而可以确保各个采样分支的采样结果可以加权平均。同时,该限制条件也意味着不同的采样分支的下采样倍数以及上采样倍数是可以不同的,从而可以在一个采样结构中比较不同的采样倍数对采样结果的影响,有利于选择最优的采样方式。
结合第一方面的第六种可能的实现方式,在第一方面的七种可能的实现方式中,下采样部分为下采样结构,下采样结构包括多个下采样分支,每个下采样分支按照不同的下采样方法以及相同的下采样倍数对特征图进行下采样,下采样结构输出的特征图由每个下采样分支的下采样结果按照每个下采样分支的加权系数加权平均后获得。
下采样部分可以是一个简单的下采样分支,值对应一种下采样方式,也可以是一个嵌套的下采样结构,该下采样结构进一步包括多个下采样分支,对应多种可供选择的下采样方式。
结合第一方面的第六种可能的实现方式,在第一方面的八种可能的实现方式中,上采样部分为上采样结构,上采样结构包括多个上采样分支,每个上采样分支按照不同的上采样方法以及相同的上采样倍数对下采样后的特征图进行上采样,上采样结构输出的特征图由每个上采样分支的采样结果按照每个上采样分支的加权系数加权平均后获得。
上采样部分可以是一个简单的上采样分支,值对应一种上采样方式,也可以是一个嵌套的上采样结构,该上采样结构进一步包括多个上采样分支,对应多种可供选择的上采样方式。
结合第一方面,在第一方面的九种可能的实现方式中,采样结构的每个采样分支的加权系数之和为1。
在该实现方式中,将各加权系数之和归一化,使得各个加权系数的取值相互制约,形成竞争关系,有利于选择最优的采样分支。
结合第一方面或第一方面的第一种至第九种中的任意一种可能的实现方式,在第一方面的十种可能的实现方式中,在将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络之后,方法还包括:
对可用于图像处理任务的卷积神经网络进行调优训练,获得调优训练后的卷积神经网络。
由于可用于图像处理任务的卷积神经网络是经过采样分支选择后获得的,网络结构有所变化,因此可以进一步进行调优训练,使模型性能更优,当然在一些实现方式中,为节约时间,不再进一步调优训练直接在图像处理任务中使用获得的卷积神经网络也是可以的。
结合第一方面的第十种可能的实现方式,在第一方面的十一种可能的实现方式中,在获得调优训练后的卷积神经网络之后,方法还包括:
利用调优训练后的卷积神经网络执行图像处理任务。
在调优训练后的卷积神经网络中,不仅选择了最优的采样方式,而且还在可用于图像处理任务的卷积神经网络的基础上进行了参数的微调,因此将该模型用于执行图像处理任务可以获得较好的效果。当然,在某些实施方式中,直接利用可用于图像处理任务的卷积神经网络执行图像处理任务也是可以的。这里所称的图像处理任务包括但不限于图像语义分割、图像分类、图像识别等任务。
结合第一方面或第一方面的第一种至第九种中的任意一种可能的实现方式,在第一方面的十二种可能的实现方式中,卷积神经网络为图像语义分割网络,特征图在依次经至少一个采样结构采样后尺寸保持不变。
图像语义分割任对于下采样以及上采样应用得比较频繁。在图像语义分割网络中,通常会先对图像进行下至少一次下采样,并在最后通过至少一次上采样恢复输出图像的大小,使得与输入图像一致。其中的任意一次下采样、上采样或下采样和上采样的组合都可以通过本发明实施例提供的方法进行采样参数的优化,最终获得性能良好的图像语义分割网络。
第二方面,本发明实施例提供一种获得卷积神经网络的装置,卷积神经网络中包括至少一个采样结构,采样结构包括多个采样分支,每个采样分支按照不同的采样参数对卷积神经网络中产生的特征图进行采样,采样后的特征图由每个采样分支的采样结果按照每个采样分支的加权系数加权平均后获得,装置包括:
训练模块,用于通过训练卷积神经网络确定每个采样结构的每个采样分支的加权系数;
分支选择模块,用于在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。
第三方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。
第四方面,本发明实施例提供一种电子设备,包括存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。
为使本发明的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例中的电子设备的结构框图;
图2示出了本发明实施例提供的一种采样结构的示意图;
图3示出了本发明实施例提供的一种采样结构的示意图;
图4示出了本发明实施例提供的一种采样结构的示意图;
图5示出了本发明实施例提供的一种获得卷积神经网络的方法的流程图;
图6示出了本发明实施例提供的一种采样结构的示意图;
图7示出了本发明实施例提供的一种人脸跟踪装置的功能模块图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来,而不能理解为指示或暗示相对重要性,也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了一种可应用于本发明实施例中的电子设备的结构框图。参照图1,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108,这些组件通过总线系统112和/或其他形式的连接机构(未示出)互连。
处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备100中的其他组件以执行期望的功能。
存储装置104可以各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行计算机程序指令,以实现本发明实施例中的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
可以理解,图1所示的结构仅为示意,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。于本发明实施例中,电子设备100可以是,但不限于台式机、笔记本电脑、智能手机、智能穿戴设备、车载设备等。
本发明实施例提供的卷积神经网络中包括至少一个本发明实施例提供的采样结构,当然网络中还可以包括其他结构。
每个采样结构都是类似的,图2、图3以及图4分别示出了采样结构的一种实现方式,参照图2、图3以及图4,无论采用哪种实现方式,采样结构都包括多个采样分支,每个采样分支按照不同的采样参数对卷积神经网络中产生的特征图进行采样。换言之,每个采样分支代表一种可供卷积神经网络选择的采样方式,采样分支可以由用户事先设计好,一般而言,采样分支应当涵盖用户希望进行性能评估的多种采样方式。
其中,特征图通常是指输入的原始图像经过卷积神经网络中的某些层(如卷积层等)处理后生成的图像,但在本发明实施例中,由于也可以对原始图像进行采样,因此也可以将原始图像视为一种特征图。对特征图进行采样包括下采样以及上采样,在同一个采样结构中,每个采样分支可以只进行下采样(例如图2),也可以只进行上采样(例如图3),或者同时进行下采样和上采样(例如图4)。
采样参数至少包括采样方法和采样倍数,当然还可以包括其他参数。采样方法是指具体的采样算法,如果一个采样分支中既包括下采样又包括上采样,则采样方法是指下采样采用的算法和上采样采用的算法的组合。采样倍数是指采样后特征图缩小或放大倍数,如果一个采样分支中既包括下采样又包括上采样,则采样倍数是指下采样倍数和上采样倍数的组合。需要指出,不同的采样分支采样参数可以部分相同,但不能完全相同,以确保不同的采样分支对应不同的采样方式。
每个采样分支还对应一个加权系数,经采样结构采样后的特征图由经每个采样分支的采样后的特征图按照对应的加权系数加权平均后获得。在卷积神经网络的结构已经确定,但尚未进行训练时,可以为加权系数指定初始值,例如将各个采样分支的加权系数指定为一个相同的值。加权系数作为卷积神经网络的参数,在卷积神经网络的训练过程中是可以调整的。
此外,需要注意的是,由于各个采样分支要进行加权平均,因此在同一采样结构中,各个采样分支输出的特征图应当具有相同的尺寸,这一点可以通过适当地设计每个采样分支的采样倍数实现的,具体在后文中还会进一步说明。
图5示出了本发明实施例提供的一种获得卷积神经网络的方法的流程图。为简化阐述,在后文中均以该方法应用于电子设备100的处理器102为例进行说明,即方法的步骤均由处理器102执行。参照图5,该方法包括:
步骤S10:通过训练卷积神经网络确定每个采样结构的每个采样分支的加权系数。
这里所称的卷积神经网络即本发明实施例提供的包括至少一个采样结构的卷积神经网络,其具体结构在上面已经阐述。在步骤S10执行之前,网络的结构已经确定,但尚未进行训练。在步骤S10中,可以利用训练集中的训练样本对该卷积神经网路进行训练,确定其参数,其中包括每个采样结构中的加权系数。训练过程可以直接采用现有技术中的训练方法,并结合SGD、Adam等训练优化算法。
由于卷积神经网络通常用于图像处理任务中,因此在选择训练集时可以根据具体的图像处理任务进行选择。这里所称的图像处理任务包括但不限于图像语义分割、图像分类、图像识别等任务。
步骤S11:在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。
在训练完成后,采样结构中各采样分支对应的加权系数已经确定,从中选择出加权系数最大的采样分支作为实际要使用的采样分支,例如可以直接在训练好的模型的基础上,将采样结构中的其他采样分支删除掉,每个采样结构都按此处理。同时,由于此时每个采样结构仅选出一个分支,在采样后无需再进行加权平均,因此该分支对应的加权系数可以不再使用。在所有采样结构都选择出加权系数最大的采样分支后,获得的卷积神经网络即为可用于图像处理任务的卷积神经网络。
根据采样后特征图的获得方式,加权系数的大小反映了采样分支在构建采样后的特征图时的重要性占比,从这个意义上说,权重最大的采样分支可以认为是基于针对某个图像处理任务的训练集选择的一个最优的采样分支,从而获得的卷积神经网络在处理该类图像处理任务时将会具有良好的性能表现。
需要指出,虽然多个采样分支的结构会导致卷积神经网络在训练时计算量更大,但这种影响仅限于模型训练阶段,在步骤S11中删除多余的采样分支后,获得的卷积神经网络和现有的卷积神经网络在结构上没有明显区别,其性能也与现有的卷积神经网络相当。
本发明实施例提供的获得卷积神经网络的方法选择采样分支的过程是完全自动化的,用户只需在初始时为各个采样结构的采样分支设置不同的采样参数即可,并不需要干预模型优化的过程,大大降低了模型设计过程中的人工负担。用户可以把更多的精力放在采样分支的设计上,以使采样分支涵盖更多的采样方式,从而选择出更优的采样方式,避免采用人工设计的方式中遗漏最优解的情况。同时,该方法最终选择出的采样分支还可以作为评估不同采样方式的理论依据,为设计其他卷积神经网络提供有价值的参考。
此外,在现有技术中,受不同的数据集以及硬件环境的影响,人工设计的卷积神经网络往往只能适用于特定的数据集或硬件环境,通用性差,而上述方法是一种通用的方法,方法的步骤并不依赖于数据集本身或硬件环境,具有广泛的适用范围。
在本发明的一个实施例中,步骤S11中获得的卷积神经网络可以直接用于执行具体的图像处理任务,根据卷积神经网络的训练过程,网络已经针对具体的训练集(通常和图像处理任务相关)进行了优化,特别是在采样部分选择了最优的采样分支,因此在执行图像处理任务时可以获得较好的效果。
在某些实现方式中,考虑到选择最优的采样分支后,网络结构相对于训练好的卷积神经网络有所变化,可以对步骤S11获得的卷积神经网络进一步调优进行训练,微调模型参数,直至模型收敛,然后再将调优训练后获得的卷积神经网络用于具体的图像处理任务。通常而言,调优训练可以进一步提高模型性能,但相应地训练过程的耗时也会增长,在实际中可以根据需求选择是否要调优训练。
下面具体介绍采样结构的几种常见的实现方式,需要注意的是,所列举的实现方式仅仅是示例,不应视为对本发明保护范围的限制。参照图2,在一种实现方式中,采样结构仅用于下采样,不妨称为下采样结构,其采样分支称为下采样分支。每个下采样分支按照不同的下采样方法以及相同的下采样倍数对特征图进行下采样,其中,不同的下采样方法确保每个下采样分支的采样参数是不同的,相同的下采样倍数确保各个下采样分支的采样结果可以加权平均。
在图2中,示出的下采样方法包括平均池化(average-pooling)、最大池化(max-pooling)、卷积以及深度可分离卷积。可以理解的,还可以采用图中未示出的其他下采样方法。各下采样分支的下采样倍数均为s(s>1),在卷积神经网络中,下采样倍数也常常称为步长(stride)。下采样分支对应的加权系数用W1、W2、…、Wn表示。
参照图3,在一种实现方式中,采样结构仅用于上采样,不妨称为上采样结构,其采样分支称为上采样分支。每个上采样分支按照不同的上采样方法以及相同的上采样倍数对特征图进行上采样,其中,不同的上采样方法确保每个上采样分支的采样参数是不同的,相同的上采样倍数确保各个上采样分支的采样结果可以加权平均。
在图3中,示出的上采样方法包括双线性插值、最近邻插值以及反卷积。可以理解的,还可以采用图中未示出的其他上采样方法。各上采样分支的下采样倍数均为t(t>1)。上采样分支对应的加权系数用W1’、W2’、…、Wn’表示。
参照图4,在一种实现方式中,采样结构既用于下采样又用于上采样。每个采样分支均包括下采样部分以及上采样部分,下采样部分按照与所在采样分支对应的下采样方法以及与所在采样分支对应的下采样倍数对特征图进行下采样,上采样部分按照与所在采样分支对应的上采样方法以及与所在采样分支对应的上采样倍数对下采样后的特征图进行上采样。需要指出,下采样部分和上采样部分之间可以直接连接,也可以间隔卷积神经网络中的若干层,或者嵌套一个或多个采样结构,对于二者不直接连接的情况,上面所说的下采样后的特征图并不是指下采样部分直接输出的特征图。采样分支对应的加权系数用W1”、W2”、…、Wn”表示。
每个采样分支对应的下采样倍数和上采样倍数的比值相同,从而可以确保各个采样分支的采样结果可以加权平均。例如,在图4中,对于第一个采样分支可以取s1=t1=2,s1/t1=1,对于第二个采样分支可以取s2=t2=4,s2/t2=1,下采样倍数和上采样倍数均按照2的倍数递增,对于第n个采样分支可以取sn=tn=2n,sn/tn=1。
每个采样分支的下采样部分可以是一个普通的下采样分支,图4的各个采样分支中的下采样部分和图2的下采样结构的主要区别在于,图2的下采样结构中,各个下采样分支要求下采样方法不同而下采样倍数相同,而图4的各个采样分支中的下采样部分并不要求下采样方法不同,也不要求下采样倍数相同。也就是说,通过图4的采样结构,可以比较在同一下采样方法下,不同的下采样倍数对采样结果的影响,这一结构设计扩大了采样参数的覆盖范围,有利于选择最优的下采样方式。实际上,在图4中允许两个采样分支的下采样部分是完全相同的,只要其上采样部分有所区别就可以了,当然此时对于这两个采样分支而言,并不具有选择下采样方式的功能。
同理,每个采样分支的上采样部分可以是一个普通的上采样分支。图4的各个采样分支中的上采样部分和图3的上采样结构的主要区别在于,图3的上采样结构中,各个上采样分支要求上采样方法不同而上采样倍数相同,而图4的各个采样分支中的上采样部分并不要求上采样方法不同,也不要求上采样倍数相同。
进一步的,每个采样分支的下采样部分还可以是一个下采样结构,该下采样结构包括多个下采样分支,每个下采样分支按照不同的下采样方法以及相同的下采样倍数对特征图进行下采样,下采样结构输出的特征图由每个下采样分支的下采样结果按照每个下采样分支的加权系数加权平均后获得。例如,图4中的任意一个下采样部分可以实现为图2中的下采样结构,图6中的采样结构示出了这种情况。
在图4中,若每个下采样部分均实现为一个普通的下采样分支,则虽然每个采样分支对应有加权系数,但下采样部分并没有单独的加权系数。若每个下采样部分实现为一个下采样结构,则下采样结构中的每个下采样分支都可以有一个单独的加权系数,这样,每个下采样分支都可以通过加权系数进行择优,采样方式的选择灵活性更强。
同理,每个采样分支的上采样部分还可以是一个上采样结构,该上采样结构包括多个上采样分支,每个上采样分支按照不同的上采样方法以及相同的上采样倍数对下采样后的特征图进行上采样,上采样结构输出的特征图由每个上采样分支的上采样结果按照每个上采样分支的加权系数加权平均后获得。例如,图4中的任意一个上采样部分可以实现为图3中的上采样结构。
总而言之,在图4示出的采样结构中,每个采样分支的下采样部分和上采样部分可以有以下几种构成方式:下采样部分为普通的下采样分支,上采样部分为普通的上采样分支;下采样部分为下采样结构,上采样部分为普通的上采样分支;下采样部分为普通的下采样分支,上采样部分为上采样结构;下采样部分为下采样结构,上采样部分为上采样结构。其结构灵活,便于根据需求组合不同的下采样方式和上采样方式,扩大可供选择的采样方式的范围。
在本发明实施例提供的卷积神经网络中,可以包括上述几种采样结构中的一种或多种,每种采样结构又可以包括一个或多个。各采样结构之间可以顺序连接,也可以相互嵌套。
在本发明的一个实施例中,采样结构的每个采样分支的加权系数之和为1。即各个加权系数的取值具有约束关系,一个加权系数的增大必然导致其他加权系数的减小,而加权系数的大小直接关系到采样分支在训练完成后时能够保留在最终的模型中,从而将加权系数归一化可以使得各个采样分支之间形成竞争,从而有利于选择最优的采样分支。
下面结合图像语义分割任务说明本发明实施例提供的卷积神经网络以及获得卷积神经网路的方法的实际意义。在背景技术中已经提到,图像语义分割网络会先对图像进行下采样,然后进行上采样恢复输出图像的大小,使得与输入图像一致。在图像语义分割网络中,如果希望评估不同的下采样方式对分割结果的影响,可以固定一种上采样方式,同时在网络中使用一个或多个下采样结构(例如图2)进行训练,并选择最优的下采样分支;如果希望评估不同的上采样方式对分割结果的影响,可以固定一种下采样方式,同时在网络中使用一个或多个上采样结构(例如图3)进行训练,并选择最优的上采样分支;如果希望评估不同的下采样方式和上采样方式的组合对分割结果的影响,可在网络中使用一个或多个采样结构(例如图4)进行训练,并选择最优的采样分支。无论网络采样何种结构,应确保特征图(可以为原始图像)在依次经至少一个采样结构采样后尺寸保持不变,以满足图像语义分割任务的要求。
从而,在理论上,图像语义分割网络中的任意一次下采样、上采样或下采样和上采样的组合都可以通过本发明实施例提供的方法进行采样参数的优化,最终获得性能良好的图像语义分割网络。
以某个卷积层的设计过程为例,卷积可以视为一种下采样方法,下采样倍数直接决定感受野(特征图中的点映射到原始图像的区域)的大小,研究认为,感受野的大小对于语义分割的结果有重要影响,但在现有技术中并没有明确的选择感受野的方法。若用户在设计某个卷积层时,难以确定其感受野应当设置为多大,可以将该卷积层替换为图4示出的采样结构中的下采样部分,每个采样分支的下采样部分均采用卷积的方式进行下采样,但设置不同的下采样倍数,训练完成后保留的采样分支的下采样部分就是用户期望设计的卷积层,其对应的下采样倍数可以决定卷积层的感受野大小。
本发明实施例还提供一种获得卷积神经网络的装置200,如图7所示。其中,卷积神经网络中包括至少一个采样结构,采样结构包括多个采样分支,每个采样分支按照不同的采样参数对卷积神经网络中产生的特征图进行采样,采样后的特征图由每个采样分支的采样结果按照每个采样分支的加权系数加权平均后获得。参照图7,该装置包括:
训练模块210,用于通过训练卷积神经网络确定每个采样结构的每个采样分支的加权系数;
分支选择模块220,用于在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。
本发明实施例提供的获得卷积神经网络的装置200,其实现原理及产生的技术效果在前述方法实施例中已经介绍,为简要描述,装置实施例部分未提及之处,可参考方法施例中相应内容。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的获得卷积神经网络的方法的步骤。这种计算机可读存储介质可以是,但不限于图1示出的存储装置104。
本发明实施例还提供一种电子设备,包括存储器以及处理器,存储器中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明实施例提供的获得卷积神经网络的方法的步骤。该电子设备可以是,但不限于图1示出的电子设备100。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括:个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备,前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (16)

1.一种获得卷积神经网络的方法,其特征在于,所述卷积神经网络中包括至少一个采样结构,所述采样结构包括多个采样分支,每个采样分支按照不同的采样参数对所述卷积神经网络中产生的特征图进行采样,采样后的特征图由每个采样分支的采样结果按照每个采样分支的加权系数加权平均后获得,所述方法包括:
通过训练所述卷积神经网络确定每个采样结构的每个采样分支的加权系数;
在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。
2.根据权利要求1所述的获得卷积神经网络的方法,其特征在于,所述采样参数包括采样方法以及采样倍数。
3.根据权利要求2所述的获得卷积神经网络的方法,其特征在于,所述采样结构为下采样结构,每个下采样分支按照不同的下采样方法以及相同的下采样倍数对所述特征图进行下采样。
4.根据权利要求3所述的获得卷积神经网络的方法,其特征在于,所述下采样方法包括平均池化、最大池化、卷积或深度可分离卷积。
5.根据权利要求2所述的获得卷积神经网络的方法,其特征在于,所述采样结构为上采样结构,每个上采样分支按照不同的上采样方法以及相同的上采样倍数对所述特征图进行上采样。
6.根据权利要求5所述的获得卷积神经网络的方法,其特征在于,所述上采样方法包括双线性插值、最近邻插值或反卷积。
7.根据权利要求2所述的获得卷积神经网络的方法,其特征在于,所述采样结构的每个采样分支均包括下采样部分以及上采样部分,所述下采样部分按照与所在采样分支对应的下采样方法以及与所在采样分支对应的下采样倍数对所述特征图进行下采样,所述上采样部分按照与所在采样分支对应的上采样方法以及与所在采样分支对应的上采样倍数对下采样后的特征图进行上采样,其中,每个采样分支对应的下采样倍数和上采样倍数的比值相同。
8.根据权利要求7所述的获得卷积神经网络的方法,其特征在于,所述下采样部分为下采样结构,所述下采样结构包括多个下采样分支,每个下采样分支按照不同的下采样方法以及相同的下采样倍数对所述特征图进行下采样,所述下采样结构输出的特征图由每个下采样分支的下采样结果按照每个下采样分支的加权系数加权平均后获得。
9.根据权利要求7所述的获得卷积神经网络的方法,其特征在于,所述上采样部分为上采样结构,所述上采样结构包括多个上采样分支,每个上采样分支按照不同的上采样方法以及相同的上采样倍数对所述下采样后的特征图进行上采样,所述上采样结构输出的特征图由每个上采样分支的采样结果按照每个上采样分支的加权系数加权平均后获得。
10.根据权利要求1所述的获得卷积神经网络的方法,其特征在于,所述采样结构的每个采样分支的加权系数之和为1。
11.根据权利要求1-10中任一项所述的获得卷积神经网络的方法,其特征在于,在所述将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络之后,所述方法还包括:
对所述可用于图像处理任务的卷积神经网络进行进一步调优训练,获得调优后的卷积神经网络。
12.根据权利要求11所述的获得卷积神经网络的方法,其特征在于,在所述获得调优训练后的卷积神经网络之后,所述方法还包括:
利用所述调优训练后的卷积神经网络执行图像处理任务。
13.根据权利要求1-10中任一项所述的获得卷积神经网络的方法,其特征在于,所述卷积神经网络为图像语义分割网络,所述特征图在依次经所述至少一个采样结构采样后尺寸保持不变。
14.一种获得卷积神经网络的装置,其特征在于,所述卷积神经网络中包括至少一个采样结构,所述采样结构包括多个采样分支,每个采样分支按照不同的采样参数对所述卷积神经网络中产生的特征图进行采样,采样后的特征图由每个采样分支的采样结果按照每个采样分支的加权系数加权平均后获得,所述装置包括:
训练模块,用于通过训练所述卷积神经网络确定每个采样结构的每个采样分支的加权系数;
分支选择模块,用于在训练完成后,将包含有加权系数最大的采样分支的卷积神经网络确定为可用于图像处理任务的卷积神经网络。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器读取并运行时,执行权利要求1-13中任一项所述的方法的步骤。
16.一种电子设备,包括存储器以及处理器,所述存储器中存储有计算机程序指令,其特征在于,所述计算机程序指令被所述处理器读取并运行时,执行权利要求1-13中任一项所述的方法的步骤。
CN201811281755.8A 2018-10-23 2018-10-23 获得用于图像处理任务的卷积神经网络的方法及装置 Active CN109447247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811281755.8A CN109447247B (zh) 2018-10-23 2018-10-23 获得用于图像处理任务的卷积神经网络的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811281755.8A CN109447247B (zh) 2018-10-23 2018-10-23 获得用于图像处理任务的卷积神经网络的方法及装置

Publications (2)

Publication Number Publication Date
CN109447247A true CN109447247A (zh) 2019-03-08
CN109447247B CN109447247B (zh) 2021-11-16

Family

ID=65549140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811281755.8A Active CN109447247B (zh) 2018-10-23 2018-10-23 获得用于图像处理任务的卷积神经网络的方法及装置

Country Status (1)

Country Link
CN (1) CN109447247B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111334A (zh) * 2019-04-01 2019-08-09 浙江大华技术股份有限公司 一种裂缝分割方法、装置、电子设备及存储介质
CN110796115A (zh) * 2019-11-08 2020-02-14 厦门美图之家科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN110826696A (zh) * 2019-10-30 2020-02-21 北京百度网讯科技有限公司 超网络的搜索空间构建方法、装置以及电子设备
CN112308154A (zh) * 2020-11-03 2021-02-02 湖南师范大学 一种基于yolov3-tiny的航拍车辆检测方法
CN113378452A (zh) * 2021-05-10 2021-09-10 深圳大学 风速预测方法及装置
WO2023274191A1 (zh) * 2021-06-30 2023-01-05 华为技术有限公司 特征图的处理方法和相关设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030109951A1 (en) * 2000-03-10 2003-06-12 Hsiung Chang-Meng B. Monitoring system for an industrial process using one or more multidimensional variables
JP2015052832A (ja) * 2013-09-05 2015-03-19 国立大学法人 東京大学 重み設定装置および方法
CN104850890A (zh) * 2015-04-14 2015-08-19 西安电子科技大学 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法
US20160140434A1 (en) * 2013-06-21 2016-05-19 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
CN105938559A (zh) * 2015-03-04 2016-09-14 埃森哲环球服务有限公司 使用卷积神经网络的数字图像处理
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN107609598A (zh) * 2017-09-27 2018-01-19 武汉斗鱼网络科技有限公司 图像鉴别模型训练方法、装置及可读存储介质
CN108230338A (zh) * 2018-01-11 2018-06-29 温州大学 一种基于卷积神经网络的立体图像分割方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030109951A1 (en) * 2000-03-10 2003-06-12 Hsiung Chang-Meng B. Monitoring system for an industrial process using one or more multidimensional variables
US20160140434A1 (en) * 2013-06-21 2016-05-19 Aselsan Elektronik Sanayi Ve Ticaret Anonim Sirketi Method for pseudo-recurrent processing of data using a feedforward neural network architecture
JP2015052832A (ja) * 2013-09-05 2015-03-19 国立大学法人 東京大学 重み設定装置および方法
CN105938559A (zh) * 2015-03-04 2016-09-14 埃森哲环球服务有限公司 使用卷积神经网络的数字图像处理
CN104850890A (zh) * 2015-04-14 2015-08-19 西安电子科技大学 基于实例学习和Sadowsky分布的卷积神经网络参数调整方法
CN106295678A (zh) * 2016-07-27 2017-01-04 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN107403430A (zh) * 2017-06-15 2017-11-28 中山大学 一种rgbd图像语义分割方法
CN107609598A (zh) * 2017-09-27 2018-01-19 武汉斗鱼网络科技有限公司 图像鉴别模型训练方法、装置及可读存储介质
CN108230338A (zh) * 2018-01-11 2018-06-29 温州大学 一种基于卷积神经网络的立体图像分割方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
VIJAY BADRINARAYANAN等: "SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》 *
YUANYUAN ZHANG等: "Adaptive Convolutional Neural Network and Its Application in Face Recognition", 《NEURAL PROCESSING LETTERS》 *
唐贤伦等: "混合PSO优化卷积神经网络结构和参数", 《电子科技大学学报》 *
蔡晓东等: "基于多分支卷积神经网络的车辆图像比对方法", 《电视技术》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110111334A (zh) * 2019-04-01 2019-08-09 浙江大华技术股份有限公司 一种裂缝分割方法、装置、电子设备及存储介质
CN110111334B (zh) * 2019-04-01 2022-03-08 浙江大华技术股份有限公司 一种裂缝分割方法、装置、电子设备及存储介质
CN110826696A (zh) * 2019-10-30 2020-02-21 北京百度网讯科技有限公司 超网络的搜索空间构建方法、装置以及电子设备
CN110796115A (zh) * 2019-11-08 2020-02-14 厦门美图之家科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN110796115B (zh) * 2019-11-08 2022-12-23 厦门美图宜肤科技有限公司 图像检测方法、装置、电子设备及可读存储介质
CN112308154A (zh) * 2020-11-03 2021-02-02 湖南师范大学 一种基于yolov3-tiny的航拍车辆检测方法
CN113378452A (zh) * 2021-05-10 2021-09-10 深圳大学 风速预测方法及装置
WO2023274191A1 (zh) * 2021-06-30 2023-01-05 华为技术有限公司 特征图的处理方法和相关设备

Also Published As

Publication number Publication date
CN109447247B (zh) 2021-11-16

Similar Documents

Publication Publication Date Title
CN109447247A (zh) 获得卷积神经网络的方法及装置
US8879888B2 (en) Video clip selection via interaction with a hierarchic video segmentation
Kumar et al. Visual exploration of complex time-varying graphs
US8600967B2 (en) Automatic organization of browsing histories
US7027052B1 (en) Treemap display with minimum cell size
US7839420B2 (en) Auto stacking of time related images
Gyulassy et al. A topological approach to simplification of three-dimensional scalar functions
CN112116001B (zh) 图像识别方法、装置及计算机可读存储介质
CN112396115A (zh) 基于注意力机制的目标检测方法、装置及计算机设备
US20020105552A1 (en) Method of navigating a collection of interconnected nodes
Soubies et al. Pocket guide to solve inverse problems with GlobalBioIm
US8775955B2 (en) Attraction-based data visualization
CN109598340A (zh) 卷积神经网络的裁剪方法、装置及存储介质
JP2002541571A (ja) 格子表示装置及び方法
US11681505B2 (en) Systems and methods for facilitating generation and deployment of machine learning software applications
WO2019146651A1 (ja) 計算手法決定システム、計算手法決定装置、処理装置、計算手法決定方法、処理方法、計算手法決定プログラム、及び、処理プログラム
CN102982175B (zh) 一种浏览器进行搜索的方法以及浏览器
CN106462401A (zh) 程序生成装置、程序生成方法和程序
WO2019035364A1 (ja) プログラム、情報処理方法、および情報処理装置
US7349893B2 (en) Hierarchical user interface query automation
CN115223042A (zh) 基于YOLOv5网络模型的目标识别方法及装置
CN108460454A (zh) 卷积神经网络和用于其的处理方法、装置、系统
TW200406692A (en) Semiconductor test data analysis system
CN112560960A (zh) 一种高光谱图像分类方法、装置以及计算设备
GB2496393A (en) Method and device for generating a super-resolution image

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and apparatus for obtaining convolutional neural networks for image processing tasks

Effective date of registration: 20230404

Granted publication date: 20211116

Pledgee: Shanghai Yunxin Venture Capital Co.,Ltd.

Pledgor: BEIJING KUANGSHI TECHNOLOGY Co.,Ltd.

Registration number: Y2023990000193

PE01 Entry into force of the registration of the contract for pledge of patent right