CN111783934A - 卷积神经网络构建方法、装置、设备及介质 - Google Patents

卷积神经网络构建方法、装置、设备及介质 Download PDF

Info

Publication number
CN111783934A
CN111783934A CN202010414597.XA CN202010414597A CN111783934A CN 111783934 A CN111783934 A CN 111783934A CN 202010414597 A CN202010414597 A CN 202010414597A CN 111783934 A CN111783934 A CN 111783934A
Authority
CN
China
Prior art keywords
convolution
module
neural network
replaced
image recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010414597.XA
Other languages
English (en)
Inventor
夏春龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Megvii Technology Co Ltd
Original Assignee
Beijing Megvii Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN202010414597.XA priority Critical patent/CN111783934A/zh
Publication of CN111783934A publication Critical patent/CN111783934A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明实施例提供了一种卷积神经网络构建方法、装置、设备及介质,所述方法包括:从原始卷积神经网络中确定待替换的卷积模块,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享;将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络,其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。

Description

卷积神经网络构建方法、装置、设备及介质
技术领域
本发明涉及深度学习技术领域,特别是涉及一种卷积神经网络构建方法、装置、设备及介质。
背景技术
图像识别是计算视觉领域的一项基本任务,能够识别或者验证图像中目标主体的身份、属性或类别。现有的图像识别方法主要是以神经网络为代表的可学习特征方法,神经网络由于其强大的、无需人为精细设计的、自适应的特征表达能力,被广泛应用于图像识别任务中。
实际中,为了提高识别效率,一般采用卷积神经网络进行图像识别。卷积神经网络包括多种框架模型,例如,AlexNet,Resnet,Resnext,Mobilenet,Shufflenet和VGG等,但是这些模型都是通过逐层累计扩大模型的感受野,信息丢失比较严重。针对这一问题,相关技术中提出了GoogLeNe,Res2net和3FPN等模型结构以缓解信息丢失以及感受野单一的问题。但是,这些模型仍然存在以下不足:GoogLeNet模型计算复杂,耗时严重;3FPN模型只在模型的最后一层进行了特征融合;Res2net的琐碎操作比较多,参数量也较大。
综上所述,可用于图像识别的卷积神经网络模型存在信息丢失比较严重、计算复杂耗时多、参数量大的问题。
发明内容
鉴于上述问题,提出了本发明实施例的一种卷积神经网络构建方法、装置、系统、设备及介质,以便克服上述问题或者至少部分地解决上述问题。
为了解决上述问题,本发明的第一方面公开了一种卷积神经网络构建方法,所述方法包括:
从原始卷积神经网络中确定待替换的卷积模块,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享;
将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络,其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。
可选地,所述多尺度感知模块包括:特征融合子模块和多尺度感知子模块,所述多尺度感知子模块包括特征连接单元和多个卷积单元;
所述多个卷积单元相互级联且卷积尺寸相同,一个卷积单元用于输出一种尺度的特征图,下一级的卷积单元的输入为上一级的卷积单元的输出;
所述特征连接单元用于对输入所述多尺度感知子模块的特征图以及所述多个卷积单元各自输出的特征图进行连接,得到连接特征图;
所述特征融合子模块用于对所述连接特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
可选地,所述特征融合子模块包括:预设卷积尺寸的卷积单元,用于确定所述多种尺度的特征图各自的权值,并根据所述多种尺度的特征图各自的权值,对所述多种尺度的特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
可选地,所述多尺度感知模块还包括:维度调整子模块,用于对输入所述多尺度感知模块的特征图的维度进行调整,得到维度调整后的特征图,并输入所述多尺度感知子模块。
可选地,所述方法还包括:
以样本图像集为训练样本,对所述目标卷积神经网络进行训练,将训练结束时的目标卷积神经网络,确定为用于进行图像识别的图像识别模型。
可选地,以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型,包括:
以样本图像集为训练样本,对所述目标卷积神经网络进行训练;
在训练过程中,获得多个经过不同训练次数的候选图像识别模型;
从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
可选地,在得到用于进行图像识别的图像识别模型之后,所述方法包括:
获得待识别图像;
对所述待识别图像进行特征提取,得到所述待识别图像的特征图;
将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
发明的第二方面公开了一种图像识别模型构建装置,所述装置包括:
确定模块,用于从原始卷积神经网络中确定待替换的卷积模块,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享;
替换模块,用于将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络,其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。
本发明实施例的第三方面,还公开了一种电子设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行如本发明第一方面实施例所述的卷积神经网络构建方法。
本发明实施例的第四方面,还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明第一方面实施例所述的卷积神经网络构建方法。
本发明实施例包括以下优点:
在本发明实施例中,将原始卷积神经网络中待替换的卷积模块替换为多尺度感知模块,其中,待替换的卷积模块中包括多个卷积层、其输入端与输出端之间具有直连分支;将待替换的卷积模块替换为多尺度感知模块后,该多尺度感知模块可以用于将多种尺度的特征图进行融合后输出融合特征图,该融合特征图与直连分支的输出之和作为下一待替换的卷积模块的输入,如此,便构建了一个目标卷积神经网络,进而可以对该目标卷积神经网络进行训练,从而得到所需要的模型。
本发明实施例,一方面,由于输入到多尺度感知模块的特征图可以与多尺度感知模块输出的融合特征图进行融合后输入到下一层,可以保证模型的收敛,避免梯度回传消失。另一方面,由于多尺度感知模块可以将多种尺度的特征图进行融合,不同尺度的特征图可以反映不同的感受野,使得多尺度的特征图之间可以共享部分感受野,从而缓解信息丢失的问题,提高了模型对图像识别的精确度。最后,由于本申请是采用多尺度感知模块替换掉原始神经网络中的卷积模块,可以共享原始神经网络的参数,因此,在缓解信息丢失、保证模型收敛的情况下,在不增加参数量的前提下提高了该卷积神经网络后续用于进行图像识别的精度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例的一种原始卷积神经网络的结构示意图;
图2是本发明一实施例的一种卷积神经网络构建方法的步骤流图;
图3是本发明一实施例的一种多尺度感知模块的结构示意图;
图4是本发明一实施例的又一种多尺度感知模块的结构示意图;
图5示出了本发明实施例的一种完整的多尺度感知模块的结构示意图;
图6示出了将图1所示的待替换的卷积模块替换为图4所示的多尺度感知模块后的Resnet18的模型结构示意图;
图7是本发明一实施例的一种卷积神经网络构建装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请人鉴于相关技术中各类卷积神经网络模型存在的信息丢失严重、或者超深网络模型不宜收敛的问题、以及计算复杂,耗时多的缺点,提出了一种卷积神经网络构建方法,该方法主要将原始的卷进神经网络模型中的卷积模块替换为多尺度感知模块,以通过共享部分感受野获得多种尺度的特征图,保证模型的收敛的同时,避免信息的丢失。
下面,对本发明的一种卷积神经网络构建方法进行详细阐述。需要说明的是:本发明提供的卷积神经网络构建方法可以应用于终端设备或服务器中。
参照图1所示,示出了本实施例的一种待处理的原始神经网络的网络结构图,如图1所示的原始神经网络为ResNet18,该ResNet18网络包括全连接层和多个卷积模块。
结合图1所示的卷积神经网络,对本实施例的一种卷积神经网络构建方法进行介绍。
参照图2所示,示出了本实施例的一种卷积神经网络构建方法的步骤流程图,如图2所示,具体可以包括以下步骤:
步骤S201:从原始卷积神经网络中确定待替换的卷积模块。
其中,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享。
一般而言,原始卷积神经网络中可以包括多个卷积模块,当然,原始卷积神经网络除包括多个卷积模块外,还可以包括池化层、全连接层等。池化层用于保留主要的特征同时减少参数和计算量,全连接层可以把得到的特征信息提取整合。其中,每个卷积模块可以用于对上一卷进模块输出的特征图进行卷积处理,以获得局部特征,进而再向下一卷积模块输出卷积处理后的特征图。
本实施例中,可以将原始卷积神经网络中的每个卷积模块均确定为待替换的卷积模块,以实现对每个卷积模块的替换。其中,每个待替换的卷积模块可以包括多个卷积层,每个卷积层的卷积核尺寸可以相同也可以不同。
仍如图1所示,图1中虚线框中所标注出的便是一个卷积模块,可以看出ResNet18共包括8个卷积模块。其中,每个卷积模块可以包括两个卷积层,每个卷积模块在输入端和输出端均具有直连分支,该直连分支可以将输入到卷积模块的特征图直接输出,或者,对输入到卷积模块的特征图进行下采样后输出。本实施例中,待替换的卷积模块中,被替换的对象即是卷积模块所包括的多个卷积层。
其中,每个卷积层的卷积核尺寸可以相同,当然,在其他一些卷积神经网络模型中,每个卷积模块中的各卷积核尺寸也可以不同。本申请以ResNet18为例,并不代表将原始卷积神经网络限定在ResNet18网络模型,即实际中,对于任何一个卷积神经网络而言,都可以将其中的卷积模块作为待替换的卷积模块。
步骤S202:将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络。
其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。
本实施例中,可以将待替换的卷积模块中所包括的多个卷积层替换为多尺度感知模块,这样,使得待替换的卷积模块的输入端和输出端之间的直连分支被保留。
具体而言,终端设备或服务器在将待替换的卷积模块替换为多尺度感知模块时,可以根据用户的替换指令,将待替换的卷积模块中的多个卷积层剔除,进而添加进多尺度感知模块,添加多尺度感知模块后便得到了目标卷积神经网络。其中,各个待替换的卷积模块之间的直连分支可以保持不变。
如图1所示,虚线框所框出的部分为一个待替换的卷积模块101,可以对其中的conv3×3,128,/2的卷积层和conv3×3,128的卷积层进行替换,将conv3×3,128,/2的卷积层和conv3×3,128的卷积层替换为多尺度感知模块。替换后,该卷积模块101的直连分支的输出与该多尺度感知模块的输出之和便可以作为下一个卷积模块的输入。
或者,如图1所示,若待替换的卷积模块是卷积模块102,则该卷积模块102的直连分支的输出与该多尺度感知模块的输出之和便可以作为后续的池化层的输入。
参照图3所示,示出了一种实施方式中的多尺度感知模块的结构示意图,如图3所示,在该实施方式中,所述多尺度感知模块可以包括:特征融合子模块和多尺度感知子模块,所述多尺度感知子模块包括特征连接单元和多个卷积单元。
下面,结合图3所示,对此种实施方式下的多尺度感知模块中的各个子模块进行详细介绍:
首先,多尺度感知子模块中包括特征连接单元和多个卷积单元,所述多个卷积单元相互级联且卷积尺寸相同,一个卷积单元用于输出一种尺度的特征图,下一级的卷积单元的输入为上一级的卷积单元的输出。
本实施例中,多个卷积单元相互级联且卷积尺寸相同的情况下,下一级的卷积单元的输入即为上一级的卷积单元的输出,这样,在减小参数个数的同时,下一级的卷积单元便可以共享上一级卷积的单元输出的特征图,即下一级的卷积单元可以共享上一级的卷积单元的感受野。
其中,级联的多个卷积单元均可以各自输出经卷积处理后的特征图,这样,使得多个卷积单元输出的特征图之间均可以共享部分感受,进而可以获得多尺度的特征。
本实施例中,卷积尺寸也可以理解为是卷积核大小,卷积尺寸不同,其局部感受野也不同,其中,多个卷积单元的参数可以相互独立。
示例地,如图3所示,多尺度感知子模块为MRF,由三个卷积尺寸为conv3×3的卷积单元级联而成,每个卷积单元的输出即为下一个卷积单元的输入。其中,对于两个级联conv3×3的卷积单元,便相当于一个conv5×5的卷积尺寸,对于三个级联conv3×3的卷积单元,便相当于一个conv7×7的卷积尺寸。
其次,所述特征连接单元用于对输入所述多尺度感知子模块的特征图以及所述多个卷积单元各自输出的特征图进行连接,得到连接特征图。
本实施方式中,可以对每个卷积单元输出的特征图与输入所述多尺度感知子模块的特征图进行连接,进而可以得到与每个卷积单元各自对应的连接特征图,其中,所述的连接也可以理解为是拼接(concat),即将每个卷积单元输出的特征图与输入所述多尺度感知子模块的特征图进行拼接。这样,可以保证该目标卷积神经网络的收敛。
示例地,如图3所示,其中的Identity为输入到该多尺度感知子模块的特征图F0,经第一个conv3×3输出了特征图F1、第二个conv3×3输出了特征图F2、第三个conv3×3输出了特征图F3,则可以将特征图F0、特征图F1、特征图F2、特征图F3拼接在一起。
之后,所述特征融合子模块用于对所述连接特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
本实施方式中,可以对得到的连接特征图进行特征融合,具体而言,该特征融合可以是指的得到的多种不同尺度的特征图进行关联,实际中,由于得到的连接特征图针对的是不同尺度感受野的特征图,因而,对连接特征图进行特征融合,即是可以对不同尺度感受野进行整合,以获得更为全局的特征信息。
相应地,如图3所示,在一种具体实现中,所述特征融合子模块包括:预设卷积尺寸的卷积单元,用于确定所述多种尺度的特征图各自的权值,并根据所述多种尺度的特征图各自的权值,对所述多种尺度的特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
其中,预设卷积尺寸可以是conv1×1的尺寸,实际中,可以将连接特征图输入到预设卷积尺寸的卷积单元的输入端,则预设卷积尺寸的卷积单元可以用于对在连接特征图的通道维度上对各元素进行加权求和,从而实现对连接特征图的特征融合,进而输出融合特征图,通过对连接特征图的特征融合,从而使得目标卷积神经网络可以收敛。
在一种实施方式中,参照图4所示,示出了以图3所示的多尺度感知模块为基础的另一多尺度感知模块的结构示意图,如图4所示,多尺度感知模块还可以包括:维度调整子模块,用于对输入所述多尺度感知模块的特征图的维度进行调整,得到维度调整后的特征图,并输入所述多尺度感知子模块。
本实施方式中,特征图的维度可以理解为是特征图的通道数,对特征图的维度进行调整则可以理解为是对特征图的通道数进行调整。具体实现中,可以根据实际需求对特征图的维度升高即增加通道数,或者,对特征图的维度降低即减少通道数。通过调整特征图的维度,可以控制目标卷积神经网络的参数量。
具体实现中,维度调整子模块可以利用预设的缩放因子R对特征图的维度进行调整,实际中,该维度调整子模块输出的特征图的维度为输入到该维度调整子模块的特征图的维度的R倍。
具体实现中,维度调整子模块可以是conv1x1的卷积单元。
示例地,参照图5所示,示出了本发明实施例的一种完整的多尺度感知模块的结构示意图。如图5所示,conv1x1,r为维度调整子模块,MRF为多尺度感知子模块,conv1x1为特征融合子模块,shortcut为直连分支,其中,虚线框中示出的是多尺度感知子模块中的内部结构。
参照图6所示,示出了将图1所示的待替换的卷积模块替换为图4所示的多尺度感知模块后的Resnet18的模型结构图。其中,(conv1×1,r)为维度调整子模块,shortcut为直连分支。
其中,将卷积模块替换为多尺度感知模块后,便得到了目标卷积神经网络,该目标卷积神经网络的超参数设置可以与原始卷积神经网络一致,这样,目标卷积神经网络便可以继承到原始神经网络的超参数,从而可以直接将该目标卷积神经网络作为初始的图像识别模型对图像进行处理。即,得到的目标卷积神经网络由于继承了原始神经网络的超参数,从而可以直接作为图像识别模型对图像进行处理。
具体地,在一种实施例中,在得到目标卷积神经网络后,也可以进一步完善该目标卷积神经网络,以提高目标卷积神经网络的图像处理效率。相应地,可以以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。所得到的图像识别模型与如图6所示的模型的结构相同。
其中,在训练训练该目标卷积神经网络时,设置的超参数可以与原始卷积神经网络一致。
其中,样本图像集中可以包括针对同一图像识别任务的多张样本图像,根据实际训练需求,每张样本图像可以携带标签也可以不携带标签。
本实施例中,图像识别任务可以是人脸图像识别任务、图像分类任务、属性识别任务、指纹图像识别任务、虹膜图像识别任务等。则相应地,针对人脸图像识别任务,样本图像集中便可以包括多个来自不同人脸或同一人脸的人脸图像;针对属性识别任务,样本图像集中便可以包括多个具有不同属性的样本图像;针对指纹图像识别任务,样本图像集中便可以包括多个具有来自不同手指或同一手指的指纹图像;针对虹膜图像识别任务,样本图像集中便可以包括多个具有来自不同眼镜或同一眼镜的虹膜图像。
本实施例中,针对不同的图像识别任务,可以按照相应的相关技术对所述目标卷积神经网络进行训练,以得到图像识别模型,其中,所得到的图像识别模型的结构与目标卷积神经网络的结构一致。
在一种具体实现中,在以样本图像集为训练样本,对所述目标卷积神经网络进行训练时,可以将训练结束时的目标卷积神经网络,确定为用于进行图像识别的图像识别模型。
实际中,可以在图像识别的准确率达到预设准确率时,视为训练结束,进而将此时的目标卷积神经网络确定为图像识别模型。
在另一种具体实现中,在以样本图像集为训练样本,对所述目标卷积神经网络进行训练时,可以通过以下步骤得到用于进行图像识别的图像识别模型:
步骤S2031:以样本图像集为训练样本,对所述目标卷积神经网络进行训练。
步骤S2032:在训练过程中,获得多个经过不同训练次数的候选图像识别模型。
本具体实现中,可以将样本图像集中的多个图像样本分批次输入目标卷积神经网络进行训练,例如,分100批输入目标卷积神经网络进行训练,则会对目标卷积神经网络训练100次。
则实际中,可以将每一次训练结束时的目标卷积神经网络进行保存,例如,进行100次训练则保存100个目标卷积神经网络。或者,也可以在预设多次训练后,再将后续的每一次训练结束时的目标卷积神经网络进行保存,例如,在50次之后开始保存,则保存50个目标卷积神经网络。或者,可以将每N次训练结束时的目标卷积神经网络进行保存,例如,每10次训练进行保存,则保存了10个目标卷积神经网络。
其中,每次被保存的目标卷积神经网络可以作为候选图像识别模型,进而得到多个候选图像识别模型。
步骤S2033:从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
在得到多个候选图像识别模型后,便可以以测试样本,对多个候选图像识别模型进行测试,以得到多个候选图像识别模型各自输出的测试结果。根据测试结果可以确定图像识别的准确率,进而可以从多个所述候选图像识别模型筛选出准确率最高的候选图像识别模型,将准确率最高的候选图像识别模型确定为图像识别模型。但本发明实施例不以此为限,或者,还可以将迭代训练N次后得到的目标卷积神经网络,确定为该图像识别模型,其中N为正整数,其具体取值可以根据实际应用情况进行设置。
通过上述实施例,在得到图像识别模型后,便可以采用该图像识别模型进行图像识别,具体地,在利用图像识别模型进行图像识别时,具体可以包括以下步骤:
步骤S204:获得待识别图像。
其中,根据图像识别任务,待识别图像可以是人脸图像、指纹图像或针对一个特定对象所拍摄的图像。
步骤S205:对所述待识别图像进行特征提取,得到所述待识别图像的特征图。
本实施例中,可以对待识别图像进行特征提取,具体而言,可以是对待识别图像进行特征编码,以对待识别图像中的信息进行数学量化,从而得到待识别图像的特征图。
步骤S206:将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
本实施例中,可以将待识别图像的特征图输入图像识别模型的输入端,图像识别模型可以对待识别图像的特征图进行池化处理、卷积处理等,其中,图像识别模型中每个卷积模块的多尺度感知模块可以输出多尺度特征图的融合图,进而使得图像识别模型在对待识别图像进行识别时,可以共享感受野,从而提高对待识别图像进行识别的精度。
本发明实施例,由于使得输入到多尺度感知模块的特征图可以与多尺度感知模块输出的融合特征图进行融合后输入到下一层,可以保证模型的收敛,避免梯度回传消失。又由于多尺度感知模块可以将多种尺度的特征图进行融合,从而缓解信息丢失的问题,提高了模型对图像识别的精确度。最后,由于本申请是采用多尺度感知模块替换掉原始神经网络中的卷积模块,可以共享原始神经网络的参数,因此,在缓解信息丢失、保证模型收敛的情况下,可以在不增加参数量的情况下可以提高模型的精度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
基于同一发明构思,参考图7,示出了本发明实施例的一种图像识别模型构建装置的框架示意图,如图7所示,具体可以包括以下模块:
确定模块701,用于从原始卷积神经网络中确定待替换的卷积模块,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享;
替换模块702,用于将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络,其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。
可选地,所述装置还包括:
训练模块,用于以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
可选地,所述多尺度感知模块包括:特征融合子模块和多尺度感知子模块,所述多尺度感知子模块包括特征连接单元和多个卷积单元;
所述多个卷积单元相互级联且卷积尺寸相同,一个卷积单元用于输出一种尺度的特征图,下一级的卷积单元的输入为上一级的卷积单元的输出;
所述特征连接单元用于对输入所述多尺度感知子模块的特征图以及所述多个卷积单元各自输出的特征图进行连接,得到连接特征图;
所述特征融合子模块用于对所述连接特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
可选地,所述特征融合子模块包括:预设卷积尺寸的卷积单元,用于确定所述多种尺度的特征图各自的权值,并根据所述多种尺度的特征图各自的权值,对所述多种尺度的特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
可选地,所述多尺度感知模块还包括:维度调整子模块,用于对输入所述多尺度感知模块的特征图的维度进行调整,得到维度调整后的特征图,并输入所述多尺度感知子模块。
可选地,所述训练模块,具体可以包括以下单元:
训练单元,用于以样本图像集为训练样本,对所述目标卷积神经网络进行训练;
保存单元,用于在训练过程中,获得多个经过不同训练次数的候选图像识别模型;
筛选单元,用于从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
可选地,所述装置可以包括以下模块:
图像获得模块,用于获得待识别图像;
特征提取模块,用于对所述待识别图像进行特征提取,得到所述待识别图像的特征图;
图像输入模块,用于将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
本发明实施例还提供了一种电子设备,该电子设备可以用于执行卷积神经网络构建方法,可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行所述的卷积神经网络构建方法。
本发明实施例还提供了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如本发明实施例所述的卷积神经网络构建方法。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种卷积神经网络构建方法、装置、设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种卷积神经网络构建方法,其特征在于,所述方法包括:
从原始卷积神经网络中确定待替换的卷积模块,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享;
将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络,其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。
2.根据权利要求1所述的方法,其特征在于,所述多尺度感知模块包括:特征融合子模块和多尺度感知子模块,所述多尺度感知子模块包括特征连接单元和多个卷积单元;
所述多个卷积单元相互级联且卷积尺寸相同,一个卷积单元用于输出一种尺度的特征图,下一级的卷积单元的输入为上一级的卷积单元的输出;
所述特征连接单元用于对输入所述多尺度感知子模块的特征图以及所述多个卷积单元各自输出的特征图进行连接,得到连接特征图;
所述特征融合子模块用于对所述连接特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
3.根据权利要求2所述的方法,其特征在于,所述特征融合子模块包括:预设卷积尺寸的卷积单元,用于确定所述多种尺度的特征图各自的权值,并根据所述多种尺度的特征图各自的权值,对所述多种尺度的特征图进行特征融合,得到所述多种尺度的特征图的融合特征图。
4.根据权利要求2所述的方法,其特征在于,所述多尺度感知模块还包括:维度调整子模块,用于对输入所述多尺度感知模块的特征图的维度进行调整,得到维度调整后的特征图,并输入所述多尺度感知子模块。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型。
6.根据权利要求5所述的方法,其特征在于,以样本图像集为训练样本,对所述目标卷积神经网络进行训练,得到用于进行图像识别的图像识别模型,包括:
以样本图像集为训练样本,对所述目标卷积神经网络进行训练;
在训练过程中,获得多个经过不同训练次数的候选图像识别模型;
从多个所述候选图像识别模型中筛选满足预设测试条件的模型,得到用于进行图像识别的图像识别模型。
7.根据权利要求6所述的方法,其特征在于,在得到用于进行图像识别的图像识别模型之后,所述方法包括:
获得待识别图像;
对所述待识别图像进行特征提取,得到所述待识别图像的特征图;
将所述待识别图像的特征图输入图像识别模型中,得到图像识别结果。
8.一种卷积神经网络构建装置,其特征在于,所述装置包括:
确定模块,用于从原始卷积神经网络中确定待替换的卷积模块,所述待替换的卷积模块包括多个卷积层,且所述待替换的卷积模块的输入端与输出端之间具有直连分支,所述待替换卷积模块的输入与所述直连分支的输入共享;
替换模块,用于将所述待替换的卷积模块替换为多尺度感知模块,得到目标卷积神经网络,其中,所述多尺度感知模块用于输出多种尺度的特征图的融合特征图,所述多尺度感知模块的输出与所述直连分支的输出之和,为下一个所述待替换的卷积模块的输入。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-7任一项所述的卷积神经网络构建方法。
10.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1-7任一项所述的卷积神经网络构建方法。
CN202010414597.XA 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质 Pending CN111783934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010414597.XA CN111783934A (zh) 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010414597.XA CN111783934A (zh) 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN111783934A true CN111783934A (zh) 2020-10-16

Family

ID=72754155

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010414597.XA Pending CN111783934A (zh) 2020-05-15 2020-05-15 卷积神经网络构建方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN111783934A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801266A (zh) * 2020-12-24 2021-05-14 武汉旷视金智科技有限公司 神经网络构建方法、装置、设备及介质
CN113239899A (zh) * 2021-06-17 2021-08-10 阿波罗智联(北京)科技有限公司 用于处理图像和生成卷积核的方法、路侧设备和云控平台
CN114092813A (zh) * 2021-11-25 2022-02-25 中国科学院空天信息创新研究院 一种工业园区图像提取方法、模型、电子设备和存储介质
WO2022166320A1 (zh) * 2021-02-08 2022-08-11 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
WO2023078051A1 (zh) * 2021-11-05 2023-05-11 杭州研极微电子有限公司 量化感知训练方法、装置、设备、介质及卷积神经网络
WO2024052987A1 (ja) * 2022-09-06 2024-03-14 日本電信電話株式会社 信号生成装置、信号生成システム、信号生成方法及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
CN109360155A (zh) * 2018-08-17 2019-02-19 上海交通大学 基于多尺度特征融合的单帧图像去雨方法
CN109858461A (zh) * 2019-02-21 2019-06-07 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019020075A1 (zh) * 2017-07-28 2019-01-31 北京市商汤科技开发有限公司 图像处理方法、装置、存储介质、计算机程序和电子设备
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN108764133A (zh) * 2018-05-25 2018-11-06 北京旷视科技有限公司 图像识别方法、装置及系统
CN109360155A (zh) * 2018-08-17 2019-02-19 上海交通大学 基于多尺度特征融合的单帧图像去雨方法
CN109858461A (zh) * 2019-02-21 2019-06-07 苏州大学 一种密集人群计数的方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯翔;吴瀚;司冰灵;季超;: "基于嵌网融合结构的卷积神经网络手势图像识别方法", 生物医学工程研究, no. 04 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801266A (zh) * 2020-12-24 2021-05-14 武汉旷视金智科技有限公司 神经网络构建方法、装置、设备及介质
CN112801266B (zh) * 2020-12-24 2023-10-31 武汉旷视金智科技有限公司 神经网络构建方法、装置、设备及介质
WO2022166320A1 (zh) * 2021-02-08 2022-08-11 北京迈格威科技有限公司 图像处理方法、装置、电子设备及存储介质
CN113239899A (zh) * 2021-06-17 2021-08-10 阿波罗智联(北京)科技有限公司 用于处理图像和生成卷积核的方法、路侧设备和云控平台
WO2023078051A1 (zh) * 2021-11-05 2023-05-11 杭州研极微电子有限公司 量化感知训练方法、装置、设备、介质及卷积神经网络
CN114092813A (zh) * 2021-11-25 2022-02-25 中国科学院空天信息创新研究院 一种工业园区图像提取方法、模型、电子设备和存储介质
WO2024052987A1 (ja) * 2022-09-06 2024-03-14 日本電信電話株式会社 信号生成装置、信号生成システム、信号生成方法及びプログラム

Similar Documents

Publication Publication Date Title
CN111783934A (zh) 卷积神经网络构建方法、装置、设备及介质
CN112101190A (zh) 一种遥感图像分类方法、存储介质及计算设备
GB2545661A (en) A method for analysing media content
CN114942984B (zh) 视觉场景文本融合模型的预训练和图文检索方法及装置
CN111160350A (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN111160225B (zh) 基于深度学习的人体解析方法和装置
CN112598110B (zh) 神经网络构建方法、装置、设备及介质
CN111783935A (zh) 卷积神经网络构建方法、装置、设备及介质
CN111783514A (zh) 面部解析方法、装置及计算机可读存储介质
CN115393633A (zh) 数据处理方法、电子设备、存储介质及程序产品
CN112801266B (zh) 神经网络构建方法、装置、设备及介质
CN111783936B (zh) 卷积神经网络构建方法、装置、设备及介质
CN112100509A (zh) 信息推荐方法、装置、服务器和存储介质
CN112308149A (zh) 基于机器学习的图像信息识别的优化方法及装置
CN109447095B (zh) 视觉属性识别方法、装置及存储介质
CN110705398A (zh) 一种面向移动端的试卷版面图文实时检测方法
CN110795993A (zh) 一种构建模型的方法、装置、终端设备及介质
CN116187422A (zh) 神经网络的参数更新方法及相关设备
CN115810073A (zh) 虚拟形象生成方法及装置
CN112686339B (zh) 一种基于起诉状的案由确定方法和装置
CN115080864A (zh) 基于人工智能的产品推荐方法、装置、计算机设备及介质
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN112598126A (zh) 神经网络构建方法、装置、设备及介质
CN111814534A (zh) 视觉任务的处理方法、装置和电子系统
CN114360007B (zh) 人脸识别模型训练、人脸识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination