CN111340089A - 图像特征学习方法、模型、装置和计算机存储介质 - Google Patents
图像特征学习方法、模型、装置和计算机存储介质 Download PDFInfo
- Publication number
- CN111340089A CN111340089A CN202010107596.0A CN202010107596A CN111340089A CN 111340089 A CN111340089 A CN 111340089A CN 202010107596 A CN202010107596 A CN 202010107596A CN 111340089 A CN111340089 A CN 111340089A
- Authority
- CN
- China
- Prior art keywords
- layer
- image
- feature
- feature learning
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 230000009466 transformation Effects 0.000 claims abstract description 7
- 230000004927 fusion Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 abstract description 16
- 230000000694 effects Effects 0.000 abstract description 13
- 238000000605 extraction Methods 0.000 abstract description 8
- 230000008569 process Effects 0.000 abstract description 5
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000013473 artificial intelligence Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000238631 Hexapoda Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000009776 industrial production Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明提供了一种人工智能领域中深度学习的图像特征学习方法、模型、装置和计算机存储介质,所述图像特征学习方法包括以下步骤:接收待特征学习的图像;对所述图像执行卷积获得特征图;将所述特征图输入到第一层特征学习层,后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定;对各层所述特征学习层的输入依次执行卷积和非线性变换,确定所述特征学习层的输出。本发明提供的特征学习方法通过将前序特征学习层的至少部分输出融合叠加作为当前特征学习层的输入,以弥补特征训练时的特征学习损失,从而提升图像特征提取质量和学习效果。
Description
技术领域
本发明涉及图像特征学习的技术领域;特别涉及一种图像特征学习方法、模型、装置和计算机存储介质。
背景技术
图像特征学习是机器学习或深度学习在计算机视觉领域极其重要的研究方向之一,是特征训练的重要环节,在神经网络为基础的衍生网络模型中应用非常广泛,典型的衍生网络包括Alex-Net网络、VGG-Net网络、Le-Net网络、Google-Net网络等。图像特征学习过程中比较常用的技术步骤包括卷积操作、池化操作和全连接操作,其中卷积操作和池化操作可以被多次、反复、组合执行。比如,原始图像依次经过卷积、池化、卷积、池化操作后再执行全连接操作;亦或依次经过卷积、卷积、池化、卷积、卷积、池化操作后再执行全连接操作,以学习原始图像中的特征信息。
现有的图像特征学习,都要基于多级特征学习层提取图像特征,当前特征学习层的输入为上一特征学习层的输出,下一特征学习层的输入为当前特征学习层的输出。当前特征学习层仅与相邻特征学习层交互的设计缺陷,将会不可避免地损失至少部分除相邻特征学习层以外其他各特征学习层的特征信息,这些损失的局部特征信息在后续的特征学习层中无法得到补偿,从而导致图像特征学习效果不佳。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,
本发明的第一个目的在于提出一种图像特征学习方法,通过将前序特征学习层的至少部分输出融合叠加作为当前特征学习层的输入,以弥补特征训练时的特征学习损失,从而确保图像特征提取质量和学习效果。
本发明的第二个目的在于提出一种图像特征学习装置,主要通过输入数据确定模块和输出数据确定模块,将前序特征学习层的至少部分输出融合叠加作为当前特征学习层的输入,以弥补特征训练时的特征学习损失,从而确保图像特征提取质量和学习效果。
本发明的第三个目的在于提出一种图像特征学习模型,通过将前序特征学习层的至少部分输出融合叠加作为当前特征学习层的输入,以弥补特征训练时的特征学习损失,从而确保图像特征提取质量和学习效果。
本发明的第四个目的在于提出一种计算机存储介质,将前序特征学习层的至少部分输出融合叠加作为当前特征学习层的输入以计算机指令储存在计算机中,所述指令被执行时可以弥补特征训练时的特征学习损失,从而确保图像特征提取质量和学习效果。
为达到上述目的,本发明第一方面实施例提出一种图像特征学习方法,该方法包括:接收待特征学习的图像;对所述图像执行卷积获得特征图;将所述特征图输入到第一层特征学习层,后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定;对各层所述特征学习层的输入依次执行卷积和非线性变换,确定所述特征学习层的输出。
优选地,第二层特征学习层的输入为所述第一层特征学习层的输出。
优选地,所述对所述图像执行卷积获得特征图包括:确定卷积核和滑窗间隔;至少基于所述卷积核和所述滑窗间隔确定所述特征图,所述特征图包含图像的局部特征。
优选地,至少根据待学习图像特征的形状确定所述卷积核。
优选地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新。
优选地,根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
优选地,所述至少基于所述卷积核和所述滑窗间隔确定所述特征图包括:将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图。
优选地,所述后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定包括:根据各层学习到的图像特征对后续各层特征学习的影响程度设置各层权重;将所述各层权重对应地赋予前序各层所述特征学习层的输出确定各层有效输出;将所述各层有效输出执行叠加融合作为下一层所述特征学习层的输入。
优选地,将所述各层有效输出通过加法器执行叠加融合。
优选地,所述权重参与所述图像特征学习并可被训练和更新。
为达到上述目的,本发明第二方面实施例提出一种图像特征学习装置,其特征在于,所述装置包括:图像接收模块,用于接收待特征学习图像;特征图获得模块,用于对所述图像执行卷积以获得特征图;数据输入模块,用于将所述特征图输入到第一层所述特征学习层,且后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定;以及数据输出模块,用于对各层所述特征学习层的输入依次执行卷积和非线性变换以确定所述特征学习层输出。
优选地,第二层特征学习层的输入为所述第一层特征学习层的输出。
优选地,所述特征图获得模块包括:所述特征图获得模块包括:卷积核确定模块,用于确定所述卷积核;滑窗间隔确定模块,用于确定所述滑窗间隔;特征图确定模块,用于至少基于所述卷积核确定模块和所述滑窗间隔确定模块确定所述特征图。
优选地,所述卷积核确定模块至少根据待学习图像特征的形状确定所述卷积核。
优选地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新。
优选地,所述滑窗间隔确定模块根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
优选地,所述特征图获得模块将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图
优选地,所述数据输入模块还包括:权重设置模块,用于根据各层学习到的图像特征对后续各层特征学习的影响程度设置各层权重;有效输出确定模块,用于将所述各层权重对应地赋予前序各层所述特征学习层的输出确定各层有效输出;以及输入融合模块,用于将所述各层有效输出执行叠加融合作为下一层所述特征学习层的输入。
优选地,所述输入融合模块通过加法器执行叠加融合。
优选地,所述权重参与所述图像特征学习并可被训练和更新。
为达到上述目的,本发明第三方面实施例提出一种图像特征学习模型,其特征在于,对采用上述任一项所述的图像特征学习方法所确定的最后一层特征学习层输出依次执行至少一组卷积和池化操作,得到图像特征学习模型。
为达到上述目的,本发明第四方面实施例提出一种计算机存储介质,用于存储计算机可读指令,当所述可读指令由所述计算机执行时,使得所述计算机执行上述任一项所述的图像特征学习方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过对本发明的实践了解到。
以下结合附图及实施例进一步说明本发明。
附图说明
图1为本发明实施例的图像特征学习方法的基本流程框图。
图2为本发明实施例的图像特征学习方法的扩展流程框图。
图3为本发明实施例的图像特征学习方法的原理示意框图。
图4为本发明实施例的可变形卷积的示意图。
图5为本发明实施例的图像特征学习装置的结构框图。
图6为本发明实施例的图像特征学习模型的结构框图。
图7为本发明实施例的图像特征学习模型的原理示意框图。
具体实施方式
实施例一
卷积神经网络是深度学习技术领域中具有代表性的神经网络之一,在图像分析和处理领域取得了众多突破性的进展,如比较常用的标准图像数据标注集有ImageNet。卷积神经网络多用于诸如图像特征提取分类、场景识别等技术场景,相较于传统的图像处理算法,卷积神经网络的优点在于避免了对图像复杂的前期预处理过程,尤其是人工参与图像预处理过程,只需要对指定的图像数据标注集进行充分地有监督或无监督学习,就可以较高的精度对目标图像进行预测。
卷积神经网络模型在提取、训练和预测图像特征方面具有较好的学习效果,经过大量特定数据集的训练即可实现较好的图像预测精度。卷积神经网络模型在实际应用中,每一层卷积层对输入的特征图执行卷积操作后获得的较高阶特征通常无法保证特征完整,换言之,通过卷积操作所提取的图像特征可能会出现不同程度的特征丢失现象,从而导致所提取到的高阶特征是不完整的、失真的、与原始图像中对应的特征相差较大,并最终导致所述模型预测结果与预期结果相差较大,精度较低。
结合图1-3,详细阐述本发明实施例提供的图像特征学习方法,包括以下步骤:
S1、接收待特征学习的图像;
特征学习模型的初始层用于对接收图像并对接受到的图像做初始化处理。接收到的待特征学习的图像,既可以是彩色多通道图像,如三通道RGB图像,也可以是单通道的灰度图像。特征学习模型对接收的待特征学习图像的尺寸有限制,比如26像素*26像素、28像素*28像素,如果接收的待特征学习图像尺寸与模型要求的尺寸不一致,在接收所述待特征学习图像之后,对所述图像进行尺寸校准,使得校准后的图像尺寸与模型要求的尺寸保持一致,以便后续处理。
S201、确定卷积核和滑窗间隔;
卷积核是卷积操作不可缺少的关键要素,卷积核通常为奇数阶、正方形尺寸,比如1像素*1像素、3像素*3像素、5像素*5像素。进一步地,卷积核采用3像素*3像素尺寸的核参与步骤S1中的待特征学习图像执行卷积操作。所述卷积核以矩阵形式参与运算,所述卷积核矩阵共享权值。卷积核矩阵参与训练和学习,因此所述卷积核矩阵初始值可取任意值或经验值。
执行卷积操作除了需要确定卷积核以外,还必须确定滑窗间隔。所述滑窗间隔作为卷积核滑动步长,可以确保卷积核滑动在时域上的非连续性。应当理解,滑窗间隔越大,模型训练计算量越小,但特征学习精度越低;滑窗间隔越小,模型训练计算量越大,但特征学习精度越高。因此,确定滑窗间隔需要考虑模型训练计算量和学习精度的平衡。进一步地,所述滑窗间隔采用step=1、2或3。
S202、至少基于所述卷积核和所述滑窗间隔确定所述特征图;
根据步骤S201中确定的所述卷积核和所述滑窗间隔可以确定输入图像的特征图。将输入图像的特征图与所述卷积核以确定的所述滑窗间隔为步长作卷积操作,所述卷积操作的结果即为特征图(Feature Map)。特征图的数量与图像通道数、卷积核数量相关联,若图像通道数为3,或者卷积核数量为3,那么特征图的数量也是3。
S301、根据各层学习到的图像特征对后续各层特征学习的影响程度设置各层权重;
特征学习模型除了包括初始层以外,还包括第1层特征学习层L1、第2层特征学习层L2、……、第n层特征学习层Ln。L1、L2、……、Ln中的每一层都有同时包括数据输入和数据输出。
为了体现不同的特征学习层提取的图像特征对后续高阶特征的影响程度,分别给予每一层特征学习层专有的权重。L1对后续各层特征学习层的权重设为a1,L2对后续各层特征学习层的权重设为a2,……,Ln-2对Ln-1特征学习层的权重设为an-2。
a1,a2,……,an-2的取值范围为[0,1]的实数,包括边界。
S302、将所述各层权重对应地赋予前序各层所述特征学习层的输出确定各层有效输出;
将L1对应的权重a1赋予L1的输出o(L1),得到o(L1)*a1;
将L2对应的权重a2赋予L2的输出o(L2),得到o(L2)*a2;
以此类推;
将Ln-2对应的权重an-2赋予Ln-2的输出o(Ln-2),得到o(Ln-2)*an-2。
S303、将所述各层有效输出执行叠加融合作为下一层所述特征学习层的输入;
所述叠加融合应当理解为逻辑求和运算,语义理解为各层有效输出的加法运算从而实现多数据叠加。
L1的输入是的步骤S201中获得的特征图,L1的输出不仅与L2的输入相连接,而且与L3、……、Ln的输入相连接。
L1的输入数据流为初始层的输出,可以用如下公式表示:
i(L1)=o(初始层)
L2的输入数据流可以用如下公式表示:
i(L2)=o(L1)
类似地,L3的输入数据流可以用如下公式表示:
i(L3)=o(L1)*a1+o(L2)
更普适性地,Ln的输入数据流可以用如下公式表示:
i(Ln)=o(L1)*a1+o(L2)*a2+……+o(Ln-2)*an-2+o(Ln-1)
其中,a1,a2,……,an-2的取值范围为[0,1]的实数,包括边界。
当a1,a2,……,an-2中任一取边界值0时,表明该权重对应的特征学习层未对后续特征学习层产生影响,在这种情况下,后续各特征学习层的输入由部分前序所述特征学习层的输出确定。应当理解,后续各特征学习层的输入不必然包含所有前序特征学习层的输出。
当a1,a2,……,an-2中所有权重均取边界值0时,模型就演化为传统的卷积神经网络模型,无法实现本发明实施例所解决的技术问题,也无法得到本发明实施例所达到的有益技术效果。
当a1,a2,……,an-2中任一取边界值1时,表明该权重对应的特征学习层对后续特征学习层产生直接影响。
S4、对各层所述特征学习层的输入依次执行卷积和非线性变换,确定所述特征学习层的输出。
L1的输出数据流可以用如下公式表示:
o(L1)=f(i(L1));
o(L2)=f(i(L2));
以此类推,
o(Ln)=f(i(Ln))。
其中,f()表示依次执行卷积和非线性化操作。
在卷积神经网络模型里面,非线性化操作可以克服线性分类的缺陷,使得模型预测更接近实际场景,经典的非线性操作包括ReLU函数、sigmoid函数、tanh函数等。
实施例二
上述实施例一记载的步骤S201还可以进一步作如下优化,其余步骤保持不变。
S201-1、确定卷积核和滑窗间隔;
对于特定场景或特定领域中的图像特征学习和预测,为提高模型最终的预测精度,根据待学习图像特征的形状属性确定卷积核。可以理解,不同形状的图像特征选用不同的卷积核。比如,军事上经常需要对舰船图像进行识别和预测,或者工业产线经常需要对某种特定形状的机械零件进行训练和预测,针对不同的应用场景,卷积核应当体现出差异性。
进一步地,参见图4,图4(a)显示的是3*3普通(非可变形)卷积核,而图4(b)显示的是3*3可变形卷积核,很明显,图4(b)在图4(a)的基础上,卷积核的每个元素都发生了偏移,从而使得所述偏移之后的卷积核(例如图4(b))可以更好地适应特定的图像特征,比如所要学习的图像特征主要为条形昆虫,那么可变形卷积核的元素可以偏移为类似长条形状,从而使得对于条形昆虫特征的提取效率更高,效果更好。
卷积核采用可变形卷积核,在奇数阶、正方形尺寸的卷积核基础上,保持阶数不变,将卷积核元素作方位偏移,形成偏移矩阵参数。偏移矩阵参数参与所述图像特征学习和训练过程,并被更新优化。
下表展示的是对于同一幅32像素*32像素的灰度图,当所述图像特征学习方法采用3*3尺寸卷积核、3*3可变形尺寸卷积核、5*5尺寸卷积核、5*5可变形尺寸卷积核,且滑窗间隔均为2,分别在CIFAR、ImageNet、SVHN等数据集上训练后预测误差。可以看出,根据待学习图像特征的形状确定的3*3可变形卷积在3个数据集上预测精度远高于3*3普通正方形卷积核,5*5可变形卷积核的预测精度同样高于5*5普通正方形卷积核所述卷积核的预测精度。应当理解,步骤S201-1采用可变形卷积核在特定场景下的预测精度优于普通正方形卷积核预测精度。
卷积核 | CIFAR数据集 | ImageNet数据集 | SVHN数据集 |
3*3普通(卷积核尺寸,下同),2(滑窗间隔,下同) | 13.63% | 9.33% | 6.20% |
3*3可变形,2 | 7.80% | 5.96% | 3.59% |
5*5普通,2 | 11.35% | 7.48% | 3.27% |
5*5可变形,2 | 6.31% | 3.69% | 1.17% |
进一步地,所述可变形卷积是在普通正方形卷积核的基础上将核内若干像素作偏移形成的,因此,偏移操作必定形成偏移矩阵数据。为了进一步提升图像特征学习效果、提升图像预测精度,所述偏移矩阵数据的初始设定值参与所述图像特征学习并可被训练和更新。应当理解,被训练和更新后的偏移矩阵数据比初始值产生更好的预测效果。
实施例三
上述实施例一记载的步骤S201还可以进一步作如下优化,其余步骤保持不变。
S201-2、确定卷积核和滑窗间隔;
实施例一和实施例二中确定滑窗间隔的结果为step=1、2或3,这样的结果并未考虑到图像特征位置因素,因为大多数场景下,图像待学习特征位于图像边缘位置的几率要远低于非边缘区域,因此对图像边缘区域和非边缘区域应当确定出不同的所述滑窗间隔。
根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。比如,在图像边缘区域采用step=3或4,而在非边缘区域采用step=1或2。采用所述学习策略确定不同的滑窗间隔,使得所述图像特征的学习效率明显提升,训练计算量得到大幅降低,而特征学习质量几乎没有下降。
实施例四
将实施例二中所述的可变形卷积核与实施例三中所述的根据学习策略确定所述滑窗间隔同时应用以进一步优化实施例一中的步骤S201。
S201-3、确定卷积核和滑窗间隔;
素数卷积核采用包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新;所述滑窗间隔根据学习策略确定,在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔,从而达到优于实施例二或实施例三单独实施的有益效果。
下表展示的是对于同一幅32像素*32像素的灰度图,当所述图像特征学习方法采用3*3可变形卷积核且根据学习策略确定滑窗间隔,分别在CIFAR、ImageNet、SVHN等数据集上训练后预测误差,与实施例一、二和三的误差对比。很明显,实施例四的预测效果明显优于实施例一、二和三。
卷积核 | CIFAR数据集 | ImageNet数据集 | SVHN数据集 |
3*3普通(卷积核尺寸,下同),2(滑窗间隔,下同) | 13.63% | 9.33% | 6.20% |
3*3可变形,2 | 7.80% | 5.96% | 3.59% |
3*3普通,学习策略确定滑窗间隔 | 11.98% | 9.02% | 5.44% |
3*3可变形,学习策略确定滑窗间隔 | 5.97% | 3.55% | 1.12% |
实施例五
图5所示为本发明实施例的图像特征学习装置的结构框图,所述装置包括:图像接收模块510,特征图获得模块520,数据输入模块530以及数据输出模块540。
其中,图像接收模块510用于接收待特征学习图像;特征图获得模块520用于对所述图像执行卷积以获得特征图;数据输入模块530用于将所述特征图输入到第一层所述特征学习层,且后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定;以及数据输出模块540用于对各层所述特征学习层的输入依次执行卷积和非线性变换以确定所述特征学习层输出。
进一步地,所述特征图获得模块520包括:卷积核确定模块5201,用于确定所述卷积核;滑窗间隔确定模块5202,用于确定所述滑窗间隔;特征图确定模块5203,用于至少基于所述卷积核确定模块和所述滑窗间隔确定模块确定所述特征图。
进一步地,所述卷积核确定模块5201至少根据待学习图像特征的形状确定所述卷积核。
进一步地,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新。
进一步地,所述滑窗间隔确定模块5202根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
进一步地,所述特征图获得模块520将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图。
进一步地,所述数据输入模块530还包括:权重设置模块5301,用于根据各层学习到的图像特征对后续各层特征学习的影响程度设置各层权重;有效输出确定模块5302,用于将所述各层权重对应地赋予前序各层所述特征学习层的输出确定各层有效输出;以及输入融合模块5303,用于将所述各层有效输出执行叠加融合作为下一层所述特征学习层的输入。
进一步地,所述输入融合模块通过加法器执行叠加融合。
实施例六
图6所示为本发明实施例的图像特征学习模型的结构框图,图7所示为本发明实施例的图像特征学习模型的原理示意框图。由对采用所述的图像特征学习方法所确定的最后一层特征学习层输出依次执行至少一组卷积和池化操作所得到图像特征学习模型。
应当理解,实施例一中的所述步骤S1至所述步骤S4(包括每个步骤中的所有子步骤)所形成的图像特征学习方法基础上,将最后一层特征学习层的输出依次连接卷积层和池化层,能够形成图像特征学习模型。所述图像特征学习模块可以用于图像有监督学习,比如图像分类、图像检测等领域。所述连接的卷积层用于提取图像的高阶特征,池化层用于压缩和减少后续神经网络全连接层和输出层的计算量,降低冗余,减少过拟合以最终提升预测效果。
进一步地,图7不仅包括一组所述卷积层和所述池化层的操作,还包括多组所述卷积层和所述池化层的场景,这种设计可以更好地学习图像特征,有助于进一步学习图像高阶特征,预测精度更高。
实施例七
一种计算机存储介质,用于存储计算机可读指令,当所述可读指令由所述计算机执行时,使得所述计算机执行所述图像特征学习方法。本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的实施例仅用于说明本发明的技术思想及特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,不能仅以本实施例来限定本发明的专利范围,即凡依本发明所揭示的精神所作的同等变化或修饰,仍落在本发明的专利范围内。
Claims (10)
1.一种图像特征学习方法,其特征在于,所述方法包括:
接收待特征学习的图像;
对所述图像执行卷积获得特征图;
将所述特征图输入到第一层特征学习层,后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定;
对各层所述特征学习层的输入依次执行卷积和非线性变换,确定所述特征学习层的输出。
2.如权利要求1所述的方法,其特征在于,所述对所述图像执行卷积获得特征图包括:
确定卷积核和滑窗间隔;
至少基于所述卷积核和所述滑窗间隔确定所述特征图,所述特征图包含图像的局部特征。
3.如权利要求2所述的方法,其特征在于,至少根据待学习图像特征的形状确定所述卷积核。
4.如权利要求3所述的方法,其特征在于,所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新。
5.如权利要求2所述的方法,其特征在于,根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
6.如权利要求2所述的方法,其特征在于,所述至少基于所述卷积核和所述滑窗间隔确定所述特征图包括:将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图。
7.如权利要求1所述的方法,其特征在于,所述后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定包括:
根据各层学习到的图像特征对后续各层特征学习的影响程度设置各层权重;
将所述各层权重对应地赋予前序各层所述特征学习层的输出确定各层有效输出;
将所述各层有效输出执行叠加融合作为下一层所述特征学习层的输入。
将所述各层有效输出通过加法器执行叠加融合。
8.一种图像特征学习装置,其特征在于,所述装置包括:
图像接收模块,用于接收待特征学习图像;
特征图获得模块,用于对所述图像执行卷积以获得特征图;
数据输入模块,用于将所述特征图输入到第一层所述特征学习层,且后续各层所述特征学习层的输入至少由部分前序所述特征学习层的输出确定;以及
数据输出模块,用于对各层所述特征学习层的输入依次执行卷积和非线性变换以确定所述特征学习层输出。
所述特征图获得模块包括:
卷积核确定模块,用于确定所述卷积核;
滑窗间隔确定模块,用于确定所述滑窗间隔;
特征图确定模块,用于至少基于所述卷积核确定模块和所述滑窗间隔确定模块确定所述特征图。
所述卷积核确定模块至少根据待学习图像特征的形状确定所述卷积核。
所述卷积核为包括偏移矩阵参数的可变形卷积核,所述偏移矩阵参数参与所述图像特征学习并可被训练和更新。
所述滑窗间隔确定模块根据学习策略确定所述滑窗间隔,所述学习策略包括:在接近图像边缘区域设置较大的卷积核滑窗间隔;在远离图像边缘区域设置较小的卷积核滑窗间隔。
所述特征图获得模块将所述卷积核在所述图像上以所述滑窗间隔为步长执行卷积操作以获得所述特征图。
所述数据输入模块还包括:
权重设置模块,用于根据各层学习到的图像特征对后续各层特征学习的影响程度设置各层权重;
有效输出确定模块,用于将所述各层权重对应地赋予前序各层所述特征学习层的输出确定各层有效输出;以及
输入融合模块,用于将所述各层有效输出执行叠加融合作为下一层所述特征学习层的输入。
所述输入融合模块通过加法器执行叠加融合。
9.一种图像特征学习模型,其特征在于,对采用权利要求1-7任一所述的图像特征学习方法所确定的最后一层特征学习层输出依次执行至少一组卷积和池化操作,得到图像特征学习模型。
10.一种计算机存储介质,用于存储计算机可读指令,当所述可读指令由所述计算机执行时,使得所述计算机执行权利要求1-7任一所述的图像特征学习方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010107596.0A CN111340089A (zh) | 2020-02-21 | 2020-02-21 | 图像特征学习方法、模型、装置和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010107596.0A CN111340089A (zh) | 2020-02-21 | 2020-02-21 | 图像特征学习方法、模型、装置和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111340089A true CN111340089A (zh) | 2020-06-26 |
Family
ID=71185428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010107596.0A Pending CN111340089A (zh) | 2020-02-21 | 2020-02-21 | 图像特征学习方法、模型、装置和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111340089A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591764A (zh) * | 2021-08-09 | 2021-11-02 | 广州博冠信息科技有限公司 | 手势识别方法、装置、存储介质和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951923A (zh) * | 2017-03-21 | 2017-07-14 | 西北工业大学 | 一种基于多视角信息融合的机器人三维形状识别方法 |
CN107977683A (zh) * | 2017-12-20 | 2018-05-01 | 南京大学 | 基于卷积特征提取和机器学习的联合sar目标识别方法 |
CN108710919A (zh) * | 2018-05-25 | 2018-10-26 | 东南大学 | 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法 |
CN109328362A (zh) * | 2016-05-20 | 2019-02-12 | 渊慧科技有限公司 | 渐进式神经网络 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110532417A (zh) * | 2019-09-02 | 2019-12-03 | 河北省科学院应用数学研究所 | 基于深度哈希的图像检索方法、装置及终端设备 |
WO2019240281A1 (ja) * | 2018-06-15 | 2019-12-19 | 日本電信電話株式会社 | 画像特徴学習装置、画像特徴学習方法、画像特徴抽出装置、画像特徴抽出方法、及びプログラム |
CN110717907A (zh) * | 2019-10-06 | 2020-01-21 | 浙江大学 | 一种基于深度学习的手部肿瘤智能检测方法 |
-
2020
- 2020-02-21 CN CN202010107596.0A patent/CN111340089A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109328362A (zh) * | 2016-05-20 | 2019-02-12 | 渊慧科技有限公司 | 渐进式神经网络 |
CN106951923A (zh) * | 2017-03-21 | 2017-07-14 | 西北工业大学 | 一种基于多视角信息融合的机器人三维形状识别方法 |
CN107977683A (zh) * | 2017-12-20 | 2018-05-01 | 南京大学 | 基于卷积特征提取和机器学习的联合sar目标识别方法 |
CN108710919A (zh) * | 2018-05-25 | 2018-10-26 | 东南大学 | 一种基于多尺度特征融合深度学习的裂缝自动化勾画方法 |
WO2019240281A1 (ja) * | 2018-06-15 | 2019-12-19 | 日本電信電話株式会社 | 画像特徴学習装置、画像特徴学習方法、画像特徴抽出装置、画像特徴抽出方法、及びプログラム |
JP2019219712A (ja) * | 2018-06-15 | 2019-12-26 | 日本電信電話株式会社 | 画像特徴学習装置、画像特徴学習方法、画像特徴抽出装置、画像特徴抽出方法、及びプログラム |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110532417A (zh) * | 2019-09-02 | 2019-12-03 | 河北省科学院应用数学研究所 | 基于深度哈希的图像检索方法、装置及终端设备 |
CN110717907A (zh) * | 2019-10-06 | 2020-01-21 | 浙江大学 | 一种基于深度学习的手部肿瘤智能检测方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591764A (zh) * | 2021-08-09 | 2021-11-02 | 广州博冠信息科技有限公司 | 手势识别方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701508B (zh) | 基于多级卷积神经网络的全局‑局部优化模型及显著性检测算法 | |
US9704257B1 (en) | System and method for semantic segmentation using Gaussian random field network | |
CN111681252A (zh) | 一种基于多路径注意力融合的医学图像自动分割方法 | |
CN109858487B (zh) | 基于分水岭算法和图像类别标签的弱监督语义分割方法 | |
CN108960261B (zh) | 一种基于注意力机制的显著物体检测方法 | |
CN110826596A (zh) | 一种基于多尺度可变形卷积的语义分割方法 | |
CN107944545B (zh) | 应用于神经网络的计算方法及计算装置 | |
WO2022217746A1 (zh) | 一种高分辨率高光谱计算成像方法、系统及介质 | |
CN112488025B (zh) | 基于多模态特征融合的双时相遥感影像语义变化检测方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN112949929B (zh) | 一种基于协同嵌入增强题目表示的知识追踪方法及系统 | |
CN108932715B (zh) | 一种基于深度学习的冠状动脉造影图分割的优化方法 | |
CN114359631A (zh) | 基于编码-译码弱监督网络模型的目标分类与定位方法 | |
CN111340088A (zh) | 图像特征训练方法、模型、装置和计算机存储介质 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 | |
CN115240259A (zh) | 一种基于yolo深度网络的课堂环境下人脸检测方法及其检测系统 | |
CN114707641A (zh) | 双视角图神经网络模型的训练方法、装置、设备及介质 | |
US10643092B2 (en) | Segmenting irregular shapes in images using deep region growing with an image pyramid | |
CN111340089A (zh) | 图像特征学习方法、模型、装置和计算机存储介质 | |
CN107729885B (zh) | 一种基于多重残差学习的人脸增强方法 | |
CN110807752B (zh) | 一种基于卷积神经网络的图像注意力机制处理方法 | |
CN112131403A (zh) | 一种动态环境下的知识图谱表示学习方法 | |
US10776923B2 (en) | Segmenting irregular shapes in images using deep region growing | |
CN116704206A (zh) | 图像处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |