CN112883983A - 特征提取方法、装置和电子系统 - Google Patents
特征提取方法、装置和电子系统 Download PDFInfo
- Publication number
- CN112883983A CN112883983A CN202110186623.2A CN202110186623A CN112883983A CN 112883983 A CN112883983 A CN 112883983A CN 202110186623 A CN202110186623 A CN 202110186623A CN 112883983 A CN112883983 A CN 112883983A
- Authority
- CN
- China
- Prior art keywords
- image
- convolution kernel
- image block
- convolution
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 94
- 238000004364 calculation method Methods 0.000 claims abstract description 55
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012545 processing Methods 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000001125 extrusion Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种特征提取方法、装置和电子系统;其中,该方法包括:从目标图像中获取多个图像块;其中,多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;通过特征提取网络提取每个图像块的特征数据;基于每个图像块的特征数据,得到目标图像的图像特征。该方式中,通过设置重叠阈值,可以使图像块之间的重叠程度较低,从而在提取每个图像块的特征数据时,降低了重复计算的计算量,进而降低了特征提取过程中的冗余计算量。进一步地,由于图像块之间的重叠程度降低了,从而可以增大网络可以处理的目标图像的尺寸,大尺寸的图像包含有更多的特征信息,进而提高了获取特征信息的信息量。
Description
技术领域
本发明涉及人工智能技术领域,尤其是涉及一种特征提取方法、装置和电子系统。
背景技术
在计算机视觉任务中,通常需要卷积神经网络提取图像的特征数据。具体的,通过卷积神经网络中的浅层卷积提取图像的细节纹理特征,通过卷积神经网络中重复堆叠的卷积模块提取图像的高层语义特征。相关技术中,浅层卷积在对图像的不同区域进行卷积计算时,不同区域之间的计算数据存在重叠,不仅会引起很多冗余的计算量,还限制了浅层卷积可以处理的图像的尺寸,降低了浅层卷积获取特征信息的信息量。
发明内容
有鉴于此,本发明的目的在于提供一种特征提取方法、装置和电子系统,以降低特征提取过程中的冗余计算量。
第一方面,本发明实施例提供了一种特征提取方法,方法包括:从目标图像中获取多个图像块;其中,多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;通过特征提取网络提取每个图像块的特征数据;基于每个图像块的特征数据,得到目标图像的图像特征。
上述多个图像块中,任意两个图像块在目标图像中的所占区域不重叠。
上述从目标图像中获取多个图像块的步骤,包括:基于预设的卷积核尺寸和扫描步长,对目标图像进行扫描,得到多个图像块;其中,卷积核尺寸和扫描步长相匹配。
上述卷积核的尺寸包括:卷积核的宽度和高度;当对目标图像进行横向扫描时,卷积核的宽度与扫描步长相同;当对目标图像进行纵向扫描时,卷积核的高度与扫描步长相同。
上述从目标图像中获取多个图像块的步骤,包括:基于预设的图像块尺寸,对目标图像进行分割处理,得到多个图像块。
上述特征提取网络包括第一卷积核;上述通过特征提取网络提取每个图像块的特征数据的步骤,包括:通过第一卷积核对每个图像块特征进行卷积计算,得到每个图像块的特征数据。
上述第一卷积核的卷积核参数通过下述方式确定:在特征提取网络的训练阶段,通过多个初始卷积核分别对同一样本图像进行卷积计算,得到每个初始卷积核输出的初始样本特征;对每个初始卷积核输出的初始样本特征进行非线性处理,得到样本图像的最终样本特征,以通过特征提取网络对最终样本特征进行后续训练处理;特征提取网络训练完成后,基于多个初始卷积核的卷积核参数,确定第一卷积核的卷积核参数。
上述基于多个初始卷积核的卷积核参数,确定第一卷积核的卷积核参数的步骤,包括:对多个初始卷积核的卷积核参数进行参数组合处理,得到第一卷积核的卷积核参数。
上述特征提取网络包括多个卷积核;上述通过特征提取网络提取每个图像块的特征,得到每个图像块的特征数据的步骤,包括:针对每个图像块,分别通过每个卷积核对图像块进行卷积计算,得到每个卷积核对应的初始计算结果;对每个卷积核对应的初始计算结果进行非线性处理,得到图像块的特征数据。
上述多个卷积核中,至少一部分卷积核的卷积核尺寸与图像块尺寸相同;至少一部分卷积核的扫描步长与图像块的边长相同。
上述多个卷积核包括第二卷积核、第三卷积核和第四卷积核;其中,第二卷积核用于输出图像块的查询结果;第三卷积核用于输出图像块的键结果;第四卷积核用于输出图像块的值结果;上述对每个卷积核对应的初始计算结果进行非线性处理,得到图像块的特征数据的步骤,包括:对图像块的查询结果和键结果进行逐点叉乘计算,得到第一中间结果;对第一中间结果和值结果进行逐点点乘计算,得到第二中间结果;基于第二中间结果确定图像块的特征数据。
上述基于第二中间结果确定图像块的特征数据的步骤,包括:对第二中间结果进行特征转换处理,得到图像块的特征数据。
第二方面,本发明实施例提供了一种特征提取装置,装置包括:图像块获取模块,用于从目标图像中获取多个图像块;其中,多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;特征提取模块,用于通过特征提取网络提取每个图像块的特征数据;特征输出模块,用于基于每个图像块的特征数据,得到目标图像的图像特征。
第三方面,本发明实施例提供了一种电子系统,电子系统包括:处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述特征提取方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述特征提取方法的步骤。
本发明实施例带来了以下有益效果:
上述特征提取方法、装置和电子系统,从目标图像中获取到的多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;通过特征提取网络提取每个图像块的特征数据;然后基于每个图像块的特征数据,得到目标图像的图像特征。该方式中,通过设置重叠阈值,可以使图像块之间的重叠程度较低,从而在提取每个图像块的特征数据时,降低了重复计算的计算量,进而降低了特征提取过程中的冗余计算量。
进一步地,由于图像块之间的重叠程度降低了,从而可以增大网络可以处理的目标图像的最大尺寸限制,大尺寸的图像包含有更多的特征信息,进而提高了获取特征信息的信息量。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种电子系统的结构示意图;
图2为本发明实施例提供的一种特征提取方法的流程图;
图3为本发明实施例提供的一种获取图像块的方式示意图;
图4为本发明实施例提供的一种特征提取网络的示意图;
图5为本发明实施例提供的另一种特征提取网络的示意图;
图6为本发明实施例提供的一种特征提取装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,特征提取网络通过卷积核扫描目标图像,并进行卷积计算,从而得到图像的细节纹理特征。不同图像区域之间的特征关联,也称为长距离联系;在提取细节纹理特征的过程中,为了获得特征之间的长距离管理,往往需要卷积核具有一定的尺寸,但扫描步长较小,比如,7*7大小的卷积核,扫描步长仅为1;该情况下,扫描到的相邻或相近的图像块之间存在较大程度的重叠区域,针对这些图像块进行卷积计算,重叠区域会被计算多次,产生较多的冗余计算量。在一些特定类型的计算机视觉任务中,例如,离散余弦变换网络(简称DCTNet)、JPEG(Joint Photographic Experts Group,联合图像专家组)编码等,往往不需要获取特征之间的长距离联系,提取浅层的细节纹理特征时无需获取特征之间的长距离联系,反而会增加冗余的计算量。
另外,上述这种小步长的扫描方式,导致输入的图像尺寸不能过大,较小的图像尺寸中包含的特征信息有限,特征提取网络提取到的特征信息的信息量也有限,不利于计算机视觉任务的实现效果和性能。
基于上述,本发明实施例提供的一种特征提取方法、装置和电子系统,该技术可以应用于各类计算机视觉任务中,例如图像的分类任务、目标检测任务等。
实施例一:
首先,参照图1来描述用于实现本发明实施例的特征提取方法、装置和电子系统的示例电子系统100。
如图1所示的一种电子系统的结构示意图,电子系统100包括一个或多个处理设备102、一个或多个存储装置104。可选的,电子系统还可以包括输入装置106、输出装置108,另外可以包括一个或多个图像采集设备110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子系统100的组件和结构只是示例性的,而非限制性的,根据需要,电子系统也可以具有其他组件和结构。
处理设备102可以是服务器,也可以为智能终端,或者是包含中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对电子系统100中的其它组件的数据进行处理,还可以控制电子系统100中的其它组件以执行期望的功能。
存储装置104可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理设备102可以运行程序指令,以实现下文的本发明实施例中(由处理设备实现)的客户端功能以及/或者其它期望的功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据,例如应用程序使用和/或产生的各种数据等。
输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
图像采集设备110可以采集预览视频帧或图片数据(如待检测图像或目标视频帧),并且将采集到的预览视频帧或图像数据存储在存储装置104中以供其它组件使用。
示例性地,用于实现根据本发明实施例的特征提取方法、装置和电子系统的示例电子系统中的各器件可以集成设置,也可以分散设置,诸如将处理设备102、存储装置104、输入装置106和输出装置108集成设置于一体,而将图像采集设备110设置于可以采集到图片的指定位置。当上述电子系统中的各器件集成设置时,该电子系统可以被实现为机器人或服务器,或者还可以被实现为诸如相机、智能手机、平板电脑、计算机、车载终端、摄像机等智能终端。
实施例二:
参见图2所示的一种特征提取方法的流程图,该方法包括如下步骤:
步骤S202,从目标图像中获取多个图像块;其中,多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;
具体可以预先设置图像块的获取规则,如图像块的尺寸、扫描方式等;然后再基于该获取规则从目标图像中获取图像块。例如,可以以随机的方式从目标图像中截取图像块,也可以按照一定的顺序扫描图像,得到图像块。需要说明的是,可以从目标图像中获取多个图像块,然后再针对每个图像块,执行下述步骤S204,即获取每个图像块的特征数据;也可以每获取一个图像块,就执行步骤S204,即提取该图像块的特征数据;然后再获取下一个图像块,再提取该图像块的特征数据,以此类推。
任意两个图像块在目标图像中所占区域的重叠程度,可以先计算两个图像块在目标图像中所占区域的重叠区域,再计算该重叠区域与图像块区域的比例,将该比例确定为重叠程度。另外,也可以计算两个图像块在目标图像中所占区域的交并比,将该交并比确定为重叠程度。上述预设重叠阈值可以根据需求设置。本实施例中,设置重叠阈值的目的是为了降低图像块之间的重叠程度,一种具体的方式中,该重叠阈值可以是零,即多个图像块中,任意两个图像块在目标图像中的所占区域不重叠。
由于每个图像块都需要提取特征数据,因此,两个图像块之间的重叠区域,在提取特征时会被计算两次,如果某一区域存在于多个图像块中,则该区域会被重复计算多次;因此,图像块之间的重叠程度越大,产生的冗余计算量就越多。为了降低冗余计算量,本实施例中设置重叠阈值,并设置任意两个图像块在目标图像中所占区域的重叠程度低于该重叠阈值,当任意两个图像块重叠程度较低时,提取特征数据时,产生的重复计算量就会降低,从而冗余的计算量就会降低。
步骤S204,通过特征提取网络提取每个图像块的特征数据;
特征提取网络中通常包含卷积层,卷积层设置有卷积核。一种方式中,基于卷积核的卷积核尺寸在目标图像上设置滑动窗口,将滑动窗口内的图像区域确定为图像块,每滑动一次,得到一个图像块,然后再基于该卷积核对图像块进行卷积计算,从而得到该图像块的特征数据。另一种方式中,将目标图像划分为多个图像块,然后由上述卷积核一次对每个图像块进行卷积计算,得到每个图像块对应的特征数据。
步骤S206,基于每个图像块的特征数据,得到目标图像的图像特征。
具体地,可以根据每个图像块在目标图像中的所占区域位置,将图像块的特征数据进行拼接处理,直接得到目标图像的图像特征。或者,还可以对每个图像块的特征数据进行再处理,例如,全连接处理、调整尺度、调整通道、其他各类函数计算或向量计算等。上述目标图像的图像特征可以理解为目标图像的浅层特征,该浅层特征中包括目标图像的细节纹理特征。目标特征的图像特征可以基于上述特征提取网络或其他网络的后续处理,得到目标特征的高层次语义特征,进而完成基于目标图像的计算机视觉任务。
上述特征提取方法,从目标图像中获取到的多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;通过特征提取网络提取每个图像块的特征数据;然后基于每个图像块的特征数据,得到目标图像的图像特征。该方式中,通过设置重叠阈值,可以使图像块之间的重叠程度较低,从而在提取每个图像块的特征数据时,降低了重复计算的计算量,进而降低了特征提取过程中的冗余计算量。
进一步地,由于图像块之间的重叠程度降低了,从而可以增大网络可以处理的目标图像的最大尺寸限制,大尺寸的图像包含有更多的特征信息,进而提高了获取特征信息的信息量。
为了进一步降低特征提取过程中的冗余计算量,上述从目标图像中获取到的多个图像块中,任意两个图像块在目标图像中的所占区域不重叠。由于图像块之间不存在重叠区域,在特征提取过程中就不存在冗余计算量,使得特征提取的过程更加高效。
为了使图像块在目标图像中的所占区域不重叠,一种具体的实现方式中,在获取图像块时,基于预设的卷积核尺寸和扫描步长,对目标图像进行扫描,得到多个图像块;其中,卷积核尺寸和扫描步长相匹配。在对目标图像进行扫描时,可以生成一个与卷积核尺寸相匹配的滑动窗口,该滑动窗口在目标图像上滑动,每滑动一次,该滑动窗口内的图像区域即可作为一个图像块。上述扫描步长为该窗口滑动一次的距离,如果扫描步长较小,则相邻的两个或多个图像块会部分重叠;为了避免该情况,本实施例设置卷积核尺寸和扫描步长相匹配,使得相邻的图像块之间不重叠。
为了使卷积核尺寸和扫描步长相匹配,需要考虑扫描方向,具体地,卷积核的尺寸包括:卷积核的宽度和高度;当对目标图像进行横向扫描时,卷积核的宽度与扫描步长相同;假设卷积核尺寸为(D,P),其中,D代表卷积核的高度,P代表卷积核的宽度;对目标图像进行横向扫描时,扫描步长也是P;首先,针对目标图像的前D行像素,以扫描步长为P进行横向扫描,得到多个图像块;然后再针对目标图像的第D+1至2D行像素,以扫描步长为P进行扫描,得到多个图像块,依次类推,直至所有行的像素都扫描完毕。由于扫描步长与卷积核宽度相同,图像块之间不重叠。
另外,当对目标图像进行纵向扫描时,卷积核的高度与扫描步长相同。假设卷积核尺寸为(P,D),其中,P代表卷积核的高度,D代表卷积核的宽度;对目标图像进行纵向扫描时,扫描步长也是P;首先,针对目标图像的前D列像素,以扫描步长为P进行纵向扫描,得到多个图像块;然后再针对目标图像的第D+1至2D列像素,以扫描步长为P进行扫描,得到多个图像块,依次类推,直至所有列的像素都扫描完毕。由于扫描步长与卷积核高度相同,图像块之间不重叠。
需要说明的是,卷积核的高度和宽度可以相同,此时,卷积核的尺寸可以表示为(P,P),同时,扫描步长也是P。
为了使图像块在目标图像中的所占区域不重叠,另一种具体的实现方式中,基于预设的图像块尺寸,对目标图像进行分割处理,得到多个图像块。该方式无需通过卷积核形成的滑动窗口扫描目标图像,直接基于图像块尺寸对目标图像进行分割处理,分割得到的图像块之间不存在重叠区域。
为了更好地理解本实施例,图3示出了相关技术中获取图像块的方式以及本实施例中获取图像块的方式;如图3左侧图所示,作为示例,相关技术中的滑动窗口在横向滑动时,滑动步长短于滑动窗口的宽度,因而获取到的图像块是相互重叠的,图像块再输入至卷积网络进行计算;如图3右侧图所示,作为示例,在横向扫描时,本实施例由于卷积核的宽度与扫描步长相匹配,因而获取到的图像块相互不重叠,图像块再输入图像块处理网络进行处理,该图像块处理网络可以包含卷积网络,也可以包含其他非线性运算;或者直接将目标图像进行分割,得到彼此不重叠的图像块。
本实施例中卷积核的扫描步长较大,获取到的图像块之间不重叠,因而可以处理更大尺寸的图像,这种大尺寸图像和大扫描步长的方式,对于目标检测任务等特定任务类型更加适合,比如目标检测任务中包含物体定位的子任务,需要输入图像具有大尺寸才可以保留更多的空间信息,满足空间分辨率的需求,从而提高任务处理的效果和性能。
下面具体说明提取图像块的特征数据的方式。一种具体的实现方式中,上述特征提取网络包括第一卷积核;通过该第一卷积核对每个图像块特征进行卷积计算,得到每个图像块的特征数据。该特征提取网络由一层卷积层组成,该卷积层通过上述第一卷积核对图像块进行卷积计算;经过训练,该卷积层也可以称为过参卷积模块,用于丰富参数的数量;当然,该卷积层也可以实现其他功能。
上述第一卷积核的卷积核参数需要在特征提取网络的训练过程中确定,具体的,在特征提取网络的训练阶段,通过多个初始卷积核分别对同一样本图像进行卷积计算,得到每个初始卷积核输出的初始样本特征;对每个初始卷积核输出的初始样本特征进行非线性处理,得到样本图像的最终样本特征,以通过特征提取网络对最终样本特征进行后续训练处理;
上述多个初始卷积核的尺寸彼此之间通常不同,图4作为一个示例,特征提取网络中包括三个初始卷积核,K代表卷积核尺寸,三个初始卷积核的尺寸分别为D*P、P*P和P*D,D与P的取值通常不同,其中,D*P对应的卷积核可以用于对图像块进行横向扫描,P*D对应的卷积核可以用于对图像块进行纵向扫描,P*P对应的卷积核可以用于对图像块进行横向或纵向扫描。通过三个初始卷积核对同一样本图像块分别进行扫描和卷积计算,得到每个初始卷积核输出的初始样本特征;然后对多个初始样本特征进行逐点相加处理,得到样本图像的最终样本特征。
上述实施方式中,除了逐点相加处理,还可以根据任务需求设置其他的非线性处理方式,如逐点相乘,点乘、叉乘等,或者也可以设置多种非线性处理方式的组合。通过增加非线性计算,可以使提取的特征增加更多的非线性特征,从而可以抽取到更好更有利于任务实现效果的特征。
上述图4中,B代表同时输入至特征提取网络的样本图像的数量,W代表样本图像的宽度,H代表样本图像的高度,样本图像的通道数是3通道。样本图像的最终样本特征的数量是B,样本特征的宽度是W/P,高度是H/P,通道数是C;样本特征的通道数C通常大于3通道。
上述特征提取网络在训练过程中,多个初始卷积核的卷积核参数在不断变化,上述特征提取网络训练完成后,基于多个初始卷积核的卷积核参数,确定第一卷积核的卷积核参数。将多个初始卷积核转化成一个卷积核,即第一卷积核,不会带来额外的计算开销,同时,由于多个初始卷积核在训练过程中基于引入非线性的特征进行训练,该第一卷积核的卷积核参数具有更好的提取特征的能力。
具体的,对多个初始卷积核的卷积核参数进行参数组合处理,得到第一卷积核的卷积核参数。参数组合具体可以有多种组合方式,例如对多个初始卷积核的卷积核参数求平均,求加权平均等。
另一种具体的实现方式中,上述特征提取网络包括多个卷积核;针对每个图像块,分别通过每个卷积核对图像块进行卷积计算,得到每个卷积核对应的初始计算结果;对每个卷积核对应的初始计算结果进行非线性处理,得到图像块的特征数据。在该方式中,特征提取网络在训练和测试过程中卷积核的数量不变,始终是预设数量的多个卷积核。该多个卷积核中,至少一部分卷积核的卷积核尺寸与图像块尺寸相同;至少一部分卷积核的扫描步长与图像块的边长相同。
图5作为一个示例,特征提取网络包括三个卷积核,每个卷积核的卷积核尺寸K均为P*P,其中两个卷积核的扫描步长为P,第三个卷积核的扫描步长为1,当然,第三个卷积核的扫描步长也可以为P。另外,目标图像在输入至特征提取网络之前,已经将目标图像划分为P*P大小的图像块;当卷积核尺寸与图像块尺寸相同时,卷积核一般不会在图像块上产生滑动。如图5中,B代表目标图像的数量、W代表目标图像的宽度,H代表目标图像的高度,目标图像的通道数为3通道;这批目标图像经过变形(Reshape)和转换(Transpose)处理后,得到P*P大小的图像块,图像块的数量为B*W/P*H/P,图像块的通道数也是3通道。
当上述特征提取网络具有自注意力模块的功能时,上述多个卷积核具体包括第二卷积核、第三卷积核和第四卷积核;其中,第二卷积核用于输出图像块的查询结果,也称为Query;第三卷积核用于输出图像块的键结果,也称为Key;第四卷积核用于输出图像块的值结果,也称为Value;然后,对图像块的查询结果和键结果进行逐点叉乘计算,得到第一中间结果;为了便于实现逐点叉乘计算,查询结果和键结果通常需要先进行变形处理,以使二者的尺度相匹配;然后对第一中间结果和值结果进行逐点点乘计算,得到第二中间结果;为了便于实现逐点点乘计算,值结果通常需要先进行变形处理,以使二者的尺度匹配。基于第二中间结果确定图像块的特征数据。
如图5中,具体还需要对第二中间结果进行特征转换处理,得到图像块的特征数据。该特征转换处理可以通过一卷积层实现,该卷积层中的卷积核的尺寸K可以为1*1,扫描步长可以为1,当然也可以设置其他卷积核参数。上述特征转换处理后,得到的图像块的特征数据的数量为B*W/P*H/P,特征数据的宽度为1,高度为1,通道数为C;经过挤压(Squeeze)处理后,最终输出的特征数据的数量为B,宽度为W/P,高度为H/P,通道数为C。
上述实施例中的特征提取网络,在对图像块进行卷积计算后,再对卷积计算结果进行非线性计算处理,相对于相关技术中仅对图像进行卷积计算的方式,本实施例可以使特征提取网络提取到的特征更加丰富、更加高效。
对应于上述方法实施例,参见图6所示的一种特征提取装置的结构示意图,该装置包括:
图像块获取模块60,用于从目标图像中获取多个图像块;其中,多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;
特征提取模块62,用于通过特征提取网络提取每个图像块的特征数据;
特征输出模块64,用于基于每个图像块的特征数据,得到目标图像的图像特征。
上述特征提取装置,从目标图像中获取到的多个图像块中,任意两个图像块在目标图像中所占区域的重叠程度低于预设重叠阈值;通过特征提取网络提取每个图像块的特征数据;然后基于每个图像块的特征数据,得到目标图像的图像特征。该方式中,通过设置重叠阈值,可以使图像块之间的重叠程度较低,从而在提取每个图像块的特征数据时,降低了重复计算的计算量,进而降低了特征提取过程中的冗余计算量。
进一步地,由于图像块之间的重叠程度降低了,从而可以增大模型可以处理的目标图像的最大尺寸限制,大尺寸的图像包含有更多的特征信息,进而提高了获取特征信息的信息量。
上述多个图像块中,任意两个图像块在目标图像中的所占区域不重叠。
上述基于预设的卷积核尺寸和扫描步长,对目标图像进行扫描,得到多个图像块;其中,卷积核尺寸和扫描步长相匹配。
所述卷积核的尺寸包括:卷积核的宽度和高度;当对目标图像进行横向扫描时,卷积核的宽度与扫描步长相同;当对目标图像进行纵向扫描时,卷积核的高度与扫描步长相同。
上述图像块获取模块还用于:基于预设的图像块尺寸,对目标图像进行分割处理,得到多个图像块。
上述特征提取网络包括第一卷积核;上述特征提取模块,还用于:通过第一卷积核对每个图像块特征进行卷积计算,得到每个图像块的特征数据。
上述装置还包括参数确定模块,用于通过下述方式确定第一卷积核的卷积核参数:在特征提取网络的训练阶段,通过多个初始卷积核分别对同一样本图像进行卷积计算,得到每个初始卷积核输出的初始样本特征;对每个初始卷积核输出的初始样本特征进行非线性处理,得到样本图像的最终样本特征,以通过特征提取网络对最终样本特征进行后续训练处理;特征提取网络训练完成后,基于多个初始卷积核的卷积核参数,确定第一卷积核的卷积核参数。
上述参数确定模块,还用于:对多个初始卷积核的卷积核参数进行参数组合处理,得到第一卷积核的卷积核参数。
上述特征提取网络包括多个卷积核;上述特征提取模块还用于:针对每个图像块,分别通过每个卷积核对图像块进行卷积计算,得到每个卷积核对应的初始计算结果;对每个卷积核对应的初始计算结果进行非线性处理,得到图像块的特征数据。
上述多个卷积核中,至少一部分卷积核的卷积核尺寸与图像块尺寸相同;至少一部分卷积核的扫描步长与图像块的边长相同。
上述多个卷积核包括第二卷积核、第三卷积核和第四卷积核;其中,第二卷积核用于输出图像块的查询结果;第三卷积核用于输出图像块的键结果;第四卷积核用于输出图像块的值结果;上述特征提取模块还用于:对图像块的查询结果和键结果进行逐点叉乘计算,得到第一中间结果;对第一中间结果和值结果进行逐点点乘计算,得到第二中间结果;基于第二中间结果确定图像块的特征数据。
上述特征提取模块还用于:对第二中间结果进行特征转换处理,得到图像块的特征数据。
本实施例还提供一种电子系统,电子系统包括:处理设备和存储装置;存储装置上存储有计算机程序,计算机程序在被处理设备运行时执行如上述特征提取方法。
本实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行如上述特征提取方法的步骤。
本发明实施例所提供的特征提取方法、装置和电子系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (15)
1.一种特征提取方法,其特征在于,所述方法包括:
从目标图像中获取多个图像块;其中,所述多个图像块中,任意两个图像块在所述目标图像中所占区域的重叠程度低于预设重叠阈值;
通过特征提取网络提取每个所述图像块的特征数据;
基于每个所述图像块的特征数据,得到所述目标图像的图像特征。
2.根据权利要求1所述的方法,其特征在于,所述多个图像块中,任意两个图像块在所述目标图像中的所占区域不重叠。
3.根据权利要求1所述的方法,其特征在于,从目标图像中获取多个图像块的步骤,包括:
基于预设的卷积核尺寸和扫描步长,对所述目标图像进行扫描,得到多个图像块;其中,所述卷积核尺寸和所述扫描步长相匹配。
4.根据权利要求3所述的方法,其特征在于,所述卷积核的尺寸包括:卷积核的宽度和高度;
当对所述目标图像进行横向扫描时,所述卷积核的宽度与所述扫描步长相同;当对所述目标图像进行纵向扫描时,所述卷积核的高度与所述扫描步长相同。
5.根据权利要求1所述的方法,其特征在于,从目标图像中获取多个图像块的步骤,包括:基于预设的图像块尺寸,对所述目标图像进行分割处理,得到所述多个图像块。
6.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括第一卷积核;
所述通过特征提取网络提取每个所述图像块的特征数据的步骤,包括:通过所述第一卷积核对每个所述图像块特征进行卷积计算,得到每个所述图像块的特征数据。
7.根据权利要求6所述的方法,其特征在于,所述第一卷积核的卷积核参数通过下述方式确定:
在所述特征提取网络的训练阶段,通过多个初始卷积核分别对同一样本图像进行卷积计算,得到每个所述初始卷积核输出的初始样本特征;
对每个所述初始卷积核输出的初始样本特征进行非线性处理,得到所述样本图像的最终样本特征,以通过所述特征提取网络对所述最终样本特征进行后续训练处理;
所述特征提取网络训练完成后,基于所述多个初始卷积核的卷积核参数,确定所述第一卷积核的卷积核参数。
8.根据权利要求7所述的方法,其特征在于,基于所述多个初始卷积核的卷积核参数,确定所述第一卷积核的卷积核参数的步骤,包括:
对所述多个初始卷积核的卷积核参数进行参数组合处理,得到所述第一卷积核的卷积核参数。
9.根据权利要求1所述的方法,其特征在于,所述特征提取网络包括多个卷积核;
所述通过特征提取网络提取每个所述图像块的特征,得到每个所述图像块的特征数据的步骤,包括:
针对每个所述图像块,分别通过每个所述卷积核对所述图像块进行卷积计算,得到每个所述卷积核对应的初始计算结果;
对每个所述卷积核对应的初始计算结果进行非线性处理,得到所述图像块的特征数据。
10.根据权利要求9所述的方法,其特征在于,所述多个卷积核中,至少一部分卷积核的卷积核尺寸与所述图像块尺寸相同;所述至少一部分卷积核的扫描步长与所述图像块的边长相同。
11.根据权利要求9所述的方法,其特征在于,所述多个卷积核包括第二卷积核、第三卷积核和第四卷积核;其中,所述第二卷积核用于输出所述图像块的查询结果;所述第三卷积核用于输出所述图像块的键结果;所述第四卷积核用于输出所述图像块的值结果;
所述对每个所述卷积核对应的初始计算结果进行非线性处理,得到所述图像块的特征数据的步骤,包括:
对所述图像块的查询结果和所述键结果进行逐点叉乘计算,得到第一中间结果;对所述第一中间结果和所述值结果进行逐点点乘计算,得到第二中间结果;
基于所述第二中间结果确定所述图像块的特征数据。
12.根据权利要求11所述的方法,其特征在于,基于所述第二中间结果确定所述图像块的特征数据的步骤,包括:
对所述第二中间结果进行特征转换处理,得到所述图像块的特征数据。
13.一种特征提取装置,其特征在于,所述装置包括:
图像块获取模块,用于从目标图像中获取多个图像块;其中,所述多个图像块中,任意两个图像块在所述目标图像中所占区域的重叠程度低于预设重叠阈值;
特征提取模块,用于通过特征提取网络提取每个所述图像块的特征数据;
特征输出模块,用于基于每个所述图像块的特征数据,得到所述目标图像的图像特征。
14.一种电子系统,其特征在于,所述电子系统包括:处理设备和存储装置;
所述存储装置上存储有计算机程序,所述计算机程序在被所述处理设备运行时执行如权利要求1至12任一项所述的特征提取方法。
15.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理设备运行时执行如权利要求1至12任一项所述的特征提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110186623.2A CN112883983B (zh) | 2021-02-09 | 2021-02-09 | 特征提取方法、装置和电子系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110186623.2A CN112883983B (zh) | 2021-02-09 | 2021-02-09 | 特征提取方法、装置和电子系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112883983A true CN112883983A (zh) | 2021-06-01 |
CN112883983B CN112883983B (zh) | 2024-06-14 |
Family
ID=76056486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110186623.2A Active CN112883983B (zh) | 2021-02-09 | 2021-02-09 | 特征提取方法、装置和电子系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112883983B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724157A (zh) * | 2021-08-11 | 2021-11-30 | 浙江大华技术股份有限公司 | 图像分块方法、图像处理方法、电子设备及存储介质 |
CN116091486A (zh) * | 2023-03-01 | 2023-05-09 | 合肥联宝信息技术有限公司 | 表面缺陷检测方法、装置、电子设备及存储介质 |
CN117576425A (zh) * | 2024-01-17 | 2024-02-20 | 南京掌控网络科技有限公司 | 一种窜拍图像检测的方法和系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493343A (zh) * | 2018-12-29 | 2019-03-19 | 上海鹰瞳医疗科技有限公司 | 医疗图像异常区域分割方法及设备 |
CN109684901A (zh) * | 2017-10-19 | 2019-04-26 | 富士通株式会社 | 图像处理装置和图像处理方法 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
US20190340783A1 (en) * | 2018-09-11 | 2019-11-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Autonomous Vehicle Based Position Detection Method and Apparatus, Device and Medium |
CN110598717A (zh) * | 2019-09-12 | 2019-12-20 | 北京迈格威科技有限公司 | 图像特征的提取方法、装置及电子设备 |
AU2020100274A4 (en) * | 2020-02-25 | 2020-03-26 | Huang, Shuying DR | A Multi-Scale Feature Fusion Network based on GANs for Haze Removal |
CN111445420A (zh) * | 2020-04-09 | 2020-07-24 | 北京爱芯科技有限公司 | 卷积神经网络的图像运算方法、装置和电子设备 |
CN111639701A (zh) * | 2020-05-28 | 2020-09-08 | 山东云海国创云计算装备产业创新中心有限公司 | 一种图像特征提取的方法、系统、设备及可读存储介质 |
CN111932544A (zh) * | 2020-10-19 | 2020-11-13 | 鹏城实验室 | 篡改图像检测方法、装置及计算机可读存储介质 |
CN112102164A (zh) * | 2020-08-11 | 2020-12-18 | 深圳云天励飞技术股份有限公司 | 一种图像处理方法、装置、终端及存储介质 |
WO2021003938A1 (zh) * | 2019-07-05 | 2021-01-14 | 平安科技(深圳)有限公司 | 图像分类方法、装置、计算机设备和存储介质 |
-
2021
- 2021-02-09 CN CN202110186623.2A patent/CN112883983B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684901A (zh) * | 2017-10-19 | 2019-04-26 | 富士通株式会社 | 图像处理装置和图像处理方法 |
US20190340783A1 (en) * | 2018-09-11 | 2019-11-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | Autonomous Vehicle Based Position Detection Method and Apparatus, Device and Medium |
CN109493343A (zh) * | 2018-12-29 | 2019-03-19 | 上海鹰瞳医疗科技有限公司 | 医疗图像异常区域分割方法及设备 |
CN110175580A (zh) * | 2019-05-29 | 2019-08-27 | 复旦大学 | 一种基于时序因果卷积网络的视频行为识别方法 |
WO2021003938A1 (zh) * | 2019-07-05 | 2021-01-14 | 平安科技(深圳)有限公司 | 图像分类方法、装置、计算机设备和存储介质 |
CN110598717A (zh) * | 2019-09-12 | 2019-12-20 | 北京迈格威科技有限公司 | 图像特征的提取方法、装置及电子设备 |
AU2020100274A4 (en) * | 2020-02-25 | 2020-03-26 | Huang, Shuying DR | A Multi-Scale Feature Fusion Network based on GANs for Haze Removal |
CN111445420A (zh) * | 2020-04-09 | 2020-07-24 | 北京爱芯科技有限公司 | 卷积神经网络的图像运算方法、装置和电子设备 |
CN111639701A (zh) * | 2020-05-28 | 2020-09-08 | 山东云海国创云计算装备产业创新中心有限公司 | 一种图像特征提取的方法、系统、设备及可读存储介质 |
CN112102164A (zh) * | 2020-08-11 | 2020-12-18 | 深圳云天励飞技术股份有限公司 | 一种图像处理方法、装置、终端及存储介质 |
CN111932544A (zh) * | 2020-10-19 | 2020-11-13 | 鹏城实验室 | 篡改图像检测方法、装置及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
TAHIR, MA ET AL.: "Efficient use of multipliers in microprocessor implementation of hamming distance for binary sequence correlation", 《 2004 INTERNATIONAL NETWORKING AND COMMUNICATIONS CONFERENCE》, pages 132 - 135 * |
童小彬 等,: "基于HOG特征描述的轮廓匹配算法", 《东华大学学报(自然科学版)》, vol. 46, no. 5, pages 787 - 792 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113724157A (zh) * | 2021-08-11 | 2021-11-30 | 浙江大华技术股份有限公司 | 图像分块方法、图像处理方法、电子设备及存储介质 |
CN116091486A (zh) * | 2023-03-01 | 2023-05-09 | 合肥联宝信息技术有限公司 | 表面缺陷检测方法、装置、电子设备及存储介质 |
CN116091486B (zh) * | 2023-03-01 | 2024-02-06 | 合肥联宝信息技术有限公司 | 表面缺陷检测方法、装置、电子设备及存储介质 |
CN117576425A (zh) * | 2024-01-17 | 2024-02-20 | 南京掌控网络科技有限公司 | 一种窜拍图像检测的方法和系统 |
CN117576425B (zh) * | 2024-01-17 | 2024-04-16 | 南京掌控网络科技有限公司 | 一种窜拍图像检测的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112883983B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110473137B (zh) | 图像处理方法和装置 | |
CN109753903B (zh) | 一种基于深度学习的无人机检测方法 | |
CN109146892B (zh) | 一种基于美学的图像裁剪方法及装置 | |
CN110222598B (zh) | 一种视频行为识别方法、装置、存储介质和服务器 | |
CN109523470B (zh) | 一种深度图像超分辨率重建方法及系统 | |
US11790499B2 (en) | Certificate image extraction method and terminal device | |
US20110211233A1 (en) | Image processing device, image processing method and computer program | |
CN111476737A (zh) | 一种图像处理方法、智能设备及计算机可读存储介质 | |
CN111968134B (zh) | 目标分割方法、装置、计算机可读存储介质及计算机设备 | |
CN111260037B (zh) | 图像数据的卷积运算方法、装置、电子设备及存储介质 | |
CN112883983B (zh) | 特征提取方法、装置和电子系统 | |
CN111753782A (zh) | 一种基于双流网络的假脸检测方法、装置及电子设备 | |
CN111681165A (zh) | 图像处理方法、装置、计算机设备和计算机可读存储介质 | |
CN113052170A (zh) | 一种无约束场景下的小目标车牌识别方法 | |
CN111179270A (zh) | 基于注意力机制的图像共分割方法和装置 | |
CN110503002B (zh) | 一种人脸检测方法和存储介质 | |
CN114494775A (zh) | 视频切分方法、装置、设备及存储介质 | |
CN116977674A (zh) | 图像匹配方法、相关设备、存储介质及程序产品 | |
CN112036342B (zh) | 单证抓拍方法、设备及计算机存储介质 | |
CN111160240B (zh) | 图像对象的识别处理方法、装置及智能设备、存储介质 | |
CN109871814B (zh) | 年龄的估计方法、装置、电子设备和计算机存储介质 | |
US20230060988A1 (en) | Image processing device and method | |
WO2022252519A1 (zh) | 图像处理方法、装置、终端、介质和程序 | |
CN115860026A (zh) | 条码检测方法、装置、条码检测设备和可读存储介质 | |
CN110874814A (zh) | 一种图像处理方法、图像处理装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |