CN114972775A - 特征处理方法、装置、产品、介质及设备 - Google Patents
特征处理方法、装置、产品、介质及设备 Download PDFInfo
- Publication number
- CN114972775A CN114972775A CN202210635593.3A CN202210635593A CN114972775A CN 114972775 A CN114972775 A CN 114972775A CN 202210635593 A CN202210635593 A CN 202210635593A CN 114972775 A CN114972775 A CN 114972775A
- Authority
- CN
- China
- Prior art keywords
- feature
- global
- local
- network
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种特征处理方法、特征处理装置、计算机程序产品、计算机可读存储介质及电子设备,涉及计算机技术领域,该方法包括:获取待分类图像的样本局部特征和样本全局特征;生成对应于样本全局特征的参考全局特征;根据参考全局特征和样本局部特征生成参考局部特征;基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。这样可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种特征处理方法、特征处理装置、计算机程序产品、计算机可读存储介质及电子设备。
背景技术
在图像识别、文字识别等人工智能识别领域,通常需要使用基于Transformer块的网络架构进行特征提取,从而基于提取到的特征对图像/文字进行识别。Transformer块中通常包括多个自注意力计算模块,对于特征的提取,需要花费较长的时间,为了解决这一问题,现有方案通常会采取下采样处理的方式减少自注意力计算量。但是,这种方式在计算过程中会丢失较多的特征信息,进而导致最终的特征提取结果精度较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有方案的信息。
发明内容
本申请的目的在于提供一种特征处理方法、特征处理装置、计算机程序产品、计算机可读存储介质及电子设备,可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提供一种特征处理方法,该方法包括:
获取待分类图像的样本局部特征和样本全局特征;
生成对应于样本全局特征的参考全局特征;
根据参考全局特征和样本局部特征生成参考局部特征;
基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。
在本申请的一种示例性实施例中,生成对应于样本全局特征的参考全局特征,包括:
基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取样本全局特征的第一中间全局特征;
获取样本局部特征对应的局部归一化特征,并将第一中间特征和局部归一化特征输入第二全局多头网络,以使得第二全局多头网络生成第二中间全局特征;
基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为样本全局特征的参考全局特征;
其中,第一全局归一化网络、第二全局归一化网络和第三全局归一化网络对应于不同的网络参数;第一全局多头网络和第二全局多头网络对应于不同的网络参数。
在本申请的一种示例性实施例中,根据参考全局特征和样本局部特征生成参考局部特征,包括:
将局部归一化特征和参考全局特征输入局部多头网络,以使得局部多头网络生成第一中间局部特征;
将第一中间局部特征和局部归一化特征输入局部归一化网络,以使得局部归一化网络生成第二中间局部特征;
触发局部前馈网络基于第二中间局部特征和第一中间局部特征生成参考局部特征。
在本申请的一种示例性实施例中,基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征,包括:
融合参考全局特征和参考局部特征,得到待拆分特征;
将待拆分特征拆分为目标全局特征和目标局部特征;
根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征。
在本申请的一种示例性实施例中,融合参考全局特征和参考局部特征,得到待拆分特征,包括:
融合参考全局特征和参考局部特征,得到第一融合结果;
对第一融合结果进行层归一化处理,得到第二融合结果;
生成与第二融合结果对应的自注意力融合特征;
基于自注意力融合特征和第一融合结果生成待拆分特征。
在本申请的一种示例性实施例中,根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征,包括:
基于全局特征处理网络生成目标全局特征对应的第一待处理特征;
基于局部特征处理网络生成目标局部特征对应的第二待处理特征;
根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征。
在本申请的一种示例性实施例中,全局特征处理网络包括语义归一化网络和语义前馈网络,基于全局特征处理网络生成目标全局特征对应的第一待处理特征,包括:
通过语义归一化网络对目标全局特征进行归一化处理,得到语义归一化结果;
通过语义前馈网络生成语义归一化结果对应的语义综合特征;
融合语义综合特征和目标全局特征,得到目标全局特征对应的第一待处理特征。
在本申请的一种示例性实施例中,局部特征处理网络包括像素归一化网络和像素前馈网络,基于局部特征处理网络生成目标局部特征对应的第二待处理特征,包括:
通过像素归一化网络对目标局部特征进行层归一化处理,得到像素归一化结果;
通过像素前馈网络生成像素归一化结果对应的像素综合特征;
融合像素综合特征和目标局部特征,得到目标局部特征对应的第二待处理特征。
在本申请的一种示例性实施例中,根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征,包括:
对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征。
在本申请的一种示例性实施例中,基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征之后,上述方法还包括:
通过分类指示特征确定待分类图像对应的类别。
根据本申请的一方面,提供一种特征处理装置,包括:
特征获取单元,用于获取待分类图像的样本局部特征和样本全局特征;
特征生成单元,用于生成对应于样本全局特征的参考全局特征;
特征生成单元,还用于根据参考全局特征和样本局部特征生成参考局部特征;
特征确定单元,用于基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。
在本申请的一种示例性实施例中,特征生成单元生成对应于样本全局特征的参考全局特征,包括:
基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取样本全局特征的第一中间全局特征;
获取样本局部特征对应的局部归一化特征,并将第一中间特征和局部归一化特征输入第二全局多头网络,以使得第二全局多头网络生成第二中间全局特征;
基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为样本全局特征的参考全局特征;
其中,第一全局归一化网络、第二全局归一化网络和第三全局归一化网络对应于不同的网络参数;第一全局多头网络和第二全局多头网络对应于不同的网络参数。
在本申请的一种示例性实施例中,特征生成单元根据参考全局特征和样本局部特征生成参考局部特征,包括:
将局部归一化特征和参考全局特征输入局部多头网络,以使得局部多头网络生成第一中间局部特征;
将第一中间局部特征和局部归一化特征输入局部归一化网络,以使得局部归一化网络生成第二中间局部特征;
触发局部前馈网络基于第二中间局部特征和第一中间局部特征生成参考局部特征。
在本申请的一种示例性实施例中,特征确定单元基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征,包括:
融合参考全局特征和参考局部特征,得到待拆分特征;
将待拆分特征拆分为目标全局特征和目标局部特征;
根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征。
在本申请的一种示例性实施例中,特征确定单元融合参考全局特征和参考局部特征,得到待拆分特征,包括:
融合参考全局特征和参考局部特征,得到第一融合结果;
对第一融合结果进行层归一化处理,得到第二融合结果;
生成与第二融合结果对应的自注意力融合特征;
基于自注意力融合特征和第一融合结果生成待拆分特征。
在本申请的一种示例性实施例中,特征确定单元根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征,包括:
基于全局特征处理网络生成目标全局特征对应的第一待处理特征;
基于局部特征处理网络生成目标局部特征对应的第二待处理特征;
根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征。
在本申请的一种示例性实施例中,全局特征处理网络包括语义归一化网络和语义前馈网络,特征确定单元基于全局特征处理网络生成目标全局特征对应的第一待处理特征,包括:
通过语义归一化网络对目标全局特征进行归一化处理,得到语义归一化结果;
通过语义前馈网络生成语义归一化结果对应的语义综合特征;
融合语义综合特征和目标全局特征,得到目标全局特征对应的第一待处理特征。
在本申请的一种示例性实施例中,局部特征处理网络包括像素归一化网络和像素前馈网络,特征确定单元基于局部特征处理网络生成目标局部特征对应的第二待处理特征,包括:
通过像素归一化网络对目标局部特征进行层归一化处理,得到像素归一化结果;
通过像素前馈网络生成像素归一化结果对应的像素综合特征;
融合像素综合特征和目标局部特征,得到目标局部特征对应的第二待处理特征。
在本申请的一种示例性实施例中,特征确定单元根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征,包括:
对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征。
在本申请的一种示例性实施例中,上述装置包括:
类别确定单元,用于在特征确定单元基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征之后,通过分类指示特征确定待分类图像对应的类别。
根据本申请的一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。
根据本申请的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的方法。
根据本申请的一方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的方法。
本申请示例性实施例可以具有以下部分或全部有益效果:
在本申请的一示例实施方式所提供的特征处理方法中,可以获取待分类图像的样本局部特征和样本全局特征;生成对应于样本全局特征的参考全局特征;根据参考全局特征和样本局部特征生成参考局部特征;基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。这样可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。此外,基于全局特征提取和局部特征提取,可以有助于减少全局特征提取和局部特征提取分别对应的提取路径上的注意力机制的计算量,从而降低了注意力计算的复杂度。此外,全局特征提取和局部特征提取可以并行执行,以提升整体特征提取的效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的一种特征处理方法及特征处理装置的示例性系统架构的示意图;
图2示意性示出了根据本申请的一个实施例的特征处理方法的流程图;
图3示意性示出了根据本申请的另一个实施例的特征处理方法的流程图;
图4示出了现有方案的特征提取网络结构示意图;
图5示意性示出了一种用于实施本申请的特征处理方法的网络架构图;
图6示意性示出了另一种用于实施本申请的特征处理方法的网络架构图;
图7示意性示出了又一种用于实施本申请的特征处理方法的网络架构图;
图8示意性示出了根据本申请的一个实施例中的特征处理装置的结构框图;
图9示意性示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
请参阅图1,图1示出了可以应用本申请实施例的一种特征处理方法及特征处理装置的示例性应用环境的系统架构的示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。
网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经RAN与一个或多个核心网进行通信。无线终端可以是用户设备(user equipment,UE)、手持终端、笔记本电脑、用户单元(subscriber unit)、蜂窝电话(cellular phone)、智能电话(smart phone)、无线数据卡、个人数字助理(personal digital assistant,PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handheld)、膝上型电脑(laptop computer)、无绳电话(cordless phone)或者无线本地环路(wireless local loop,WLL)台、机器类型通信(machine type communication,MTC)终端或是其他可以接入网络的设备。终端与接入网设备之间采用某种空口技术(例如,3GPP接入技术或者非3GPP接入技术)相互通信。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本申请实施例所提供的应用于多节点组网的路径规划方法可以由服务器105执行,相应地,应用于多节点组网的路径规划装置一般设置于服务器105中。但本领域技术人员容易理解的是,本申请实施例所提供的应用于多节点组网的路径规划方法也可以由终端设备101、102或103执行,相应的,应用于多节点组网的路径规划装置也可以设置于终端设备101、102或103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,服务器105可以获取待分类图像的样本局部特征和样本全局特征;生成对应于样本全局特征的参考全局特征;根据参考全局特征和样本局部特征生成参考局部特征;基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。
请参阅图2,图2示意性示出了根据本申请的一个实施例的特征处理方法的流程图。如图2所示,该特征处理方法可以包括:步骤S210~步骤S240。
步骤S210:获取待分类图像的样本局部特征和样本全局特征。
步骤S220:生成对应于样本全局特征的参考全局特征。
步骤S230:根据参考全局特征和样本局部特征生成参考局部特征。
步骤S240:基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在图像特征提取过程中,通常使用基于卷积神经网络(Convolutional NeuralNetwork,CNN)的网络设计和基于Transformer块的网络设计,CNN主要利用堆叠不同的卷积核对图片局部区域进行特征抽取,并且通过金字塔结构下采样的方法在多个阶段中逐步扩大卷积神经网络的感受野,从而实现对图片全局特征的抽取。Transformer主要依赖不同图像块之间的自注意力机制进行特征融合。其中,CNN在特征提取的前期只能提取图片的局部信息,无法直接处理图片的全局信息,Transformer的计算量较大,效率较低。基于CNN和Transformer的结构进行图像特征提取容易丢失特征信息并且效率也比较低。
为了解决这一问题,现有方案使用了用于线性空间缩减注意力的PVT网络,基于PVT网络的下采样处理减少键和值的空间尺度;或者,在PVT网络之前增加局部分组自注意力层,以通过区域内交互进一步增强特征表示。但是,上述方法均需要依赖特征图下采样,还是容易导致网络前期丢失过多的图片全局信息。
基于此,本申请提出,可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。此外,基于全局特征提取和局部特征提取,可以有助于减少全局特征提取和局部特征提取分别对应的提取路径上的注意力机制的计算量,从而降低了注意力计算的复杂度。此外,全局特征提取和局部特征提取可以并行执行,以提升整体特征提取的效率。
在步骤S210中,获取待分类图像的样本局部特征和样本全局特征。
具体地,待分类图像可以是包含商品的图片、包含面部特征的图片、或者包含文本的图片等,本申请实施例不作限定。举例来说,当待分类图像中包含商品时,通过本申请实施例所示的方式提取出的分类指示特征可以用于实现更精准的商品识别,当该方案应用于智能商品分拣时,可以通过精准的商品识别实现精准的商品分拣。
此外,样本局部特征用于表征待分类图像的局部细节;样本全局特征用于表征待分类图像的全局语义。
需要说明的是,可选的,待分类图像可以是原始需要识别的图片,也可以是图片中的某一个图像块,即,在步骤S210之前,可以对图片进行分块,得到多个图像块,针对每个图像块,可以执行本申请实施例的方案,从而得到各个图像块对应的分类指示特征,再融合各个分类指示特征,得到用于表征整个图片的分类指示特征。
在步骤S220中,生成对应于样本全局特征的参考全局特征。
具体地,生成对应于样本全局特征的参考全局特征具体实现为:基于语义级全局特征提取路径生成对应于样本全局特征的参考全局特征;其中,语义级全局特征提取路径包括双流结构块中的语义结构块,双流结构块中还包含了像素结构块,像素结构块属于像素级局部特征提取路径,通过语义级全局特征提取路径和像素级局部特征提取路径分别进行的全局和局部特征提取可以简化各路径的自注意力计算,降低自注意力计算量,提升对于整体图像的特征提取的效率。
此外,参考全局特征与样本全局特征是不同的特征,参考全局特征与样本全局特征可以表征为特征向量也可以表征为特征矩阵。
作为一种可选的实施例,生成对应于样本全局特征的参考全局特征,包括:基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取样本全局特征的第一中间全局特征;获取样本局部特征对应的局部归一化特征,并将第一中间特征和局部归一化特征输入第二全局多头网络,以使得第二全局多头网络生成第二中间全局特征;基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为样本全局特征的参考全局特征;其中,第一全局归一化网络、第二全局归一化网络和第三全局归一化网络对应于不同的网络参数;第一全局多头网络和第二全局多头网络对应于不同的网络参数。这样可以实现基于多个全局归一化网络、全局多头网络、全局前馈网络提取到样本全局特征的参考全局特征,以实现对于样本全局特征的多头注意力计算,从而提升参考全局特征的精度。
其中,基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取样本全局特征的第一中间全局特征,包括:将样本全局特征zl输入语义级全局特征提取路径中的第一全局归一化网络Layer Norm,以使得第一全局归一化网络基于表达式计算对应于样本全局特征zl的特征zl∈Rm*d,l用于表示第l个双流结构块,Rm*d用于表示整个待识别图像对应的语义特征,n用于表示特征序列的长度,d用于表示序列中每个位置对应的词嵌入尺寸;进而,可以将特征分别输入语义级全局特征提取路径中的第一全局多头网络Multi-Head Attention中各头自注意力网络,并将各头注意力网络生成的特征进行融合,得到自注意力特征MHA进而,可以将自注意力特征和样本全局特征zl输入语义级全局特征提取路径中的第二全局归一化网络Layer Norm,以使得第二全局归一化网络基于表达式计算第一中间全局特征zl。其中,语义级全局特征提取路径对应的计算复杂度可以表示为O(nmd+m2d);其中,m是语义标记(如,令牌token)的数量。
基于此,获取样本局部特征对应的局部归一化特征,包括:将样本局部特征xl输入像素级局部特征提取路径中的归一化网络Layer Norm,以使得归一化网络基于表达式计算对应于样本局部特征xl的局部归一化特征
进而,将第一中间特征和局部归一化特征输入第二全局多头网络,以使得第二全局多头网络生成第二中间全局特征,包括:对第一中间全局特征z′l进行归一化处理,得到特征LN(z′l);将特征LN(z′l)和局部归一化特征输入第二全局多头网络Multi-HeadAttention中各头自注意力网络,并将各头注意力网络生成的特征进行融合,得到第二中间全局特征
进而,基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为样本全局特征的参考全局特征,包括:将第二中间全局特征和输入第一中间全局特征z′l第三全局归一化网络Layer Norm,以使得第三全局归一化网络基于表达式计算特征对特征进行归一化处理,得到将输入全局前馈网络Feed Forward,以使得全局前馈网络将处理为将和特征代入表达式以计算出样本全局特征的参考全局特征zl+1。
需要说明的是,上述的LayerNorm用于对隐含层做层归一化,即,对某一层的所有神经元的输入进行归一化。Multi-Head Attention可以理解为多个自注意力(Self-Attention)的组合。
其中,第一全局归一化网络、第二全局归一化网络和第三全局归一化网络对应的网络参数可以包括权重、偏置项等,本申请实施例不作限定,第一全局多头网络和第二全局多头网络对应的网络参数同理。
在步骤S230中,根据参考全局特征和样本局部特征生成参考局部特征。
具体地,参考全局特征和参考局部特征可以理解为用于计算最终的分类指示特征的中间特征。
作为一种可选的实施例,根据参考全局特征和样本局部特征生成参考局部特征,包括:将局部归一化特征和参考全局特征输入局部多头网络,以使得局部多头网络生成第一中间局部特征;将第一中间局部特征和局部归一化特征输入局部归一化网络,以使得局部归一化网络生成第二中间局部特征;触发局部前馈网络基于第二中间局部特征和第一中间局部特征生成参考局部特征。这样可以基于参考全局特征计算出对应于样本局部特征的参考局部特征,通过结合参考全局特征和样本局部特征的特征提取,可以避免全局特征在特征提取过程中被丢失,结合参考全局特征和样本局部特征也可以计算出精度较高的参考局部特征,同时可以降低精细的局部特征的提取难度。
其中,将局部归一化特征和参考全局特征输入局部多头网络,以使得局部多头网络生成第一中间局部特征,包括:基于表达式 对参考全局特征zl+1进行归一化处理,得到特征将特征和局部归一化特征输入局部多头网络Multi-HeadAttention中各头自注意力网络(Self-Attention),并将各头注意力网络生成的特征进行融合,得到第一中间局部特征
基于此,将第一中间局部特征和局部归一化特征输入局部归一化网络,以使得局部归一化网络生成第二中间局部特征,包括:将第一中间局部特征和局部归一化特征xl输入局部归一化网络LayerNorm,以使得局部归一化网络基于表达式生成第二中间局部特征x′l。
进而,触发局部前馈网络基于第二中间局部特征和第一中间局部特征生成参考局部特征,包括:对第二中间局部特征x′l进行归一化处理,得到将输入局部前馈网络Feed Forward,以使得局部前馈网络Feed Forward对进行特征处理,得到将和第二中间局部特征x′l代入表达式以计算出参考局部特征xl+1。
在步骤S240中,基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。
具体地,分类指示特征用于通过向量/矩阵的方式描述待分类图像。
作为一种可选的实施例,基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征,包括:融合参考全局特征和参考局部特征,得到待拆分特征;将待拆分特征拆分为目标全局特征和目标局部特征;根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征。这样可以实现对于参考全局特征和参考局部特征的特征融合,以确定出不缺失特征信息的待拆分特征,进而可以对待拆分特征进行拆分,再基于拆分的结果进行全局和局部的特征处理,从而得到分类指示特征,以保证分类指示特征中包含未被丢失的局部特征和全局特征,提升了分类指示特征的精度。
作为一种可选的实施例,融合参考全局特征和参考局部特征,得到待拆分特征,包括:融合参考全局特征和参考局部特征,得到第一融合结果;对第一融合结果进行层归一化处理,得到第二融合结果;生成与第二融合结果对应的自注意力融合特征;基于自注意力融合特征和第一融合结果生成待拆分特征。这样可以基于层归一化处理、自注意力计算的方式,对参考全局特征和参考局部特征进行融合,以保证融合得到的待拆分特征可以最大程度的还原整个待分类图像的特征信息,从而保证后续特征提取计算的精度,减少失真。
具体地,融合参考全局特征和参考局部特征,得到第一融合结果,包括:将参考全局特征xl+1和参考局部特征zl+1输入融合层Concat,以使得融合层Concat对参考全局特征xl+1和参考局部特征zl+1进行张量连接,得到第一融合结果xl+1||zl+1。
基于此,对第一融合结果进行层归一化处理,得到第二融合结果,包括:将第一融合结果xl+1||zl+1输入归一化网络Layer Norm,以使得归一化网络Layer Norm基于表达式对第一融合结果xl+1||zl+1进行层归一化处理,得到第二融合结果
具体地,生成与第二融合结果对应的自注意力融合特征,包括:将第二融合结果输入多头网络Multi-Head Attention中各头自注意力网络(Self-Attention),并将各头注意力网络生成的特征进行融合,得到自注意力融合特征
具体地,基于自注意力融合特征和第一融合结果生成待拆分特征,包括:将自注意力融合特征和第一融合结果xl+1||zl+1输入拆分层Split,以使得拆分层Split基于表达式 确定待拆分特征(x′l+1,z′l+1)。其中,待拆分特征(x′l,z′l)包括目标全局特征z′l+1和目标局部特征x′l+1。
作为一种可选的实施例,根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征,包括:基于全局特征处理网络生成目标全局特征对应的第一待处理特征;基于局部特征处理网络生成目标局部特征对应的第二待处理特征;根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征。这样可以基于融合后的局部特征处理路径和全局特征处理路径获取到第一待处理特征和第二待处理特征,基于第一待处理特征和第二待处理特征可以确定出用于精准表征待分类图像的分类指示特征。
作为一种可选的实施例,全局特征处理网络包括语义归一化网络和语义前馈网络,基于全局特征处理网络生成目标全局特征对应的第一待处理特征,包括:通过语义归一化网络对目标全局特征进行归一化处理,得到语义归一化结果;通过语义前馈网络生成语义归一化结果对应的语义综合特征;融合语义综合特征和目标全局特征,得到目标全局特征对应的第一待处理特征。这样可以基于语义归一化网络、语义前馈网络处理得到第一待处理特征,可以减少全局特征处理过程中的特征丢失概率。
具体地,通过语义归一化网络对目标全局特征进行归一化处理,得到语义归一化结果,包括:将目标全局特征z′l+1输入语义归一化网络LayerNorm,以使得语义归一化网络Layer Norm对目标全局特征z′l+1进行归一化处理,得到语义归一化结果LN(z′l+1)。
具体地,通过语义前馈网络生成语义归一化结果对应的语义综合特征,包括:将语义归一化结果LN(z′l+1)输入语义前馈网络Feed Forward,以使得语义前馈网络FeedForward生成语义归一化结果LN(z′l+1)对应的语义综合特征FFNZ(LN(z′l+1))。
具体地,融合语义综合特征和目标全局特征,得到目标全局特征对应的第一待处理特征,包括:将语义综合特征FFNZ(LN(z′l+1))和目标全局特征z′l+1代入表达式zl+2=FFNZ(LN(z′l+1))+z′l+1,以计算出目标全局特征对应的第一待处理特征zl+2。
作为一种可选的实施例,局部特征处理网络包括像素归一化网络和像素前馈网络,基于局部特征处理网络生成目标局部特征对应的第二待处理特征,包括:通过像素归一化网络对目标局部特征进行层归一化处理,得到像素归一化结果;通过像素前馈网络生成像素归一化结果对应的像素综合特征;融合像素综合特征和目标局部特征,得到目标局部特征对应的第二待处理特征。这样可以基于像素归一化网络、像素前馈网络处理得到第一待处理特征,可以减少局部特征处理过程中的特征丢失概率。
具体地,通过像素归一化网络对目标局部特征进行层归一化处理,得到像素归一化结果,包括:将目标局部特征x′l+1输入像素归一化网络Layer Norm,以使得像素归一化网络Layer Norm对目标局部特征x′l+1进行归一化处理,得到像素归一化结果LN(x′l+1)。
具体地,通过像素前馈网络生成像素归一化结果对应的像素综合特征,包括:将像素归一化结果LN(x′l+1)输入像素前馈网络Feed Forward,以使得像素前馈网络FeedForward生成像素归一化结果LN(x′l+1)对应的像素综合特征FFNZ(LN(x′l+1))。
具体地,融合像素综合特征和目标局部特征,得到目标局部特征对应的第二待处理特征,包括:将像素综合特征FFN+(LN(x′l+1))和目标局部特征x′l+1代入表达式xl+2=FFN+(LN(x′l+1))+x′l+1,以计算出目标局部特征对应的第二待处理特征xl+2。
作为一种可选的实施例,根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征,包括:对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征。这样可以通过池化处理得到分类指示特征,提升了分类指示特征的计算效率。
具体地,对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征,包括:对第一待处理特征和第二待处理特征进行平均池化处理,得到分类指示特征;或者,对第一待处理特征和第二待处理特征进行最大池化处理,得到分类指示特征。
此外,可选的,在对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征之后,上述方法还可以包括:计算分类指示特征与样本特征之间的损失函数,根据损失函数调整双流结构块的参数。
作为一种可选的实施例,基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征之后,上述方法还包括:通过分类指示特征确定待分类图像对应的类别。这样可以基于用于精准表征待分类图像的分类指示特征确定图像类别,提升了对于图像类别的识别精度。
举例来说,若待分类图像是商品图片,类别可以包括多种(如,生活用品、宠物用品、厨房用品等)待分类图像对应的类别可以属于上述多种类别的其中一种。
其中,通过分类指示特征确定待分类图像对应的类别,包括:通过分类指示特征生成分类序列,分类序列中包括多种概率值,每个概率值对应于一种类别,每个概率值用于表征待分类图像属于该类别的概率;将分类序列中最大的概率值对应的类别确定为待分类图像对应的类别。
请参阅图3,图3示意性示出了根据本申请的另一个实施例的特征处理方法的流程图。如图3所示,该特征处理方法可以包括:步骤S310~步骤S334。
步骤S310:获取待分类图像的样本局部特征和样本全局特征。
步骤S312:基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取样本全局特征的第一中间全局特征。
步骤S314:获取样本局部特征对应的局部归一化特征,并将第一中间特征和局部归一化特征输入第二全局多头网络,以使得第二全局多头网络生成第二中间全局特征。
步骤S316:基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为样本全局特征的参考全局特征。
步骤S318:将局部归一化特征和参考全局特征输入局部多头网络,以使得局部多头网络生成第一中间局部特征。
步骤S320:将第一中间局部特征和局部归一化特征输入局部归一化网络,以使得局部归一化网络生成第二中间局部特征。
步骤S322:触发局部前馈网络基于第二中间局部特征和第一中间局部特征生成参考局部特征。
步骤S324:融合参考全局特征和参考局部特征,得到第一融合结果,并对第一融合结果进行层归一化处理,得到第二融合结果,进而生成与第二融合结果对应的自注意力融合特征。
步骤S326:基于自注意力融合特征和第一融合结果生成待拆分特征,并将待拆分特征拆分为目标全局特征和目标局部特征。
步骤S328:通过语义归一化网络对目标全局特征进行归一化处理,得到语义归一化结果,并通过语义前馈网络生成语义归一化结果对应的语义综合特征,进而融合语义综合特征和目标全局特征,得到目标全局特征对应的第一待处理特征。
步骤S330:通过像素归一化网络对目标局部特征进行层归一化处理,得到像素归一化结果,并通过像素前馈网络生成像素归一化结果对应的像素综合特征,进而融合像素综合特征和目标局部特征,得到目标局部特征对应的第二待处理特征。
步骤S332:对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征。
步骤S334:通过分类指示特征确定待分类图像对应的类别。
需要说明的是,步骤S310~步骤S334与图2所示的各步骤及其实施例相对应,针对步骤S310~步骤S334的具体实施方式,请参阅图2所示的各步骤及其实施例,此处不再赘述。
可见,实施图3所示的方法,可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。此外,基于全局特征提取和局部特征提取,可以有助于减少全局特征提取和局部特征提取分别对应的提取路径上的注意力机制的计算量,从而降低了注意力计算的复杂度。此外,全局特征提取和局部特征提取可以并行执行,以提升整体特征提取的效率。
请参阅图4,图4示出了现有方案的特征提取网络结构示意图。如图4所示,现有方案的特征提取网络可以包括:归一化网络Layer Norm410、多头注意力网络Multi-HeadAttention420、归一化网络Layer Norm430、前馈神经网络Feed Forward440。
具体地,如图4的传统的特征提取网络需要获取待分类图像特征,并将待分类图像特征xl输入归一化网络Layer Norm410,以使得归一化网络Layer Norm410基于表达式计算归一化特征进而,将归一化特征输入多头注意力网络Multi-HeadAttention420,多头注意力网络Multi-Head Attention420可以计算出对应的多头自注意力特征其中,针对每个可以依据以下表达式计算其自注意力特征,MHA(q,k,v)=Concat(head1,……,headh)Wo, h、W、d分别表示待分类图像特征的高、宽、通道数;v是表示输入待分类图像特征的向量,q,k是计算Attention权重的特征向量;是权重矩阵,dh是每个头的维度;进而基于归一化网络Layer Norm430生成x′l对应的归一化特征LN(x′l),并基于前馈神经网络Feed Forward440计算LN(x′l)对应的前馈特征FFN(LN(x′l));进而,可以将FFN(LN(x′l))和待分类图像特征xl输入表达式xl+1=FFN(LN(x′l))+x′l,以确定出类别特征xl+1。
其中,多头注意力网络Multi-Head Attention420对xl的计算复杂度为O(n2d),是图像块特征的数量的二次方。可见,这种设计在处理高分辨率输入时会产生较大的计算量。为了减轻多头注意力网络Multi-Head Attention420的计算量,现有技术扩大了图像块特征池化操作中的下采样范围以产生更少的标记(token),但是,这样容易丢失图像的全局特征。为了解决这一问题,本申请提出了如图5所示的架构。
请参阅图5,图5示意性示出了一种用于实施本申请的特征处理方法的网络架构图。如图5所示,用于实施本申请的特征处理方法的网络架构(Dual-ViT)包括:语义级全局特征提取路径和像素级局部特征提取路径。
其中,语义级全局特征提取路径包括:第一全局归一化网络Layer Norm510、第一全局多头网络Multi-Head Attention511、第二全局归一化网络Layer Norm512、第二全局多头网络Multi-Head Attention513、第三全局归一化网络Layer Norm514、全局前馈网络Feed Forward515。
像素级局部特征提取路径包括:局部归一化网络Layer Norm520、局部多头网络Multi-Head Attention521、局部归一化网络Layer Norm522、局部前馈网络FeedForward523。
具体地,可以获取待分类图像的样本局部特征xl和样本全局特征zl,将样本局部特征xl输入像素级局部特征提取路径,将样本全局特征zl输入语义级全局特征提取路径。
进而,语义级全局特征提取路径中的第一全局归一化网络Layer Norm510用于基于表达式计算对应于样本全局特征zl的特征第一全局多头网络Multi-Head Attention511中各头自注意力网络用于生成各自对应的自注意力特征并融合,得到自注意力特征第二全局归一化网络Layer Norm512用于基于表达式计算第一中间全局特征z′l。进而,可以对第一中间全局特征z′l进行归一化处理,得到特征LN(z′l),将特征LN(z′l)和局部归一化特征输入第二全局多头网络Multi-Head Attention513中各头自注意力网络,并将各头注意力网络生成的特征进行融合,得到第二中间全局特征第三全局归一化网络LayerNorm514用于根据第二中间全局特征和输入第一中间全局特征z′l生成全局前馈网络Feed Forward515用于将处理为进而,可以将和特征代入表达式以计算出样本全局特征的参考全局特征zl+1。
以及,像素级局部特征提取路径可以基于表达式对参考全局特征zl+1进行归一化处理,得到特征并将特征和局部归一化特征输入局部多头网络Multi-Head Attention521中各头自注意力网络(Self-Attention),并将各头注意力网络生成的特征进行融合,得到第一中间局部特征局部归一化网络Layer Norm522用于根据第一中间局部特征和局部归一化特征xl生成第二中间局部特征x′l,对第二中间局部特征x′l进行归一化处理,得到LN(x′l),将LN(x′l)输入局部前馈网络Feed Forward523,局部前馈网络Feed Forward523用于对LN(x′l)进行特征处理,得到FFN(LN(x′l));进而,可以将FFN(LN(x′l))和第二中间局部特征x′l代入表达式xl+1=FFN(LN(x′l))+x′l,以计算出参考局部特征xl+1。
进而,可以将参考全局特征zl+1和参考局部特征xl+1作为下一个网络架构(Dual-ViT)的输入,本申请在实际应用过程中,可以将多个网络架构(Dual-ViT)进行拼接,从而实现对于特征的多次提取,以提升特征的表达能力。可选的,也可以将网络架构(Dual-ViT)与图6所示的特征合并提取路径进行拼接,从而实现对于参考全局特征zl+1和参考局部特征xl+1的融合和新阶段拆分,也可以提升特征的表达能力。
请参阅图6,图6示意性示出了另一种用于实施本申请的特征处理方法的网络架构图。如图6所示,用于实施本申请的特征处理方法的网络架构包括:语义级全局特征提取路径、像素级局部特征提取路径、特征合并提取路径、池化层680。
其中,语义级全局特征提取路径包括:第一全局归一化网络Layer Norm610、第一全局多头网络Multi-Head Attention611、第二全局归一化网络Layer Norm612、第二全局多头网络Multi-Head Attention613、第三全局归一化网络Layer Norm614、全局前馈网络Feed Forward615。
像素级局部特征提取路径包括:局部归一化网络Layer Norm620、局部多头网络Multi-Head Attention621、局部归一化网络Layer Norm622、局部前馈网络FeedForward623。
特征合并提取路径包括:连接层Concat630、归一化网络Layer Norm640、多头注意力网络Multi-Head Attention650、特征拆分层Split660、语义归一化网络Layer Norm671、语义前馈网络Feed Forward672、像素归一化网络Layer Norm681、像素前馈网络FeedForward682。
其中,语义级全局特征提取路径和像素级局部特征提取路径中各网络与图5所示的各网络一致,针对语义级全局特征提取路径和像素级局部特征提取路径中各网络的具体应用方式,请参阅图5的描述,此处不再赘述。
连接层Concat630,用于在接收到参考全局特征zl+1和参考局部特征xl+1之后,对参考全局特征xl+1和参考局部特征zl+1进行张量连接,得到第一融合结果xl+1||zl+1。
多头注意力网络Multi-Head Attention650,用于将第二融合结果输入多头网络Multi-Head Attention中各头自注意力网络(Self-Attention),并将各头注意力网络生成的特征进行融合,得到自注意力融合特征
语义归一化网络Layer Norm671,用于对目标全局特征z′l+1进行归一化处理,得到语义归一化结果LN(z′l+1)。
像素归一化网络Layer Norm681,用于对目标局部特征x′l+1进行归一化处理,得到像素归一化结果LN(x′l+1)。
像素前馈网络Feed Forward682,用于生成像素归一化结果LN(x′l+1)对应的像素综合特征FFNZ(LN(x′l+1))。
进而,特征合并提取路径还可以将像素综合特征FFNX(LN(x′l+1))和目标局部特征x′l+1代入表达式xl+2=FFNX(LN(x′l+1))+x′l+1,以计算出目标局部特征对应的第二待处理特征xl+2。
进而,池化层680可以对第一待处理特征zl+2和第二待处理特征xl+2进行池化处理,得到分类指示特征。
可见,这样可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。此外,基于全局特征提取和局部特征提取,可以有助于减少全局特征提取和局部特征提取分别对应的提取路径上的注意力机制的计算量,从而降低了注意力计算的复杂度。此外,全局特征提取和局部特征提取可以并行执行,以提升整体特征提取的效率。
请参阅图7,图7示意性示出了又一种用于实施本申请的特征处理方法的网络架构图。如图7所示,用于实施本申请的特征处理方法的网络架构包括:像素级局部特征提取路径710、……、像素级局部特征提取路径711、语义级全局特征提取路径720、……、语义级全局特征提取路径721、特征合并提取路径730、……、特征合并提取路径731。其中,各像素级局部特征提取路径、语义级全局特征提取路径、特征合并提取路径用于实施如图5和6所示的各步骤,此处不再赘述。
具体地,在本申请中,可以包括多个阶段,以其中一个阶段为例,可以包括一个/多个像素级局部特征提取路径(也可以理解为网络块),以及,一个/多个语义级全局特征提取路径(也可以理解为网络块);或者,包括一个/多个特征合并提取路径(也可以理解为网络块)。根据待识别图像的尺寸可以自定义各阶段的路径数量。需要说明的是,像素级局部特征提取路径、语义级全局特征提取路径、特征合并提取路径的数量不作限定。
在包含多阶段的网络架构中,不同的路径对应的参数可以是不同的。
举例来说,第一阶段包括像素级局部特征提取路径和语义级全局特征提取路径。第一阶段对应的参数可以包括像素级局部特征提取路径的维度扩张率语义级全局特征提取路径的维度扩张率多头注意力机制中的注意力头数HD1=2、特征通道数C1=64、第一阶段的特征分辨率第一阶段的网络块数量(如,3)。
第二阶段包括像素级局部特征提取路径和语义级全局特征提取路径。第二阶段对应的参数可以包括像素级局部特征提取路径的维度扩张率语义级全局特征提取路径的维度扩张率多头注意力机制中的注意力头数HD2=4、特征通道数C2=128、第二阶段的特征分辨率第二阶段的网络块数量(如,4)。
第三阶段包括特征合并提取路径。第三阶段对应的参数可以包括像素级局部特征提取路径的维度扩张率语义级全局特征提取路径的维度扩张率多头注意力机制中的注意力头数HD2=10、特征通道数C3=320、第三阶段的特征分辨率第三阶段的网络块数量(如,6)。
第四阶段包括特征合并提取路径。第四阶段对应的参数可以包括像素级局部特征提取路径的维度扩张率语义级全局特征提取路径的维度扩张率多头注意力机制中的注意力头数HD4=14、特征通道数C4=448、第四阶段的特征分辨率第四阶段的网络块数量(如,3)。
请参阅图8,图8示意性示出了根据本申请的一个实施例中的特征处理装置的结构框图。特征处理装置800与图2所示的方法相对应,如图8所示,该特征处理装置800包括:
特征获取单元801,用于获取待分类图像的样本局部特征和样本全局特征;
特征生成单元802,用于生成对应于样本全局特征的参考全局特征;
特征生成单元802,还用于根据参考全局特征和样本局部特征生成参考局部特征;
特征确定单元803,用于基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征。
可见,实施图8所示的装置,可以将特征提取过程分为全局特征提取和局部特征提取,结合全局特征计算局部特征,从而根据精准的全局特征和局部特征确定对应于待分类图像的分类指示特征,这样可以避免在提取图像特征的过程中丢失特征,可以提升对于图像的特征提取精度。此外,基于全局特征提取和局部特征提取,可以有助于减少全局特征提取和局部特征提取分别对应的提取路径上的注意力机制的计算量,从而降低了注意力计算的复杂度。此外,全局特征提取和局部特征提取可以并行执行,以提升整体特征提取的效率。
在本申请的一种示例性实施例中,特征生成单元802生成对应于样本全局特征的参考全局特征,包括:
基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取样本全局特征的第一中间全局特征;
获取样本局部特征对应的局部归一化特征,并将第一中间特征和局部归一化特征输入第二全局多头网络,以使得第二全局多头网络生成第二中间全局特征;
基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为样本全局特征的参考全局特征;
其中,第一全局归一化网络、第二全局归一化网络和第三全局归一化网络对应于不同的网络参数;第一全局多头网络和第二全局多头网络对应于不同的网络参数。
可见,实施该可选的实施例,可以实现基于多个全局归一化网络、全局多头网络、全局前馈网络提取到样本全局特征的参考全局特征,以实现对于样本全局特征的多头注意力计算,从而提升参考全局特征的精度。
在本申请的一种示例性实施例中,特征生成单元802根据参考全局特征和样本局部特征生成参考局部特征,包括:
将局部归一化特征和参考全局特征输入局部多头网络,以使得局部多头网络生成第一中间局部特征;
将第一中间局部特征和局部归一化特征输入局部归一化网络,以使得局部归一化网络生成第二中间局部特征;
触发局部前馈网络基于第二中间局部特征和第一中间局部特征生成参考局部特征。
可见,实施该可选的实施例,可以基于参考全局特征计算出对应于样本局部特征的参考局部特征,通过结合参考全局特征和样本局部特征的特征提取,可以避免全局特征在特征提取过程中被丢失,结合参考全局特征和样本局部特征也可以计算出精度较高的参考局部特征,同时可以降低精细的局部特征的提取难度。
在本申请的一种示例性实施例中,特征确定单元803基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征,包括:
融合参考全局特征和参考局部特征,得到待拆分特征;
将待拆分特征拆分为目标全局特征和目标局部特征;
根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征。
可见,实施该可选的实施例,可以实现对于参考全局特征和参考局部特征的特征融合,以确定出不缺失特征信息的待拆分特征,进而可以对待拆分特征进行拆分,再基于拆分的结果进行全局和局部的特征处理,从而得到分类指示特征,以保证分类指示特征中包含未被丢失的局部特征和全局特征,提升了分类指示特征的精度。
在本申请的一种示例性实施例中,特征确定单元803融合参考全局特征和参考局部特征,得到待拆分特征,包括:
融合参考全局特征和参考局部特征,得到第一融合结果;
对第一融合结果进行层归一化处理,得到第二融合结果;
生成与第二融合结果对应的自注意力融合特征;
基于自注意力融合特征和第一融合结果生成待拆分特征。
可见,实施该可选的实施例,可以基于层归一化处理、自注意力计算的方式,对参考全局特征和参考局部特征进行融合,以保证融合得到的待拆分特征可以最大程度的还原整个待分类图像的特征信息,从而保证后续特征提取计算的精度,减少失真。
在本申请的一种示例性实施例中,特征确定单元803根据目标全局特征和目标局部特征确定对应于待分类图像的分类指示特征,包括:
基于全局特征处理网络生成目标全局特征对应的第一待处理特征;
基于局部特征处理网络生成目标局部特征对应的第二待处理特征;
根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征。
可见,实施该可选的实施例,可以基于融合后的局部特征处理路径和全局特征处理路径获取到第一待处理特征和第二待处理特征,基于第一待处理特征和第二待处理特征可以确定出用于精准表征待分类图像的分类指示特征。
在本申请的一种示例性实施例中,全局特征处理网络包括语义归一化网络和语义前馈网络,特征确定单元803基于全局特征处理网络生成目标全局特征对应的第一待处理特征,包括:
通过语义归一化网络对目标全局特征进行归一化处理,得到语义归一化结果;
通过语义前馈网络生成语义归一化结果对应的语义综合特征;
融合语义综合特征和目标全局特征,得到目标全局特征对应的第一待处理特征。
可见,实施该可选的实施例,可以基于语义归一化网络、语义前馈网络处理得到第一待处理特征,可以减少全局特征处理过程中的特征丢失概率。
在本申请的一种示例性实施例中,局部特征处理网络包括像素归一化网络和像素前馈网络,特征确定单元803基于局部特征处理网络生成目标局部特征对应的第二待处理特征,包括:
通过像素归一化网络对目标局部特征进行层归一化处理,得到像素归一化结果;
通过像素前馈网络生成像素归一化结果对应的像素综合特征;
融合像素综合特征和目标局部特征,得到目标局部特征对应的第二待处理特征。
可见,实施该可选的实施例,可以基于像素归一化网络、像素前馈网络处理得到第一待处理特征,可以减少局部特征处理过程中的特征丢失概率。
在本申请的一种示例性实施例中,特征确定单元803根据第一待处理特征和第二待处理特征生成对应于待分类图像的分类指示特征,包括:
对第一待处理特征和第二待处理特征进行池化处理,得到分类指示特征。
可见,实施该可选的实施例,可以通过池化处理得到分类指示特征,提升了分类指示特征的计算效率。
在本申请的一种示例性实施例中,上述装置包括:
类别确定单元,用于在特征确定单元803基于参考全局特征和参考局部特征确定对应于待分类图像的分类指示特征之后,通过分类指示特征确定待分类图像对应的类别。
可见,实施该可选的实施例,可以基于用于精准表征待分类图像的分类指示特征确定图像类别,提升了对于图像类别的识别精度。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
由于本申请的示例实施例的任务调度装置的各个功能模块与上述任务调度方法的示例实施例的步骤对应,因此对于本申请装置实施例中未披露的细节,请参照本申请上述的任务调度方法的实施例。
请参阅图9,图9示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图9示出的电子设备的计算机系统900仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从储存部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的储存部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入储存部分908。
特别地,根据本申请的实施例,上述参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时,执行本申请的方法和装置中限定的各种功能。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由前述的权利要求指出。
Claims (14)
1.一种特征处理方法,其特征在于,包括:
获取待分类图像的样本局部特征和样本全局特征;
生成对应于所述样本全局特征的参考全局特征;
根据所述参考全局特征和所述样本局部特征生成参考局部特征;
基于所述参考全局特征和所述参考局部特征确定对应于所述待分类图像的分类指示特征。
2.根据权利要求1所述的方法,其特征在于,生成对应于所述样本全局特征的参考全局特征,包括:
基于第一全局归一化网络、第一全局多头网络、第二全局归一化网络提取所述样本全局特征的第一中间全局特征;
获取所述样本局部特征对应的局部归一化特征,并将所述第一中间特征和所述局部归一化特征输入第二全局多头网络,以使得所述第二全局多头网络生成第二中间全局特征;
基于第三全局归一化网络和全局前馈网络生成对应于第二中间全局特征的特征作为所述样本全局特征的参考全局特征;
其中,所述第一全局归一化网络、所述第二全局归一化网络和所述第三全局归一化网络对应于不同的网络参数;所述第一全局多头网络和所述第二全局多头网络对应于不同的网络参数。
3.根据权利要求2所述的方法,其特征在于,根据所述参考全局特征和所述样本局部特征生成参考局部特征,包括:
将所述局部归一化特征和所述参考全局特征输入局部多头网络,以使得所述局部多头网络生成第一中间局部特征;
将所述第一中间局部特征和所述局部归一化特征输入局部归一化网络,以使得所述局部归一化网络生成第二中间局部特征;
触发局部前馈网络基于所述第二中间局部特征和所述第一中间局部特征生成参考局部特征。
4.根据权利要求2所述的方法,其特征在于,基于所述参考全局特征和所述参考局部特征确定对应于所述待分类图像的分类指示特征,包括:
融合所述参考全局特征和所述参考局部特征,得到待拆分特征;
将所述待拆分特征拆分为目标全局特征和目标局部特征;
根据所述目标全局特征和所述目标局部特征确定对应于所述待分类图像的分类指示特征。
5.根据权利要求4所述的方法,其特征在于,融合所述参考全局特征和所述参考局部特征,得到待拆分特征,包括:
融合所述参考全局特征和所述参考局部特征,得到第一融合结果;
对所述第一融合结果进行层归一化处理,得到第二融合结果;
生成与所述第二融合结果对应的自注意力融合特征;
基于所述自注意力融合特征和所述第一融合结果生成所述待拆分特征。
6.根据权利要求4所述的方法,其特征在于,根据所述目标全局特征和所述目标局部特征确定对应于所述待分类图像的分类指示特征,包括:
基于全局特征处理网络生成所述目标全局特征对应的第一待处理特征;
基于局部特征处理网络生成所述目标局部特征对应的第二待处理特征;
根据所述第一待处理特征和所述第二待处理特征生成对应于所述待分类图像的分类指示特征。
7.根据权利要求6所述的方法,其特征在于,所述全局特征处理网络包括语义归一化网络和语义前馈网络,基于全局特征处理网络生成所述目标全局特征对应的第一待处理特征,包括:
通过所述语义归一化网络对所述目标全局特征进行归一化处理,得到语义归一化结果;
通过所述语义前馈网络生成所述语义归一化结果对应的语义综合特征;
融合所述语义综合特征和所述目标全局特征,得到所述目标全局特征对应的第一待处理特征。
8.根据权利要求6所述的方法,其特征在于,所述局部特征处理网络包括像素归一化网络和像素前馈网络,基于局部特征处理网络生成所述目标局部特征对应的第二待处理特征,包括:
通过所述像素归一化网络对所述目标局部特征进行层归一化处理,得到像素归一化结果;
通过所述像素前馈网络生成所述像素归一化结果对应的像素综合特征;
融合所述像素综合特征和所述目标局部特征,得到所述目标局部特征对应的第二待处理特征。
9.根据权利要求6所述的方法,其特征在于,根据所述第一待处理特征和所述第二待处理特征生成对应于所述待分类图像的分类指示特征,包括:
对所述第一待处理特征和所述第二待处理特征进行池化处理,得到分类指示特征。
10.根据权利要求1所述的方法,其特征在于,基于所述参考全局特征和所述参考局部特征确定对应于所述待分类图像的分类指示特征之后,所述方法还包括:
通过所述分类指示特征确定所述待分类图像对应的类别。
11.一种特征处理装置,其特征在于,包括:
特征获取单元,用于获取待分类图像的样本局部特征和样本全局特征;
特征生成单元,用于生成对应于所述样本全局特征的参考全局特征;
所述特征生成单元,还用于根据所述参考全局特征和所述样本局部特征生成参考局部特征;
特征确定单元,用于基于所述参考全局特征和所述参考局部特征确定对应于所述待分类图像的分类指示特征。
12.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法。
14.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210635593.3A CN114972775A (zh) | 2022-06-06 | 2022-06-06 | 特征处理方法、装置、产品、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210635593.3A CN114972775A (zh) | 2022-06-06 | 2022-06-06 | 特征处理方法、装置、产品、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114972775A true CN114972775A (zh) | 2022-08-30 |
Family
ID=82960606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210635593.3A Pending CN114972775A (zh) | 2022-06-06 | 2022-06-06 | 特征处理方法、装置、产品、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972775A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091854A (zh) * | 2022-12-14 | 2023-05-09 | 中国人民解放军空军预警学院 | 一种对hrrp序列进行空间目标分类的方法和系统 |
-
2022
- 2022-06-06 CN CN202210635593.3A patent/CN114972775A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116091854A (zh) * | 2022-12-14 | 2023-05-09 | 中国人民解放军空军预警学院 | 一种对hrrp序列进行空间目标分类的方法和系统 |
CN116091854B (zh) * | 2022-12-14 | 2023-09-22 | 中国人民解放军空军预警学院 | 一种对hrrp序列进行空间目标分类的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102478000B1 (ko) | 이미지 처리 방법, 훈련 방법, 장치, 기기, 매체 및 프로그램 | |
CN109800732B (zh) | 用于生成漫画头像生成模型的方法和装置 | |
CN113255694B (zh) | 训练图像特征提取模型和提取图像特征的方法、装置 | |
US20180157743A1 (en) | Method and System for Multi-Label Classification | |
WO2020248841A1 (zh) | 图像的au检测方法、装置、电子设备及存储介质 | |
WO2023005386A1 (zh) | 模型训练方法和装置 | |
CN108509994B (zh) | 人物图像聚类方法和装置 | |
CN112348081A (zh) | 用于图像分类的迁移学习方法、相关装置及存储介质 | |
KR102618916B1 (ko) | 데이터 분류 방법 및 시스템, 그리고 분류기 트레이닝 방법 및 시스템 | |
CN113673613A (zh) | 基于对比学习的多模态数据特征表达方法、装置及介质 | |
CN114972775A (zh) | 特征处理方法、装置、产品、介质及设备 | |
CN114494709A (zh) | 特征提取模型的生成方法、图像特征提取方法和装置 | |
CN108257081B (zh) | 用于生成图片的方法和装置 | |
CN113140012A (zh) | 图像处理方法、装置、介质及电子设备 | |
CN113762459A (zh) | 一种模型训练方法、文本生成方法、装置、介质及设备 | |
CN110046670B (zh) | 特征向量降维方法和装置 | |
CN111915689A (zh) | 用于生成目标函数的方法、装置、电子设备和计算机可读介质 | |
CN114970470B (zh) | 文案信息处理方法、装置、电子设备和计算机可读介质 | |
CN116468902A (zh) | 图像的处理方法、装置和非易失性计算机可读存储介质 | |
CN115311664A (zh) | 图像中文本类别的识别方法、装置、介质及设备 | |
CN114792388A (zh) | 图像描述文字生成方法、装置及计算机可读存储介质 | |
CN115952830B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
US11734574B1 (en) | Neural Bregman divergences for distance learning | |
CN117392260B (zh) | 一种图像生成方法及装置 | |
CN117435739B (zh) | 图像文本分类的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |