CN115034375A - 数据处理方法及装置、神经网络模型、设备、介质 - Google Patents
数据处理方法及装置、神经网络模型、设备、介质 Download PDFInfo
- Publication number
- CN115034375A CN115034375A CN202210948062.XA CN202210948062A CN115034375A CN 115034375 A CN115034375 A CN 115034375A CN 202210948062 A CN202210948062 A CN 202210948062A CN 115034375 A CN115034375 A CN 115034375A
- Authority
- CN
- China
- Prior art keywords
- feature
- channel
- features
- processed
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 28
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 232
- 238000000034 method Methods 0.000 claims abstract description 79
- 238000013528 artificial neural network Methods 0.000 claims abstract description 63
- 230000007246 mechanism Effects 0.000 claims abstract description 44
- 230000005284 excitation Effects 0.000 claims abstract description 20
- 238000001125 extrusion Methods 0.000 claims abstract description 11
- 230000004913 activation Effects 0.000 claims description 48
- 238000011176 pooling Methods 0.000 claims description 48
- 230000006835 compression Effects 0.000 claims description 32
- 238000007906 compression Methods 0.000 claims description 32
- 230000004927 fusion Effects 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 24
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 230000009467 reduction Effects 0.000 claims description 11
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000011946 reduction process Methods 0.000 claims 1
- 230000002829 reductive effect Effects 0.000 abstract description 17
- 238000001994 activation Methods 0.000 description 47
- 230000008569 process Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 26
- 238000010606 normalization Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 13
- 238000012935 Averaging Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000001965 increasing effect Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/063—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Neurology (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种数据处理方法及装置、神经网络模型、设备、介质,属于计算机技术领域。该方法包括:将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果;其中,空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得特征在空间维度的注意力信息。根据本公开的实施例能够减少待处理数据量,提升任务处理效率,同时还提高任务处理的准确率。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法及装置、神经网络模型、电子设备、计算机可读存储介质。
背景技术
神经网络等技术已经广泛应用在图像处理、视频处理、语音处理以及文本处理等领域中。在基于神经网络执行相应的任务时,通常需要进行特征提取,并基于提取的特征进行数据处理。在相关技术中,直接基于提取的特征执行任务处理时,处理量通常较大,对硬件设备的要求较高,且容易导致任务处理效率低下。
发明内容
本公开提供一种数据处理方法及装置、神经网络模型、电子设备、计算机可读存储介质。
第一方面,本公开提供了一种数据处理方法,该数据处理方法包括:将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果;其中,所述空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得所述特征在空间维度的注意力信息。
第二方面,本公开提供了一种神经网络模型,该神经网络模型是基于目标神经网络的模型参数构建的模型,其中,所述目标神经网络采用本公开实施例中任一项所述的目标神经网络。
第三方面,本公开提供了一种数据处理装置,该数据处理装置包括:数据处理模块,用于将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果;其中,所述空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得所述特征在空间维度的注意力信息。
第四方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据处理方法。
第五方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的数据处理方法。
本公开所提供的实施例,将待处理数据输入到目标神经网络,使得目标神经网络基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果,实现从通道维度对特征的压缩,从而可以降低特征在通道维度的尺寸,减少待处理数据量,从而提升任务处理效率,同时,通过激励经过通道压缩的特征在空间维度的关联性,能够获得特征在空间维度的注意力信息,从而提高处理结果的准确性,进而提升任务处理的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,附图如下所示:
图1为本公开实施例提供的一种数据处理方法的流程图;
图2为本公开实施例提供的一种数据处理方法的流程图;
图3为本公开实施例提供的一种目标神经网络的示意图;
图4为本公开实施例提供的一种空间注意力模块的示意图;
图5为本公开实施例提供的一种空间注意力模块的示意图;
图6为本公开实施例提供的一种空间注意力模块的示意图;
图7为本公开实施例提供的一种空间注意力模块的示意图;
图8为本公开实施例提供的一种目标神经网络的示意图;
图9为本公开实施例提供的一种神经网络模型的示意图;
图10为本公开实施例提供的一种数据处理装置的框图;
图11为本公开实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
在执行各类任务时所依据的原始数据(例如,图片、语音、文本、视频等数据)通常是高维信息,其包含了较多的冗余信息,还有可能是稀疏性数据,因此,直接基于原始数据进行处理,计算量过大,任务的执行效率较低。
基于此,在相关技术中,通过从原始数据中提取特征的方式,获得维度相对较低的特征数据,进而基于特征数据进行数据处理,以降低计算量。但是,在部分场景中,特征的数据量仍然较大,直接基于特征数据进行数据处理时,计算量较大,可能导致任务的执行效率仍然无法满足用户需求。
有鉴于此,本公开实施例提供一种数据处理方法及装置、神经网络模型、电子设备、计算机可读存储介质。根据本公开实施例的数据处理方法,能够从通道维度对特征的压缩,从而可以降低特征在通道维度的尺寸,减少待处理数据量,从而提升任务处理效率,同时,通过激励经过通道压缩的特征在空间维度的关联性,能够获得特征在空间维度的注意力信息,从而提高处理结果的准确性,进而提升任务处理的准确率。
根据本公开实施例的数据处理方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,该方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行该方法。
本公开实施例第一方面提供一种数据处理方法。
图1为本公开实施例提供的一种数据处理方法的流程图。参照图1,该方法包括如下步骤。
在步骤S11中,将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果。
其中,空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得特征在空间维度的注意力信息。
在一些可选的实现方式中,挤压与激励(Squeeze-and-Excitation,SE)框架可以由SE网络结构(SE Network,SENet)实现。在相关技术中,SENet主要用于对卷积特性的通道之间的相互依赖关系进行建模,以提高特征在通道维度的表征效果。在该处理过程中,虽然通过在空间维度的特征挤压,降低了数据处理量,并通过激励通道之间的关联性获得了通道注意力信息,但是同时也丢失了特征在空间维度的注意力信息。有鉴于此,本公开实施例提供一种基于挤压与激励框架的空间注意力机制,挤压与激励框架作用在空间注意力维度,聚焦于特征在空间维度的注意力信息,相应的实现方式为在通道维度对特征进行压缩,基于通道压缩后的特征激励其在空间维度的关联性,从而获得特征在空间维度的注意力信息。
在一些可选的实现方式中,上述空间注意力机制可用于处理图像数据、语音数据、文本数据、视频数据中的至少一种。即在步骤S11中,待处理数据可以包括图像数据、语音数据、文本数据、视频数据中的至少一种。
在一些可选的实现方式中,将待处理数据输入目标神经网络之后,目标神经网络基于挤压与激励框架的空间注意力机制进行数据处理,获得相应的处理结果。
在一些可选的实现方式中,目标神经网络可用于执行图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种。与之相应的,处理结果包括图像处理结果、语音处理结果、文本处理结果、视频处理结果中的至少一种(其中,处理可以包括识别、分类、标注等操作),其与待处理数据的类型、待处理数据的内容、以及目标神经网络的执行任务等相关。本公开实施例对目标神经网络所能执行的任务、相应的待处理数据及处理结果均不作限制。
示例性地,目标神经网络在执行图像处理任务时,待处理数据包括至少一张待处理图像,将该待处理图像输入目标神经网络之后,通过其中的一些网络结构的处理(例如,卷积层),从待处理图像中提取出待处理图像特征。其中,待处理图像特征可以包括不同层级的图像特征,层级越高,图像特征的语义表征效果越好,层级越低,图像特征的空间表征效果越好。在获得待处理图像特征之后,目标神经网络从通道维度对其进行压缩,获得图像通道上下文特征,并进一步激励图像通道上下文特征在空间维度的关联性,获得图像空间注意力特征(可以表征空间维度的注意力信息),然后将该图像空间注意力特征与对应的待处理图像特征进行融合,即获得可以表征空间注意力信息的目标图像特征。上述目标图像特征可进一步应用于图像分类、图像标注、图像识别等图像处理过程中。
示例性地,目标神经网络在执行图像分类任务时,待处理数据包括至少一张待分类图像,将该待分类图像输入目标神经网络之后,通过其中的一些网络结构的处理(例如,卷积层),从待分类图像中提取出待分类图像特征。其中,待分类图像特征可以包括不同层级的图像特征,层级越高,图像特征的语义表征效果越好,层级越低,图像特征的空间表征效果越好。在获得待分类图像特征之后,目标神经网络从通道维度对其进行压缩,获得图像通道上下文特征,并进一步激励图像通道上下文特征在空间维度的关联性,获得图像空间注意力特征(可以表征空间维度的注意力信息),然后将该图像空间注意力特征与对应的待分类图像特征进行融合,即获得可以表征空间注意力信息的目标图像特征。基于上述目标图像特征,通过相应的图像分类算法,即可获得图像分类结果。
其他任务处理过程与上述内容类似,在此不再展开描述。
需要说明的是,在一些可选的实现方式中,上述空间注意力机制在目标神经网络中对应某些网络层或者网络结构,并由对应的网络层或网络结构实现上述处理过程。
示例性的,目标神经网络包括空间注意力模块,该空间注意力模块是根据基于挤压与激励框架的空间注意力机制构建的模块,用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得特征在空间维度的注意力信息。应当理解,空间注意力模块本身还可以包括粒度更小的功能单元,各个功能单元之间具有一定的连接关系,基于各个功能单元及其连接关系,可以获得特征在空间维度的注意力信息。
需要说明的是,基于挤压与激励框架的空间注意力机制仅是目标神经网络进行数据处理时所使用的处理机制之一,目标神经网络还可以基于其他数据处理机制进行数据处理,本公开实施例对此不作限制。换言之,基于挤压与激励框架的空间注意力机制对待处理数据进行处理,可以是整个数据处理过程中的一个处理步骤,也可以对应整个数据过程。对应到目标神经网络中,该目标神经网络可以只包括空间注意力模块,也可以包括除空间注意力模块之外的其他网络层或网络结构,本公开实施例对此不作限制。
根据本公开实施例,将待处理数据输入到目标神经网络,使得目标神经网络基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果,实现从通道维度对特征的压缩,从而可以降低特征在通道维度的尺寸,减少待处理数据量,从而提升任务处理效率,同时,通过激励经过通道压缩的特征在空间维度的关联性,能够获得特征在空间维度的注意力信息,从而提高处理结果的准确性,进而提升任务处理的准确率。
图2为本公开实施例提供的一种数据处理方法的流程图。参照图2,该方法包括如下步骤。
在步骤S21中,根据待处理数据确定待处理特征。
在步骤S22中,从通道维度对待处理特征进行特征压缩,获得通道上下文特征。
在步骤S23中,对通道上下文特征进行特征转换,获得空间注意力特征。
在步骤S24中,对待处理特征和空间注意力特征进行特征融合,获得目标特征。
在步骤S25中,根据目标特征,确定处理结果。
其中,待处理特征、通道上下文特征、空间注意力特征以及目标特征在空间维度的特征尺寸相同,待处理特征与目标特征在通道维度具有相同的第一特征尺寸,通道上下文特征与空间注意力特征在通道维度具有相同的第二特征尺寸,且第一特征尺寸大于第二特征尺寸。换言之,在上述数据处理过程中,可以先对待处理特征在通道维度进行压缩,然后基于压缩后的特征进行转换处理,获得空间维度的注意力信息,最后将空间维度的注意力信息融合到待处理特征中,从而获得目标特征。
在一些可选的实现方式中,待处理特征可以是基于待处理数据获得的特征,其与待处理数据之间可以具有一定的对应关系。
在一些可选的实现方式中,在步骤S21中,根据待处理数据确定待处理特征,包括:直接对待处理数据进行特征提取,获得待处理特征;或者,先对待处理数据进行一些数据处理操作,获得中间数据,再对中间数据进行特征提取,获得待处理特征;或者,先对待处理数据进行特征提取,获得初始特征,再对初始特征进行一些数据处理操作,获得待处理特征。
需要说明的是,以上对于待处理特征的确定方式仅是举例说明,本公开实施例不限制根据待处理数据确定待处理特征的方式。
在获得待处理特征之后,可以利用基于挤压与激励框架的空间注意力机制,对待处理特征在通道维度进行压缩,并激励经过通道压缩的特征在空间维度的关联性,获得待处理特征在空间维度的注意力信息,将空间维度的注意力信息与待处理特征进行特征融合,从而获得表征效果更佳的目标特征,以便基于目标特征确定相应的处理结果。上述处理过程对应本公开实施例的步骤S22至步骤S25。
在一些可选的实现方式中,步骤S22主要用于对待处理特征在通道维度进行压缩,以降低数据处理量。其中,通道上下文特征用于表征待处理特征在通道维度的上下文关联关系。
在一些可选的实现方式中,在步骤S22中,从通道维度对待处理特征进行特征压缩,获得通道上下文特征,包括:对待处理特征在通道维度进行池化(Pooling)处理,获得通道上下文特征。
其中,池化是神经网络中的一个重要的概念,其本质是一种降采样处理方式。通过池化处理,可以增大特征的感受野,降低参数量,同时还能保持特征的某些不变性(例如,旋转不变性、平移不变性、伸缩不变性等)。常见的池化处理方式包括平均池化(AveragePooling)、最大池化(Max Pooling)和全局池化(Global Pooling)等。其中,平均池化是指对邻域内的特征点求平均;最大池化是指对邻域内的特征点取最大值;全局池化是指将整个特征作一个窗口进行池化处理,其可用于降低特征维度,而且,全局池化通常与平均池化、最大池化结合使用(例如,全局平均池化、全局最大池化等)。在实际应用中,可以通过各种池化函数实现对特征的池化处理。
示例性地,对待处理特征在通道维度进行池化处理,获得通道上下文特征,包括:对待处理特征在通道维度进行平均池化处理,获得在通道维度特征尺度为n1的通道上下文特征。其中,1<n1<N,N为待处理特征的通道数量。
示例性地,对待处理特征在通道维度进行池化处理,获得通道上下文特征,包括:对待处理特征在通道维度进行最大池化处理,获得在通道维度特征尺度为n2的通道上下文特征。其中,1<n2<N,N为待处理特征的通道数量。
需要说明的是,由于n1及n2小于N,因此,经过上述平均池化处理或者最大池化处理之后,待处理特征在通道维度的特征尺度得以降低(从N降低到n1或者从N降低到n2),相应的数据量也得以降低,从而可以降低任务处理压力。
进一步地,考虑到n1及n2均为大于1的整数,因此,待处理特征在通道维度的特征尺度还存在降低的空间,基于此,在一些可选的实现方式中,将待处理特征在通道维度进行最大程度的特征压缩,以最大化地降低数据处理量。
示例性地,对待处理特征在通道维度进行池化处理,获得通道上下文特征,包括:对待处理特征在通道维度进行全局平均池化处理,获得在通道维度特征尺度为1(即通道数n=1)的通道上下文特征。
示例性地,对待处理特征在通道维度进行池化处理,获得通道上下文特征,包括:对待处理特征在通道维度进行全局最大池化处理,获得在通道维度特征尺度为1(即通道数n=1)的通道上下文特征。
应当理解,由于待处理特征在通道维度的特征尺度被压缩为1,不存在继续压缩的空间,因此,对应的数据处理量为最低处理量。
需要说明的是,在基于池化处理方式获取通道上下文特征时,对应的参数通常为超参数,经过池化处理获得的通道上下文特征所能保留的通道上下文信息有限。考虑到卷积处理也可以实现特征尺寸的压缩,并且在进行卷积处理时,可以根据需要引入各种可学习参数(例如,卷积核的权重),从而使经过卷积处理的特征在被压缩的同时,能够更好的保留特征信息。基于此,在一些可选的实现方式中,通过卷积处理的方式获取通道上下文特征,以使通道上下文特征能够更好地保留通道上下文信息。
在一些可选的实现方式中,在步骤S22中,从通道维度对待处理特征进行特征压缩,获得通道上下文特征,包括:对待处理特征在通道维度进行卷积处理,获得通道上下文特征。
需要说明的是,与池化处理方式类似,通过修改卷积处理的参数,可以调整通道上下文特征在通道维度的特征尺度。
示例性地,对待处理特征在通道维度进行卷积处理,获得通道上下文特征,包括:对待处理特征在通道维度进行卷积,获得在通道维度特征尺度为n3的通道上下文特征。其中,1<n3<N,N为待处理特征的通道数量。
示例性地,对待处理特征在通道维度进行卷积处理,获得通道上下文特征,包括:对待处理特征在通道维度进行全局卷积,获得在通道维度特征尺度为1(即通道数n=1)的通道上下文特征。
如前所述,在获得通道上下文特征之后,通过对通道上下文特征进行特征转换,激励特征在空间维度的注意力信息,可以获得能表征空间注意力信息的空间注意力特征。
在一些可选的实现方式中,在步骤S23中,对通道上下文特征进行特征转换,获得空间注意力特征,包括:对通道上下文特征在空间维度进行特征提取,获得第一中间特征;对第一中间特征进行激活处理,获得第二中间特征;对第二中间特征进行特征还原处理,获得第三中间特征;对第三中间特征进行激活处理,获得空间注意力特征。
在一些可选的实现方式中,对通道上下文特征在空间维度进行特征提取,获得第一中间特征,包括:对通道上下文特征在空间维度进行第一卷积处理,获得第一中间特征。
示例性地,第一卷积对应一个卷积核,且卷积核的尺寸为3*3,步长为2。
换言之,第一卷积处理并不改变通道上下文特征在通道维度的特征尺度,其主要是在空间维度对通道上下文特征进行挤压处理,通过这种挤压处理可以缩小数据处理量。但是,考虑到处理准确度的要求,在一些可选的实现方式中,可以适当增加数据处理量,以换取更高的处理准确度。相应的处理方式包括采用多个卷积核以获得多个输出通道的特征,再在通道维度取平均值(Channel-mean)的方式提高处理准确度。
在一些可选的实现方式中,对通道上下文特征在空间维度进行特征提取,获得第一中间特征,包括:对通道上下文特征在空间维度进行第二卷积处理,获得多个通道对应的第四中间特征;确定多个第四中间特征在通道维度的平均值,获得第一中间特征。
其中,第二卷积处理在对通道上下文特征在空间维度进行挤压的同时,在通道维度进行了适当的扩展(即扩展了通道数量),最后通过通道平均的方式获得第一中间特征。
示例性地,第二卷积对应四个卷积核,每个卷积核对应一个通道,且卷积核的尺寸为7*7,步长为4,膨胀系数为2。换言之,通过第二卷积处理,将通道上下文特征扩展到四个通道中来获取空间注意力信息,再基于通道平均方式,确定四个通道的空间注意力信息的平均值,从而获得第一中间特征。
在一些可选的实现方式中,在获得第一中间特征之后,可以对第一中间特征进行非线性激活处理,以增加网络的非线性特征,获得更好的处理结果。
在一些可选的实现方式中,对第一中间特征进行激活处理,获得第二中间特征,包括:基于线性整流(Rectified Linear Unit,ReLU)函数对第一中间特征进行非线性激活,获得第二中间特征。
需要说明的是,以上对于非线性激活函数仅是举例说明,双曲正切(Tanh)函数、指数线性单元(ELU)函数以及高斯误差线性单元(GeLu)等均可用于对第一中间特征进行激活处理,本公开实施例对此不作限制。
如前所述,对通道上下文特征进行卷积处理,获得第一中间特征,并经过激活处理,获得第二中间特征。通常情况下,针对通道上下文特征采用卷积方式提取特征之后,输出的特征尺寸(即第一中间特征)通常会变小,某些情况下,需要将缩小的特征恢复到原来的尺寸(即通道上下文的特征尺寸)以便进行进一步的计算,这种采用扩大特征尺寸,实现特征由小分辨率到大分辨率的映射的操作,叫做上采样(Upsample)。反卷积(TransposedConvolution)处理是上采样的实现方式之一,其本质属于一种特殊的正向卷积,即先按照一定的比例通过补0来扩大原有特征的尺寸,然后旋转卷积核,再进行正向卷积。在本公开实施例中,可以对第二中间特征进行第一反卷积处理,以便获得与通道上下文特征尺寸相同的空间注意力特征。
在一些可选的实现方式中,对第二中间特征进行特征还原处理,获得第三中间特征,包括:对第二中间特征进行第一反卷积处理,获得第三中间特征。
示例性地,第一反卷积对应一个卷积核,且卷积核的尺寸为3*3,步长为2。
与根据通道上下文特征获取第一中间特征类似,出于提高处理准确度的考虑,可以适当增加数据处理量,相应的处理方式为采用多个卷积核以获得多个输出通道、再经过通道维度取平均值。
在一些可选的实现方式中,对第二中间特征进行特征还原处理,获得第三中间特征,包括:对第二中间特征进行第二反卷积处理,获得多个通道对应的第五中间特征;基于多个第五中间特征在通道维度的平均值,获得第三中间特征。
示例性地,第二反卷积对应的四个卷积核,各个卷积核对应一个通道,且卷积核的尺寸为7*7,步长为4,膨胀系数为2。换言之,通过第二反卷积处理,将第二中间特征扩展到四个通道,每个通道对应一个第五中间特征,然后再基于通道平均方式,确定四个第五中间特征的平均值,从而获得第三中间特征。
需要说明的是,以上对于各项卷积处理和反卷积处理中所使用的参数仅是举例说明,本公开实施例对此不作限制。
与第一中间特征类似,在获得第三中间特征之后,可以对第三中间特征进行非线性激活处理,并且,为便于后续计算,还需进行归一化处理。其中,非线性激活处理和归一化处理可以由一个同时具有非线性激活及归一化功能的函数实现,也可以分别由非线性激活函数和归一化函数实现,本公开实施例对此不作限制。
在一些可选的实现方式中,对第三中间特征进行激活处理,获得空间注意力特征,包括:基于S型(Sigmoid)函数对第三中间特征进行非线性归一化激活,获得空间注意力特征。由于Sigmoid函数既具备非线性激活的功能,也具备归一化的功能,因此,直接基于Sigmoid函数即可获得空间注意力特征。
在一些可选的实现方式中,对第三中间特征进行激活处理,获得空间注意力特征,包括:基于ReLU函数对第三中间特征进行非线性激活,并基于归一化指数(Softmax)函数对非线性激活结果进行归一化处理,获得空间注意力特征。
在获得空间注意力特征之后,通过特征融合,即能获得可以良好表征空间注意力信息的目标特征。
在一些可选的实现方式中,在步骤S24中,对待处理特征和空间注意力特征进行特征融合,获得目标特征,包括:将待处理特征与空间注意力特征逐点相加,获得目标特征。
在一些可选的实现方式中,在步骤S24中,对待处理特征和空间注意力特征进行特征融合,获得目标特征,包括:将待处理特征与空间注意力特征逐点相乘,获得目标特征。
在获得目标特征之后,在步骤S25中,根据该目标特征,即可确定处理结果。
在一些可选的实现方式中,根据目标特征,确定处理结果,包括:直接根据目标特征,确定处理结果;或者,对目标特征进行一些数据处理操作,从而获得处理结果。
如前所述,本公开实施例通过上述步骤实现相应的数据处理方法。在一些可选的实现方式中,上述方法对应目标神经网络中的一些网络层或网络结构,由这些网络层或网络结构实现上述数据处理方法。
下面结合图3-8对本公开实施例的数据处理方法进行展开说明。
图3为本公开实施例提供的一种目标神经网络的示意图。参照图3,该目标神经网络包括:第一网络结构、空间注意力模块和第二网络结构,其中,空间注意力模块包括上下文建模(Context Modelling)单元、转换单元和融合单元。
在一些可选的实现方式中,将待处理数据输入目标神经网络中,由位于空间注意力模块之前的第一网络结构对待处理数据的处理,获得待处理特征,并将待处理特征作为空间注意力模块的输入数据。空间注意力模块通过上下文建模单元从通道维度对待处理特征进行特征压缩,获得通道上下文特征,并将通道上下文特征输入转换单元;转换单元对该通道上下文特征进行特征转换,获得空间注意力特征,并将空间注意力特征输入融合单元;融合单元将待处理特征与空间注意力特征通过逐点相乘或者逐点相加等方式进行特征融合,获得目标特征,并将目标特征输入第二网络结构。第二网络结构基于目标特征进行相应的数据处理,获得处理结果。
将上述目标神经网络中的各个网络结构和模块对应到本公开实施例中可知,第一网络结构对应步骤S21的处理过程,上下文建模单元对应步骤S22的处理过程,转换单元对应步骤S23的处理过程,融合单元对应步骤S24的处理过程,第二网络结构对应步骤S25的处理过程。
需要说明的是,第一网络结构和第二网络结构是抽象出来的网络结构,两者的内部结构可以相同,也可以不同,本公开实施例对此不作限制。进一步地,在一些可选的实现方式中,可以根据任务处理需求、统计数据、经验等信息设置第一网络结构和第二网络结构。示例性地,第一网络结构可以包括卷积层、池化层、连接层、激活层等网络层中的任意一种或多种,第二网络结构也可以包括卷积层、池化层、连接层、激活层等网络层中的任意一种或多种。
图3仅从功能层面较为简单地示出了目标神经网络的框架结构,在一些可选的实现方式中,上述各个网络结构或模块还可选由更细粒度的功能单元组成。在本公开实施例中,由于较为关心目标神经网络中空间注意力模块的结构,而不限制除此之外的网络结构,因此,在图4中仅示出该目标神经网络中空间注意力模块的各项功能单元。
图4为本公开实施例提供的一种空间注意力模块的示意图。参照图4,该空间注意力模块包括:上下文建模单元、转换单元和融合单元,其中,转换单元包括特征提取层、第一激活层、特征还原层和第二激活层。
在一些可选的实现方式中,将获得的待处理特征输入空间注意力模块之后,首先由上下文建模单元对其从通道维度进行压缩,获得通道上下文特征,并将通道上下文特征输入特征提取层;特征提取层对该通道上下文特征在空间维度进行特征提取,获得第一中间特征,并将第一中间特征输入第一激活层;第一激活层对第一中间特征进行激活处理,获得第二中间特征,并将第二中间特征输入特征还原层;特征还原层对第二中间特征进行特征还原处理,获得第三中间特征,并将第三中间特征输入第二激活层;第二激活层对第三中间特征进行激活处理,获得空间注意力特征,并将空间注意力特征输入融合单元;融合单元将待处理特征与空间注意力特征通过逐点相乘或者逐点相加等方式进行特征融合,获得目标特征,并向外输出该目标特征,以便目标神经网络的其他网络结构基于目标特征进行数据处理,获得相应的处理结果。
在图4中,特征压缩可以通过池化处理实现,特征提取可以通过卷积处理实现,特征还原可以通过反卷积处理实现,特征激活可以由相应的激活函数实现。将图4中的上述处理过程如使用对应的网络层来替代,可以获得图5所示的空间注意力模块。
图5为本公开实施例提供的一种空间注意力模块的示意图。参照图5,该空间注意力模块主要包括:全局平均池化(GAP)层、第一卷积层、ReLU激活层、第一反卷积层、Sigmoid激活层。
在一些可选的实现方式中,待处理特征为一个四维张量(b,c,h1,w1),其中,b表示待处理特征的数量,c表示待处理特征的通道数量,h1和w1分别表示待处理特征的高度和宽度。
将待处理特征输入空间注意力模块之后,全局平均池化层对待处理特征进行全局平均池化处理,获得通道上下文特征。由于是全局池化处理,因此,该通道上下文特征为全局的通道上下文特征,而且,该通道上下文特征对应的张量尺寸为(b,1,h1,w1),换言之,全局平均池化层将待处理特征的通道数量由c压缩为1,但是不改变其在空间维度的特征尺寸。
获得通道上下文特征之后,由第一卷积层对通道上下文特征进行卷积处理,提取出第一中间特征,第一中间特征对应张量尺寸为(b,1,h2,w2),且h2<h1,w2<w1。其中,第一卷积层可以使用一个卷积核对通道上下文在空间维度进行挤压(高度由h1挤压为h2,宽度由w1挤压为w2),获得在空间维度尺寸更小的第一中间特征。
进一步地,由ReLU激活层对第一中间特征进行非线性激活处理,获得第二中间特征,对应张量尺寸为(b,1,h2,w2)。
获得第二中间特征之后,由第一反卷积层对第二中间特征进行反卷积处理,实现其在空间维度的扩张,获得第三中间特征,对应张量尺寸为(b,1,h1,w1)。换言之,通过第一反卷积处理,将第二中间特征在空间维度的高度由h2扩张为h1,宽度由w2扩张为w1,同时保持通道数量不变。
进一步地,经由Sigmoid激活层对第三中间特征进行非线性激活与归一化处理,获得空间注意力特征,对应张量尺寸为(b,1,h1,w1)。
通过逐点相乘单元,将空间注意力特征逐点乘到待处理特征,获得目标特征,对应的张量尺寸为(b,1,h1,w1)。该目标特征即为融合了空间注意力信息的特征。
以待处理特征为(b,256,28,28),第一卷积层对应一个卷积核,且卷积核尺寸为3*3,步长为2,第一反卷积对应一个卷积核,且卷积核的尺寸为3*3,步长为2为例对上述数据处理过程进行说明。首先,将待处理特征输入空间注意力模块,由全局平均池化层逐元素地汇聚所有通道维度的信息,获得形状为(b,1,28,28)的通道上下文特征;然后由第一卷积层进行Conv3*3,步长为2的卷积处理,实现在空间维度的特征压缩,获得形状为(b,1,14,14)的第一中间特征;经过ReLU激活层对第一中间特征的非线性激活处理,获得形状为(b,1,14,14)的第二中间特征;接着由第一反卷积层进行TransposedConv3*3,步长为2的反卷积处理,实现在空间维度的特征扩张,获得形状为(b,1,28,28)的第三中间特征;经过Sigmoid激活层对第三中间特征的非线性激活与归一化处理,获得形状为(b,1,28,28)的空间注意力特征;将该空间注意特征逐点乘到待处理特征中,获得形状为(b,256,28,28)的目标特征。
综上可知,待处理特征经过全局平均池化层的处理之后,通道数量仅为1,后续的Conv3*3以及TransposedConv3*3的计算量较小(以待处理特征(b,256,28,28)为例,通道数量缩小256倍,则计算量至少缩小256倍),从而可以有效地提高任务处理效率。
另外,还需要强调的是,基于SENet进行的通道挤压和激励通常建立在通道全连接的基础上,即不管输出通道有没有变化,每个输出通道均由全部输入通道计算获得。在本公开实施例中,目标特征中的每个像素仅由待处理特征中的3*3个像素计算获得,感受野大小为7*7左右(以卷积核尺寸为3*3,步长为2计算),因而导致空间注意力的作用范围相对有限。
有鉴于此,在一些可选的实现方式中,可以适当地增加上述感受野的大小,以扩大空间注意力的作用范围,从而提高任务处理准确度。应当理解,增加感受野的尺寸,通常会导致计算量的增加,换言之,上述任务处理准确度的增加,可以是以牺牲部分处理能力换来的效果。
在一些可选的实现方式中,将图5所示的空间注意力模块视作朴素版本,通过对其中的某些网络层进行改进或加强,可以获得空间注意力作用范围更大的增强版本的空间注意力模块。
示例性地,将图5中的全局平均池化层置换为全局卷积层,通过卷积的可学习参数来更好地保留待处理特征的信息。
示例性地,将图5中的第一卷积层置换为第二卷积层和第一通道平均层,其中,第二卷积层使用尺寸更大的卷积核,并对应多个输出通道,由第一通道平均层对各个输出通道的特征进行均值化处理,获得相应的第一中间特征。可以理解,由于卷积核的尺寸增大,因此,感受野的尺寸也相应增加,并且,由于通过多个输出通道的均值确定第一中间特征,可以在一定程度上提高第一中间特征的准确性。
示例性地,将图5中的第一反卷积层置换为第二反卷积层和第二通道平均层,其中,第二反卷积层可以使用尺寸更大的卷积核,并对应多个输出通道,由第二通道平均层对各个输出通道的特征进行均值化处理,获得相应的第三中间特征。可以理解,由于卷积核的尺寸增大,因此,感受野的尺寸也相应增加,并且,由于通过多个输出通道的均值确定第三中间特征,可以在一定程度上提高第三中间特征的准确性。
需要说明的是,可以在朴素版本的空间注意力模块的基础上,实施上述任意一种或多种改进方式,以便增加空间注意力的作用范围。
图6为本公开实施例提供的一种空间注意力模块的示意图,其属于加强版本的空间注意力模块。参照图6,该空间注意力模块包括:全局卷积层、特征提取层、ReLU激活层、特征还原层和Sigmoid激活层,其中,特征提取层包括第二卷积层和第一通道平均层,特征还原层包括第二反卷积层和第二通道平均层。
在一些可选的实现方式中,待处理特征为一个四维张量(b,c1,h1,w1),其中,b表示待处理特征的数量,c1表示待处理特征的通道数量,h1和w1分别表示待处理特征的高度和宽度。
将待处理特征输入空间注意力模块之后,首先由全局卷积层对待处理特征进行全局卷积处理,获得通道上下文特征。由于是全局卷积处理,因此,该通道上下文特征为全局的通道上下文特征,而且,该通道上下文特征对应的张量尺寸为(b,1,h1,w1),换言之,全局卷积层将待处理特征的通道数量由c1压缩为1,不改变其在空间维度的特征尺寸,同时通过全局卷积层中的可学习参数更好地保留了特征信息。
在获得通道上下文特征之后,通过由第二卷积层和第一通道平均层组成的特征提取层对通道上下文特征进行处理,获得第一中间特征。示例性地,由第二卷积层对通道上下文特征进行卷积处理,获得多个通道的第四中间特征,再由第一通道平均层计算多个第四中间特征在通道维度的平均值,获得第一中间特征。其中,多个通道的第四中间特征对应的张量尺寸为(b,c2,h3,w3),第一中间特征对应的张量尺寸为(b,1,h3,w3),1<c2<c1,h3<h1,w3<w1。换言之,第二卷积层根据1个通道的通道上下文特征获得c2个通道的第四中间特征,同时对通道上下文特征在空间维度进行了挤压(高度由h1挤压为h3,宽度由w1挤压为w3);第一通道平均层在通道维度计算上述多个第四中间特征的平均值,获得第一中间特征。
进一步地,由ReLU激活层对第一中间特征进行非线性激活处理,获得第二中间特征,对应张量尺寸为(b,1,h3,w3)。
获得第二中间特征之后,通过由第二反卷积层和第二通道平均层组成的特征还原层对第二中间特征进行处理,获得第三中间特征。示例性地,由第二反卷积层对第二中间特征进行反卷积处理,获得多个通道的第五中间特征,再由第二通道平均层计算多个第五中间特征在通道维度的平均值,获得第三中间特征。其中,多个通道的第五中间特征对应的张量尺寸为(b,c3,h1,w1),第三中间特征对应的张量尺寸为(b,1,h1,w1),1<c3<c1,且c3与c2可以相同,也可以不同。换言之,第二反卷积层根据1个通道的第二中间特征获得c3个通道的第五中间特征,同时对第二中间特征在空间维度进行了扩张(高度由h3扩张为h1,宽度由w3扩张为w1);第二通道平均层在通道维度计算上述多个第五中间特征的平均值,获得第三中间特征。
进一步地,经由Sigmoid激活层对第三中间特征进行非线性激活与归一化处理,获得空间注意力特征,对应张量尺寸为(b,1,h1,w1)。
通过逐点相乘单元,将空间注意力特征逐点乘到待处理特征,获得目标特征,对应的张量尺寸为(b,1,h1,w1)。
以待处理特征为(b,256,28,28),第二卷积层对应四个卷积核,每个卷积核对应一个通道,且卷积核尺寸为7*7,步长为4,膨胀系数为2,第二反卷积对应四个卷积核,每个卷积核对应一个通道,且卷积核的尺寸为7*7,步长为4,膨胀系数为2为例进行说明。首先,将待处理特征输入空间注意力模块,由全局卷积层在通道维度对待处理特征进行特征压缩,获得形状为(b,1,28,28)的通道上下文特征;然后由第二卷积层使用对应4个通道的卷积核,进行Conv7*7,步长为4,膨胀系数为2的卷积处理,将通道上下文特征在通道维度扩展为4个通道,在空间维度进行特征压缩,获得形状为(b,4,7,7)的第四中间特征(或者对应4个通道的形状为(b,1,7,7)的第四中间特征);第一通道平均层在通道维度计算上述第四中间特征的平均值(即计算处于相同空间位置的特征点在4个通道的平均值),获得第一中间特征,对应尺寸为(b,1,7,7);经过ReLU激活层对第一中间特征的非线性激活处理,获得形状为(b,1,7,7)的第二中间特征;接着由第二反卷积层使用对应4个通道的卷积核,进行TransposedConv7*7,步长为4,膨胀系数为2的反卷积处理,将第二特征在通道维度扩展为4个通道,在空间维度进行特征扩张,获得形状为(b,4,28,28)的第五中间特征(或者对应4个通道的形状为(b,1,28,28)的第五中间特征);第二通道平均层在通道维度计算上述第五中间特征的平均值(即计算处于相同空间位置的特征点在4个通道的平均值),获得第三中间特征,对应尺寸为(b,1,28,28);经过Sigmoid激活层对第三中间特征的非线性激活与归一化处理,获得形状为(b,1,28,28)的空间注意力特征;将该空间注意特征逐点乘到待处理特征中,获得形状为(b,256,28,28)的目标特征。
需要说明的是,在使用膨胀系数为2,尺寸为7*7的卷积核进行卷积处理时,需要在特征边缘补零(也可以采用其他补数方法),可能导致特征提取结果受补零操作的影响,造成结果的不准确。基于此,在第二卷积层和第二反卷积层中,采用多卷积核策略,即使用多个卷积核扩大特征的通道数,再通过计算特征在通道维度平均值的方式减少上述补零操作的影响。
需要强调的是,以待处理特征为(b,256,28,28)为例,在朴素版本的空间自注意力模块处理过程中,空间自注意力的作用范围为7*7左右,相对于特征的空间维度尺寸28*28而言较小;在加强版本的空间自注意力模块处理过程中,膨胀系数为2,步长为4,尺寸为7*7的卷积核,其感受野在53*53左右。换言之,加强后的空间自注意力的作用范围为53*53左右,较朴素版本得以有效扩大,即便对于目标检测网络的最大特征图YOLO(空间维度尺寸为608/8=76)而言,53*53的感受野也足够使用。
还需要说明的是,虽然相较于特征的空间维度尺寸28*28而言,膨胀系数为2,步长为4,尺寸为7*7的卷积核属于超大卷积核,但是,在相关技术中已经验证,在面对小尺寸特征图的处理时,超大卷积核仍然具有良好的处理效果和处理效率,不存在超大卷积核无法处理小尺寸特征的问题。
应当理解,在加强版本的空间自注意力处理过程中,虽然在部分处理步骤中增加了通道数量,但是,由于在处理伊始已经将待处理特征从通道维度压缩为较小的特征,因此,计算量虽然有所增加,但是增加量并不大,相较于对任务处理结果所能提升的准确度而言,新增的计算量的性价较高。
需要说明的是,上述图4-6所示的空间注意力模块对应SENet中的SE Block结构,在图3所示的空间注意力模块的基础上,可以进行多种变形处理,从而获得关于SENet的多种变体结构,这些变体同样可用于进行空间注意力机制的处理,以获得空间注意力信息。
图7为本公开实施例提供的一种空间注意力模块的示意图,其属于SENet的变体之一(即Simplified NL Block)。参照图7,在该空间注意力模块中,待处理特征对应的张量尺寸为(b,c,h1,w1),上下文建模单元包括第三卷积层和归一化层,其用于从通道维度对待处理特征进行特征压缩,获得通道上下文特征,对应的张量尺寸为(b,1,h1,w1);第四卷积层对应转换单元,用于对通道上下文特征进行特征转换,获得空间注意力特征,对应的张量尺寸为(b,1,h1,w1);融合单元由逐点相乘器实现,用于将空间注意力特征逐点乘到待处理特征中,获得目标特征,目标特征的张量尺寸为(b,c,h1,w1)。
由此可知,采用Simplified NL Block结构,同样可以获得待处理特征在空间维度的注意力信息。
需要说明的是,除Simplified NL Block之外,SENet还存在多种变体,例如全局上下文建模框架(Global context Block,GC Block)等,但是无论何种变体,其处理过程都是相似的,均是先从通道维度对待处理特征进行压缩,获得通道上下文特征,再在空间维度激励通道上下文特征,以获得空间注意力特征,最后将空间注意力特征与待处理特征进行融合,从而获得目标特征。
在一些可选的实现方式中,可以将上述空间注意力机制与通道注意力机制结合使用,以进一步提升任务处理结果的准确性。
在一些可选的实现方式中,处理结果可以是由空间维度的注意力信息和通道维度的注意力信息确定的,空间维度的注意力信息基于空间注意力处理机制获得,通道维度的注意力信息基于通道注意力处理机制获得。
换言之,较只使用空间注意力机制或者只使用通道注意力机制获取处理结果而言,将两者机制相结合,可以同时获得空间维度的注意力信息和通道维度的注意力信息,特征的表征效果得以进一步提升,相应的,任务处理结果的准确性也能得到提高。
图8为本公开实施例提供的一种目标神经网络的示意图。参照图8,该目标神经网络包括第一网络结构、空间注意力模块、通道注意力模块、融合模块及第二网络结构,其中,空间注意力模块是基于空间注意力机制设置的模块,用于获取空间维度的注意力信息,通道注意力模块是基于通道注意力机制设置的模块,用于获取通道维度的注意力信息。
在一些可选的实现方式中,将待处理数据输入目标神经网络中,由位于空间注意力模块和通道注意力模块之前的第一网络结构对待处理数据的处理,获得待处理特征,并将待处理特征作为空间注意力模块和通道注意力模块的输入数据。
对于空间注意力模块而言,其通过第一上下文建模单元从通道维度对待处理特征进行特征压缩,获得通道上下文特征,并将通道上下文特征输入第一转换单元;第一转换单元对该通道上下文特征进行特征转换,获得空间注意力特征,并将空间注意力特征输入第一融合单元;第一融合单元将待处理特征与空间注意力特征通过逐点相乘或者逐点相加等方式进行特征融合,获得第一目标特征,并将第一目标特征输入融合模块。
与空间注意力模块类似,通道注意力模块通过第二上下文建模单元从空间维度对待处理特征进行特征压缩,获得空间上下文特征,并将空间上下文特征输入第二转换单元;第二转换单元对该空间上下文特征进行特征转换,获得通道注意力特征,并将通道注意力特征输入第二融合单元;第二融合单元将待处理特征与通道注意力特征通过逐点相乘或者逐点相加等方式进行特征融合,获得第二目标特征,并将第二目标特征输入融合模块。
融合模块进一步将第一目标特征和第二目标特征进行融合,获得既包括空间注意力信息也包括通道注意力信息的融合特征,并将该融合特征输入第二网络结构,由第二网络结构基于该融合特征执行相应的数据处理,获得处理结果。
上述处理过程中,空间注意力模块和通道注意力模块作用于同一待处理特征,用于从空间维度和通道维度同时加强其特征表达效果。在一些可选的实现方式中,空间注意力模块和通道注意力模块还可以作用于不同的待处理特征,以针对不同的待处理特征采取不同的处理方式。示例性的,空间注意力模块作用于第一待处理特征,用于获得第一待处理特征在空间维度的注意力信息;通道注意力模块作用于第二待处理特征,用于获得第二待处理特征在通道维度的注意力信息。
如前所述,空间注意力模块包括朴素版本和加强版本,与之类似,通道注意力模块也可以包括朴素版本和加强版本。而且,在目标神经网络中,可以同时使用两者的朴素版本,也可以同时使用两者的加强版本,还可以使用其中一者的朴素版本而使用另一者的加强版本,本公开实施例对此不作限制。
需要说明的是,空间注意力模块和通道注意力模块可以使用各类SENet(包括相应的变体)结构,而且,空间注意力模块和通道注意力模块可以使用相同的SENet结构,也可以使用不同的SENet结构,本公开实施例对此不作限制。
还需要说明的是,根据上述数据处理过程可知,空间注意力模块和通道注意力模块的处理过程相对独立,不依赖对方的处理结果即可执行数据处理,因此,空间注意力模块和通道注意力模块的处理过程可以同时执行,也可以先后执行,本公开实施例对此不作限制。
在一些可选的实现方式中,上述空间注意力模块和通道注意力模块可以由不同的硬件设备承载,也可以由相同的硬件设备承载。在由相同硬件设备承载的情况下,空间注意力模块和通道注意力模块的处理过程可以先后依次执行,或者通过建立两个进程,在两个进程中同时执行。在由不同硬件设备承载的情况下,空间注意力模块和通道注意力模块的处理过程可以由各自的硬件设备同时执行,也可以先后依次执行。
本公开实施例第二方面提供一种神经网络模型。
图9为本公开实施例提供的一种神经网络模型的示意图。参照图9,该神经网络模型是基于目标神经网络的模型参数构建的模型,其中,目标神经网络采用本公开实施例中任一项的目标神经网络。
在一些可选的实现方式中,神经网络模型可用于执行图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种。无论该神经网络模型执行何种任务,在执行过程中均需要获取特征在空间维度的注意力信息,基于此,该神经网络模型在执行任务过程中包括如下步骤:从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得特征在空间维度的注意力信息。换言之,针对不同类型的任务,神经网络模型的结构可能有所不同,但是无论其结构如何变化,其均包括用于执行空间注意力机制的功能模块。
在一些可选的实现方式中,根据待处理任务搭建初始的神经网络模型,在初始的神经网络模型中,至少部分模型参数是初始参数,直接基于初始的神经网络模型执行待处理任务时,任务处理准确率较低。基于此,利用目标神经网络的模型参数更新该初始神经网络模型中的对应参数,以获得准确率较高的神经网络模型。
在一些可选的实现方式中,基于目标神经网络的模型参数构建神经网络模型的过程可以通过模型训练方式实现。
示例性地,首先,搭建初始的神经网络模型,在初始的神经网络模型中,各项模型参数是依据经验、统计数据设置或者随机设置的初始化参数,该初始模型无法直接用于执行任务。其次,获取相应的训练集,并基于训练集对初始的神经网络模型进行训练,获得训练结果。然后,根据训练结果和预设的迭代条件确定是否继续训练模型,其中,在确定继续训练模型的情况下,说明当前的模型参数还未达到最优,存在继续优化的空间,因此,根据本轮训练结果更新模型参数,并基于训练集对更新后的模型进行迭代训练,直到确定停止训练模型,从而获得训练好的神经网络模型。在训练好的神经网络模型中,模型参数即对应目标神经网络的模型参数。
需要说明的是,在基于训练集获得训练好的神经网络模型之后,还可以基于验证集进行模型验证与矫正,类似的,也可以基于测试集进行模型评估,本公开实施例对神经网络模型的获取方法不作限制。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
此外,本公开还提供了数据处理装置、电子设备、计算机可读存储介质,上述均可用来实现本公开提供的任一种数据处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图10为本公开实施例提供的一种数据处理装置的框图。
参照图10,本公开实施例提供了一种数据处理装置,该数据处理装置包括如下模块。
数据处理模块101,用于将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果。
其中,所述空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得所述特征在空间维度的注意力信息。
在一些可选的实现方式中,数据处理模块包括第一确定子模块、压缩子模块、转换子模块、融合子模块和第二确定子模块。其中,第一确定子模块,用于根据所述待处理数据确定待处理特征;压缩子模块,用于从通道维度对所述待处理特征进行特征压缩,获得通道上下文特征;转换子模块,用于对所述通道上下文特征进行特征转换,获得空间注意力特征;融合子模块,用于对所述待处理特征和所述空间注意力特征进行特征融合,获得目标特征;第二确定子模块,用于根据所述目标特征,确定处理结果;其中,所述待处理特征、所述通道上下文特征、所述空间注意力特征以及所述目标特征在空间维度的特征尺寸相同,所述待处理特征与所述目标特征在通道维度具有相同的第一特征尺寸,所述通道上下文特征与所述空间注意力特征在通道维度具有相同的第二特征尺寸,且所述第一特征尺寸大于所述第二特征尺寸。
将上述功能子模块映射到图3所示的目标神经网络中,第一确定子模块对应第一网络结构,压缩子模块对应上下文建模单元,转换子模块对应转换单元,融合子模块对应融合单元,第二确定子模块对应第二网络结构。其中,压缩子模块、转换子模块、融合子模块还包括更细粒度的功能单元,相关内容可参见本公开实施例的相应描述,在此不再重复展开。
图11为本公开实施例提供的一种电子设备的框图。
参照图11,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器1101;至少一个存储器1102,以及一个或多个I/O接口1103,连接在处理器1101与存储器1102之间;其中,存储器1102存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器1101执行,以使至少一个处理器1101能够执行上述的数据处理方法。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的数据处理方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述数据处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
Claims (18)
1.一种数据处理方法,其特征在于,包括:
将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果;其中,所述空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得所述特征在空间维度的注意力信息。
2.根据权利要求1所述的方法,其特征在于,所述将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果,包括:
根据所述待处理数据确定待处理特征;
从通道维度对所述待处理特征进行特征压缩,获得通道上下文特征;
对所述通道上下文特征进行特征转换,获得空间注意力特征;
对所述待处理特征和所述空间注意力特征进行特征融合,获得目标特征;
根据所述目标特征,确定处理结果;
其中,所述待处理特征、所述通道上下文特征、所述空间注意力特征以及所述目标特征在空间维度的特征尺寸相同,所述待处理特征与所述目标特征在通道维度具有相同的第一特征尺寸,所述通道上下文特征与所述空间注意力特征在通道维度具有相同的第二特征尺寸,且所述第一特征尺寸大于所述第二特征尺寸。
3.根据权利要求2所述的方法,其特征在于,所述从通道维度对所述待处理特征进行特征压缩,获得通道上下文特征,包括:
对所述待处理特征在通道维度进行池化处理,获得所述通道上下文特征;
或,
对所述待处理特征在通道维度进行卷积处理,获得所述通道上下文特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述待处理特征在通道维度进行池化处理,获得所述通道上下文特征,包括:
对所述待处理特征在通道维度进行全局平均池化处理,获得在通道维度特征尺度为1的所述通道上下文特征;
所述对所述待处理特征在通道维度进行卷积处理,获得所述通道上下文特征,包括:
对所述待处理特征在通道维度进行全局卷积,获得在通道维度特征尺度为1的所述通道上下文特征。
5.根据权利要求2所述的方法,其特征在于,所述对所述通道上下文特征进行特征转换,获得空间注意力特征,包括:
对所述通道上下文特征在空间维度进行特征提取,获得第一中间特征;
对所述第一中间特征进行激活处理,获得第二中间特征;
对所述第二中间特征进行特征还原处理,获得第三中间特征;
对所述第三中间特征进行激活处理,获得所述空间注意力特征。
6.根据权利要求5所述的方法,其特征在于,所述对所述通道上下文特征在空间维度进行特征提取,获得第一中间特征,包括:
对所述通道上下文特征在空间维度进行第一卷积处理,获得所述第一中间特征;
或,
对所述通道上下文特征在空间维度进行第二卷积处理,获得多个通道对应的第四中间特征;确定多个所述第四中间特征在通道维度的平均值,获得所述第一中间特征。
7.根据权利要求6所述的方法,其特征在于,所述第一卷积对应一个卷积核,且所述卷积核的尺寸为3*3,步长为2;
所述第二卷积对应四个卷积核,每个卷积核对应一个通道,且所述卷积核的尺寸为7*7,步长为4,膨胀系数为2。
8.根据权利要求5所述的方法,其特征在于,所述对所述第二中间特征进行特征还原处理,获得第三中间特征,包括:
对所述第二中间特征进行第一反卷积处理,获得所述第三中间特征;
或,
对所述第二中间特征进行第二反卷积处理,获得多个通道对应的第五中间特征;
基于多个所述第五中间特征在通道维度的平均值,获得所述第三中间特征。
9.根据权利要求8所述的方法,其特征在于,所述第一反卷积对应一个卷积核,且所述卷积核的尺寸为3*3,步长为2;
所述第二反卷积对应的四个卷积核,各个所述卷积核对应一个通道,且所述卷积核的尺寸为7*7,步长为4,膨胀系数为2。
10.根据权利要求5所述的方法,其特征在于,所述对所述第一中间特征进行激活处理,获得第二中间特征,包括:
基于线性整流函数对所述第一中间特征进行非线性激活,获得所述第二中间特征;
所述对所述第三中间特征进行激活处理,获得所述空间注意力特征,包括:
基于S型函数对所述第三中间特征进行非线性归一化激活,获得所述空间注意力特征。
11.根据权利要求2所述的方法,其特征在于,所述对所述待处理特征和所述空间注意力特征进行特征融合,获得目标特征,包括:
将所述待处理特征与所述空间注意力特征逐点相加,获得所述目标特征;
或,
将所述待处理特征与所述空间注意力特征逐点相乘,获得所述目标特征。
12.根据权利要求1所述的方法,其特征在于,所述目标神经网络还包括基于挤压与激励框架的通道注意力机制;
所述将待处理数据输入目标神经网络之后,还包括:
基于所述通道注意力机制进行数据处理;
其中,所述通道注意力机制用于从空间维度对特征进行压缩,激励经过空间压缩的特征在通道维度的关联性,获得所述特征在通道维度的注意力信息。
13.根据权利要求12所述的方法,其特征在于,所述处理结果是由空间维度的注意力信息和通道维度的注意力信息确定的,所述空间维度的注意力信息基于所述空间注意力处理机制获得,所述通道维度的注意力信息基于所述通道注意力处理机制获得。
14.根据权利要求1-13任一项所述的方法,其特征在于,所述目标神经网络用于执行图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种。
15.一种神经网络模型,其特征在于,包括:所述神经网络模型是基于目标神经网络的模型参数构建的模型,
其中,所述目标神经网络采用如权利要求1-14中任一项所述的目标神经网络。
16.一种数据处理装置,其特征在于,包括:
数据处理模块,用于将待处理数据输入目标神经网络,基于挤压与激励框架的空间注意力机制进行数据处理,获得处理结果;
其中,所述空间注意力机制用于从通道维度对特征进行压缩,激励经过通道压缩的特征在空间维度的关联性,获得所述特征在空间维度的注意力信息。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-14中任一项所述的数据处理方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-14中任一项所述的数据处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210948062.XA CN115034375B (zh) | 2022-08-09 | 2022-08-09 | 数据处理方法及装置、神经网络模型、设备、介质 |
PCT/CN2023/111669 WO2024032585A1 (zh) | 2022-08-09 | 2023-08-08 | 数据处理方法及装置、神经网络模型、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210948062.XA CN115034375B (zh) | 2022-08-09 | 2022-08-09 | 数据处理方法及装置、神经网络模型、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115034375A true CN115034375A (zh) | 2022-09-09 |
CN115034375B CN115034375B (zh) | 2023-06-27 |
Family
ID=83130537
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210948062.XA Active CN115034375B (zh) | 2022-08-09 | 2022-08-09 | 数据处理方法及装置、神经网络模型、设备、介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115034375B (zh) |
WO (1) | WO2024032585A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024032585A1 (zh) * | 2022-08-09 | 2024-02-15 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274999A (zh) * | 2020-02-17 | 2020-06-12 | 北京迈格威科技有限公司 | 数据处理、图像处理方法、装置及电子设备 |
US20210142106A1 (en) * | 2019-11-13 | 2021-05-13 | Niamul QUADER | Methods and systems for training convolutional neural network using built-in attention |
CN113111970A (zh) * | 2021-04-30 | 2021-07-13 | 陕西师范大学 | 通过构建全局嵌入式注意力残差网络对图像分类的方法 |
WO2021147257A1 (zh) * | 2020-01-20 | 2021-07-29 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
CN114202502A (zh) * | 2021-08-30 | 2022-03-18 | 浙大宁波理工学院 | 一种基于卷积神经网络的螺纹旋向分类方法 |
WO2022061726A1 (en) * | 2020-09-25 | 2022-03-31 | Intel Corporation | Method and system of multiple facial attributes recognition using highly efficient neural networks |
CN114359164A (zh) * | 2021-12-10 | 2022-04-15 | 中国科学院深圳先进技术研究院 | 一种基于深度学习自动预测阿尔茨海默症的方法和系统 |
CN114781513A (zh) * | 2022-04-22 | 2022-07-22 | 北京灵汐科技有限公司 | 数据处理方法及装置、设备、介质 |
CN114782737A (zh) * | 2022-03-24 | 2022-07-22 | 福建亿榕信息技术有限公司 | 一种基于改进残差网络的图像分类方法、设备和存储介质 |
CN114842185A (zh) * | 2022-03-21 | 2022-08-02 | 昭通亮风台信息科技有限公司 | 用于火灾的目标识别方法、装置、设备及介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111259982B (zh) * | 2020-02-13 | 2023-05-12 | 苏州大学 | 一种基于注意力机制的早产儿视网膜图像分类方法和装置 |
CN112215337B (zh) * | 2020-09-30 | 2024-05-14 | 江苏大学 | 一种基于环境注意力神经网络模型的车辆轨迹预测方法 |
EP4222968A4 (en) * | 2020-10-01 | 2024-10-30 | Beijing Dajia Internet Information Tech Co Ltd | NEURAL NETWORK BASED IN-LOOP FILTERING VIDEO CODING |
CN114092764A (zh) * | 2021-11-19 | 2022-02-25 | 扬州大学 | 一种加入注意力机制的YOLOv5神经网络车辆检测方法 |
CN114549538A (zh) * | 2022-02-24 | 2022-05-27 | 杭州电子科技大学 | 一种基于空间信息与特征通道的脑肿瘤医学图像分割方法 |
CN115034375B (zh) * | 2022-08-09 | 2023-06-27 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
-
2022
- 2022-08-09 CN CN202210948062.XA patent/CN115034375B/zh active Active
-
2023
- 2023-08-08 WO PCT/CN2023/111669 patent/WO2024032585A1/zh unknown
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210142106A1 (en) * | 2019-11-13 | 2021-05-13 | Niamul QUADER | Methods and systems for training convolutional neural network using built-in attention |
WO2021147257A1 (zh) * | 2020-01-20 | 2021-07-29 | 上海商汤智能科技有限公司 | 网络训练、图像处理方法及装置、电子设备和存储介质 |
CN111274999A (zh) * | 2020-02-17 | 2020-06-12 | 北京迈格威科技有限公司 | 数据处理、图像处理方法、装置及电子设备 |
WO2022061726A1 (en) * | 2020-09-25 | 2022-03-31 | Intel Corporation | Method and system of multiple facial attributes recognition using highly efficient neural networks |
CN113111970A (zh) * | 2021-04-30 | 2021-07-13 | 陕西师范大学 | 通过构建全局嵌入式注意力残差网络对图像分类的方法 |
CN114202502A (zh) * | 2021-08-30 | 2022-03-18 | 浙大宁波理工学院 | 一种基于卷积神经网络的螺纹旋向分类方法 |
CN114359164A (zh) * | 2021-12-10 | 2022-04-15 | 中国科学院深圳先进技术研究院 | 一种基于深度学习自动预测阿尔茨海默症的方法和系统 |
CN114842185A (zh) * | 2022-03-21 | 2022-08-02 | 昭通亮风台信息科技有限公司 | 用于火灾的目标识别方法、装置、设备及介质 |
CN114782737A (zh) * | 2022-03-24 | 2022-07-22 | 福建亿榕信息技术有限公司 | 一种基于改进残差网络的图像分类方法、设备和存储介质 |
CN114781513A (zh) * | 2022-04-22 | 2022-07-22 | 北京灵汐科技有限公司 | 数据处理方法及装置、设备、介质 |
Non-Patent Citations (1)
Title |
---|
何海洋等: "基于通道域自注意力机制的图像识别算法", 《计算机时代》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024032585A1 (zh) * | 2022-08-09 | 2024-02-15 | 北京灵汐科技有限公司 | 数据处理方法及装置、神经网络模型、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024032585A1 (zh) | 2024-02-15 |
CN115034375B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108364061B (zh) | 运算装置、运算执行设备及运算执行方法 | |
CN105260776B (zh) | 神经网络处理器和卷积神经网络处理器 | |
Ballé et al. | Integer networks for data compression with latent-variable models | |
CN110443165B (zh) | 神经网络量化方法、图像识别方法、装置和计算机设备 | |
WO2019144855A1 (zh) | 图像处理方法、存储介质和计算机设备 | |
CN108628807A (zh) | 浮点数矩阵的处理方法、装置、设备及计算机可读存储介质 | |
CN112003625A (zh) | 一种霍夫曼编码方法、系统及设备 | |
CN110728350A (zh) | 用于机器学习模型的量化 | |
WO2022028197A1 (zh) | 一种图像处理方法及其设备 | |
CN114781513A (zh) | 数据处理方法及装置、设备、介质 | |
CN108053034B (zh) | 模型参数处理方法、装置、电子设备及存储介质 | |
CN115034375A (zh) | 数据处理方法及装置、神经网络模型、设备、介质 | |
CN112035401A (zh) | 模型数据处理方法、装置、电子设备及可读介质 | |
CN113096019B (zh) | 图像重建方法、装置、图像处理设备及存储介质 | |
CN115294222A (zh) | 图像编码方法及图像处理方法、终端及介质 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN111950712A (zh) | 模型网络参数处理方法、设备及可读存储介质 | |
WO2023185209A1 (zh) | 模型剪枝 | |
CN115018059A (zh) | 数据处理方法及装置、神经网络模型、设备、介质 | |
CN113256744A (zh) | 一种图像编码、解码方法及系统 | |
US20220075437A1 (en) | Electronic apparatus and control method thereof | |
CN117493551A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN112580772B (zh) | 卷积神经网络的压缩方法及装置 | |
US20180152709A1 (en) | Classes of Tables for Use in Image Compression | |
CN113052258B (zh) | 基于中间层特征图压缩的卷积方法、模型及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |