CN115018059B - 数据处理方法及装置、神经网络模型、设备、介质 - Google Patents
数据处理方法及装置、神经网络模型、设备、介质 Download PDFInfo
- Publication number
- CN115018059B CN115018059B CN202210949734.9A CN202210949734A CN115018059B CN 115018059 B CN115018059 B CN 115018059B CN 202210949734 A CN202210949734 A CN 202210949734A CN 115018059 B CN115018059 B CN 115018059B
- Authority
- CN
- China
- Prior art keywords
- feature
- processed
- features
- processing
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 233
- 230000004927 fusion Effects 0.000 claims abstract description 129
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000007499 fusion processing Methods 0.000 claims abstract description 47
- 238000006243 chemical reaction Methods 0.000 claims description 38
- 238000013528 artificial neural network Methods 0.000 claims description 30
- 238000003860 storage Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 26
- 230000000694 effects Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 17
- 238000012549 training Methods 0.000 description 13
- 238000011176 pooling Methods 0.000 description 9
- 230000009467 reduction Effects 0.000 description 8
- 238000012512 characterization method Methods 0.000 description 7
- 238000013519 translation Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种数据处理方法及装置、神经网络模型、设备、介质,属于计算机技术领域。该方法包括:获取待处理数据对应的多个层级的待处理特征;将目标层级的待处理特征与除目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征,其中,目标层级是从多个层级中选取的至少一个层级;基于融合特征,确定处理结果。根据本公开的实施例能够直接高效地进行特征融合。
Description
技术领域
本公开涉及计算机技术领域,特别涉及一种数据处理方法及装置、神经网络模型、电子设备、计算机可读存储介质。
背景技术
神经网络等技术已经广泛应用在图像处理、视频处理、语音处理以及文本处理等领域中。在基于神经网络执行相应的任务时,通常需要进行特征提取,并基于提取的特征进行数据处理。为提高特征的表征效果,在相关技术中,采用特征融合方式获取融合特征,以基于融合特征进行任务处理。通常情况下,采用自上而下或者自下而上的方式进行特征融合,但是,基于上述方式获取的融合特征仍然是间接进行融合的特征,融合特征的表征效果不佳,可能导致任务处理的准确率不高。
发明内容
本公开提供一种数据处理方法及装置、神经网络模型、电子设备、计算机可读存储介质。
第一方面,本公开提供了一种数据处理方法,该数据处理方法包括:获取待处理数据对应的多个层级的待处理特征;将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征,其中,所述目标层级是从多个层级中选取的至少一个层级;基于所述融合特征,确定处理结果。
第二方面,本公开提供了一种神经网络模型,该神经网络模型包括:至少一个特征融合层,所述特征融合层用于将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得与所述目标层级对应的融合特征,所述待处理特征包括与待处理数据对应的多个层级的特征,所述目标层级是从多个层级中选取的至少一个层级;所述神经网络模型用于执行本公开实施例任一项所述的数据处理方法。
第三方面,本公开提供了一种数据处理装置,该数据处理装置包括:获取模块,用于获取待处理数据对应的多个层级的待处理特征;融合模块,用于将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征,其中,所述目标层级是从多个层级中选取的至少一个层级;处理模块,用于基于所述融合特征,确定处理结果。
第四方面,本公开提供了一种电子设备,该电子设备包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的数据处理方法。
第五方面,本公开提供了一种电子设备,该电子设备包括:多个处理核;以及,片上网络,被配置为交互所述多个处理核间的数据和外部数据;其中,一个或多个所述处理核中存储有一个或多个指令,一个或多个所述指令被一个或多个所述处理核执行,以使一个或多个所述处理核能够执行上述的数据处理方法。
第六方面,本公开提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的数据处理方法。
本公开所提供的实施例,获取待处理数据对应的多个层级的待处理特征;将目标层级的待处理特征与除目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征,其中,目标层级是从多个层级中选取的至少一个层级;基于融合特征,确定处理结果。换言之,在公开实施例中,无需逐层地进行特征融合,而是可以将目标层级的待处理特征与除目标层级之外的任意一个或多个层级的待处理特征直接进行融合,使得特征融合方式更加灵活简洁,从而提升特征融合效果和特征融合效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用来提供对本公开的进一步理解,并且构成说明书的一部分,与本公开的实施例一起用于解释本公开,并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述,以上和其他特征和优点对本领域技术人员将变得更加显而易见,附图如下所示:
图1为相关技术提供的一种特征金字塔网络的示意图;
图2为相关技术提供的一种特征金字塔网络的示意图;
图3为本公开实施例提供的一种数据处理方法的流程图;
图4为本公开实施例提供的一种神经网络的示意图;
图5为本公开实施例提供的一种神经网络的示意图;
图6为本公开实施例提供的一种神经网络的示意图;
图7为本公开实施例提供的一种神经网络模型的示意图;
图8为本公开实施例提供的一种数据处理装置的框图;
图9为本公开实施例提供的一种电子设备的框图。
具体实施方式
为使本领域的技术人员更好地理解本公开的技术方案,以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在不冲突的情况下,本公开各实施例及实施例中的各特征可相互组合。
如本文所使用的,术语“和/或”包括一个或多个相关列举条目的任何和所有组合。
本文所使用的术语仅用于描述特定实施例,且不意欲限制本公开。如本文所使用的,单数形式“一个”和“该”也意欲包括复数形式,除非上下文另外清楚指出。还将理解的是,当本说明书中使用术语“包括”和/或“由……制成”时,指定存在所述特征、整体、步骤、操作、元件和/或组件,但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。
除非另外限定,否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解,诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义,且将不解释为具有理想化或过度形式上的含义,除非本文明确如此限定。
神经网络(Neural Network,NN)是一种模仿生物神经网络的结构和功能的模型,已经广泛应用在图像处理、语音识别、自然语言处理等领域。卷积是神经网络中的一个重要概念,通过卷积操作可实现特征提取。在提取特征时,为保障能提取到不同尺寸或不同层级的特征,通常需要使用不同尺寸的卷积核,其中,使用尺寸较小的卷积核可以提取到较低层级的特征,使用尺寸较大的卷积核可以提取到较高层级的特征。低层级特征的语义信息比较少,但空间信息准确丰富,且分辨率较高,而高层级特征的语义信息比较丰富,但是空间信息较少,分辨率较低且比较抽象。
在相关技术中,可以采用自上而下的方式,将高层级特征与低层级特征进行融合,以利用高层级特征的语义信息加强低层级特征,或者,采用自下而上的方式,将低层级特征与高层级特征进行融合,以利用低层级特征的空间信息加强高层级特征。特征金字塔网络(Feature Parymid Network,FPN)是一种常用的特征融合模型,其采用重采样后进行通道拼接或者逐点相加的方法实现特征融合,实现较为简便。
图1为相关技术提供的一种特征金字塔网络的示意图。参照图1,FPN网络使用一个标准的特征提取网络提取多个空间位置的特征,然后增加一个轻量级的自顶而下的通路,并且将其与特征提取网络横向连接。针对特征提取网络所提取的每一层级特征,先对其进行二倍上采样,获得上采样后的特征,再将其与经过c1×1卷积处理的下一层级特征叠加,从而获得相应的融合特征,并基于融合特征进行执行后续的数据处理操作。
在相关技术中,为进一步提高特征融合效果,针对FPN提出多种改进模型,例如,双向(Bi-Directional)FPN、路径聚合网络(Path Aggregation Network,PA-Net)等。
图2为相关技术提供的一种特征金字塔网络的示意图。参照图2,其示出PA-Net的网络结构。如图2所示,PA-Net主要包括四个模块,分别是:(a)FPN模块;(b)Bottom-Up PathAugmentation模块;(c)Adaptive Feature Pooling模块;(d)Fully-Connected Fusion模块。
其中,FPN模块对应图1中的FPN网络,用于自上而下地融合特征;Bottom-Up PathAugmentation模块主要用于保留更多的浅层特征;Adaptive Feature Pooling模块主要用于对每个ROI提取的不同层级的特征进行融合;Fully-Connected Fusion模块主要用于对各个分割支路的特征进行进一步地融合。
然而,无论是FPN还是其改进模型,高低层级的特征之间进行特征融合只能采用从高层到低层和从低层到高层两种方式。但是无论哪种方式,都存在无法将不同层级的特征进行直接融合的问题(例如,图2中P3和N3对应的第三级特征,并没有直接得到P5和N5对应的第五层级的特征信息)。若是将上述由高层到低层及由低层到高层的特征融合方式执行多次的方式提升特征融合效果,则需耗费大量的计算,且仍未从根本上解决将不同层级特征进行直接融合的问题。
有鉴于此,本公开实施例提供一种数据处理方法,无需逐层级地进行特征融合,可以将目标层级的待处理特征与除目标层级之外的任意一个或多个层级的待处理特征直接融合,使得特征融合方式更加灵活简洁,在无需耗费较大计算量的同时能够有效提升特征融合效果和特征融合效率。
根据本公开实施例的数据处理方法可以由终端设备或服务器等电子设备执行,终端设备可以为用户设备(User Equipment,UE)、移动设备、用户终端、终端、蜂窝电话、无绳电话、个人数字助理(Personal Digital Assistant,PDA)、手持设备、计算设备、车载设备、可穿戴设备等,该方法可以通过处理器调用存储器中存储的计算机可读程序指令的方式来实现。或者,可通过服务器执行该方法。
本公开实施例第一方面提供一种数据处理方法。
图3为本公开实施例提供的一种数据处理方法的流程图。参照图3,该方法包括如下步骤。
在步骤S31中,获取待处理数据对应的多个层级的待处理特征。
在步骤S32中,将目标层级的待处理特征与除目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征。
在步骤S33中,基于融合特征,确定处理结果。
在一些可选的实现方式中,待处理数据可以是用于执行任务的数据,其与待执行任务的类型相关,本公开实施例对待处理数据及对应任务不作限制。
示例性地,待处理数据对应图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种,相应的,待处理数据包括图片、语音、文字、视频等类型中的至少一种。
在一些可选的实现方式中,在步骤S31中,可以基于多个不同尺寸的卷积核对待处理数据进行卷积处理,从而获取多个层级的待处理特征。
示例性地,待处理的任务可以为图像处理任务,对应的待处理数据可以包括至少一张待处理图像,在步骤S31中,使用多个不同尺寸的卷积核对待处理图像进行卷积处理,获得多个层级的待处理特征。
在一些可选的实现方式中,还可以基于同一卷积核,采用不同的步长、膨胀系数等卷积处理参数对待处理数据进行多次卷积处理,从而获取多个层级的待处理特征。
在一些可选的实现方式中,可以根据待处理数据的类型,采用与之匹配的特征提取方式获取待处理特征,以提高待处理特征的表征效果。
示例性地,在待处理数据可以包括语音数据的情况下,可以依次通过分帧并加窗、傅里叶变换、梅尔滤波以及取对数处理等步骤,获取该语音数据对应的多个层级的待处理语音特征。
示例性地,在待处理数据可以包括文本数据的情况下,可以先将文本数据投影到预设的向量空间,以将文本数据转换为该向量空间中的向量,再对向量进行多尺寸的特征提取,获取该文本数据对应的多个层级的待处理文本特征。
需要说明的是,以上对于待处理特征的获取方式仅是举例说明,本公开实施例对此不作限制。
应当理解,无论待处理数据具有何种形式,或者采用何种特征提取方法获取待处理特征,待处理特征均可以表示为相应的张量。采用张量形式表示待处理特征,一方面便于统一地表示不同类型的待处理特征,另一方面便于硬件设备基于待处理特征执行后续的数据处理。
在一些可选的实现方式中,在步骤S32中,可以将目标层级的待处理特征与除目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征。其中,目标层级是从多个层级中选取的至少一个层级。换言之,可以选取一个层级作为目标层级,也可以选取多个层级作为目标层级,而且,针对每个目标层级的待处理特征,可以将其与剩余的一个或多个层级的待处理特征进行融合,以获得该目标层级的融合特征。
需要强调的是,本公开实施例中的特征融合,不受限于自上而下或自下而上的融合模式,可以实现任意的不同层级的待处理特征的融合。此处“任意”的内涵在于,不仅不限定可以进行融合的待处理特征之间的层级关系,也不限定可以进行融合的待处理特征的层级数量。
在一些可选的实现方式中,步骤S32,包括:将目标层级的待处理特征和与目标层级相邻的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征;和/或,将目标层级的待处理特征和与目标层级不相邻的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征。
换言之,在本公开实施例中,任意两个或多个层级的待处理特征之间可以直接进行融合。其中,当将目标层级的待处理特征和与之相邻的至少一个层级的待处理特征进行融合时,由于相邻层级的特征之间差异性较小,获得的融合特征可以较为均衡地提升空间表征效果和语义表征效果。与之相对应的是,当将目标层级的待处理特征和与之不相邻的至少一个层级的待处理特征进行融合时,由于两个待处理特征之间在空间表征效果和语义表征效果上差异较大,获得的融合特征在空间表征效果和语义表征效果方面的改进程度也存在较大差异(例如,主要改进了空间表征效果或者主要改进了语义表征效果),通过这种融合方式,可以较为快速地融合语义信息或者空间信息。
例如,目标层级为第4层级,将其与第5层级的待处理特征进行融合,获得的融合特征在空间表征效果和语义表征效果方面均获得了小幅改善。
例如,目标层级为第4层级,将其与第8层级的待处理特征进行融合,获得的融合特征在语义表征效果方面获得了较大改善。
例如,目标层级为第4层级,将其与第1层级的待处理特征进行融合,获得的融合特征在空间表征效果方面获得了较大改善。
在一些可选的实现方式中,待处理特征的层级总数为N,目标层级对应的层级标识为t(即表示目标层级为第t层级),且1<t<N。
示例性地,可以将第t层级的待处理特征与剩余的N-1个层级的待处理特征进行特征融合处理,获得第t层级对应的融合特征。
示例性地,可以将第t层级的待处理特征与第t-1层至第t-r1层的待处理特征、以及第t+1层至第t+r2层的待处理特征进行特征融合处理,获得第t层级对应的融合特征;其中,r1≥1,且t-r1≥1,r2≥1,且t+r2≤N,r1和r2可以相同也可以不同。换言之,若将N个层级的待处理特征按照从左到右的顺序排列,则可以将第t层级的待处理特征和左侧与之相邻的r1个层级的待处理特征,以及右侧与之相邻的r2个层级的待处理特征进行融合,从而获得第t层级的融合特征。
需要说明的是,在目标层级对应首层时(相当于t=1),不存在比目标层级更低的层级,无法融合低层特征信息,因此,针对这种情况,可以设置特定的特征融合处理方式。类似的,在目标层级对应末层时(相当于t=N),不存在比目标层级更高的层级,无法融合高层特征信息,因此,针对这种情况,也可以设置特定的特征融合处理方式。
在一些可选的实现方式中,目标层级对应的层级标识t=1。对于第1层级的特征融合处理方式包括:将第1层级的待处理特征与剩余的N-1个层级的待处理特征进行特征融合处理,获得与第1层级对应的融合特征;或,将第1层级的待处理特征与第2层至第r3层的待处理特征进行特征融合处理,获得第1层级对应的融合特征,其中,2≤r3<N,r3与r1/r2可以相同也可以不同。
在一些可选的实现方式中,目标层级对应的层级标识t=N。对于第N层级的特征融合处理方式包括:将第N层级的待处理特征与剩余的N-1个层级的待处理特征进行特征融合处理,获得第N层级对应的融合特征;或,将第N层级的待处理特征与第r4层至第N-1层的待处理特征进行特征融合处理,获得第N层级对应的融合特征,其中,1<r4≤N-1,r4与r1/r2/r3可以相同也可以不同。
下面以待处理特征的层级总数N为7,目标层级为第4层级(即t=4),对上述特征融合过程进行展开说明。
例如,将第4层级的待处理特征与剩余的6个层级的待处理特征(包括第1层级、第2层级、第3层级、第5层级、第6层级和第7层级的待处理特征)进行特征融合处理,获得第4层级的融合特征。
例如,将第4层级的待处理特征与第3层级的待处理特征(相当于r1=1)、以及第5层级至第6层级的待处理特征(相当于r2=2)进行特征融合处理,获得第4层级的融合特征。
例如,将第4层级的待处理特征与第2层级至第3层级的待处理特征(相当于r1=2)、以及第5层级的待处理特征(相当于r2=1)进行特征融合处理,获得第4层级的融合特征。
例如,将第4层级的待处理特征与第3层级的待处理特征(相当于r1=1)、以及第5层级的待处理特征(相当于r2=1)进行特征融合处理,获得第4层级的融合特征。
如前所述,在确定要与目标层级进行融合的待处理特征之后,需要采用相应的特征融合处理方式实现特征融合,以获得目标层级的融合特征。
在一些可选的实现方式中,获得目标层级对应的融合特征,包括:对目标层级的待处理特征进行第一特征转换处理,获得与目标层级的特征尺寸相同的第一中间特征;对除目标层级之外的至少一个层级的待处理特征进行第二特征转换处理,获得与目标层级的特征尺寸相同的至少一个第二中间特征;将第一中间特征和第二中间特征进行特征融合处理,获得目标层级对应的融合特征。
其中,对目标层级的待处理特征的第一特征转换处理不会改变其形状,目的在于更好地保留其特征信息。
在一些可选的实现方式中,对目标层级的待处理特征进行第一特征转换处理,获得与目标层级的特征尺寸相同的第一中间特征,包括:对目标层级的待处理特征进行第一卷积处理,获得与目标层级的特征尺寸相同的第一中间特征。
示例性地,基于c1x1对目标层级的待处理特征在空间维度进行卷积处理,获得第一中间特征,第一中间特征与目标层级的待处理特征在空间维度的特征尺寸不会发生变化,在通道维度的通道数也不会发生变化。并且,由于c1×1可以引入可学习参数(例如,卷积核的权重等),从而使得特征表达效果更佳。
需要说明的是,以上对于第一特征转换处理仅是举例说明,其他不改变特征尺寸的特这转换方式也可用于实现上述处理,本公开实施例对此不作限制。
第二特征转换处理主要用于将待融合的层级的待处理特征转换为与目标层级的待处理特征尺寸相同的特征,以便后续的特征融合。
在一些可选的实现方式中,特征尺寸包括通道特征尺寸和空间特征尺寸;相应的,可以分别通过在通道维度的特征尺寸变换处理和在空间维度的特征尺寸变换处理,获得与目标层级的待处理特征尺寸相同的特征。
示例性地,对除目标层级之外的至少一个层级的待处理特征进行第二特征转换处理,获得与目标层级的特征尺寸相同的至少一个第二中间特征,包括:在通道维度对除目标层级之外的至少一个层级的待处理特征进行特征转换处理,获得与目标层级的通道特征尺寸相同的至少一个第三中间特征;在空间维度分别对各个第三中间特征进行特征转换处理,获得与目标层级的空间特征尺寸相同的第二中间特征。
示例性地,对除目标层级之外的至少一个层级的待处理特征进行第二特征转换处理,获得与目标层级的特征尺寸相同的至少一个第二中间特征,包括:在空间维度对除目标层级之外的至少一个层级的待处理特征进行特征转换处理,获得与目标层级的空间特征尺寸相同的至少一个第四中间特征;在通道维度分别对各个第四中间特征进行特征转换处理,获得与目标层级的通道特征尺寸相同的第二中间特征。
其中,在通道维度进行特征转换,目的在于实现通道维度的降维处理或升维处理,即将其他层级的待处理特征的通道数转换为与目标层级的待处理特征相同的通道数,使两者的通道特征尺寸相同;在空间维度进行特征转换,目的在于实现空间维度的降维处理或升维处理,即将其他层级的待处理特征转换为与目标层级的空间特征尺寸相同的特征。
换言之,可以先在通道维度进行降维或升维处理,使待融合的待处理特征与目标层级的通道特征尺寸相同,再在空间维度进行降维或升维处理,使待融合的待处理特征与目标层级的空间特征尺寸也保持相同;类似的,可以先在空间维度进行降维或升维处理,使待融合的待处理特征与目标层级的空间特征尺寸相同,再在通道维度进行降维或升维处理,使待融合的待处理特征与目标层级的通道特征尺寸也保持相同。
应当理解,当其他层级的待处理特征的通道数量大于目标层级时,可以采用先在通道维度进行降维,再在空间维度进行转换的处理方式,以降低处理量。类似的,当其他层级的待处理特征的空间尺寸大于目标层级时,可以采用先在空间维度进行降维,再在通道维度进行转换的处理方式,以降低处理量。
在一些可选的实现方式中,在通道维度对除目标层级之外的至少一个层级的待处理特征进行特征转换处理,获得与目标层级的通道特征尺寸相同的至少一个第三中间特征,包括:对除目标层级之外的至少一个层级的待处理特征进行第二卷积处理,获得与目标层级的通道特征尺寸相同的至少一个第三中间特征。
其中,第二卷积处理主要用于调整特征通道数量或者通道特征尺寸。示例性地,可以通过调整卷积处理的参数,从而调整通道数量或者通道特征尺度。
需要说明的是,在一些可选的实现方式中,还可以通过池化处理调整特征通道数量或者通道特征尺寸。例如,对除目标层级之外的至少一个层级的待处理特征进行池化处理,获得与目标层级的通道特征尺寸相同的至少一个第三中间特征。与卷积处理类似,通过调整池化处理的参数,可以调整通道数量或者通道特征尺度。
应当理解,采用第二卷积处理方式时,由于可以引入可学习参数,从而使经过卷积处理的特征在被压缩或扩张的同时,能够更好的保留特征信息。而采用池化处理方式时,由于参数基本为超参数,计算较为简便,且计算量相对较少。在处理过程中,可根据实际需求选取上述任意一种处理方式,本公开实施例对此不作限制。
在一些可选的实现方式中,在空间维度分别对各个第三中间特征进行特征转换处理,获得与目标层级的空间特征尺寸相同的第二中间特征,包括:分别对各个第三中间特征进行采样处理,获得与目标层级的空间特征尺寸相同的第二中间特征。
其中,采样处理包括上采样(nearest-up)处理和下采样(max-pool)处理。对于比目标层级的待处理特征的空间分辨率高的情况,采用下采样处理,以降低分辨率(或者减小空间特征尺寸),获得与目标层级的空间特征尺寸相同的第二中间特征;对于比目标层级的待处理特征的空间分辨率低的情况,采用上采样处理,以提高分辨率(或者扩大空间特征尺寸),获得与目标层级的空间特征尺寸相同的第二中间特征。在实际应用中,可以通过相应的上采样函数实现对特征的上采样处理,或者通过相应的下采样函数实现对特征的下采样处理。
示例性地,基于Max-Pooling(最大池化)函数,并采用卷积核尺寸(kernel_size)为2,步长(stride)为2方式的执行上采样处理。
示例性地,基于Avg-Pooling(平均池化)函数,并采用卷积核尺寸为2,步长为2的执行上采样处理。
如前所述,在获得第二中间特征之后,可以将第二中间特征与第一中间特征进行融合处理,从而获得对应的融合特征。
在一些可选的实现方式中,第二中间特征的数量为多个。相应的,将第一中间特征和第二中间特征进行特征融合处理,获得与目标层级对应的融合特征,包括:确定多个第二中间特征的平均值,获得平均特征;将平均特征与第一中间特征进行逐点相加或相乘处理,获得融合特征。
在一些可选的实现方式中,第二中间特征的数量为一个。相应的,将第一中间特征和第二中间特征进行特征融合处理,获得与目标层级对应的融合特征,包括:将第二中间特征与第一中间特征进行逐点相加或相乘处理,获得融合特征。
需要强调的是,本公开实施例的数据处理方法适用于图像处理、文本处理、语音处理和视频处理等场景(仅是举例说明)。下面结合不同的应用场景对上述数据处理过程进行展开说明。
在图像处理场景中,待处理数据包括若干张待处理图像,本公开实施例的数据处理方法主要用于将不同层级的图像特征进行融合,以基于融合特征进行图像分类、图像标注、图像识别等至少一项图像处理,并获得图像分类结果、图像标注结果和图像识别结果中的至少一种。
示例性地,首先对待处理图像进行卷积等特征提取处理,获得待处理图像对应的多个层级的待处理图像特征,并从中选取一个或多个层级作为目标层级,然后针对每个目标层级选取与之进行融合的其他层级的待处理图像特征,并基于上述特征融合方法进行图像特征融合,从而获得各个目标层级的图像融合特征,最后,根据各个目标层级的图像融合特征进行数据处理(包括图像分类处理、图像标注处理、图像识别处理中的至少一种),获得图像处理结果。
在文本处理场景中,待处理数据包括若干文本数据,本公开实施例的数据处理方法主要用于将不同层级的文本特征进行融合,以基于融合特征进行文本分类、机器翻译、语言建模等至少一项文本处理,并获得文本分类结果、机器翻译结果和语言建模结果中的至少一种。
示例性地,首先对待处理文本进行卷积、编解码等特征提取处理,获得待处理文本对应的多个层级的待处理文本特征,并从中选取一个或多个层级作为目标层级,然后针对每个目标层级选取与之进行融合的其他层级的待处理文本特征,并基于上述特征融合方法进行文本特征融合,从而获得各个目标层级的文本融合特征,最后,根据各个目标层级的文本融合特征进行数据处理(包括文本分类处理、机器翻译处理和语言建模处理中的至少一种),获得文本处理结果。
在语音处理场景中,待处理数据包括若干音频数据,本公开实施例的数据处理方法主要用于将不同层级的音频特征进行融合,以基于融合特征进行语音识别、语音标注、语音翻译等至少一项音频处理,并获得语音识别结果、语音标注结果和语音翻译结果中的至少一种。
示例性地,首先对待处理音频进行卷积、傅里叶变换等特征提取处理,获得待处理音频对应的多个层级的待处理音频特征,并从中选取一个或多个层级作为目标层级,然后针对每个目标层级选取与之进行融合的其他层级的待处理音频特征,并基于上述特征融合方法进行音频特征融合,从而获得各个目标层级的音频融合特征,最后,根据各个目标层级的音频融合特征进行数据处理(包括语音识别处理、语音标注处理和语音翻译处理中的至少一种),获得音频处理结果。
需要说明的是,在一些可选的实现方式中,可以基于神经网络实现本公开实施例的数据处理方法,数据处理方法中的各个步骤可通过神经网络中的相应功能模块或网络层实现。
下面结合图4至图6,基于神经网络对本公开实施例的数据处理方法进行展开说明。
图4为本公开实施例提供的一种神经网络的示意图。参照图4,待处理数据输入神经网络,经由特征提取模块进行特征提取处理之后,获得多个层级的待处理特征。
以目标层级的层级标识为t,将第t层级的待处理特征,与第i层级至第j层级(除第t层级之外)的待处理特征进行融合为例展开说明(i<t<j)。
针对第t层级的待处理特征,将其通过第一特征转换模块的处理,获得与之对应的第一中间特征。
针对第i层级的待处理特征,将其通过与之对应的第二特征转换模块i进行处理,获得与第t层级的特征尺寸相同的第二中间特征;针对第i+1层级的待处理特征,将其通过与之对应的第二特征转换模块i+1进行处理,获得与第t层级的特征尺寸相同的第二中间特征;以此类推,针对第j层级的待处理特征,将其通过与之对应的第二特征转换模块j进行处理,获得与第t层级的特征尺寸相同的第二中间特征。
在获得第一中间特征和j-i个第二中间特征之后,通过均值处理模块计算多个第二中间特征的平均值,获得一个平均特征,然后基于融合模块将平均特征与第一中间特征进行逐点相加或相乘处理,获得第t层级的融合特征。
最后,处理模块根据获得的融合特征进行相应的任务处理,获得处理结果。
需要说明的是,图4仅示出以第t层级作为目标层级的情况,除第t层级之外,还可以设置其他层级作为目标层级,并采用类似的方法获得与该目标层级对应的融合特征。相应的,处理模块的输入数据不再仅包括第t层级的融合特征,而是包括所有目标层级的融合特征。
还需要说明的是,由于不同层级的待处理特征的特征尺寸不同,因此,不同的目标层级对应不同的第一特征转换模块,不同的第一特征转换模块的相关参数(例如,卷积核的权重等)不同。类似的,不同层级对应的第二特征转换模块的相关参数(例如,卷积核的数量、卷积核的尺寸等)也不同。
图4仅从功能层面较为简单地示出了神经网络的框架结构,在一些可选的实现方式中,上述各个功能模块还可以由更细粒度的功能单元组成。
图5为本公开实施例提供的一种神经网络的示意图。参照图5,待处理数据输入神经网络,由特征提取卷积层对待处理数据进行特征提取,获得多个层级的待处理特征。
同样以目标层级的层级标识为t,将第t层级的待处理特征与第i层级至第j层级(除第t层级之外)的待处理特征进行融合为例展开说明(i<t<j)。
针对第t层级的待处理特征,通过第一卷积层的卷积处理,获得与之对应的第一中间特征,且第一中间特征与第t层级的待处理特征的特征尺寸相同。
针对第i层级的待处理特征,将其输入与之对应的第二卷积层i进行卷积处理,获得与第t层级的通道特征尺寸相同的第三中间特征,并基于下采样层i对第三中间特征进行下采样处理,获得与第t层级的空间特征尺寸相同的第二中间特征;针对第i+1层级的待处理特征(i+1<t),将其通过与之对应的第二卷积层i+1进行卷积处理,获得与第t+1层级的通道特征尺寸相同的第三中间特征,并基于下采样层i+1对第三中间特征进行下采样处理,获得与第t+1层级的空间特征尺寸相同的第二中间特征;以此类推,针对第j层级的待处理特征,将其通过与之对应的第二卷积层j进行卷积处理,获得与第t层级的通道特征尺寸相同的第三中间特征,并基于上采样层j对第三中间特征进行上采样处理,获得与第t层级的空间特征尺寸相同的第二中间特征。
在获得第一中间特征和多个第二中间特征之后,通过均值处理层计算多个第二中间特征的平均值,获得平均特征,然后基于融合器将平均特征与第一中间特征进行逐点相加或相乘处理,获得第t层级的融合特征。
最后,处理层根据获得的融合特征进行相应的任务处理,获得处理结果。
图6为本公开实施例提供的一种神经网络的示意图。参照图6,以待处理数据包括三个层级的待处理特征,第2层级为目标层级,并将其与第1层级和第2层级的待处理特征进行融合为例,在神经网络中示出经过各个处理层处理后的特征尺寸,以进一步对神经网络的数据处理过程进行说明。
如图6所示,将待处理数据输入神经网络,由特征提取卷积层对待处理数据进行特征提取,获得三个层级的待处理特征,其中,第1层级的待处理特征对应的张量尺寸为(b,c1,h1,w1)(其中,b表示待处理特征的数量、c表示待处理特征的通道数量、h1和w1表示待处理特征的高度和宽度),第2层级的待处理特征对应的张量尺寸为(b,c2,h2,w2),第3层级的待处理特征对应的张量尺寸为(b,c3,h3,w3),且c1<c2<c3,h1>h2>h3,w1>w2>w3。
将第2层级的待处理特征输入第一卷积层,由第一卷积层对其进行卷积处理,获得张量尺寸为(b,c2,h2,w2)的第一中间特征,将该第一中间特征输入激活层进行激活处理,获得激活后的第一中间特征。
将第1层级的待处理特征输入第二卷积层1,由第二卷积层1对其进行卷积处理,将其通道数由c1扩展为c2,并保持空间维度的特征尺寸,获得张量尺寸为(b,c2,h1,w1)的第三中间特征;进一步地,将该第三中间特征输入下采样层,对其在空间维度进行下采样处理以缩小空间维度的特征尺寸(高度由h1缩小为h2,宽度由w1缩小为w2),从而获得张量尺寸为(b,c2,h2,w2)的第二中间特征。
与第1层级的待处理特征类似,将第3层级的待处理特征输入第二卷积层2,由第二卷积层2对其进行卷积处理,将其通道数由c3缩小为c2,并保持空间维度的特征尺寸,获得张量尺寸为(b,c2,h3,w3)的第三中间特征;进一步地,将该第三中间特征输入上采样层,对其在空间维度进行上采样处理以扩大空间维度的特征尺寸(高度由h3扩大到h2,宽度由w3扩大到w2),从而获得张量尺寸为(b,c2,h2,w2)的第二中间特征。
将第1层级对应的第二中间特征和第3层级对应的第二中间特征输入均值处理层,均值处理层计算两者的平均值,从而获得一个平均特征(平均特征对应的张量尺寸仍然为(b,c2,h2,w2))。将平均特征与第一中间特征输入融合器,由融合器将两者进行逐点相加或者逐点相乘处理,输出融合特征,该融合特征对应的张量尺寸为(b,c2,h2,w2)。
最后,将融合特征输入处理层,经由处理层的处理,获得相应的处理结果。
示例性地,以第1层级待处理特征的张量尺寸为(b,128,28,28),第2层级待处理特征的张量尺寸为(b,256,14,14),第3层级待处理特征的张量尺寸为(b,512,7,7)为例说明上述处理过程。
将第2层级的待处理特征输入第一卷积层,由第一卷积层对其进行卷积处理,获得张量尺寸为(b,256,14,14)的第一中间特征,将该第一中间特征通过基于identity函数的激活层进行激活处理,获得激活后的第一中间特征。
将第1层级的待处理特征输入第二卷积层1,由第二卷积层1对其进行卷积处理,获得张量尺寸为(b,256,28,28)的第三中间特征,并将该第三中间特征输入下采样层,对其在空间维度进行下采样处理以缩小空间维度的特征尺寸,从而获得张量尺寸为(b,256,14,14)的第二中间特征。
与第1层级的待处理特征类似,将第3层级的待处理特征输入第二卷积层2,由第二卷积层2对其进行卷积处理,获得张量尺寸为(b,256,7,7)的第三中间特征,并将该第三中间特征输入上采样层,对其在空间维度进行上采样处理以扩大空间维度的特征尺寸,从而获得张量尺寸为(b,256,14,14)的第二中间特征。
将第1层级对应的第二中间特征和第3层级对应的第二中间特征输入均值处理层,均值处理层计算两者的平均值,从而获得一个张量尺寸为(b,256,14,14)的平均特征。将平均特征与第一中间特征输入融合器,由融合器将两者进行逐点相加或者逐点相乘处理,输出融合特征,该融合特征对应的张量尺寸为(b,256,14,14)。
最后,将融合特征输入处理层,经由处理层的处理,获得相应的处理结果。
PyTorch为一个开源的Python机器学习库,其是以Python优先的深度学习框架,不仅能够实现强大的GPU(Graphics Processing Unit,图形处理器)加速,同时还支持动态神经网络。在一些可选的实现方式中,上述神经网络可以通过PyTorch风格的伪代码进行表示,本公开实施例不限制实现上述神经网络的学习框架和语言类型。
可以理解,本公开提及的上述各个方法实施例,在不违背原理逻辑的情况下,均可以彼此相互结合形成结合后的实施例,限于篇幅,本公开不再赘述。本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的具体执行顺序应当以其功能和内在逻辑确定。
本公开实施例第三方面提供一种神经网络模型。
图7为本公开实施例提供的一种神经网络模型的示意图。参照图7,该神经网络模型包括至少一个特征融合层,特征融合层用于将目标层级的待处理特征与除目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得与目标层级对应的融合特征,待处理特征包括与待处理数据对应的多个层级的特征,目标层级是从多个层级中选取的至少一个层级;
其中,神经网络模型用于执行本公开实施例任一项的数据处理方法。
在一些可选的实现方式中,神经网络模型可用于执行图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种。无论该神经网络模型执行何种任务,在执行过程中,其均需要基于特征融合层实现不同层级的待处理特征的融合处理,通常包括如下步骤:将目标层级的待处理特征和与目标层级相邻的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征;和/或,将目标层级的待处理特征和与目标层级不相邻的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征
在一些可选的实现方式中,可以根据图4-6所示的任一项神经网络建立神经网络模型。基于模型化的处理,使得用户只需向神经网络模型输入相应的待处理数据,经过该神经网络模型处理之后,即可获得相应的处理结果,用户操作更加简便快捷。
在一些可选的实现方式中,根据待处理任务搭建初始的神经网络模型,在初始的神经网络模型中,至少部分模型参数是初始参数,直接基于初始的神经网络模型执行待处理任务时,任务处理准确率较低。基于此,可以通过模型训练等方式,以获得准确率较高的神经网络模型。
在一些可选的实现方式中,神经网络模型的构建过程包括:首先,搭建初始的神经网络模型,在初始的神经网络模型中,各项模型参数是依据经验、统计数据设置或者随机设置的初始化参数,该初始模型无法直接用于执行任务。其次,获取相应的训练集,并基于训练集对初始的神经网络模型进行训练,获得训练结果。然后,根据训练结果和预设的迭代条件确定是否继续训练模型,其中,在确定继续训练模型的情况下,说明当前的模型参数还未达到最优,存在继续优化的空间,因此,根据本轮训练结果更新模型参数,并基于训练集对更新后的模型进行迭代训练,直到确定停止训练模型,从而获得训练好的神经网络模型。
需要说明的是,在基于训练集获得训练好的神经网络模型之后,还可以基于验证集进行模型验证与矫正,类似的,也可以基于测试集进行模型评估,本公开实施例对神经网络模型的获取方法不作限制。
本公开实施例第三方面提供一种数据处理装置。
图8为本公开实施例提供的一种数据处理装置的框图。
参照图8,本公开实施例提供了一种数据处理装置,该数据处理装置包括如下模块。
获取模块801,用于获取待处理数据对应的多个层级的待处理特征;
融合模块802,用于将目标层级的待处理特征与除目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征,其中,目标层级是从多个层级中选取的至少一个层级;
处理模块803,用于基于融合特征,确定处理结果。
在一些可选的实现方式中,待处理数据对应图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种待处理数据,处理结果包括图像处理结果、语音处理结果、文本处理结果、视频处理结果中的至少一种。
在一些可选的实现方式中,融合模块可以采用如下两种融合方式:将目标层级的待处理特征和与目标层级相邻的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征;和/或,将目标层级的待处理特征和与目标层级不相邻的至少一个层级的待处理特征进行特征融合处理,获得目标层级对应的融合特征。
在一些可选的实现方式中,融合模块包括第一转换子模块、第二转换子模块和融合处理子模块。其中,第一转换子模块,用于对目标层级的待处理特征进行第一特征转换处理,获得与目标层级的特征尺寸相同的第一中间特征;第二转换子模块,用于对除目标层级之外的至少一个层级的待处理特征进行第二特征转换处理,获得与目标层级的特征尺寸相同的至少一个第二中间特征;融合处理子模块,用于将第一中间特征和第二中间特征进行特征融合处理,获得目标层级对应的融合特征。
在一些可选的实现方式中,第一转换子模块包括第一卷积单元,用于对目标层级的待处理特征进行第一卷积处理,获得与目标层级的特征尺寸相同的第一中间特征。
在一些可选的实现方式中,特征尺寸包括通道特征尺寸和空间特征尺寸;相应的,第二转换子模块包括通道处理单元和空间处理单元。其中,通道处理单元,用于在通道维度对除目标层级之外的至少一个层级的待处理特征进行特征转换处理,获得与目标层级的通道特征尺寸相同的至少一个第三中间特征;空间处理单元,用于在空间维度分别对各个第三中间特征进行特征转换处理,获得与目标层级的空间特征尺寸相同的第二中间特征。
在一些可选的实现方式中,通道处理单元包括第二卷积子单元,用于对除目标层级之外的至少一个层级的待处理特征进行第二卷积处理,获得与目标层级的通道特征尺寸相同的至少一个第三中间特征。
在一些可选的实现方式中,空间处理单元包括采样单元,用于分别对各个第三中间特征进行采样处理,获得与目标层级的空间特征尺寸相同的第二中间特征。
在一些可选的实现方式中,第二中间特征的数量为多个,与之相应的,融合处理子模块包括平均处理单元和逐点处理单元。其中,平均处理单元,用于确定多个第二中间特征的平均值,获得平均特征;逐点处理单元,用于将平均特征与第一中间特征进行逐点相加或相乘处理,获得融合特征。
在一些可选的实现方式中,第二中间特征的数量为一个,逐点处理单元,还用于将第二中间特征与第一中间特征进行逐点相加或相乘处理,获得融合特征。
此外,本公开还提供了电子设备、计算机可读存储介质,上述均可用来实现本公开提供的任一种数据处理方法,相应技术方案和描述和参见方法部分的相应记载,不再赘述。
图9为本公开实施例提供的一种电子设备的框图。
参照图9,本公开实施例提供了一种电子设备,该电子设备包括:至少一个处理器901;至少一个存储器902,以及一个或多个I/O接口903,连接在处理器901与存储器902之间;其中,存储器902存储有可被至少一个处理器501执行的一个或多个计算机程序,一个或多个计算机程序被至少一个处理器901执行,以使至少一个处理器901能够执行上述的数据处理方法。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序在被处理器/处理核执行时实现上述的数据处理方法。计算机可读存储介质可以是易失性或非易失性计算机可读存储介质。
本公开实施例还提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备的处理器中运行时,所述电子设备中的处理器执行上述……方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读存储介质上,计算机可读存储介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。
如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读程序指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM)、静态随机存取存储器(SRAM)、闪存或其他存储器技术、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读程序指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里所描述的计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software DevelopmentKit,SDK)等等。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本文已经公开了示例实施例,并且虽然采用了具体术语,但它们仅用于并仅应当被解释为一般说明性含义,并且不用于限制的目的。在一些实例中,对本领域技术人员显而易见的是,除非另外明确指出,否则可单独使用与特定实施例相结合描述的特征、特性和/或元素,或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此,本领域技术人员将理解,在不脱离由所附的权利要求阐明的本公开的范围的情况下,可进行各种形式和细节上的改变。
Claims (13)
1.一种数据处理方法,其特征在于,包括:
获取待处理数据对应的多个层级的待处理特征,所述多个层级的待处理特征是通过将所述待处理数据输入神经网络,经由所述神经网络中的特征提取模块进行特征提取后得到,所述待处理特征是基于神经网络提取的用于表征空间信息和语义信息的特征;
将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征,其中,所述融合特征用于表征融合空间信息和融合语义信息,所述目标层级是从多个层级中选取的至少一个层级,所述除所述目标层级之外的至少一个层级,包括:与所述目标层级不相邻的至少一个层级;
基于所述融合特征,确定处理结果。
2.根据权利要求1所述的方法,其特征在于,所述将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征,包括:
将所述目标层级的待处理特征和与所述目标层级相邻的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征;
和/或,
将所述目标层级的待处理特征和与所述目标层级不相邻的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征。
3.根据权利要求1或2所述的方法,其特征在于,所述将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征,包括:
对所述目标层级的待处理特征进行第一特征转换处理,获得与所述目标层级的特征尺寸相同的第一中间特征;
对除所述目标层级之外的至少一个层级的待处理特征进行第二特征转换处理,获得与所述目标层级的特征尺寸相同的至少一个第二中间特征;
将所述第一中间特征和所述第二中间特征进行特征融合处理,获得所述目标层级对应的融合特征。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标层级的待处理特征进行第一特征转换处理,获得与所述目标层级的特征尺寸相同的第一中间特征,包括:
对所述目标层级的待处理特征进行第一卷积处理,获得与所述目标层级的特征尺寸相同的第一中间特征。
5.根据权利要求3所述的方法,其特征在于,所述特征尺寸包括通道特征尺寸和空间特征尺寸;
所述对除所述目标层级之外的至少一个层级的待处理特征进行第二特征转换处理,获得与所述目标层级的特征尺寸相同的至少一个第二中间特征,包括:
在通道维度对除所述目标层级之外的至少一个层级的待处理特征进行特征转换处理,获得与所述目标层级的通道特征尺寸相同的至少一个第三中间特征;
在空间维度分别对各个所述第三中间特征进行特征转换处理,获得与所述目标层级的空间特征尺寸相同的第二中间特征。
6.根据权利要求5所述的方法,其特征在于,所述在通道维度对除所述目标层级之外的至少一个层级的待处理特征进行特征转换处理,获得与所述目标层级的通道特征尺寸相同的至少一个第三中间特征,包括:
对除所述目标层级之外的至少一个层级的待处理特征进行第二卷积处理,获得与所述目标层级的通道特征尺寸相同的至少一个第三中间特征;
所述在空间维度分别对各个所述第三中间特征进行特征转换处理,获得与所述目标层级的空间特征尺寸相同的第二中间特征,包括:
分别对各个所述第三中间特征进行采样处理,获得与所述目标层级的空间特征尺寸相同的第二中间特征。
7.根据权利要求3所述的方法,其特征在于,所述第二中间特征的数量为多个,所述将所述第一中间特征和所述第二中间特征进行特征融合处理,获得所述目标层级对应的融合特征,包括:
确定多个所述第二中间特征的平均值,获得平均特征;
将所述平均特征与所述第一中间特征进行逐点相加或相乘处理,获得所述融合特征。
8.根据权利要求3所述的方法,其特征在于,所述第二中间特征的数量为一个,所述将所述第一中间特征和所述第二中间特征进行特征融合处理,获得所述目标层级对应的融合特征,包括:
将所述第二中间特征与所述第一中间特征进行逐点相加或相乘处理,获得所述融合特征。
9.根据权利要求1所述的方法,其特征在于,所述待处理数据对应图像处理任务、语音处理任务、文本处理任务、视频处理任务中的至少一种待处理数据,所述处理结果包括图像处理结果、语音处理结果、文本处理结果、视频处理结果中的至少一种。
10.一种神经网络模型,其特征在于,包括:至少一个特征融合层,所述特征融合层用于将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得与所述目标层级对应的融合特征,所述待处理特征包括与待处理数据对应的多个层级的特征,所述目标层级是从多个层级中选取的至少一个层级;
所述神经网络模型用于执行如权利要求1-9中任一项所述的数据处理方法。
11.一种数据处理装置,其特征在于,包括:
获取模块,用于获取待处理数据对应的多个层级的待处理特征,所述多个层级的待处理特征是通过将所述待处理数据输入神经网络,经由所述神经网络中的特征提取模块进行特征提取后得到,所述待处理特征是基于神经网络提取的用于表征空间信息和语义信息的特征;
融合模块,用于将目标层级的待处理特征与除所述目标层级之外的至少一个层级的待处理特征进行特征融合处理,获得所述目标层级对应的融合特征,其中,所述融合特征用于表征融合空间信息和融合语义信息,所述目标层级是从多个层级中选取的至少一个层级,所述除所述目标层级之外的至少一个层级,包括:与所述目标层级不相邻的至少一个层级;
处理模块,用于基于所述融合特征,确定处理结果。
12.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序,一个或多个所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-9中任一项所述的数据处理方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时实现如权利要求1-9中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949734.9A CN115018059B (zh) | 2022-08-09 | 2022-08-09 | 数据处理方法及装置、神经网络模型、设备、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210949734.9A CN115018059B (zh) | 2022-08-09 | 2022-08-09 | 数据处理方法及装置、神经网络模型、设备、介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115018059A CN115018059A (zh) | 2022-09-06 |
CN115018059B true CN115018059B (zh) | 2022-11-18 |
Family
ID=83065606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210949734.9A Active CN115018059B (zh) | 2022-08-09 | 2022-08-09 | 数据处理方法及装置、神经网络模型、设备、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018059B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115599921B (zh) * | 2022-11-28 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本分类、文本分类模型训练方法、装置和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340059A (zh) * | 2018-12-19 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 图像特征提取方法、装置、电子设备及存储介质 |
CN114186535A (zh) * | 2021-10-29 | 2022-03-15 | 北京搜狗科技发展有限公司 | 结构图还原方法、装置、电子设备、介质及程序产品 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340866B (zh) * | 2020-02-26 | 2024-03-01 | 腾讯科技(深圳)有限公司 | 深度图像生成方法、装置及存储介质 |
CN113496150B (zh) * | 2020-03-20 | 2023-03-21 | 长沙智能驾驶研究院有限公司 | 密集目标检测方法、装置、存储介质及计算机设备 |
CN111507408B (zh) * | 2020-04-17 | 2022-11-04 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
-
2022
- 2022-08-09 CN CN202210949734.9A patent/CN115018059B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111340059A (zh) * | 2018-12-19 | 2020-06-26 | 北京嘀嘀无限科技发展有限公司 | 图像特征提取方法、装置、电子设备及存储介质 |
CN114186535A (zh) * | 2021-10-29 | 2022-03-15 | 北京搜狗科技发展有限公司 | 结构图还原方法、装置、电子设备、介质及程序产品 |
Also Published As
Publication number | Publication date |
---|---|
CN115018059A (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782462B (zh) | 一种基于双流特征融合的语义分割方法 | |
CN111402143B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
CN110599492B (zh) | 图像分割模型的训练方法、装置、电子设备及存储介质 | |
CN107391646B (zh) | 一种视频图像的语义信息提取方法及装置 | |
US20200104640A1 (en) | Committed information rate variational autoencoders | |
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
CN110490082B (zh) | 一种有效融合神经网络特征的道路场景语义分割方法 | |
US20210232848A1 (en) | Apparatus and method for processing image data | |
CN111783457B (zh) | 一种基于多模态图卷积网络的语义视觉定位方法及装置 | |
CN116205290B (zh) | 一种基于中间特征知识融合的知识蒸馏方法和装置 | |
CN111178039B (zh) | 一种模型训练方法、装置、实现文本处理的方法及装置 | |
CN113240115B (zh) | 一种生成人脸变化图像模型的训练方法及相关装置 | |
CN112561028A (zh) | 训练神经网络模型的方法、数据处理的方法及装置 | |
KR20210076691A (ko) | 프레임워크 간 뉴럴 네트워크의 학습을 검증하는 방법 및 장치 | |
CN115018059B (zh) | 数据处理方法及装置、神经网络模型、设备、介质 | |
CN113961736A (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
KR20200112574A (ko) | 이미지 검색을 위한 다중 글로벌 디스크립터를 조합하는 프레임워크 | |
CN111460876A (zh) | 用于识别视频的方法和装置 | |
CN116128894A (zh) | 图像分割方法、装置及电子设备 | |
CN117478949A (zh) | 一种视听觉注意力预测模型的构建方法及系统 | |
CN115471718A (zh) | 基于多尺度学习的轻量级显著性目标检测模型的构建和检测方法 | |
CN115905613A (zh) | 音视频多任务学习、评估方法、计算机设备及介质 | |
CN115273251A (zh) | 一种基于多模态的模型训练方法、装置以及设备 | |
CN113177112B (zh) | 基于kr积融合多模态信息的神经网络视觉对话装置及方法 | |
CN117218224B (zh) | 人脸情绪图像生成方法及装置、可读存储介质、终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |