CN113361567B - 图像处理方法、装置、电子设备和存储介质 - Google Patents
图像处理方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN113361567B CN113361567B CN202110534987.5A CN202110534987A CN113361567B CN 113361567 B CN113361567 B CN 113361567B CN 202110534987 A CN202110534987 A CN 202110534987A CN 113361567 B CN113361567 B CN 113361567B
- Authority
- CN
- China
- Prior art keywords
- window
- image
- image processing
- overlapping
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 133
- 238000000605 extraction Methods 0.000 claims abstract description 91
- 238000000034 method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007246 mechanism Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000005520 cutting process Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Abstract
本发明提供一种图像处理方法、装置、电子设备和存储介质,其中方法包括:确定待处理的图像;将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。本发明提供的方法、装置、电子设备和存储介质,基于重叠划窗提取得到窗口之间的相关性。重叠划窗下的局部注意力提取,仅仅增加了小于一倍的计算量,但是极大简化了模型算子的结构,便于快速优化核扩展,减少了划窗操作的数据搬运量,降低了整体实现复杂度。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种图像处理方法、装置、电子设备和存储介质。
背景技术
自注意力深度模型,例如transfomer已经在图像处理的任务中得到广泛应用。由于模型尺寸限制,图像类自注意力模型一般将图像分成均匀的小块(patch),将图像中的每个小块分别作为模型输入token,此后再将所有小块的token一起输入DNN(Deep NeuralNetworks,深度神经网络)模型计算全局注意力。
上述方法并不能较好地提取图像局部注意力特征。并且,当图像尺寸大的时候,patch数量以图像边长增加倍数的平方倍增加,注意力计算代价也相应平方倍增长。
针对这一问题,目前的解决方案是层级结构的划窗式局部自注意力机制,例如swin。该类方案的层级结构中在实现局部和全局注意力特征的获取的同时减少计算量。
但是,此类层级结构是逐层对上一层中的patch进行合并,窗与窗之间不存在重叠,导致窗间相关性没有得到提取利用,影响了图像处理的可靠性和准确性。
发明内容
本发明提供一种图像处理方法、装置、电子设备和存储介质,用以解决现有的图像处理无法获得窗间相关性,导致处理可靠性和准确性较差的问题。
本发明提供一种图像处理方法,包括:
确定待处理的图像;
将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;
所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
根据本发明提供的一种图像处理方法,所述重叠划窗所得的所有窗口对所述图像的覆盖率大于覆盖率阈值,和/或所述重叠划窗所得的所有窗口对所述图像的重叠率大于重叠率阈值。
根据本发明提供的一种图像处理方法,所述图像处理模型包括重叠划窗层、多级特征提取层,以及输出层;
所述将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果,包括:
将所述图像输入至所述重叠划窗层,由所述重叠划窗层基于所述图像进行重叠划窗,得到所述重叠划窗层输出的窗口信息;
将所述窗口信息和上一特征提取层输出的图像特征输入当前特征提取层,由所述当前特征提取层对所述窗口信息指示的每个窗口内的图像特征进行局部注意力提取,得到所述当前特征提取层输出的图像特征;
将每一特征提取层输出的图像特征,或者最尾的特征提取层输出的图像特征输入所述输出层,得到所述输出层输出的所述处理结果。
根据本发明提供的一种图像处理方法,输入所述多级特征提取层中的每一特征提取层的所述窗口信息相同或不同。
根据本发明提供的一种图像处理方法,所述重叠划窗是基于如下步骤实现的:
对所述图像进行全覆盖无重叠划窗,得到多个第一窗口;
对所述图像进行与所述多个第一窗口重叠的划窗,得到多个第二窗口,将所有第一窗口和所有第二窗口作为重叠划窗所得的窗口。
根据本发明提供的一种图像处理方法,所述重叠划窗是基于如下步骤实现的:
对所述图像进行随机划窗,得到一组随机窗口;
若所述随机窗口对所述图像的覆盖率大于覆盖率阈值,且所述随机窗口对所述图像的重叠率大于重叠率阈值,则将所述随机窗口作为重叠划窗所得的窗口,否则重新对所述图像进行随机划窗。
根据本发明提供的一种图像处理方法,所述随机划窗是基于随机发生器执行的,所述随机发生器用于输出各随机窗口的坐标和大小。
根据本发明提供的一种图像处理方法,所述随机发生器为均匀随机发生器或者高斯随机发生器。
本发明还提供一种图像处理装置,包括:
图像确定单元,用于确定待处理的图像;
图像处理单元,用于将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;
所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述图像处理方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像处理方法的步骤。
本发明提供的图像处理方法、装置、电子设备和存储介质,通过在层级结构的自注意力深度模型中设置重叠划窗机制,使得每一层级对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取的同时,依赖层内窗口之间的重叠区域提取得到窗口之间的相关性,从而提高图像处理模块对于图像特征提取的可靠性,保证图像处理精度。重叠划窗机制能够方便地融入现有的局部注意力类模型,且对现有模型的改动很小。重叠划窗下的局部注意力提取,仅仅增加了小于一倍的计算量,但是极大简化了模型算子的结构,减少了划窗操作的数据搬运量,降低了整体实现复杂度。此外,模型算子的结构简化,还有助于在深层网络构建时方便快速地优化核扩展。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中swin模型的层级结构示意图;
图2是本发明提供的图像处理方法的流程示意图;
图3是本发明提供的重叠划窗示意图;
图4是本发明提供的图像处理模型的结构示意图;
图5是本发明提供的重叠划窗的流程示意图;
图6是本发明提供的图像处理装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高自注意力深度模型针对图像局部注意力特征的提取能力,目前采用了层级结构的划窗式局部自注意力机制,例如Swin Transformer。图1是现有技术中swin模型的层级结构示意图,图1中的虚线框表示单一层级下划分的图块patch,加粗的实线框表示该层级下划分的窗口。针对其中任一层级下的任一窗口,计算该窗口内所有patch的attention,即得到局部attention。针对该层级的下一层级,多个patch合并变大,每个窗口中包含的patch数量不变,则窗口的实际视野变大。通过多级划窗机制实现局部和全局注意力特征的获取并减少了计算量。
Swin的划窗设计虽然实现了全局、局部特征提取的平衡,并且减少了计算量。但窗口之间不重叠,窗间相关性没有得到有效提取。Swin的解决方法是在attention模型中插入滑动窗口操作,在多级的深度模型中,每隔一级attention层做一次窗口的循环移动来保证窗间信息获取。由于移动窗口后,下一级同一窗口内的patch来自上一级不同窗口,需要针对窗的不同区域patch分别处理,增加了处理复杂度。
针对上述问题,本发明实施例提供了基于重叠划窗思路的图像处理方法,图2是本发明提供的图像处理方法的流程示意图,如图2所示,该方法包括:
步骤110,确定待处理的图像。
具体地,待处理的图像即需要进行图像处理的图像,此处所指的图像处理可以是图像分类、目标检测、图像分割等,待处理的图像可以是通过相连接的摄像头拍摄得到的,也可以是通过网络爬虫抓取的,还可以是用户通过终端设备上传的,本发明实施例不对此作具体限定。
步骤120,将图像输入至图像处理模型,得到图像处理模型输出的处理结果;
图像处理模型是基于样本图像及其样本处理标签训练得到的,图像处理模型为层级结构的自注意力深度模型,图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
具体地,不同于传统的图像处理模型,本发明实施例采用的层级结构的自注意力深度模型,其中的各个层级,即其中用于实现图像特征提取的层级,通过重叠划窗确定该层级中进行局部注意力特征所需的窗口,从而实现该层级内的局部注意力特征提取。
此处,重叠划窗是针对单个层级独立而言的,层级之间不存在重叠划窗的配合,各层级仅关注层级内的划窗,具体在划窗时,需要保证划分所得的窗口之间存在重叠的区域,由此保证在基于各窗口进行局部注意力特征提取的同时,窗口之间重叠部分的注意力特征能够携带窗口之间的相关性。需要说明的是,不同层级可以采用相同的重叠划窗方式,也可以采用不同的重叠划窗方式,本发明实施例不对此作具体限定。
本发明实施例中图像处理模型的层级结构与swin类似,区别在于将swin中的swintransformer block替换为通用的基于窗口(Window based)的自注意力模块(attention+mlp),在基于窗口的自注意力模块进行各窗口的局部注意力特征提取之间,仅需要通过重叠划窗机制进行窗口划定即可,重叠划窗机制可以设置在图像处理模型最前端,后续所有层级均延用同一次层内重叠划窗得到的窗口,或者重叠划窗机制也可以设置在图像处理模型中每个局部注意力特征提取的层级之前,后接的层级应用当前重叠划窗得到的窗口。
本发明实施例提供的方法,通过在层级结构的自注意力深度模型中设置重叠划窗机制,使得每一层级对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取的同时,依赖层内窗口之间的重叠区域提取得到窗口之间的相关性,从而提高图像处理模块对于图像特征提取的可靠性,保证图像处理精度。重叠划窗机制能够方便地融入现有的局部注意力类模型,且对现有模型的改动很小。重叠划窗下的局部注意力提取,仅仅增加了小于一倍的计算量,但是极大简化了模型算子的结构,减少了划窗操作的数据搬运量,降低了整体实现复杂度。此外,模型算子的结构简化,还有助于在深层网络构建时方便快速地优化核扩展。
基于上述实施例,图3是本发明提供的重叠划窗示意图,图3中每个细虚线框表示图像中的一个图块patch,每个粗实线框表示重叠划窗得到的一个窗口。如图3所示,窗口之间存在重叠的部分。
考虑到重叠划窗需要满足图像处理对于局部特征采集的覆盖率的要求,以及对于窗口间的相关性采集的要求,本发明实施例设置了重叠划窗需要满足的条件,即重叠划窗所得的所有窗口对图像的覆盖率大于覆盖率阈值,和/或重叠划窗所得的所有窗口对图像的重叠率大于重叠率阈值。
其中,覆盖率阈值和重叠率阈值均是预先设定好的,例如覆盖率阈值可以设置为95%、90%等,重叠率阈值可以设置为50%、55%等。
具体在判断重叠划窗所得的窗口是否满足预先设定好的覆盖率阈值和重叠率阈值时,可以根据重叠划窗所得的各窗口在图像中的位置和大小,确定所有窗口在图像中的覆盖面积,并将所有窗口在图像中的覆盖面积与图像面积的比值作为重叠划窗所得的所有窗口对图像的覆盖率,进而与覆盖率阈值进行比较;根据重叠划窗所得的各窗口在图像中的位置和大小,确定所有窗口之间的重叠面积之和,并将重叠面积之和与图像面积的比值作为重叠划窗所得的所有窗口对图像的重叠率,进而与重叠率阈值进行比较。
在重叠划窗判断时,可以仅参考覆盖率阈值,即当覆盖率大于覆盖率阈值的情况,确定重叠划窗符合图像处理需求;也可以仅参考重叠率阈值,即当重叠率大于重叠率阈值的情况,确定重叠划窗符合图像处理需求;还可以既参考覆盖率阈值也参考重叠率阈值,即当且仅当覆盖率大于覆盖率阈值且重叠率大于重叠率阈值的情况,确定重叠划窗符合图像处理需求,可执行后续步骤。
基于上述任一实施例,图像处理模型包括重叠划窗层、多级特征提取层,以及输出层。
其中,重叠划窗层可以对输入的图像进行重叠划窗,从而得到后续局部注意力特征提取所需的窗口;多级特征提取层即自注意力深度模型中常见的层级结构,多级特征提取层串行连接,前一特征提取层的输出即后移特征提取层的输入。输出层设置在图像处理模型的末端,用于对多级特征提取层提取得到的图像特征作进一步处理,例如基于图像特征进行图像分类,基于图像特征进行目标分割等。
相应地,步骤120包括:
将图像输入至重叠划窗层,由重叠划窗层基于图像进行重叠划窗,得到重叠划窗层输出的窗口信息;
将窗口信息和上一特征提取层输出的图像特征输入当前特征提取层,由当前特征提取层对窗口信息指示的每个窗口内的图像特征进行局部注意力提取,得到当前特征提取层输出的图像特征;
将每一特征提取层输出的图像特征,或者最尾的特征提取层输出的图像特征输入输出层,得到输出层输出的处理结果。
具体地,图4是本发明提供的图像处理模型的结构示意图,如图4所示,图像可以划分为多个patch输入图像处理模型,此后由重叠划窗层对多个patch形式的图像进行重叠划窗,重叠划窗的结果以窗口信息的形式向后传递,此处的窗口信息可以表示划窗所得的多个窗口中的每个窗口的位置和大小。
重叠划窗层后接多级特征提取层。其中,首个特征提取层对输入的每个patch进行块嵌入操作,从而得到每个patch的特征,并在此基础上,对窗口信息所指示的窗口内各patch的特征进行局部注意力提取,并将提取所得的局部注意力特征融合至每个patch的特征,作为图像特征输出,并作为第二个特征提取层的输入。
第二个特征提取层对输入的图像特征中每个patch的特征进行合并,同时保证每个窗口中包含的patch数量不变,从而扩大窗口的实际视野。此后,第二个特征提取层对窗口信息所指示的窗口内各patch的特征进行局部注意力提取,并将提取所得的局部注意力特征融合至每个patch的特征,作为图像特征输出,并作为第三个特征提取层的输入。此后针对各个特征提取层的操作均可如第二个特征提取层所示,此处不再赘述。
在此基础上,多级特征提取层后接输出层,输出层可以整合各级特征提取层分别输出的图像特征,并基于整合后的图像特征进行图像处理,或者输出层可以仅基于多级特征提取层中最尾的特征提取层输出的图像特征进行图像处理,本发明实施例对此不作具体限定。
基于上述任一实施例,输入多级特征提取层中的每一特征提取层的窗口信息相同或不同。
具体地,由重叠划窗层基于图像进行重叠划窗所得的窗口信息,可以是面向所有特征提取层的统一的窗口信息,即输入至多级特征提取层中的每一特征提取层的窗口信息均是相同的;
或者,由重叠划窗层基于图像进行重叠划窗所得的窗口信息,可以是面向每一特征提取层的独立的窗口信息,可以是重叠划窗层针对每一特征提取层均执行了重叠划窗操作,从而得到每一特征提取层专属的窗口信息,即特征提取层的数量与窗口信息的数量一致,特征提取层和窗口信息一一对应,该种情况下输入多级特征提取层的每一特征提取层的窗口信息可能相同,也可能不同。
基于上述任一实施例,重叠划窗是基于如下步骤实现的:
对图像进行全覆盖无重叠划窗,得到多个第一窗口;
对图像进行与多个第一窗口重叠的划窗,得到多个第二窗口,将所有第一窗口和所有第二窗口作为层内重叠划窗所得的窗口。
图5是本发明提供的重叠划窗的流程示意图,如图5所示,细虚线框表示图像中的patch,箭头左侧为对图像进行全覆盖无重叠划窗后的结果,其中粗实线框表示全覆盖无重叠划窗所得的第一窗口。通过对图像进行全覆盖无重叠划窗,保证了最终得到的窗口划分结果能够满足图像覆盖率的要求。
箭头右侧为在全覆盖无重叠划窗的基础上,对图像进行与各第一窗口重叠的划窗所得的结果,其中粗虚线框表示与第一窗口重叠的划窗所得的第二窗口,每个第二窗口均与至少一个第一窗口存在重叠部分。通过在第一窗口的基础上进行重叠划窗,保证了最终得到的窗口划分结果能够满足窗口重叠率的要求。
基于上述任一实施例,重叠划窗还可以是基于如下步骤实现的:
对图像进行随机划窗,得到一组随机窗口;
若随机窗口对图像的覆盖率大于覆盖率阈值,且随机窗口对图像的重叠率大于重叠率阈值,则将随机窗口作为重叠划窗所得的窗口,否则重新对图像进行随机划窗。
具体地,在进行重叠划窗时,可以采用随机划窗的思路进行划窗,并由此得到一组随机窗口,为了保证最终应用的窗口满足覆盖率和重叠率的要求,需要计算随机生成的所有随机窗口对图像的覆盖率,以及所有随机窗口对图像的重叠率,并将计算所得的覆盖率和重叠率分别与预先设定好的覆盖率阈值、重叠率阈值进行比较。如果随机划窗所得的随机窗口能够满足覆盖率和重叠率的要求,则可以直接将随机窗口作为重叠划窗的结果,如果随机划窗所得的随机窗口能够满足覆盖率和重叠率的要求,则需要重新执行随机划窗,并再次判断随机划窗所得的随机窗口是否满足覆盖率和重叠率的要求。
基于上述任一实施例,所述对图像进行随机划窗,可以是基于随机发生器执行的,随机发生器用于输出各随机窗口的坐标和大小。此处,随机发生器可以是均匀随机发生器或者高斯随机发生器。
例如,应用高斯随机发生器进行随机划窗,可以体现为如下公式:
(x,y,r)=N(μ,σ)
其中,x、y代表随机生成窗口中心的横纵坐标,r代表随机生成窗口的大小,N是高斯函数,均值μ、方差σ均为3x1的向量。在进行随机划窗之前,可以根据经验选取均值μ和方差σ。x、y的取值受图像初始patch数量限制,r的大小决定了窗口大小,r值可以限制在预设阈值下以减小局部attention的计算量。
基于上述任一实施例,本发明实施例提供一种图像处理方法,该方法是基于图像处理模型实现的。此处的图像处理模型为层级结构的自注意力深度模型,图像处理模型中包含的多级特征提取层均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。此处,重叠划窗所得的窗口需要满足覆盖率和重叠率的要求。
本发明实施例通过重叠划窗的应用,确保在划分的窗口数量增加不多的条件下,保证足够的窗口覆盖率和重叠率。深度模型将划分好的窗口的局部信息一起计算并用于多级的层级机制。重叠划窗机制能够方便地融入现有的局部注意力类模型,且对现有模型的改动很小。重叠划窗下的局部注意力提取,仅仅增加了小于一倍的计算量,但是极大简化了模型算子的结构,减少了划窗操作的数据搬运量,降低了整体实现复杂度。
下面对本发明提供的图像处理装置进行描述,下文描述的图像处理装置与上文描述的图像处理方法可相互对应参照。
图6是本发明提供的图像处理装置的结构示意图,如图6所示,该装置包括:
图像确定单元610,用于确定待处理的图像;
图像处理单元620,用于将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;
所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
本发明实施例提供的装置,通过在层级结构的自注意力深度模型中设置重叠划窗机制,使得每一层级对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取的同时,依赖层内窗口之间的重叠区域提取得到窗口之间的相关性,从而提高图像处理模块对于图像特征提取的可靠性,保证图像处理精度。重叠划窗机制能够方便地融入现有的局部注意力类模型,且对现有模型的改动很小。重叠划窗下的局部注意力提取,仅仅增加了小于一倍的计算量,但是极大简化了模型算子的结构,减少了划窗操作的数据搬运量,降低了整体实现复杂度。此外,模型算子的结构简化,还有助于在深层网络构建时方便快速地优化核扩展。
基于上述任一实施例,所述重叠划窗所得的所有窗口对所述图像的覆盖率大于覆盖率阈值,和/或所述重叠划窗所得的所有窗口对所述图像的重叠率大于重叠率阈值。
基于上述任一实施例,所述图像处理模型包括重叠划窗层、多级特征提取层,以及输出层;
所述图像处理单元620用于:
将所述图像输入至所述重叠划窗层,由所述重叠划窗层基于所述图像进行重叠划窗,得到所述重叠划窗层输出的窗口信息;
将所述窗口信息和上一特征提取层输出的图像特征输入当前特征提取层,由所述当前特征提取层对所述窗口信息指示的每个窗口内的图像特征进行局部注意力提取,得到所述当前特征提取层输出的图像特征;
将每一特征提取层输出的图像特征,或者最尾的特征提取层输出的图像特征输入所述输出层,得到所述输出层输出的所述处理结果。
基于上述任一实施例,输入所述多级特征提取层中的每一特征提取层的所述窗口信息相同或不同。
基于上述任一实施例,所述重叠划窗是基于如下步骤实现的:
对所述图像进行全覆盖无重叠划窗,得到多个第一窗口;
对所述图像进行与所述多个第一窗口重叠的划窗,得到多个第二窗口,将所有第一窗口和所有第二窗口作为重叠划窗所得的窗口。
基于上述任一实施例,所述重叠划窗是基于如下步骤实现的:
对所述图像进行随机划窗,得到一组随机窗口;
若所述随机窗口对所述图像的覆盖率大于覆盖率阈值,且所述随机窗口对所述图像的重叠率大于重叠率阈值,则将所述随机窗口作为重叠划窗所得的窗口,否则重新对所述图像进行随机划窗。
基于上述任一实施例,所述随机划窗是基于随机发生器执行的,所述随机发生器用于输出各随机窗口的坐标和大小。
基于上述任一实施例,所述随机发生器为均匀随机发生器或者高斯随机发生器。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行图像处理方法,该方法包括:确定待处理的图像;将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的图像处理方法,该方法包括:确定待处理的图像;将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的图像处理方法,该方法包括:确定待处理的图像;将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
确定待处理的图像;
将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;
所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取;
所述重叠划窗是针对单个层级独立而言的,层级之间不存在重叠划窗的配合;
所述图像处理模型包括重叠划窗层、多级特征提取层,以及输出层;
所述将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果,包括:
将所述图像输入至所述重叠划窗层,由所述重叠划窗层基于所述图像进行重叠划窗,得到所述重叠划窗层输出的窗口信息;所述重叠划窗层位于所述图像处理模型的最前端,所述窗口信息用于将重叠划窗的结果向后传递;
将所述窗口信息和上一特征提取层输出的图像特征输入当前特征提取层,由所述当前特征提取层对所述窗口信息指示的每个窗口内的图像特征进行局部注意力提取,得到所述当前特征提取层输出的图像特征;
将每一特征提取层输出的图像特征,或者最尾的特征提取层输出的图像特征输入所述输出层,得到所述输出层输出的所述处理结果。
2.根据权利要求1所述的图像处理方法,其特征在于,所述重叠划窗所得的所有窗口对所述图像的覆盖率大于覆盖率阈值,和/或所述重叠划窗所得的所有窗口对所述图像的重叠率大于重叠率阈值。
3.根据权利要求1所述的图像处理方法,其特征在于,输入所述多级特征提取层中的每一特征提取层的所述窗口信息相同或不同。
4.根据权利要求1至3中任一项所述的图像处理方法,其特征在于,所述重叠划窗是基于如下步骤实现的:
对所述图像进行全覆盖无重叠划窗,得到多个第一窗口;
对所述图像进行与所述多个第一窗口重叠的划窗,得到多个第二窗口,将所有第一窗口和所有第二窗口作为重叠划窗所得的窗口。
5.根据权利要求1至3中任一项所述的图像处理方法,其特征在于,所述重叠划窗是基于如下步骤实现的:
对所述图像进行随机划窗,得到一组随机窗口;
若所述随机窗口对所述图像的覆盖率大于覆盖率阈值,且所述随机窗口对所述图像的重叠率大于重叠率阈值,则将所述随机窗口作为重叠划窗所得的窗口,否则重新对所述图像进行随机划窗。
6.根据权利要求5所述的图像处理方法,其特征在于,所述随机划窗是基于随机发生器执行的,所述随机发生器用于输出各随机窗口的坐标和大小。
7.根据权利要求6所述的图像处理方法,其特征在于,所述随机发生器为均匀随机发生器或者高斯随机发生器。
8.一种图像处理装置,其特征在于,包括:
图像确定单元,用于确定待处理的图像;
图像处理单元,用于将所述图像输入至图像处理模型,得到所述图像处理模型输出的处理结果;
所述图像处理模型是基于样本图像及其样本处理标签训练得到的,所述图像处理模型为层级结构的自注意力深度模型,所述图像处理模型中的每一层级均对重叠划窗所得的多个窗口中的每个窗口内的图像特征进行局部注意力提取;
所述重叠划窗是针对单个层级独立而言的,层级之间不存在重叠划窗的配合;
所述图像处理模型包括重叠划窗层、多级特征提取层,以及输出层;
所述图像处理单元用于:
将所述图像输入至所述重叠划窗层,由所述重叠划窗层基于所述图像进行重叠划窗,得到所述重叠划窗层输出的窗口信息;所述重叠划窗层位于所述图像处理模型的最前端,所述窗口信息用于将重叠划窗的结果向后传递;
将所述窗口信息和上一特征提取层输出的图像特征输入当前特征提取层,由所述当前特征提取层对所述窗口信息指示的每个窗口内的图像特征进行局部注意力提取,得到所述当前特征提取层输出的图像特征;
将每一特征提取层输出的图像特征,或者最尾的特征提取层输出的图像特征输入所述输出层,得到所述输出层输出的所述处理结果。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述图像处理方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像处理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534987.5A CN113361567B (zh) | 2021-05-17 | 2021-05-17 | 图像处理方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110534987.5A CN113361567B (zh) | 2021-05-17 | 2021-05-17 | 图像处理方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113361567A CN113361567A (zh) | 2021-09-07 |
CN113361567B true CN113361567B (zh) | 2023-10-31 |
Family
ID=77526761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110534987.5A Active CN113361567B (zh) | 2021-05-17 | 2021-05-17 | 图像处理方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113361567B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113963009B (zh) * | 2021-12-22 | 2022-03-18 | 中科视语(北京)科技有限公司 | 基于可形变划块的局部自注意力的图像处理方法和系统 |
CN114972746B (zh) * | 2022-04-13 | 2024-04-30 | 湖南大学 | 一种基于多分辨率重叠注意力机制的医学影像分割方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135406A (zh) * | 2019-07-09 | 2019-08-16 | 北京旷视科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN111260653A (zh) * | 2020-04-27 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种图像分割方法、装置、存储介质和电子设备 |
CN111275054A (zh) * | 2020-01-16 | 2020-06-12 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN112712500A (zh) * | 2020-12-28 | 2021-04-27 | 同济大学 | 一种基于深度神经网络的遥感图像目标提取方法 |
-
2021
- 2021-05-17 CN CN202110534987.5A patent/CN113361567B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135406A (zh) * | 2019-07-09 | 2019-08-16 | 北京旷视科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN111275054A (zh) * | 2020-01-16 | 2020-06-12 | 北京迈格威科技有限公司 | 图像处理方法、装置、电子设备及存储介质 |
CN111260653A (zh) * | 2020-04-27 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 一种图像分割方法、装置、存储介质和电子设备 |
CN112712500A (zh) * | 2020-12-28 | 2021-04-27 | 同济大学 | 一种基于深度神经网络的遥感图像目标提取方法 |
Non-Patent Citations (2)
Title |
---|
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows;Ze Liu et al.;《arXiv》;20210325;第1-13页 * |
融合通道互联空间注意力的 Siamese 网络跟踪算法;崔洲涓等;《红外与激光工程》;20210331;第 50 卷(第3期);第1-13页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113361567A (zh) | 2021-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11361585B2 (en) | Method and system for face recognition via deep learning | |
CN108304882B (zh) | 一种图像分类方法、装置及服务器、用户终端、存储介质 | |
CN111814794B (zh) | 文本检测方法、装置、电子设备及存储介质 | |
CN111652217A (zh) | 文本检测方法、装置、电子设备及计算机存储介质 | |
CN111488985B (zh) | 深度神经网络模型压缩训练方法、装置、设备、介质 | |
CN111709406B (zh) | 文本行识别方法及装置、可读存储介质、电子设备 | |
CN113361567B (zh) | 图像处理方法、装置、电子设备和存储介质 | |
CN111652218A (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN114419570B (zh) | 一种点云数据识别方法、装置、电子设备及存储介质 | |
CN111932577B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN113313083B (zh) | 文本检测方法及装置 | |
CN114266894A (zh) | 一种图像分割方法、装置、电子设备及存储介质 | |
CN116704519A (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN111353514A (zh) | 模型训练方法、图像识别方法、装置及终端设备 | |
CN113269280A (zh) | 文本检测方法、装置、电子设备及计算机可读存储介质 | |
CN116188917B (zh) | 缺陷数据生成模型训练方法、缺陷数据生成方法及装置 | |
CN112801045B (zh) | 一种文本区域检测方法、电子设备及计算机存储介质 | |
CN112380861A (zh) | 模型训练方法、装置及意图识别方法、装置 | |
CN113792849B (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备 | |
CN114863570A (zh) | 视频动作识别模型的训练、识别方法、装置以及介质 | |
CN116563898A (zh) | 基于GhostNet网络的掌静脉图像识别方法、装置、设备及介质 | |
CN115424250A (zh) | 一种车牌识别方法及装置 | |
CN113744158A (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN113782033B (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN114092864B (zh) | 伪造视频的识别方法、装置、电子设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee after: Shanghai Bi Ren Technology Co.,Ltd. Country or region after: China Address before: 201114 room 1302, 13 / F, building 16, 2388 Chenhang Road, Minhang District, Shanghai Patentee before: Shanghai Bilin Intelligent Technology Co.,Ltd. Country or region before: China |