CN114708429A - 图像处理方法、装置、计算机设备及计算机可读存储介质 - Google Patents
图像处理方法、装置、计算机设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114708429A CN114708429A CN202210282168.0A CN202210282168A CN114708429A CN 114708429 A CN114708429 A CN 114708429A CN 202210282168 A CN202210282168 A CN 202210282168A CN 114708429 A CN114708429 A CN 114708429A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- positioning
- area
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 82
- 238000003672 processing method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000007499 fusion processing Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 27
- 230000004927 fusion Effects 0.000 claims description 26
- 230000004807 localization Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 9
- 239000011159 matrix material Substances 0.000 description 17
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000010606 normalization Methods 0.000 description 9
- 238000003062 neural network model Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000001994 activation Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000007725 thermal activation Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种图像处理方法、装置、计算机设备及计算机可读存储介质,可以应用于云技术、人工智能、智慧交通、车联网等各种场景;本申请实施例可以获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;对图像区域进行特征提取,得到图像区域的区域特征信息;根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息;根据区域特征信息,确定图像区域之间的区域关联信息;将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;根据初始融合后定位信息,识别出待处理图像中的目标图像区域;本申请实施例可以全面且精准地识别出目标对象在待处理图像中的目标对象区域。
Description
技术领域
本申请涉及图像处理技术领域,具体涉及一种图像处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
在计算机视觉分析中的一个前置基础性任务为目标定位任务,目标定位任务能够确定出图像中的目标对象的所在位置。
目前的目标定位任务可以采用弱监督目标定位方法对图像中的目标对象进行定位,弱监督目标定位方法一般采用神经网络模型进行定位,但这种弱监督目标定位方法会使得神经网络模型提取图像中最具判别力的特征,从而使得神经网络模型只关注目标对象的具有较高判别力的局部区域,无法全面关注到目标对象的全部区域。
综上,现有的目标定位任务无法全面定位出目标对象在图像中的区域。
发明内容
本申请实施例提供一种图像处理方法、装置、计算机设备及计算机可读存储介质,能够全面且精准地识别出目标对象在待处理图像中的目标对象区域。
一种图像处理方法,包括:
获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;
对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征信息为图像区域的语义特征信息;
根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息;
根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息;
将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;
根据初始融合后定位信息,识别出待处理图像中的目标图像区域。
相应地,本申请实施例提供一种图像处理装置,包括:
第一获取单元,可以用于获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;
提取单元,可以用于对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征信息为图像区域的语义特征信息;
第二获取单元,可以用于根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息;
确定单元,可以用于根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息;
融合单元,可以用于将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;
识别单元,可以用于根据初始融合后定位信息,识别出待处理图像中的目标图像区域。
在一些实施例中,第二获取单元,具体可以用于根据区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重;根据预设定位特征信息,从候选定位权重提取出每一图像区域的定位权重;将每一图像区域的定位权重作为每一图像区域的图像定位信息。
在一些实施例中,第二获取单元,具体可以用于根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个初始特征信息;对初始特征信息进行融合处理,得到每一图像区域的候选定位权重。
在一些实施例中,确定单元,具体可以用于根据区域特征信息和预设定位特征信息,计算图像区域之间的候选关联参数;根据区域特征信息,从候选关联参数中提取关联参数;根据关联参数,生成图像区域之间的区域关联信息。
在一些实施例中,融合单元,具体可以用于根据图像定位信息对区域关联信息进行加权处理,得到加权后定位信息;根据加权后定位信息,确定初始融合后定位信息。
在一些实施例中,初始融合后定位信息包括若干初始融合后定位信息;识别单元,具体可以用于将若干初始融合后定位信息进行融合处理,得到目标融合后定位信息;根据目标融合后定位信息,识别出待处理图像中的目标图像区域。
在一些实施例中,识别单元,具体可以用于根据目标融合后定位信息,确定待处理图像对应的目标定位图像;根据目标定位图像,识别出待处理图像中的目标图像区域。
在一些实施例中,区域特征信息为采用训练后图像处理模型进行特征提取得到的特征信息;图像处理装置还包括训练单元,训练单元,具体可以用于获取图像样本集合,图像样本集合包括至少一个标注分类标签的图像样本;采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息;根据编码后样本特征信息,对图像样本进行类型预测,得到图像样本的预测分类类别;根据预测分类类别和分类标签,对待训练图像处理模型的模型参数进行收敛,得到训练后图像处理模型。
此外,本申请实施例还提供一种计算机设备,包括存储器和处理器;存储器存储有计算机程序,处理器用于运行存储器内的计算机程序,以执行本申请实施例提供的任一种图像处理方法。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种图像处理方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种图像处理方法。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现本申请实施例所提供的任一种图像处理方法。
本申请实施例可以获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征为图像区域的语义特征信息;根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息;根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息;将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;根据初始融合后定位信息,识别出待处理图像中的目标图像区域;由于本申请实施例可以根据区域特征信息和预设定位特征信息,得到图像定位信息,以及根据区域特征信息,确定区域关联信息,如此可以根据对图像定位信息和区域关联信息融合处理得到的初始融合后定位信息,全面且精准地识别出待处理图像中的目标对象区域,也即全面且精准地识别出目标对象在待处理图像中的目标对象区域。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的图像处理方法的场景示意图;
图2是本申请实施例提供的图像处理方法的流程示意一图;
图3是本申请实施例提供的根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息的流程示意图;
图4是本申请实施例提供的将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息的示意图;
图5是本申请实施例提供的图像处理方法的流程示意二图;
图6为本申请实施例提供的待训练图像处理模型的结构示意图;
图7为本申请实施例提供的编码模块的结构示意图;
图8为本申请实施例提供的图像处理方法的流程示意三图;
图9为本申请实施例提供的确定每一图像区域对应的第一注意力图像的流程示意图;
图10为本申请实施例提供的图像定位信息、区域关联信息、目标定位图像、以及目标对象区域的可视化示意图;
图11为本申请实施例提供的现有的目标对象区域和本申请的目标对象区域对比示意图;
图12为本申请实施例提供的图像处理装置的结构示意图;
图13为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种图像处理方法、装置、计算机设备和计算机可读存储介质。其中,该图像处理装置可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
其中,本申请实施例涉及人工智能(Artificial Intelligence,AI),人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
例如,参见图1,以图像处理装置集成在计算机设备中为例,计算机设备获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;对图像区域进行特征提取,得到图像区域的区域特征信息;根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息;根据区域特征信息,确定图像区域之间的区域关联信息;将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;根据初始融合后定位信息,识别出待处理图像中的目标图像区域。
其中,待处理图像可以是任意的图像,例如,待处理图像可以是风景图像,可以是人像,可以是物品图像;等等。
其中,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息。目标对象可以是指待处理图像中待定位的对象。具体来说,预设定位特征信息可以是预先设置完成的特征信息,该预设定位特征信息也可以是神经网络模型初始化的特征信息。
其中,区域特征信息可以是指表征图像区域特征的信息,具体来说区域特征信息为图像区域的语义特征信息。
其中,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息,图像定位信息具体可以表现为每一图像区域对待处理图像中目标对象进行定位的贡献大小,例如,图像定位信息表现为每一图像区域对待处理图像中目标对象进行定位的定位权重,图像定位信息的表征形式可以为数值。
其中,区域关联信息为待处理图像的图像区域之间关联的信息,区域关联信息的表征形式可以为数值。
其中,初始融合后定位信息可以是指对图像定位信息和区域关联信息进行融合处理所得到的信息。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从图像处理装置的角度进行描述,该图像处理装置具体可以集成在计算机设备中,该计算机设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以获取数据的智能设备等设备。
首先,要说明的是,在现有的相关技术中,现有的弱监督目标定位方法多数都是基于卷积神经网络模型对待处理图像中的目标对象进行定位的方法,具体为:卷积神经网络模型先使用主干网络提取待处理图像的深层次语义特征,然后,对深层语义特征进行全局池化,再通过全连接层对待处理图像进行分类,得到目标分类类别,接着,通过交叉熵损失函数的计算卷积神经网络模型的损失值。如此一来,卷积神经网络模型自动关注待处理图像中目标分类类别对应的目标对象,并对目标对象在待处理图像中具有较高判别力的局部区域给予更多的关注,无法全面关注到目标对象在待处理图像中的全部区域,如此一来,无法全面精准地定位到目标对象在待处理图像中的区域,导致检测到的目标对象出现残缺或者空洞。
基于上述,本申请实施例提供一种图像处理方法,能够全面且精准地识别出目标对象在待处理图像中的目标对象区域,如图2所示,该图像处理方法的具体流程如S101至S106所示:
S101、获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域。
其中,待处理图像可以是任意的图像,例如,待处理图像可以是风景图像,可以是人像,可以是物品图像;等等。
其中,本申请实施例的每一图像区域尺寸可以相同。
本申请实施例对待处理图像进行切割,得到至少两个图像区域的方式可以有多种,如下:
例如,计算机设备采用神经网络模型对待处理图像进行切割,得到至少两个图像区域。
又例如,计算机设备根据预设区域尺寸,对待处理图像进行切割,得到至少两个图像区域。其中,预设区域尺寸为预先设置完成用来作为图像区域的尺寸的参数。
S102、对图像区域进行特征提取,得到图像区域的区域特征信息。
其中,区域特征信息可以是指表征图像区域特征的信息,具体来说区域特征信息为图像区域的语义特征信息。
具体来说,计算机设备可以对图像区域进行语义特征提取,得到图像区域的区域特征信息。
本申请实施例对图像区域进行特征提取,得到图像区域的区域特征信息的方式有多种,如下:
例如,本申请实施例可以采用现有的相关技术中的神经网络模型对图像区域进行特征提取,得到图像区域的区域特征信息。
又例如,本申请实施例可以采用训练后图像处理模型对图像区域进行特征提取,得到图像区域的区域特征信息。
其中,训练后图像处理模型可以为对待训练图像处理模型进行训练后得到的模型。本申请实施例可以对待训练图像处理模型进行训练,如下所示:
例如,计算机设备可以获取图像样本集合,图像样本集合包括至少一个标注分类标签的图像样本;采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息;根据编码后样本特征信息,对图像样本进行类型预测,得到图像样本的预测分类类别;根据预测分类类别和分类标签,对待训练图像处理模型的模型参数进行收敛,得到训练后图像处理模型。
其中,本申请实施例中的待训练图像处理模型可以为采用Transformer作为主干网络的模型,Transformer中存在编码器-解码器结构。基于此,本申请实施例采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息具体可以为:计算机设备采用待训练图像处理模型的编码器对图像样本进行编码,得到编码后样本特征信息。
本申请实施例的待训练图像处理模型采用Transformer作为主干网络,相比卷积神经网络,Transformer不仅具有强大的特征建模能力,还具有优异的全局特征提取能力,Transformer依赖于简单的而又强大的注意力机制,通过注意力机制可以使得待训练图像处理模型可以图像样本中的所有区域进行充分关联分析和建模,Transformer通过其内部的编码器-解码器结构能够有效地建模图像样本的全局特征。本申请实施例通过使用Transformer作为主干网络,能够全面关注到目标对象在图像样本中的全部区域。
S103、根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息。
其中,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息。目标对象可以是指待处理图像中待定位的对象。具体来说,预设定位特征信息可以是预先设置完成的特征信息,该预设定位特征信息也可以是神经网络模型初始化的特征信息。
其中,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息,图像定位信息具体可以表现为每一图像区域对待处理图像中目标对象进行定位的贡献大小,例如,图像定位信息表现为每一图像区域对待处理图像中目标对象进行定位的定位权重,图像定位信息的表征形式可以为数值。
如图3所示,本申请实施例根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息的方式可以如A1至A3所示:
A1、根据区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重。
本申请实施例根据区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重的方式有多种,如下:
例如,预设定位特征信息包括若干预设定位特征信息;计算机设备可以计算区域特征信息和预设定位特征信息之间的目标相似度,得到每一图像区域针对预设定位特征信息的目标相似度;针对每一图像区域,对图像区域对应的目标相似度进行归一化处理,得到每一图像区域的候选定位权重。
又例如,计算机设备可以根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个初始特征信息;对初始特征信息进行融合处理,得到每一图像区域的候选定位权重。
其中,本申请实施例根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个初始特征信息的方式可以为:计算机设备获取至少两个映射函数;针对每一映射函数,采用每一映射函数对区域特征信息和预设定位特征信息进行映射处理,得到每一映射函数对应的初始特征信息,得到待处理图像的至少两个初始特征信息。
其中,初始特征信息可以由矩阵的形式表征,基于此,本申请实施例对初始特征信息进行融合处理,得到每一图像区域的候选定位权重可以为:计算机设备计算至少两个初始特征信息的平均值,得到每一图像区域的候选定位权重。
A2、根据预设定位特征信息,从候选定位权重提取出每一图像区域的定位权重。
其中,预设定位特征信息可以与图像区域对应的区域特征信息具有对应关系,候选定位权重为对区域特征信息与预设定位特征信息处理后得到的权重,基于此,本申请实施例可以预设定位特征信息,从候选定位权重提取出每一图像区域对应的定位权重。
A3、将每一图像区域的定位权重作为每一图像区域的图像定位信息。
为了能够更加精准地确定出待处理图像中目标对象的目标对象区域,本申请实施例还可以结合图像区域之间的区域关联信息对待处理图像中的目标对象区域进行定位。
S104、根据区域特征信息,确定图像区域之间的区域关联信息。
其中,区域关联信息可以是表征待处理图像中图像区域之间关联的信息,区域关联信息的表征形式可以为矩阵。
本申请实施例根据区域特征信息,确定图像区域之间的区域关联信息的方式可以如下:
例如,计算机设备可以根据区域特征信息和预设定位特征信息,计算图像区域之间的候选关联参数;根据区域特征信息,从候选关联参数中提取关联参数;根据关联参数,生成图像区域之间的区域关联信息。
其中,计算机设备根据区域特征信息和预设定位特征信息,计算图像区域之间的候选关联参数的方式可以为:计算机设备可以根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个参考特征信息;对参考特征信息进行融合处理,得到图像区域之间的候选关联参数。
参考特征信息可以以矩阵的形式表征,基于此,本申请实施例对参考特征信息进行融合处理,得到图像区域之间的候选关联参数可以为:计算机设备计算至少两个参考特征信息的平均值,得到图像区域之间的候选关联参数。
S105、将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息。
本申请实施例根据图像定位信息和区域关联信息融合处理得到的出射融合后定位信息,可以更全面且精准地在待处理图像中识别出目标对象区域。初始融合后定位信息可以是指对图像定位信息和区域关联信息进行融合处理所得到的信息。
具体来说,图像定位信息包括每一图像区域对应的定位权重,基于此,本申请实施例将图像定位信息和区域关联信息进行融合处理的方式可以为:计算机设备可以根据图像定位信息对区域关联信息进行加权处理,得到加权后定位信息;根据加权后定位信息,确定初始融合后定位信息。
S106、根据初始融合后定位信息,识别出待处理图像中的目标图像区域。
其中,目标图像区域是指目标对象在待处理图像中的图像区域。
其中,初始融合后定位信息包括若干初始融合后定位信息,基于此,如图4所示,本申请实施例将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息的方式可以如步骤B1至B2:
B1、将若干初始融合后定位信息进行融合处理,得到目标融合后定位信息。
其中,初始融合后定位信息可以以矩阵的形式表征,基于此,本申请实施例将若干初始融合后定位信息进行融合处理,得到目标融合后定位信息的方式可以为:计算机设备可以计算若干初始融合后定位信息的初始平均值,该初始平均值即为目标融合后定位信息。
B2、根据目标融合后定位信息,识别出待处理图像中的目标图像区域。
本申请实施例根据目标融合后定位信息,识别出待处理图像中的目标图像区域的方式可以如下:
例如,计算机设备可以根据目标融合后定位信息,确定待处理图像对应的目标定位图像;根据目标定位图像,识别出待处理图像中的目标图像区域。
其中,目标融合后定位信息可以以矩阵形式表征,本申请实施例根据目标融合后定位信息,确定待处理图像对应的目标定位图像的方式可以为:将目标融合后定位信息进行矩阵变换操作,以得到待处理图像对应的目标定位图像。目标定位图像可以为激活图,具体可以为热力激活图。
其中,本申请实施例可以对目标定位图像进行二值化处理,得到二值化后定位图像;对二值化后定位图像采用连通区域分析策略,以识别出待处理图像中的目标图像区域。
连通域分析策略可以为Two-Pass策略,也可以为种子填充(Seed-Filling)策略。
本申请实施例可以获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征为图像区域的语义特征信息;根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息;根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息;将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;根据初始融合后定位信息,识别出待处理图像中的目标图像区域;由于本申请实施例可以根据区域特征信息和预设定位特征信息,得到图像定位信息,以及根据区域特征信息,确定区域关联信息,如此可以根据对图像定位信息和区域关联信息融合处理得到的初始融合后定位信息,全面且精准地识别出待处理图像中的目标对象区域,也即全面且精准地识别出目标对象在待处理图像中的目标对象区域。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该图像处理装置具体集成在计算机设备,计算机设备为服务器。
如图5所示,一种图像处理方法,具体流程如步骤S201至步骤S210:
S201、计算机设备获取图像样本集合。
其中,图像样本集合包括至少一个标注分类标签的图像样本。
S202、计算机设备采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息。
其中,本申请实施例中的待训练图像处理模型可以为采用Transformer作为主干网络的模型,Transformer中存在编码器-解码器结构。
在本申请实施例中,待训练图像处理模型可以为ViT模型。ViT模型采用了BERT神经网络中的Transformer结构。
本申请实施例采用ViT模型的Transformer结构中的编码器进行编码,得到编码后样本特征信息。
待训练图像处理模型如图6所示,待训练图像处理模型包括特征提取层11、Transformer编码层12和分类层13。在本申请实施例中,计算机设备采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息的过程具体可以为:
计算机设备对图像样本进行切割,得到若干图像样本区域;采用待训练图像处理模型的特征提取层11对每一图像样本区域进行特征提取,得到样本区域特征信息;将样本区域特征信息和预设分类特征信息进行拼接,得到拼接后样本特征信息;采用待训练图像处理模型的Transformer编码层12对拼接后样本特征信息进行编码,得到编码后样本特征信息。
其中,预设分类特征信息为ViT模型随机初始化的特征信息。
其中,拼接后样本特征信息包括样本区域特征信息和预设分类特征信息;本申请实施在对拼接后样本特征信息进行编码之前,还可以获取位置特征信息。
基于上述,本申请实施例对拼接后样本特征信息进行编码,得到编码后样本特征信息的方式具体可以包括:计算机设备将位置特征信息分别和拼接后样本特征信息中的样本区域特征信息和预设分类特征信息一一融合,得到目标样本特征信息,其中,目标样本特征信息包括携带位置特征信息的样本区域特征信息和携带位置特征信息的预设分类特征信息;采用ViT模型的Transformer结构中的编码层对目标样本特征信息进行编码,得到编码后样本特征信息。
其中,具体来说,待训练图像处理模型的Transformer编码层包括至少一个编码模块(block),如图7所示,编码模块包括第一标准化层(第一Norm层)、多头注意力层(Multi-Head Attention层)、第二标准化层(第二Norm层)和输出层(MLP层)。
本申请实施例通过待训练图像处理模型将目标样本特征信息输入第一标准化层;采用第一标准化层对目标样本特征信息进行特征提取,得到第一样本特征信息;采用多头注意力层对第一样本特征信息进行特征提取,得到初始样本特征信息;将初始样本特征信息和目标样本特征信息进行融合处理,得到第一融合样本特征信息;采用第二标准化层对第一融合样本特征信息进行特征提取,得到第二样本特征信息;采用输出层对第二样本特征信息进行特征提取,得到第三样本特征信息;将第三样本特征信息和第一融合样本特征信息进行融合处理,得到第二融合样本特征信息。其中,第二融合样本特征信息即为上述的编码后样本特征信息。
当本申请实施例的Transformer编码层具有多个编码模块时,编码模块和编码模块之间依次串接,例如,编码模块包括第一编码模块和第二编码模块,第一编码模块和第二编码模块串接,第一编码模块编码得到的特征信息输入到第二编码模块进行编码。最后一个编码模块所输出的特征信息为上述的编码后样本特征信息。
S203、计算机设备根据编码后样本特征信息,对图像样本进行类型预测,得到图像样本的预测分类类别。
基于上述,本申请实施例根据编码后样本特征信息,对图像样本进行类型预测,得到图像样本的预测分类类别的方式可以为:如图6所示,计算机设备根据编码后样本特征信息,采用待训练图像处理模型的分类层13对图像样本进行分类,得到图像样本的预测分类类别。
S204、计算机设备根据预测分类类别和分类标签,对待训练图像处理模型的模型参数进行收敛,得到训练后图像处理模型。
其中,本申请实施例采用损失函数计算预测分类类别和分类标签之间的损失值;根据损失值对待训练图像处理模型的模型参数进行收敛,得到训练后图像处理模型。
S205、计算机设备获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域。
本申请实施例对待处理图像进行切割,得到至少两个图像区域的方式可以如下:
例如,计算机设备采用训练后图像处理模型对待处理图像进行切割,得到至少两个图像区域。
其中,每个图像区域的尺寸大小可以是相同的。
S206、计算机设备采用训练后图像处理模型对图像区域进行特征提取,得到图像区域的区域特征信息。
其中,本申请实施例可以采用训练后图像处理模型对每一图像区域进行特征提取,得到每一图像区域的区域特征信息。本申请实施例通过维度转换,每一图像区域的区域特征信息可以以一维矩阵表示。
S207、计算机设备根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息。
其中,本申请实施例的预设定位特征信息是训练后图像处理模型初始化的特征信息。
如图3所示,本申请实施例根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息的方式可以如A1至A3所示:
A1、根据区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重。
本申请实施例根据区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重的方式可以如下:
例如,计算机设备可以根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个初始特征信息;对初始特征信息进行融合处理,得到每一图像区域的候选定位权重。
其中,初始特征信息可以由矩阵的形式表征,基于此,本申请实施例对初始特征信息进行融合处理,得到每一图像区域的候选定位权重可以为:计算机设备计算至少两个初始特征信息的平均值,得到每一图像区域的候选定位权重。
其中,本申请实施例的训练后图像处理模型可以获取特殊输入,即目标位置特征信息。这是由于训练后图像处理模型的Transformer和CNN不同,Transformer需要采用目标位置特征信息来编码区域特征信息的相对位置信息和预设定位特征信息的相对位置信息。
这主要是因为Transformer的编码层对输入区域特征信息和预设定位特征信息的排列顺序不敏感,即打乱序列中的区域特征信息和/或预设定位特征信息的顺序并不会改变编码层的输出结果。
如果不主动给训练后图像处理模型提供区域特征信息和预设定位特征信息的相对位置信息,那么训练后图像处理模型就需要学习推理区域特征信息和/或预设定位特征信息之间的相对位置关系,这就额外增加了学习成本,导致训练后图像处理模型的推理精度降低。
基于上述,本申请实施例根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个初始特征信息的方式可以为:计算机设备获取目标位置特征信息;将区域特征信息和预设定位特征信息进行拼接,得到目标拼接后特征信息;将目标位置特征信息和目标拼接后特征信息进行融合,得到融合后特征信息,其中,目标位置特征信息和目标拼接后特征信息中的子特征信息一一对应,子特征信息包括区域特征信息和预设定位特征信息;根据融合后特征信息,确定待处理图像的至少两个初始特征信息,其中,融合后特征信息可以包括携带目标位置特征信息的预设定位特征信息和携带目标位置特征信息的区域特征信息。
具体来说,训练后图像处理模型的Transformer编码层包括至少一个编码模块,编码模块包括第一标准化层(第一Norm层)、多头注意力层(Multi-Head Attention层)、第二标准化层(第二Norm层)和输出层(MLP层),具体可参见上述针对图7中的阐述,此处不再赘述。
本申请实施例将融合后特征信息输入到第一标准化层;采用第一标准化层对融合后特征信息进行特征提取,得到第一特征信息;采用多头注意力层对第一特征信息进行特征提取,得到待处理图像的至少两个初始特征信息。
具体来说,融合后特征信息可以表示为Xl∈R(N+1)×D,其中,R(N+1)×D可以是表示维度为(N+1)×D的矩阵,N+1表示N个图像区域和1个预设定位特征信息,D可以表示每个图像区域中元素的数量和预设定位特征信息中元素的数量。
本申请实施例的多头注意力层中具有至少两个注意力头(Head),训练后图像处理模型根据融合后特征信息,编码模块可以计算得到每一注意力头对应的初始特征信息。其中,初始特征信息的表示可以如公式(1)所示:
其中,Al表示初始特征信息,Al∈RS×(N+1)×(N+1);Ql表示由融合后特征信息映射到的查询值(Queries);Kl Τ表示由融合后特征信息映射到的键值(Key)的转置;S表示注意力头的数量;D可以表示每个图像区域中元素的数量和预设定位特征信息中元素的数量。
其中,在本申请实施例,每个注意力头的查询值和键值可以是不同的。
基于上述,本申请实施例对初始特征信息进行融合处理,得到每一图像区域的候选定位权重的具体可以如下:
针对每一编码模块,计算机设备可以计算所有注意力头对应的初始特征信息的平均值,得到候选定位权重集合,候选定位权重集合包括每一图像区域对应的候选定位权重。其中,候选定位权重集合可以表示为Al'∈R(N+1)×(N+1)。
A2、根据预设定位特征信息,从候选定位权重提取出每一图像区域的定位权重。
其中,预设定位特征信息可以与图像区域对应的区域特征信息具有对应关系,候选定位权重为对区域特征信息与预设定位特征信息处理后得到的权重,基于此,本申请实施例可以预设定位特征信息,从候选定位权重提取出每一图像区域对应的定位权重。
基于上述,本申请实施例可以从候选定位权重集合中的候选定位权重提取出每一图像区域的定位权重,每一图像区域的定位权重可以表示为 反映了每一图像区域对待处理图像中目标对象进行定位所做出的贡献大小,因此,可以当做图像处理模型对每个图像区域的响应程度。每一图像区域的定位权重可以是指预设定位特征信息对应的每一图像区域的定位权重,即建模了预设定位特征信息和每一图像区域之间的关联关系。
A3、将每一图像区域的定位权重作为每一图像区域的图像定位信息。
但是,在本申请实施例中,仅仅建模预设定位特征信息和每一图像区域之间的关联关系是不够的,这样忽略了图像区域和图像区域之间的相关性,会出现图像局部响应弱的情况,不利于对待处理图像的目标对象进行定位。
基于此,本申请实施例引入图像区域和图像区域之间的关联信息进行补充,以辅助对待处理图像的目标对象进行定位。
S208、计算机设备根据区域特征信息,确定图像区域之间的区域关联信息。
其中,区域关联信息可以是表征待处理图像中图像区域之间关联的信息,区域关联信息的表征形式可以为数值。
本申请实施例根据区域特征信息,确定图像区域之间的区域关联信息的方式可以如下:
例如,计算机设备可以根据区域特征信息和预设定位特征信息,计算图像区域之间的候选关联参数;根据区域特征信息,从候选关联参数中提取关联参数;根据关联参数,生成图像区域之间的区域关联信息。
具体来讲,本申请实施例中的候选关联参数构成候选关联参数集合,候选关联参数集合可以是上述的候选定位权重集合Al'∈R(N+1)×(N+1)。本申请实施例根据区域特征信息,从候选关联参数中提取关联参数,关联参数可以构成区域关联信息,区域关联信息可以表示为Ml p∈R(N+1)×N。
区域关联信息表达了不同图像区域之间关联程度,可以很好地建模待处理图像的局部相关性。
S209、计算机设备将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息。
本申请实施例为了能够全面且精准地识别出目标对象区域,计算机设备对图像定位信息和区域关联信息进行了结合。
其中,图像定位信息包括每一图像区域对应的定位权重,基于此,本申请实施例将图像定位信息和区域关联信息进行融合处理的方式可以为:根据图像定位信息对区域关联信息进行加权处理,得到加权后定位信息;根据加权后定位信息,确定初始融合后定位信息。
具体来讲,本申请实施例根据图像定位信息对区域关联信息Ml p∈R(N +1)×N进行加权处理,得到加权后定位信息Ml h∈R(N+1)×N;然后,对加权后定位信息求平均,以得到初始融合后定位信息其中,本申请实施例可以根据加权后定位信息Ml h∈R(N+1)×N中每一列的元素求平均,得到初始融合后定位信息
S210、计算机设备根据初始融合后定位信息,在待处理图像中识别出待处理图像中的目标图像区域。
在本申请实施例中,训练后图像处理模型的每一编码模块对应有初始融合后定位信息也即,初始融合后定位信息包括若干初始融合后定位信息,基于此,本申请实施例将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息的方式可以如下:
例如,计算机设备可以将若干初始融合后定位信息进行融合处理,得到目标融合后定位信息;根据目标融合后定位信息,识别出待处理图像中的目标图像区域。
其中,初始融合后定位信息可以以矩阵的形式表征,即,初始融合后定位信息可以表征为基于此,本申请实施例将若干初始融合后定位信息进行融合处理,得到目标融合后定位信息的方式可以为:计算机设备可以计算若干初始融合后定位信息的初始平均值,该初始平均值即为目标融合后定位信息。
基于此,本申请实施例根据目标融合后定位信息,在待处理图像中识别出目标图像区域的方式可以如下:
例如,计算机设备可以根据目标融合后定位信息,确定待处理图像对应的目标定位图像;根据目标定位图像,识别出待处理图像中的目标图像区域。
其中,目标融合后定位信息可以以矩阵形式表征,本申请实施例根据目标融合后定位信息,确定待处理图像对应的目标定位图像的方式可以为:将目标融合后定位信息进行矩阵变换操作,以得到待处理图像对应的目标定位图像。目标定位图像可以为激活图,具体可以为热力激活图。
具体来说,目标定位图像可以表示为公式(2):
其中,目标定位图像可以以二维矩阵的形式在向量空间中表征。
进一步地,具体来讲,如图8所示,图像定位信息可以以矩阵表征,基于此,图像定位信息包括每一图像区域对应的定位权重。区域关联信息可以以矩阵的形式表征,区域关联信息对应的矩阵中的元素包括每一图像区域对应的关联参数,每一图像区域对应的关联参数可视化为第一注意力图像,第一注意力图像如图8所示。
本申请实施例将图像定位信息的定位权重对每一图像区域对应注意力图像进行加权处理,得到加权后定位信息。加权后定位信息可以以矩阵表征,基于此,加权后定位信息包括每一图像区域对应的元素。每一图像区域对应的元素可视化为第二注意力图像如图8所示。
进一步地,如图9所示,本申请实施例对待处理图像进行切割,得到至少两个图像区域,其中,图像区域有n个,n为大于2的正整数;对图像区域进行特征提取,得到图像区域的区域特征信息,其中,图9中αn表示第n个图像区域对应区域特征信息。根据区域特征信息和预设定位特征信息,确定区域关联信息,此处的确定区域关联信息可参见前述,此处不再赘述。由于区域关联信息包括每一图像区域对应的关联参数,每一图像区域对应的关联参数可视化为注意力图像,每一图像区域对应的第一注意力图像如图9所示,图像区域有n个,第一注意力图像对应有n个。
基于上述,本申请实施例可以再根据加权后定位信息确定初始融合后定位信息;根据初始融合后定位信息,确定出目标定位图像;此处的根据加权后定位信息确定初始融合后定位信息;根据初始融合后定位信息,确定出目标定位图像的具体过程可参见前述确定出待处理图像对应的目标定位图像的具体内容,此处不再赘述。
其中,本申请实施例可以对目标定位图像进行二值化处理,得到二值化后定位图像;对二值化后定位图像采用连通区域分析策略,以识别出待处理图像中的目标图像区域。
连通域分析策略可以为Two-Pass策略,也可以为种子填充(Seed-Filling)策略。
基于上述,本申请实施例补充说明的是,本申请实施例可以对图像定位信息、区域关联信息、目标定位图像、以及目标对象区域进行可视化,如图10所示。
在本申请实施例中,现有技术对待处理图像进行识别,得到现有的目标对象区域,本申请实施例对待处理图像进行识别,得到本申请的目标对象区域。现有的目标对象区域和本申请的目标对象区域的对比如图11所示,图11中方框中的区域即为目标对象区域,明显可以看出,本申请的目标对象区域明显比现有的目标对象区域更全面和更准确,不存在识别残缺的问题。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本申请实施例可以获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征为图像区域的语义特征信息;根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息;根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息;将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;根据初始融合后定位信息,识别出待处理图像中的目标图像区域;由于本申请实施例可以根据区域特征信息和预设定位特征信息,得到图像定位信息,以及根据区域特征信息,确定区域关联信息,如此可以根据对图像定位信息和区域关联信息融合处理得到的初始融合后定位信息,全面且精准地识别出待处理图像中的目标对象区域,也即全面且精准地识别出目标对象在待处理图像中的目标对象区域。
为了更好地实施以上方法,本申请实施例还提供一种图像处理装置,该图像处理装置可以集成在计算机设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图12所示,该图像处理装置可以包括第一获取单元301、提取单元302、第二获取单元303、确定单元304、融合单元305、识别单元306和训练单元307,如下:
(1)第一获取单元301;
第一获取单元301,可以用于获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域。
(2)提取单元302;
提取单元302,可以用于对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征信息为图像区域的语义特征信息。
(3)第二获取单元303;
第二获取单元303,可以用于根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息。
在一些实施例中,第二获取单元303,可以用于根据区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重;根据预设定位特征信息,从候选定位权重提取出每一图像区域的定位权重;将每一图像区域的定位权重作为每一图像区域的图像定位信息。
在一些实施例中,第二获取单元303,可以用于根据区域特征信息和预设定位特征信息,计算待处理图像的至少两个初始特征信息;对初始特征信息进行融合处理,得到每一图像区域的候选定位权重。
(4)确定单元304;
确定单元304,可以用于根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息。
在一些实施例中,确定单元304,可以用于根据区域特征信息和预设定位特征信息,计算图像区域之间的候选关联参数;根据区域特征信息,从候选关联参数中提取关联参数;根据关联参数,生成图像区域之间的区域关联信息。
(5)融合单元305;
融合单元305,可以用于将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息。
在一些实施例中,融合单元305,具体可以用于根据图像定位信息对区域关联信息进行加权处理,得到加权后定位信息;根据加权后定位信息,确定初始融合后定位信息。
(6)识别单元306;
识别单元306,可以用于根据初始融合后定位信息,识别出待处理图像中的目标图像区域。
在一些实施例中,初始融合后定位信息包括若干初始融合后定位信息;识别单元306,具体可以用于将若干初始融合后定位信息进行融合处理,得到目标融合后定位信息;根据目标融合后定位信息,识别出待处理图像中的目标图像区域。
在一些实施例中,识别单元306,具体可以用于根据目标融合后定位信息,确定待处理图像对应的目标定位图像;根据目标定位图像,识别出待处理图像中的目标图像区域。
(7)训练单元307;
区域特征信息为采用训练后图像处理模型进行特征提取得到的特征信息;训练单元307,可以用于获取图像样本集合,图像样本集合包括至少一个标注分类标签的图像样本;采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息;根据编码后样本特征信息,对图像样本进行类型预测,得到图像样本的预测分类类别;根据预测分类类别和分类标签,对待训练图像处理模型的模型参数进行收敛,得到训练后图像处理模型。
由上可知,本申请实施例可以的第一获取单元301可以用于获取待处理图像,并对待处理图像进行切割,得到至少两个图像区域;提取单元302可以用于对图像区域进行特征提取,得到图像区域的区域特征信息,区域特征为图像区域的语义特征信息;第二获取单元303可以用于根据区域特征信息和预设定位特征信息,获取图像区域的图像定位信息,预设定位特征信息为预设的用于对待处理图像中目标对象进行定位的特征信息,图像定位信息为每一图像区域对待处理图像中目标对象进行定位的信息;确定单元304可以用于根据区域特征信息,确定图像区域之间的区域关联信息,区域关联信息为待处理图像的图像区域之间关联的信息;融合单元305可以用于将图像定位信息和区域关联信息进行融合处理,得到初始融合后定位信息;识别单元306可以用于根据初始融合后定位信息,识别出待处理图像中的目标图像区域;由于本申请实施例可以根据区域特征信息和预设定位特征信息,得到图像定位信息,以及根据区域特征信息,确定区域关联信息,如此可以根据对图像定位信息和区域关联信息融合处理得到的初始融合后定位信息,全面且精准地识别出待处理图像中的目标对象区域,也即全面且精准地识别出目标对象在待处理图像中的目标对象区域。
本申请实施例还提供一种计算机设备,如图13所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图13中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和计算机程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息通讯,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的计算机程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的计算机程序,从而实现各种功能,如下:
获取待处理图像,并对所述待处理图像进行切割,得到至少两个图像区域;对所述图像区域进行特征提取,得到所述图像区域的区域特征信息,所述区域特征信息为所述图像区域的语义特征信息;根据所述区域特征信息和预设定位特征信息,获取所述图像区域的图像定位信息,所述预设定位特征信息为预设的用于对所述待处理图像中目标对象进行定位的特征信息,所述图像定位信息为每一所述图像区域对所述待处理图像中目标对象进行定位的信息;根据所述区域特征信息,确定所述图像区域之间的区域关联信息,所述区域关联信息为所述待处理图像的图像区域之间关联的信息;将所述图像定位信息和所述区域关联信息进行融合处理,得到初始融合后定位信息;根据所述初始融合后定位信息,识别出所述待处理图像中的目标图像区域。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种图像处理方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种图像处理方法中的步骤,因此,可以实现本申请实施例所提供的任一种图像处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种图像处理方法、计算机设备、装置及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种图像处理方法,其特征在于,包括:
获取待处理图像,并对所述待处理图像进行切割,得到至少两个图像区域;
对所述图像区域进行特征提取,得到所述图像区域的区域特征信息,所述区域特征信息为所述图像区域的语义特征信息;
根据所述区域特征信息和预设定位特征信息,获取所述图像区域的图像定位信息,所述预设定位特征信息为预设的用于对所述待处理图像中目标对象进行定位的特征信息,所述图像定位信息为每一所述图像区域对所述待处理图像中目标对象进行定位的信息;
根据所述区域特征信息,确定所述图像区域之间的区域关联信息,所述区域关联信息为所述待处理图像的图像区域之间关联的信息;
将所述图像定位信息和所述区域关联信息进行融合处理,得到初始融合后定位信息;
根据所述初始融合后定位信息,识别出所述待处理图像中的目标图像区域。
2.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述区域特征信息和预设定位特征信息,获取所述图像区域的图像定位信息,包括:
根据所述区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重;
根据所述预设定位特征信息,从所述候选定位权重提取出每一图像区域的定位权重;
将每一图像区域的所述定位权重作为每一图像区域的图像定位信息。
3.根据权利要求2所述的图像处理方法,其特征在于,所述根据所述区域特征信息和预设定位特征信息,确定每一图像区域的候选定位权重,包括:
根据所述区域特征信息和预设定位特征信息,计算所述待处理图像的至少两个初始特征信息;
对所述初始特征信息进行融合处理,得到所述每一图像区域的候选定位权重。
4.根据权利要求1所述的图像处理方法,其特征在于,所述根据所述区域特征信息,确定所述图像区域之间的区域关联信息,包括:
根据所述区域特征信息和预设定位特征信息,计算所述图像区域之间的候选关联参数;
根据所述区域特征信息,从所述候选关联参数中提取关联参数;
根据所述关联参数,生成所述图像区域之间的区域关联信息。
5.根据权利要求1所述的图像处理方法,其特征在于,所述将所述图像定位信息和所述区域关联信息进行融合处理,得到初始融合后定位信息,包括:
根据图像定位信息对区域关联信息进行加权处理,得到加权后定位信息;
根据加权后定位信息,确定初始融合后定位信息。
6.根据权利要求1所述的图像处理方法,其特征在于,所述初始融合后定位信息包括若干初始融合后定位信息;所述根据所述初始融合后定位信息,识别出所述待处理图像中的目标图像区域,包括:
将所述若干初始融合后定位信息进行融合处理,得到目标融合后定位信息;
根据所述目标融合后定位信息,识别出所述待处理图像中的目标图像区域。
7.根据权利要求6所述的图像处理方法,其特征在于,所述根据所述目标融合后定位信息,识别出所述待处理图像中的目标图像区域,包括:
根据所述目标融合后定位信息,确定所述待处理图像对应的目标定位图像;
根据所述目标定位图像,识别出所述待处理图像中的目标图像区域。
8.根据权利要求1所述的图像处理方法,其特征在于,所述区域特征信息为采用训练后图像处理模型进行特征提取得到的特征信息;所述对所述图像区域进行特征提取之前,所述方法还包括:
获取图像样本集合,所述图像样本集合包括至少一个标注分类标签的图像样本;
采用待训练图像处理模型对图像样本进行编码,得到编码后样本特征信息;
根据所述编码后样本特征信息,对所述图像样本进行类型预测,得到所述图像样本的预测分类类别;
根据所述预测分类类别和所述分类标签,对所述待训练图像处理模型的模型参数进行收敛,得到训练后图像处理模型。
9.一种图像处理装置,其特征在于,包括:
第一获取单元,用于获取待处理图像,并对所述待处理图像进行切割,得到至少两个图像区域;
提取单元,用于对所述图像区域进行特征提取,得到所述图像区域的区域特征信息,所述区域特征为所述图像区域的语义特征信息;
第二获取单元,用于根据所述区域特征信息和预设定位特征信息,获取所述图像区域的图像定位信息,所述预设定位特征信息为预设的用于对所述待处理图像中目标对象进行定位的特征信息,所述图像定位信息为每一所述图像区域对所述待处理图像中目标对象进行定位的信息;
确定单元,用于根据所述区域特征信息,确定所述图像区域之间的区域关联信息,所述区域关联信息为所述待处理图像的图像区域之间关联的信息;
融合单元,用于将所述图像定位信息和所述区域关联信息进行融合处理,得到初始融合后定位信息;
识别单元,用于根据所述初始融合后定位信息,识别出所述待处理图像中的目标图像区域。
10.一种计算机设备,其特征在于,包括存储器和处理器;所述存储器存储有计算机程序,所述处理器用于运行所述存储器内的计算机程序,以执行权利要求1至8任一项所述的图像处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至8任一项所述的图像处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品存储有计算机程序,所述计算机程序适于处理器进行加载,以执行权利要求1至8任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210282168.0A CN114708429A (zh) | 2022-03-21 | 2022-03-21 | 图像处理方法、装置、计算机设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210282168.0A CN114708429A (zh) | 2022-03-21 | 2022-03-21 | 图像处理方法、装置、计算机设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114708429A true CN114708429A (zh) | 2022-07-05 |
Family
ID=82169509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210282168.0A Pending CN114708429A (zh) | 2022-03-21 | 2022-03-21 | 图像处理方法、装置、计算机设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708429A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117802249A (zh) * | 2024-03-01 | 2024-04-02 | 中国海洋大学三亚海洋研究院 | 一种东星斑全基因组snp芯片的制备方法及应用 |
-
2022
- 2022-03-21 CN CN202210282168.0A patent/CN114708429A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117802249A (zh) * | 2024-03-01 | 2024-04-02 | 中国海洋大学三亚海洋研究院 | 一种东星斑全基因组snp芯片的制备方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN112131978B (zh) | 一种视频分类方法、装置、电子设备和存储介质 | |
CN111709497B (zh) | 一种信息处理方法、装置及计算机可读存储介质 | |
KR20190029083A (ko) | 신경망 학습 방법 및 이를 적용한 장치 | |
CN117079299B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112668608B (zh) | 一种图像识别方法、装置、电子设备及存储介质 | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN113052150B (zh) | 活体检测方法、装置、电子设备和计算机可读存储介质 | |
CN113111968A (zh) | 图像识别模型训练方法、装置、电子设备和可读存储介质 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN112966088A (zh) | 未知意图的识别方法、装置、设备及存储介质 | |
CN111046655A (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN114708429A (zh) | 图像处理方法、装置、计算机设备及计算机可读存储介质 | |
CN114187486A (zh) | 模型训练方法及相关设备 | |
CN113128526A (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN113705293A (zh) | 图像场景的识别方法、装置、设备及可读存储介质 | |
CN117093687A (zh) | 问题应答方法和装置、电子设备、存储介质 | |
CN108596068B (zh) | 一种动作识别的方法和装置 | |
CN116958590A (zh) | 媒体资源的处理方法和装置、存储介质及电子设备 | |
CN115129908A (zh) | 一种模型优化方法、装置、设备、存储介质及程序产品 | |
CN114443904A (zh) | 视频查询方法、装置、计算机设备及计算机可读存储介质 | |
CN114299295A (zh) | 一种数据处理方法及相关装置 | |
CN115100419B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN114329064A (zh) | 视频处理方法、装置、计算机设备及存储介质 | |
CN114663650A (zh) | 图像描述生成方法及装置、电子设备、可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |