CN115861605A - 一种图像数据处理方法、计算机设备以及可读存储介质 - Google Patents

一种图像数据处理方法、计算机设备以及可读存储介质 Download PDF

Info

Publication number
CN115861605A
CN115861605A CN202111121657.XA CN202111121657A CN115861605A CN 115861605 A CN115861605 A CN 115861605A CN 202111121657 A CN202111121657 A CN 202111121657A CN 115861605 A CN115861605 A CN 115861605A
Authority
CN
China
Prior art keywords
features
feature
target
sample
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111121657.XA
Other languages
English (en)
Inventor
陈思宏
李宇聪
鞠奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111121657.XA priority Critical patent/CN115861605A/zh
Publication of CN115861605A publication Critical patent/CN115861605A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像数据处理方法、计算机设备以及可读存储介质,该方法涉及人工智能、智慧交通、辅助驾驶等领域,方法包括:获取N个目标图像分别对应的初始图像特征;根据N个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵;基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征;根据增强对象特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。采用本申请,可以实现对N个目标图像进行对象识别,进而提高对象识别的准确度。

Description

一种图像数据处理方法、计算机设备以及可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像数据处理方法、计算机设备以及可读存储介质。
背景技术
目前,在将单张图像(例如,图像T)输入至语义分割模型之后,语义分割模型中的卷积神经网络可以对图像T进行特征提取,得到图像T对应的深度特征。进一步地,语义分割模型可以基于该图像T对应的深度特征,生成图像T中的超像素,且确定每个超像素对应的超像素特征,进而确定超像素特征之间的欧式距离,将欧式距离作为超像素特征之间的特征相似性距离,通过特征相似性距离和超像素特征学习不同超像素之间的关系。
一方面,在对一张图像进行语义分割时,由于一张图像的表现形式非常单一,可以利用的信息较少,从而会限制语义分割的精度。另一方面,通过超像素得到的分类粒度和语义分割所期望的目标粒度存在较大的差异(通常目标粒度大于分类粒度),进而会降低语义分割的准确度。
发明内容
本申请实施例提供一种图像数据处理方法、计算机设备以及可读存储介质,可以提高对象识别的准确度。
本申请实施例一方面提供了一种图像数据处理方法,包括:
获取N个目标图像分别对应的初始图像特征;N个目标图像均具有相同的目标分类标签信息;N为大于1的正整数;
根据N个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵;S为大于或等于N的正整数;
基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征;
根据增强对象特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
本申请实施例一方面提供了一种图像数据处理装置,包括:
特征获取模块,用于获取N个目标图像分别对应的初始图像特征;N个目标图像均具有相同的目标分类标签信息;N为大于1的正整数;
矩阵生成模块,用于根据N个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵;S为大于或等于N的正整数;
特征增强模块,用于基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征;
对象识别模块,用于根据增强对象特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
其中,特征获取模块包括:
图像获取单元,用于获取具有相同目标分类标签信息的N个目标图像,将N个目标图像输入至目标网络模型;目标网络模型包括用于进行卷积操作的第一卷积子网络;
第一卷积单元,用于通过第一卷积子网络对N个目标图像进行卷积操作,得到N个目标图像分别对应的初始图像特征。
其中,目标网络模型还包括用于进行对象检测的对象检测子网络、用于进行特征嵌入的特征嵌入子网络和用于进行注意力机制处理的注意力处理子网络;
矩阵生成模块包括:
对象检测单元,用于将N个初始图像特征输入至对象检测子网络,通过对象检测子网络在N个初始图像特征上提取与目标分类标签信息相关联的S个检测对象特征;一个初始图像特征对应一个或多个检测对象特征;
特征嵌入单元,用于将S个检测对象特征输入至特征嵌入子网络,通过特征嵌入子网络对S个检测对象特征进行特征嵌入,得到具有相同特征维度的S个嵌入对象特征;
注意力处理单元,用于将S个嵌入对象特征输入至注意力处理子网络,通过注意力处理子网络对S个嵌入对象特征进行注意力机制处理,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵。
其中,对象检测单元,具体用于将N个初始图像特征输入至对象检测子网络,在对象检测子网络中,根据N个初始图像特征,对N个目标图像进行对象检测,在N个目标图像中确定用于表征目标对象的对象检测区域;目标对象具有目标分类标签信息;对象检测区域的数量为S个;
对象检测单元,具体用于提取S个对象检测区域分别对应的检测对象特征。
其中,注意力处理单元,具体用于将S个嵌入对象特征输入至注意力处理子网络,通过注意力处理子网络对S个嵌入对象特征中的每两个嵌入对象特征进行特征运算处理,得到每两个嵌入对象特征对应的融合对象特征;
注意力处理单元,具体用于确定S个嵌入对象特征的特征尺寸,根据特征尺寸,对每两个嵌入对象特征对应的融合对象特征进行特征缩放,得到每两个嵌入对象特征对应的缩放对象特征;
注意力处理单元,具体用于对每两个嵌入对象特征对应的缩放对象特征进行归一化处理,生成每两个嵌入对象特征对应的相似度矩阵。
其中,装置还包括:
权重生成模块,用于将S个嵌入对象特征作为节点,基于每两个嵌入对象特征对应的相似度矩阵,生成节点之间的边权重;一个嵌入对象特征对应一个节点;一个相似度矩阵对应一个边权重;
有向图构建模块,用于基于节点和边权重,构建与N个目标图像相关联的特征有向图;
则特征增强模块,具体用于基于特征有向图中的边权重,对特征有向图中的S个节点进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征。
其中,特征有向图中的S个节点包括节点Si;i为小于或等于S的正整数;目标网络模型还包括用于进行特征增强的特征增强子网络;
特征增强模块包括:
权重确定单元,用于将特征有向图中除节点Si之外的节点确定为辅助节点;
权重确定单元,用于通过特征增强子网络在边权重中获取辅助节点针对节点Si的相对边权重,以及节点Si的自边权重;一个辅助节点对应一个相对边权重;
第一增强单元,用于基于节点Si所指示的嵌入对象特征和相对边权重,确定用于对节点Si进行特征增强的相对增强特征;
第二增强单元,用于获取节点Si所指示的检测对象特征,基于节点Si所指示的检测对象特征和自边权重,确定用于对节点Si进行特征增强的自增强特征;
特征聚合单元,用于对相对增强特征和自增强特征进行特征聚合,得到节点Si对应的增强对象特征,将节点Si对应的增强对象特征,作为节点Si所指示的嵌入对象特征对应的增强对象特征。
其中,目标网络模型还包括用于进行卷积操作的第二卷积子网络;
对象识别模块包括:
特征融合单元,用于获取属于同一个目标图像的增强对象特征,对属于同一个目标图像的增强对象特征进行特征融合,得到N个目标图像分别对应的融合图像特征;
第二卷积单元,用于将融合图像特征输入至第二卷积子网络,通过第二卷积子网络对融合图像特征进行卷积操作,得到融合图像特征对应的目标图像特征;
对象识别单元,用于根据目标图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
其中,对象识别单元,具体用于对目标图像特征进行上采样处理,得到目标图像特征对应的上采样图像特征;
对象识别单元,具体用于根据N个目标图像的图像尺寸,对上采样图像特征进行特征调整,得到上采样图像特征对应的分割图像特征;
对象识别单元,具体用于根据分割图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的语义分割结果,将语义分割结果作为与目标分类标签信息相关联的对象识别结果。
本申请实施例一方面提供了一种图像数据处理方法,包括:
通过初始网络模型获取N个样本图像分别对应的初始样本特征;N个样本图像均具有相同的样本分类标签信息;N为大于1的正整数;
在初始网络模型中,根据N个初始样本特征,获取与样本分类标签信息相关联的K个样本嵌入对象特征,生成K个样本嵌入对象特征中的每两个样本嵌入对象特征对应的样本相似度矩阵;K为大于或等于N的正整数;
基于每两个样本嵌入对象特征对应的样本相似度矩阵,对K个样本嵌入对象特征进行特征增强,得到K个样本嵌入对象特征中的每个样本嵌入对象特征分别对应的样本增强对象特征;
基于样本增强对象特征和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型;目标网络模型用于对样本分类标签信息所指示的样本对象进行对象识别。
本申请实施例一方面提供了一种图像数据处理装置,包括:
样本特征获取模块,用于通过初始网络模型获取N个样本图像分别对应的初始样本特征;N个样本图像均具有相同的样本分类标签信息;N为大于1的正整数;
样本矩阵生成模块,用于在初始网络模型中,根据N个初始样本特征,获取与样本分类标签信息相关联的K个样本嵌入对象特征,生成K个样本嵌入对象特征中的每两个样本嵌入对象特征对应的样本相似度矩阵;K为大于或等于N的正整数;
样本特征增强模块,用于基于每两个样本嵌入对象特征对应的样本相似度矩阵,对K个样本嵌入对象特征进行特征增强,得到K个样本嵌入对象特征中的每个样本嵌入对象特征分别对应的样本增强对象特征;
参数调整模块,用于基于样本增强对象特征和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型;目标网络模型用于对样本分类标签信息所指示的样本对象进行对象识别。
其中,初始网络模型包括用于进行池化操作的池化层;
参数调整模块包括:
卷积操作单元,用于获取属于同一个样本图像的样本增强对象特征,对属于同一个样本图像的样本增强对象特征进行特征融合,得到N个样本图像分别对应的样本融合图像特征;
卷积操作单元,用于对样本融合图像特征进行卷积操作,得到样本融合图像特征对应的目标样本特征;
池化操作单元,用于将目标样本特征输入至池化层,通过池化层对目标样本特征进行池化操作,得到目标样本特征对应的池化特征向量;
归一化处理单元,用于对池化特征向量进行归一化处理,得到池化特征向量对应的分类特征向量;一个样本图像对应一个分类特征向量;
参数调整单元,用于基于N个样本图像中的每个样本图像分别对应的分类特征向量和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型。
其中,参数调整单元包括:
向量确定子单元,用于根据样本分类标签信息,生成用于确定初始网络模型的模型损失值的分类标签向量;
损失确定子单元,用于基于N个样本图像中的每个样本图像分别对应的分类特征向量和分类标签向量,确定每个样本图像分别对应的分类损失值;
损失确定子单元,用于根据每个样本图像分别对应的分类损失值,得到初始网络模型的模型损失值;
参数调整子单元,用于根据模型损失值对初始网络模型进行参数调整,当参数调整后的初始网络模型满足模型收敛条件时,将参数调整后的初始网络模型作为目标网络模型。
本申请实施例一方面提供了一种计算机设备,包括:处理器和存储器;
处理器与存储器相连,其中,存储器用于存储计算机程序,计算机程序被处理器执行时,使得该计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例提供的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的方法。
在本申请实施例中,计算机设备可以获取N个目标图像分别对应的初始图像特征,进而根据N个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征。其中,N个目标图像均具有相同的目标分类标签信息,这里的N可以为大于1的正整数,这里的S可以为大于或等于N的正整数。进一步地,计算机设备可以生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵,基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征。进一步地,计算机设备可以根据增强对象特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。由此可见,本申请实施例中的计算机设备可以一次性获取具有相同目标分类标签信息的N个目标图像,进而获取与N个目标图像相关联的S个嵌入对象特征,对S个嵌入对象特征进行相互学习,得到S个嵌入对象特征之间的权重关系(即相似度矩阵)。可以理解的是,基于相互学习得到的相似度矩阵可以用于对S个嵌入对象特征进行特征增强,得到特征增强后的嵌入对象特征(即增强对象特征),这样,S个增强对象特征中的每个增强对象特征均融合有其他嵌入对象特征所表达的特征信息,即每个增强对象特征均融合有其他目标图像中的与目标分类标签信息相关联的图像信息。基于此,在通过上述增强对象特征对N个目标图像中的每个目标图像进行对象识别时,可以充分利用其他目标图像中的与目标分类标签信息相关联的图像信息,进而可以得到提高对象识别的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2a是本申请实施例提供的一种进行数据交互的场景示意图;
图2b是本申请实施例提供的一种进行数据交互的场景示意图;
图3是本申请实施例提供的一种图像数据处理方法的流程示意图;
图4是本申请实施例提供的一种对象识别的系统框架图;
图5是本申请实施例提供的一种图像数据处理方法的流程示意图;
图6是本申请实施例提供的一种图像数据处理方法的流程示意图;
图7是本申请实施例提供的一种构建特征有向图的场景示意图;
图8是本申请实施例提供的一种图像数据处理方法的流程示意图;
图9是本申请实施例提供的一种图像数据处理装置的结构示意图;
图10是本申请实施例提供的一种图像数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,人工智能(Artificial Intelligence,简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
本发明实施例可应用于各种场景,包括但不限于人工智能、智慧交通、辅助驾驶等。其中,本申请实施例所提供的方案主要涉及人工智能的计算机视觉(Computer Vision,简称CV)技术和机器学习(Machine Learning,简称ML)技术。
其中,计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
其中,机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。其中,深度学习技术是一种利用深层神经网络系统,进行机器学习的技术。
具体的,请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括业务服务器2000和用户终端集群。其中,用户终端集群具体可以包括一个或者多个用户终端,这里将不对用户终端集群中的用户终端的数量进行限定。如图1所示,多个用户终端具体可以包括用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n;用户终端3000a、用户终端3000b、用户终端3000c、…、用户终端3000n可以分别与业务服务器2000通过有线或无线通信方式进行直接或间接地网络连接,以便于每个用户终端可以通过该网络连接与业务服务器2000之间进行数据交互。
其中,业务服务器2000可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
其中,用户终端集群中的每个用户终端均可以包括:智能手机、平板电脑、笔记本电脑、台式计算机、智能家电、可穿戴设备、车载终端、智能语音交互设备等具有图像数据处理功能的智能终端。应当理解,如图1所示的用户终端集群中的每个用户终端均可以集成安装有应用客户端,当该应用客户端运行于各用户终端中时,可以分别与上述图1所示的业务服务器2000之间进行数据交互。其中,应用客户端具体可以包括:车载客户端、智能家电客户端、娱乐客户端(例如,游戏客户端)、多媒体客户端(例如,视频客户端)、社交客户端以及资讯类客户端(例如,新闻客户端)等。其中,这里的车载终端可以为智慧交通场景下的智能终端,该车载终端上的应用客户端可以为上述车载客户端。
为便于理解,本申请实施例可以在图1所示的多个用户终端中选择一个用户终端作为目标用户终端。例如,本申请实施例可以将图1所示的用户终端3000a作为目标用户终端,该目标用户终端中可以集成有具备图像数据处理功能的应用客户端。此时,该目标用户终端可以通过该应用客户端与业务服务器2000之间实现数据交互。
应当理解,本申请实施例中的计算机设备可以从目标数据库中获取具有相同的目标分类标签信息的N1个目标图像,生成与N1个目标图像相关联的S个增强对象特征,进而根据S个增强对象特征,在N1个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。其中,这里的N1可以为大于1的正整数,这里的S可以为大于或等于N1的正整数,本申请实施例不对S的具体取值进行限定。
其中,这里的对象识别结果可以为语义分割结果,这里的对象识别结果也可以为图像检测结果,此外,本申请还可以应用到所有针对图像特征提取的问题进行应用,不限于上述语义分割和图像检测领域,因此,本申请实施例不对对象识别结果的具体类型进行限定。
同理,本申请实施例中的计算机设备可以从样本数据库中获取具有相同的样本分类标签信息的N2个样本图像,通过初始网络模型生成与N2个样本图像相关联的K个样本增强对象特征,进而基于K个样本增强对象特征和样本分类标签信息,对初始网络模型进行迭代训练(即参数调整),将迭代训练后的初始网络模型确定为目标网络模型。其中,这里的N2可以为大于1的正整数,这里的K可以为大于或等于N2的正整数,本申请实施例不对K的具体取值进行限定。
其中,目标网络模型用于对上述目标图像进行对象识别,这里的对象识别可以为语义分割,这里的对象识别也可以为图像检测,本申请实施例不对对象识别的具体类型进行限定。其中,语义分割可以表示对图像中的每个像素给出像素类别的一类算法,图像检测可以表示通过检测框提取和识别图像中的检测对象的一类算法。
其中,计算机设备可以配置目标图像的数量N1和样本图像的数量N2,N1和N2可以是相同的正整数,N1和N2也可以是不同的正整数,本申请实施例不对N1和N2的具体取值进行限定。应当理解,在N1等于N2时,N1和N2可以统称为N,本申请实施例以N1等于N2为例进行说明。
可以理解的是,目标数据库中可以包括具有目标分类标签信息的图像,本申请实施例可以将从目标数据库中获取的图像作为目标图像;样本数据库中可以包括具有样本分类标签信息的图像,本申请实施例可以将从样本数据库中获取的图像作为样本图像。其中,目标分类标签信息和样本分类标签信息可以是同一类分类标签信息,目标分类标签信息和样本分类标签信息也可以是不同分类标签信息;目标数据库和样本数据库可以是同一个数据库,目标数据库和样本数据库也可以是不同数据库。
其中,目标数据库和样本数据库中的图像具有分类标签信息,这里的分类标签信息可以为通过人工对图像进行标注后所得到,也可以为通过图像分类模型对图像进行识别后所得到的。应当理解,图像分类模型可以学习图像信息,进而识别图像的图像分类,本申请实施例不对图像分类模型的具体模型类型进行限定。
可以理解的是,本申请实施例所提供的图像数据处理方法可以由上述业务服务器2000执行(即上述计算机设备可以为业务服务器2000),也可以由上述目标用户终端执行(即上述计算机设备可以为目标用户终端),还可以由业务服务器2000和目标用户终端共同执行。
其中,在该图像数据处理方法由业务服务器2000和目标用户终端共同执行时,业务服务器2000可以基于从样本数据库中获取到的样本图像,对用于进行对象识别的初始网络模型进行迭代训练,得到目标网络模型。这样,目标用户终端对应的用户(例如,用户Y)可以通过目标用户终端中的应用客户端向业务服务器2000发送对象识别请求。其中,这里的对象识别请求可以包括用户Y从目标数据库中获取到的目标图像。进一步地,业务服务器2000在接收到对象识别请求后,可以从对象识别请求中获取目标图像,通过上述目标网络模型对该目标图像进行对象识别,得到目标图像对应的对象识别结果,进而将该对象识别结果返回至目标用户终端。
可选的,在该图像数据处理方法由业务服务器2000执行时,业务服务器2000可以直接通过上述迭代训练得到的目标网络模型,对从目标数据库中获取到的目标图像进行对象识别,得到对象识别结果。可选的,在该图像数据处理方法由目标用户终端执行时,目标用户终端可以基于从样本数据库中获取到的样本图像,对用于进行对象识别的初始网络模型进行迭代训练,得到目标网络模型,进而直接通过在目标用户终端进行迭代训练所得到的目标网络模型,对从目标数据库中获取到的目标图像进行对象识别,得到对象识别结果。
其中,上述模型训练的过程和对象识别的过程均为端对端(end to end,简称end2end)的,该端到端表示整个训练过程和预测过程完整连贯,不存在中间中断的情况。
为便于理解,进一步地,请参见图2a和图2b,图2a和图2b是本申请实施例提供的一种进行数据交互的场景示意图。如图2a和图2b所示的服务器20a可以为上述图1所对应实施例中的业务服务器2000,如图2a和图2b所示的用户终端20b可以为上述图1所对应实施例的用户终端集群中的任意一个用户终端,为便于理解,本申请实施例以上述图1所示的用户终端3000a作为该用户终端20b为例,以阐述图2a和图2b所示的服务器20a和用户终端20b进行数据交互的具体过程。其中,用户终端20b上安装有应用客户端,该应用客户端可以用于显示目标图像和对象识别结果,其中,用户终端20b对应的用户可以为用户20c。
其中,可以理解的是,如图2a所示的样本数据库21a中可以包括多个数据库,多个数据库具体可以包括图2a所示的数据库30a、数据库30b、…、数据库30m。这意味着样本数据库21a可以用于存储不同分类标签信息所对应的样本图像,例如,数据库30a可以用于存储分类标签信息L1所对应的样本图像,数据库30b可以用于存储分类标签信息L2所对应的样本图像,…,数据库30m可以用于存储分类标签信息L3所对应的样本图像。
其中,可以理解的是,如图2a所示的目标数据库21b中可以包括多个数据库,多个数据库具体可以包括图2a所示的数据库31a、数据库31b、…、数据库31m。这意味着目标数据库21b可以用于存储不同分类标签信息所对应的目标图像,例如,数据库31a可以用于存储分类标签信息L1所对应的目标图像,数据库31b可以用于存储分类标签信息L2所对应的目标图像,…,数据库31m可以用于存储分类标签信息L3所对应的目标图像。
如图2a所示,服务器20a可以从样本数据库21a中获取具有样本分类标签信息的N个样本图像,这里的N可以为正整数,其中,在将分类标签信息L1作为样本分类标签信息时,服务器20a可以从分类标签信息L1对应数据库30a中获取具有样本分类标签信息的N个样本图像,这里的N可以为大于1的正整数。进一步地,服务器可以获取用于进行对象识别的初始网络模型,通过从样本数据库21a中获取到的N个样本图像,对初始网络模型进行迭代训练,将迭代训练后的初始网络模型作为目标网络模型。
如图2a所示,用户20c可以通过用户终端20b从目标数据库21b中获取具有目标分类标签信息的N个目标图像,这里的N可以为正整数,其中,在将分类标签信息L1作为目标分类标签信息时,用户终端20b可以从分类标签信息L1对应数据库31a中获取具有目标分类标签信息的N个目标图像。其中,N个目标图像具体可以包括图像T1、…、图像TN
进一步地,当用户20c需要对N个目标图像进行对象识别时,可以通过用户终端20b向服务器20a发送携带N个目标图像的对象识别请求。这样,服务器20a在接收到对象识别请求后,可以从对象识别请求中获取N个目标图像,通过上述迭代训练所得到的目标网络模型对N个目标图像进行对象识别,以在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。其中,图像T1对应对象识别结果可以为对象识别结果G1,…,图像TN对应对象识别结果可以为对象识别结果GN
其中,服务器20a对N个目标图像进行对象识别的具体过程可以参见图2b,如图2b所示,服务器20a可以通过目标网络模型获取N个目标图像分别对应的初始图像特征21c,初始图像特征21c中的一个初始图像特征对应一个目标图像,其中,图像T1对应的初始图像特征可以为初始图像特征P1,…,图像TN对应的初始图像特征可以为初始图像特征PN
进一步地,服务器20a可以根据初始图像特征21c中的N个初始图像特征,获取与目标分类标签信息相关联的嵌入对象特征21d,嵌入对象特征21d中的嵌入对象特征的数量为S个,这里的S可以为大于或等于N的正整数。可以理解的是,一个初始图像特征对应一个或多个嵌入对象特征,初始图像特征P1对应的嵌入对象特征可以为嵌入对象特征22a,…,初始图像特征PN对应的嵌入对象特征可以为嵌入对象特征22n。其中,嵌入对象特征22a中可以包括F1个嵌入对象特征,…,嵌入对象特征22n中可以包括FN个嵌入对象特征,这里的F1可以为大于或等于1的正整数,…,这里的FN可以为大于或等于1的正整数,这里的F1、…、FN之和可以等于S。其中,在F1等于1时,F1个嵌入对象特征可以包括:嵌入对象特征23a;…;在FN等于2时,FN个嵌入对象特征可以包括:嵌入对象特征24a和嵌入对象特征24b。
如图2b所示,服务器20a可以根据S个嵌入对象特征之间的特征相似性,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵,这里的相似度矩阵可以包括每个嵌入对象特征和其自身之间的相似度矩阵,这里的相似度矩阵还可以包括每个嵌入对象特征和其他嵌入对象特征之间的相似性矩阵。其中,嵌入对象特征23a和其自身之间的相似度矩阵可以为相似度矩阵J1,…,嵌入对象特征23a和嵌入对象特征24a之间的相似性矩阵可以为相似度矩阵J2,嵌入对象特征23a和嵌入对象特征24b之间的相似性矩阵可以为相似度矩阵J3,…,嵌入对象特征24a和嵌入对象特征24b之间的相似性矩阵可以为相似度矩阵J4
进一步地,服务器20a可以基于每两个嵌入对象特征对应的相似度矩阵,对嵌入对象特征21d中的嵌入对象特征进行特征增强,得到嵌入对象特征21d中的每个嵌入对象特征分别对应的增强对象特征。其中,服务器20a可以基于与每个嵌入对象特征相关联的相似度矩阵,对每个嵌入对象特征进行特征增强,这里的与每个嵌入对象特征相关联的相似度矩阵可以包括每个嵌入对象特征和其自身之间的相似度矩阵,这里的与每个嵌入对象特征相关联的相似度矩阵可以包括每个嵌入对象特征和其他嵌入对象特征之间的相似性矩阵。
其中,可以理解的是,嵌入对象特征23a对应的增强对象特征可以为增强对象特征26a,…,嵌入对象特征24a对应的增强对象特征可以为增强对象特征27a,嵌入对象特征24b对应的增强对象特征可以为增强对象特征27b。其中,增强对象特征26a可以统称为与图像T1相关联的增强对象特征25a,…,增强对象特征27a和增强对象特征27b可以统称为与图像TN相关联的增强对象特征25n。
例如,服务器20a可以基于与嵌入对象特征23a相关联的相似度矩阵,对嵌入对象特征23a进行特征增强,得到嵌入对象特征23a对应的增强对象特征(即增强对象特征26a),其中,与嵌入对象特征23a相关联的相似度矩阵可以包括嵌入对象特征23a和其自身之间的相似度矩阵(例如,相似度矩阵J1),与嵌入对象特征23a相关联的相似度矩阵还可以包括嵌入对象特征23a和其他嵌入对象特征之间的相似性矩阵(例如,相似度矩阵J2、相似度矩阵J3),换言之,服务器20a可以基于相似度矩阵J1、…、相似度矩阵J2和相似度矩阵J3,对嵌入对象特征23a进行特征增强,得到增强对象特征26a。
进一步地,服务器20a可以基于与N个目标图像相关联的增强对象特征,在N个目标图像中确定对象识别结果。其中,服务器20a可以根据与图像T1相关联的增强对象特征25a,在图像T1中确定与目标分类标签信息相关联的对象识别结果(即对象识别结果G1);…;服务器20a可以根据与图像TN相关联的增强对象特征25n,在图像TN中确定与目标分类标签信息相关联的对象识别结果(即对象识别结果GN)。
如图2a和图2b所示,当服务器20a对N个目标图像进行对象识别之后,可以将N个目标图像分别对应的对象识别结果(即对象识别结果G1、…、对象识别结果GN)返回至用户终端20b。这样,用户终端20b可以在显示N个目标图像的同时,显示N个目标图像分别对应的对象识别结果。
由此可见,本申请实施例可以一次性获取具有目标分类标签信息的N个目标图像,通过目标分类标签信息,获取与N个目标图像相关联的S个嵌入对象特征,进而对S个嵌入对象特征进行相互学习,从而通过相互学习得到的相似度矩阵对S个嵌入对象特征进行特征增强。因此,特征增强后的嵌入对象特征(即增强对象特征)均融合有其他嵌入对象特征所表达的特征信息,在通过该融合有多种特征信息的增强对象特征对N个目标图像进行对象识别时,可以提高对象识别的准确度。
进一步地,请参见图3,图3是本申请实施例提供的一种图像数据处理方法的流程示意图。该方法可以由服务器执行,也可以由用户终端执行,还可以由服务器可以用户终端共同执行,该服务器可以为上述图2a和图2b所对应实施中的服务器20a,该用户终端可以为上述图2a和图2b所对应实施中的用户终端20b。为便于理解,本申请实施例以该方法由服务器执行为例进行说明。其中,该图像数据处理方法可以包括以下步骤S101-步骤S104:
步骤S101,获取N个目标图像分别对应的初始图像特征;
具体的,服务器可以获取具有相同目标分类标签信息的N个目标图像(即N个目标图像均具有相同的目标分类标签信息),将N个目标图像输入至目标网络模型。其中,这里的N可以为大于1的正整数;目标网络模型包括用于进行卷积操作的第一卷积子网络。进一步地,服务器可以通过第一卷积子网络对N个目标图像进行卷积操作,得到N个目标图像分别对应的初始图像特征。
应当理解,第一卷积子网络可以为CNN(Convolutional Neural Network,卷积神经网络),该卷积神经网络是深度学习中的基本操作单元,该卷积神经网络可以包括卷积层,卷积层中可以包括多个滤波器,图像(例如,目标图像)和一个滤波器进行卷积后可以生成图像对应的特征图,该特征图和另一个滤波器进行卷积可以生成新的特征图,以此类推,本申请实施例不对第一卷积子网络中的滤波器的数量进行限定。其中,滤波器是卷积核的集合,多个滤波器所得到的特征图即为上述初始图像特征。
其中,目标图像可以包括多个通道(例如,在目标图像为RGB(Red、Green、Blue)图像时,目标图像可以包括三个通道),滤波器可以分别对目标图像中的多个通道进行卷积操作,得到多个通道分别对应的通道特征图。进一步地,在对多个通道分别对应的通道特征图进行特征融合之后,可以得到目标图像对应的特征图。
应当理解,目标网络模型中还可以包括用于进行对象检测的对象检测子网络、用于进行特征嵌入的特征嵌入子网络、用于进行注意力机制处理的注意力处理子网络、用于进行特征增强的特征增强子网络和用于进行卷积操作的第二卷积子网络。其中,目标网络模型是对初始网络模型进行迭代训练所得到的,服务器对初始网络模型进行迭代训练,以得到目标网络模型的具体过程可以参见下述图8所对应实施例中对步骤S201-步骤S204的描述。
步骤S102,根据N个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵;
具体的,服务器可以将N个初始图像特征输入至对象检测子网络,通过对象检测子网络在N个初始图像特征上提取与目标分类标签信息相关联的S个检测对象特征。其中,一个初始图像特征对应一个或多个检测对象特征。这里的S可以为大于或等于N的正整数。进一步地,服务器可以将S个检测对象特征输入至特征嵌入子网络,通过特征嵌入子网络对S个检测对象特征进行特征嵌入,得到具有相同特征维度的S个嵌入对象特征。进一步地,服务器可以将S个嵌入对象特征输入至注意力处理子网络,通过注意力处理子网络对S个嵌入对象特征进行注意力机制处理,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵。
可以理解的是,对象检测子网络可以为现有的弱监督目标检测模型,该现有的弱监督目标检测算法可以在使用目标分类标签信息的情况下,在N个目标图像中的每个目标图像中确定目标分类标签信息对应的目标对象的一个或多个检测框区域,这里的一个或多个检测框区域中的每个检测框区域分别对应一个检测对象特征(即一个或多个检测框被映射到了CNN下的特征空间中)。应当理解,本申请实施例不对对象检测子网络的具体模型类型进行限定。
其中,对象检测子网络进行对象检测的具体过程可以参见下述图5所对应实施例中对步骤S1021-步骤S1022的描述。
可以理解的是,特征嵌入子网络可以为CNN(Convolutional Neural Network,卷积神经网络),通过该卷积神经网络中的卷积层可以将检测对象特征映射到相同的特征维度。其中,特征嵌入子网络可以对嵌入式特征(即检测对象特征)进行二次特征嵌入,得到嵌入式特征对应的二次嵌入特征(即嵌入对象特征)。因此,二次嵌入的目的是使得整个模块形成注意力结构(例如,Transformer结构,该Transformer结构是学习序列之间顺序关系的一类算法),方便后续通过注意力处理子网络建立特征间的注意力机制。应当理解,本申请实施例不对特征嵌入子网络的具体模型类型进行限定。
可以理解的是,注意力处理子网络可以为Transformer结构,Transformer结构可以更彻底地捕捉数据中的双向关系。其中,Transformer结构可以包括编码器(即EncoderBlock)和解码器(即Decoder Block),编码器可以包括Multi-Head Attention(即多头注意力机制)、Feed Forward(即前馈神经网络)和Add&Norm(Add指Residual Connection,即残差连接,Norm指Layer Normalization,即层标准化)。Multi-Head Attention中可以包括至少一个scaled Dot-Product attention(即缩放点积注意力),注意力处理子网络可以使用一个缩放点积注意力中的一部分结构作为主要框架。应当理解,本申请实施例不对注意力处理子网络的具体模型类型进行限定。
其中,注意力处理子网络进行注意力处理的具体过程可以参见下述图5所对应实施例中对步骤S1023-步骤S1026的描述。
步骤S103,基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征;
具体的,服务器可以将S个嵌入对象特征中除嵌入对象特征Si之外的嵌入对象特征确定为辅助嵌入对象特征。其中,S个嵌入对象特征包括嵌入对象特征Si,这里的i可以为小于或等于S的正整数。进一步地,服务器可以通过特征增强子网络在每两个嵌入对象特征对应的相似度矩阵中获取辅助嵌入对象特征针对嵌入对象特征Si的相对相似度矩阵,以及嵌入对象特征Si的自相似度矩阵。其中,一个辅助嵌入对象特征对应一个相对相似度矩阵。进一步地,服务器可以基于嵌入对象特征Si和相对相似度矩阵,确定用于对嵌入对象特征Si进行特征增强的相对增强特征。进一步地,服务器可以获取嵌入对象特征Si所指示的检测对象特征,基于嵌入对象特征Si所指示的检测对象特征和自相似度矩阵,确定用于对嵌入对象特征Si进行特征增强的自增强特征。进一步地,服务器可以对相对增强特征和自增强特征进行特征聚合,得到嵌入对象特征Si对应的增强对象特征。
其中,通过增强对象特征更新嵌入对象特征(即使用增强对象特征替换嵌入对象特征)可以理解为对嵌入对象特征的特征增强。可以理解的是,对嵌入对象特征进行特征增强的增强对象特征是由嵌入对象特征对应的相对增强特征和嵌入对象特征对应的自增强特征进行特征聚合所确定的。
可以理解的是,服务器可以对相对相似度矩阵进行矩阵融合,得到相对相似度矩阵对应的融合相似度矩阵,进而对嵌入对象特征Si和融合相似度矩阵进行矩阵运算处理,得到用于对嵌入对象特征Si进行特征增强的相对增强特征。换言之,服务器可以对嵌入对象特征Si和相对相似度矩阵进行矩阵运算处理,得到辅助嵌入对象特征对应的辅助相似度矩阵,进而对辅助嵌入对象特征中的每个辅助嵌入对象特征对应的辅助相似度矩阵进行矩阵融合,得到用于对嵌入对象特征Si进行特征增强的相对增强特征。
可以理解的是,服务器可以对嵌入对象特征Si所指示的检测对象特征和自相似度矩阵进行矩阵运算处理,得到用于对嵌入对象特征Si进行特征增强的自增强特征。
其中,矩阵融合可以为加法运算,该矩阵融合可以对相对相似度矩阵进行加法运算,该矩阵融合也可以对辅助相似度矩阵进行加法运算;矩阵运算处理可以为乘法运算,该矩阵运算处理可以嵌入对象特征Si和融合相似度矩阵进行乘法运算,该矩阵运算处理也可以对嵌入对象特征Si和相对相似度矩阵进行乘法运算,该矩阵运算处理还可以对嵌入对象特征Si所指示的检测对象特征和自相似度矩阵进行乘法运算;特征聚合可以为加法运算,该特征聚合可以对相对增强特征和自增强特征进行加法运算。
应当理解,S个嵌入对象特征中可以包括嵌入对象特征Si,还可以包括除嵌入对象特征Si之外的(S-1)个嵌入对象特征,服务器对(S-1)个嵌入对象特征进行特征增强,得到(S-1)个嵌入对象特征分别对应的增强对象特征的具体过程,可以参见上述对嵌入对象特征Si进行特征增强的描述,这里将不再进行赘述。
步骤S104,根据增强对象特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
具体的,服务器可以获取属于同一个目标图像的增强对象特征,对属于同一个目标图像的增强对象特征进行特征融合,得到N个目标图像分别对应的融合图像特征。进一步地,服务器可以将融合图像特征输入至第二卷积子网络,通过第二卷积子网络对融合图像特征进行卷积操作,得到融合图像特征对应的目标图像特征。进一步地,服务器可以根据目标图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
其中,在一个目标图像(例如,目标图像T)的增强对象特征的数量为1个时,服务器可以对这1个增强对象特征进行特征融合,得到目标图像T对应的融合图像特征,换言之,服务器可以无需对这1个增强对象特征进行特征融合,直接将这1个增强对象特征作为目标图像T对应的融合图像特征。应当理解,服务器对属于同一个目标图像的增强对象特征进行特征融合的方式可以为矩阵相加的方式,还可以为加权平均的方式,本申请实施例不对特征融合的具体方式进行限定。
可以理解的是,第二卷积子网络可以为CNN(Convolutional Neural Network,卷积神经网络),该卷积神经网络是深度学习中的基本操作单元,该卷积神经网络可以包括卷积层,卷积层中可以包括多个滤波器,融合图像特征和多个滤波器进行卷积后可以生成目标图像特征,本申请实施例不对第二卷积子网络中的滤波器的数量进行限定。其中,目标图像特征相对融合图像特征可以包括更深层次的信息。
应当理解,服务器根据目标图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果的具体过程可以描述为:服务器可以对目标图像特征进行上采样处理,得到目标图像特征对应的上采样图像特征。进一步地,服务器可以根据N个目标图像的图像尺寸,对上采样图像特征进行特征调整,得到上采样图像特征对应的分割图像特征。进一步地,服务器可以根据分割图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的语义分割结果,将语义分割结果作为与目标分类标签信息相关联的对象识别结果。
其中,目标图像特征具有在目标图像中定位物体的能力,为使目标图像特征的特征尺寸和目标图像的图像尺寸尽可以接近,使得分割结果更精确,服务器可以对目标图像特征进行上采样后得到上采样图像特征。此时,上采样图像特征和目标图像的大小还不完全匹配,服务器可以获取用于对特征尺寸进行调整的尺寸调整函数,通过尺寸调整函数对上采样图像特征进行特征调整,得到分割图像特征(即语义分割的特征图)。其中,分割图像特征的特征尺寸和目标图像的图像尺寸完全相同。
可选的,服务器可以直接根据目标图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的图像检测结果,将图像检测结果作为与目标分类标签信息相关联的对象识别结果。
为便于理解,请参见图4,图4是本申请实施例提供的一种对象识别的系统框架图,在该系统框架图对应于目标网络模型的模型结构时,该系统框架图中的步骤S301-步骤S303可以对应于模型应用的过程。如图4所示,服务器可以执行步骤S301,在步骤S301中获取多张有同类别物体的图片(即N个具有目标分类标签信息的目标图像)。进一步地,服务器可以执行步骤S302,在步骤S302中通过卷积神经网络(即第一卷积子网络)对N个目标图像进行特征提取,得到N个目标图像分别对应的初始图像特征。
如图4所示,服务器可以执行步骤S303,通过步骤S303在N个初始图像特征中获取与目标分类标签信息相关联的S个检测对象特征,进而将S个检测对象特征输入至图神经网络(GraphNeuralNetwork,简称GNN),通过图神经网络基于N个目标图像的S个检测对象特征,生成N个目标图像分别对应的融合图像特征。其中,服务器可以通过对象检测子网络对N个目标图像进行对象检测,得到S个检测对象特征,进而将S个检测对象特征输入至图神经网络,通过图神经网络输出N个目标图像分别对应的目标图像特征。
其中,可以理解的是,图神经网络中可以包括特征嵌入子网络、注意力处理子网络、特征增强子网络和第二卷积子网络。将S个检测对象特征依次流经图神经网络中的特征嵌入子网络、注意力处理子网络、特征增强子网络和第二卷积子网络,通过第二卷积子网络可以输出N个目标图像分别对应的目标图像特征。进一步地,服务器可以根据目标图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
可选的,在N等于1时,服务器可以获取具有目标分类标签信息的1个目标图像对应的初始图像特征,进而根据1个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征。其中,这里的S可以为大于1的正整数。进一步地,服务器可以生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵,基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征。进一步地,服务器可以对S个增强对象特征进行特征融合,得到1个目标图像对应的融合图像特征,进而根据融合图像特征,在上述1个目标图像中确定与目标分类标签信息相关联的对象识别结果。
其中,服务器获取1个目标图像对应的初始图像特征的具体过程,可以参见上述对步骤S101的描述,这里将不再进行赘述;服务器生成1个目标图像的S个嵌入对象特征和S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵的具体过程,可以参见上述对步骤S102的描述,这里将不再进行赘述;服务器对每个嵌入对象特征进行特征增强的具体过程,可以参见上述对步骤S103的描述,这里将不再进行赘述;服务器在1个目标图像中确定与目标分类标签信息相关联的对象识别结果的具体过程,可以参见上述对步骤S104的描述,这里将不再进行赘述。
由此可见,本申请实施例中的计算机设备可以一次性获取具有相同目标分类标签信息的N个目标图像,进而获取与N个目标图像相关联的S个嵌入对象特征,对S个嵌入对象特征进行相互学习,得到S个嵌入对象特征之间的权重关系(即相似度矩阵)。可以理解的是,基于相互学习得到的相似度矩阵可以用于对S个嵌入对象特征进行特征增强,得到特征增强后的嵌入对象特征(即增强对象特征),这样,S个增强对象特征中的每个增强对象特征均融合有其他嵌入对象特征所表达的特征信息,即每个增强对象特征均融合有其他目标图像中的与目标分类标签信息相关联的图像信息。基于此,在通过上述增强对象特征对N个目标图像中的每个目标图像进行对象识别时,可以充分利用其他目标图像中的与目标分类标签信息相关联的图像信息,进而可以得到提高对象识别的准确度。
进一步地,请参见图5,图5是本申请实施例提供的一种图像数据处理方法的流程示意图。该图像数据处理方法可以包括以下步骤S1021-步骤S1026,且步骤S1021-步骤S1026为图3所对应实施例中步骤S102的一个具体实施例。
步骤S1021,将N个初始图像特征输入至对象检测子网络,在对象检测子网络中,根据N个初始图像特征,对N个目标图像进行对象检测,在N个目标图像中确定用于表征目标对象的对象检测区域;
其中,目标对象具有目标分类标签信息,对象检测区域的数量为S个。
步骤S1022,提取S个对象检测区域分别对应的检测对象特征;
其中,一个对象检测区域对应一个检测对象特征,服务器可以通过对象检测区域在目标图像中的位置,确定对象检测区域在初始图像特征中的位置,进而可以在初始图像特征中提取S个对象检测区域分别对应的检测对象特征。
步骤S1023,将S个检测对象特征输入至特征嵌入子网络,通过特征嵌入子网络对S个检测对象特征进行特征嵌入,得到具有相同特征维度的S个嵌入对象特征;
其中,特征嵌入子网络对S个检测对象特征进行特征嵌入的具体过程,可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再进行赘述。
其中,服务器可以通过下述步骤S1024-步骤S1026对S个嵌入对象特征中的每两个嵌入对象特征进行注意力机制处理,S个嵌入对象特征可以包括嵌入对象特征Si和嵌入对象特征Sj,服务器对嵌入对象特征Si和嵌入对象特征Sj进行注意力机制处理的过程可以参见下述公式(1):
Figure BDA0003277236450000221
其中,
Figure BDA0003277236450000222
可以表示嵌入对象特征Si在t时刻二次嵌入特征后的特征图的值(即嵌入对象特征/>
Figure BDA0003277236450000223
),/>
Figure BDA0003277236450000224
可以表示嵌入对象特征Sj在t时刻二次嵌入特征后的特征图的值(即嵌入对象特征/>
Figure BDA0003277236450000225
),/>
Figure BDA0003277236450000226
可以表示嵌入对象特征/>
Figure BDA0003277236450000227
和嵌入对象特征/>
Figure BDA0003277236450000228
对应的相似度矩阵,换言之,本申请实施例可以将/>
Figure BDA0003277236450000229
作为Transformer结构中的Q矩阵(即查询向量所构成的矩阵),将
Figure BDA00032772364500002210
作为Transformer结构中的K矩阵(即键向量所构成的矩阵)。
可以理解的是,嵌入对象特征
Figure BDA0003277236450000231
和嵌入对象特征/>
Figure BDA0003277236450000232
对应的相似度矩阵(即/>
Figure BDA0003277236450000233
)可以表示嵌入对象特征/>
Figure BDA0003277236450000234
表示的物体相比于嵌入对象特征/>
Figure BDA0003277236450000235
表示的物体有多大的相似性。可选的,嵌入对象特征/>
Figure BDA0003277236450000236
和嵌入对象特征/>
Figure BDA0003277236450000237
对应的相似度矩阵(即/>
Figure BDA0003277236450000238
)可以表示嵌入对象特征/>
Figure BDA0003277236450000239
表示的物体相比于嵌入对象特征/>
Figure BDA00032772364500002310
表示的物体有多大的相似性。可以理解的是,在嵌入对象特征/>
Figure BDA00032772364500002311
和嵌入对象特征/>
Figure BDA00032772364500002312
为不同嵌入对象特征时,嵌入对象特征/>
Figure BDA00032772364500002313
和嵌入对象特征/>
Figure BDA00032772364500002314
对应的相似度矩阵为相对相似度矩阵,此时,嵌入对象特征Si和嵌入对象特征Sj可以为S个嵌入对象特征中的任意两个嵌入对象特征。可选的,在嵌入对象特征/>
Figure BDA00032772364500002315
和嵌入对象特征/>
Figure BDA00032772364500002316
为同一个嵌入对象特征时,嵌入对象特征/>
Figure BDA00032772364500002317
和嵌入对象特征/>
Figure BDA00032772364500002318
对应的相似度矩阵为自相似度矩阵
步骤S1024,将S个嵌入对象特征输入至注意力处理子网络,通过注意力处理子网络对S个嵌入对象特征中的每两个嵌入对象特征进行特征运算处理,得到每两个嵌入对象特征对应的融合对象特征;
其中,特征运算处理可以为乘法运算,该特征运算处理可以对每两个嵌入对象特征进行乘法运算,例如,该特征运算处理可以对嵌入对象特征
Figure BDA00032772364500002319
和嵌入对象特征/>
Figure BDA00032772364500002320
进行乘法运算。其中,服务器在对嵌入对象特征/>
Figure BDA00032772364500002321
和嵌入对象特征/>
Figure BDA00032772364500002322
进行乘法运算之前,还需要对嵌入对象特征/>
Figure BDA00032772364500002323
进行转置操作。
步骤S1025,确定S个嵌入对象特征的特征尺寸,根据特征尺寸,对每两个嵌入对象特征对应的融合对象特征进行特征缩放,得到每两个嵌入对象特征对应的缩放对象特征;
可以理解的是,服务器可以确定S个嵌入对象特征的特征尺寸,根据特征尺寸,确定用于对每两个嵌入对象特征对应的融合对象特征进行特征缩放的开方特征尺寸,进而根据开方特征尺寸对融合对象特征进行特征缩放。其中,S个嵌入对象特征具有相同的特征尺寸,例如,这里的特征尺寸可以等于4,比如,在嵌入对象特征的特征维度为M1*M2(例如,3*4)时,该嵌入对象特征的特征尺寸可以等于4。其中,M1和M2均可以为正整数。
步骤S1026,对每两个嵌入对象特征对应的缩放对象特征进行归一化处理,生成每两个嵌入对象特征对应的相似度矩阵。
其中,服务器可以使用归一化指数函数对缩放对象特征进行归一化处理,这里的归一化指数函数可以为softmax函数。
其中,服务器对嵌入对象特征
Figure BDA0003277236450000241
和嵌入对象特征/>
Figure BDA0003277236450000242
进行注意力机制处理的具体过程可以参见下述公式(2):
Figure BDA0003277236450000243
其中,
Figure BDA0003277236450000244
可以表示S个嵌入对象特征(例如,嵌入对象特征/>
Figure BDA0003277236450000245
)的特征尺寸(即特征的大小),/>
Figure BDA0003277236450000246
表示对嵌入对象特征/>
Figure BDA0003277236450000247
进行转置处理后所得到的转置对象特征,
Figure BDA0003277236450000248
可以表示对嵌入对象特征/>
Figure BDA0003277236450000249
和转置对象特征/>
Figure BDA00032772364500002410
进行特征运算处理所得到的融合对象特征,/>
Figure BDA00032772364500002411
可以表示用于对融合对象特征进行特征缩放的开方特征尺寸(即对融合对象特征求平方根运算)。因此,/>
Figure BDA00032772364500002412
可以表示嵌入对象特征/>
Figure BDA00032772364500002413
和嵌入对象特征/>
Figure BDA00032772364500002414
对应的缩放对象特征,/>
Figure BDA00032772364500002415
(即
Figure BDA00032772364500002416
)可以表示对缩放对象特征进行归一化处理所得到的嵌入对象特征/>
Figure BDA00032772364500002417
和嵌入对象特征
Figure BDA00032772364500002418
对应的相似度矩阵。
由此可见,本申请实施例可以使用针对不同位置、不同语义表现、面向全局的Transformer结构计算嵌入对象特征之间的特征联系(即相似度矩阵),使得嵌入对象特征之间的关系更鲁棒。此外,本申请实施例可以将同粒度的检测框(即根据目标分类标签信息,在N个目标图像中确定用于表征目标对象的对象检测区域)表达为嵌入对象特征,进而实现嵌入对象特征之间的相互学习,保证分割粒度的一致。
进一步地,请参见图6,图6是本申请实施例提供的一种图像数据处理方法的流程示意图。该图像数据处理方法可以包括以下步骤S1031-步骤S1037,且步骤S1033-步骤S1037为图3所对应实施例中步骤S103的一个具体实施例。
步骤S1031,将S个嵌入对象特征作为节点,基于每两个嵌入对象特征对应的相似度矩阵,生成节点之间的边权重;
可以理解的是,服务器可以直接将每两个嵌入对象特征对应的相似度矩阵作为节点之间的边权重。其中,一个嵌入对象特征对应一个节点,一个相似度矩阵对应一个边权重。
可选的,服务器可以确定每两个嵌入对象特征对应的相似度矩阵所指示的贡献信息,根据贡献信息在每两个嵌入对象特征对应的相似度矩阵中筛选满足贡献条件的相似度矩阵,将满足贡献条件的相似度矩阵确定为辅助相似度矩阵。进一步地,服务器可以将辅助相似度矩阵作为节点之间的边权重。其中,如果两个节点之间的权重太低,可以理解为边权重的贡献太小,这样,相当于没有边。如果一个矩阵中的数字均为较小值(例如,0.01、0.02)等,则可以指示该矩阵所对应的贡献信息较小。
应当理解,本申请实施例可以将对象检测子网络所得到的每一个检测框区域的二次嵌入后的特征图(即嵌入对象特征)作为节点特征,将该节点特征作为图网络中的一个节点,该节点可以表示检测框区域中的物体的特征,因此,本申请实施例可以在下述步骤S1032中以物体为节点(例如,飞机所对应的检测框区域),物体间的相似性(即边权重)为边建立图网络。
步骤S1032,基于节点和边权重,构建与N个目标图像相关联的特征有向图;
其中,图(即graph,例如,特征有向图)是用于描述社区关系链最直接的工具,由节点与边(即边权重)构成,节点代表关系链对象,边代表两个对象之间的联系紧密程度。特征有向图中的边可以表示一个节点相对于另一个节点的紧密程度,特征有向图中的边在特征有向图上表示一个节点指向另一节点的有向边。
应当理解,应当理解,对不同节点的二次嵌入特征(即嵌入对象特征)之间进行互相注意力机制的学习,可以得到不同节点之间的边的权重值(这里的可以使用构成边的两个节点之间的相似度矩阵来表示边的权重值),这里的注意力机制可以使用上述Transformer模块。其中,注意力机制下学到的边的特征可以理解为两个特征的相似性。
比如,两个飞机存在的区域特征(即嵌入对象特征)很相似,则飞机的区域节点之间的边的权重就很大,反之,如果一个区域是飞机,另一个区域是天空,那么飞机和天空的相似性很小,这两个节点间边的权重就比较小。因此,这样相似的区域特征间就可以相互增强学习,使得最终的对象识别结果更好,进而可以提高对象识别的准确度。
应当理解,服务器基于特征有向图中的边权重,对特征有向图中的S个节点进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征的具体过程可以描述为下述步骤S1033-步骤S1037。其中,特征有向图中的S个节点包括节点Si,这里的i可以为小于或等于S的正整数,这里的节点Si所指示的嵌入对象特征为上述嵌入对象特征Si
步骤S1033,将特征有向图中除节点Si之外的节点确定为辅助节点;
步骤S1034,通过特征增强子网络在边权重中获取辅助节点针对节点Si的相对边权重,以及节点Si的自边权重;
其中,一个辅助节点对应一个相对边权重,一个节点Si对应一个自边权重。辅助节点对应的相对边权重即为辅助节点所指示的嵌入对象特征和节点Si所指示的嵌入对象特征之间的相似度矩阵(即相对相似度矩阵),节点Si的自边权重即为节点Si所指示的嵌入对象特征和节点Si所指示的嵌入对象特征之间的相似度矩阵(即自相似度矩阵)。
步骤S1035,基于节点Si所指示的嵌入对象特征和相对边权重,确定用于对节点Si进行特征增强的相对增强特征;
其中,服务器确定用于对节点Si进行特征增强的相对增强特征的具体过程,可以参见上述确定用于对嵌入对象特征Si进行特征增强的相对增强特征的描述,这里将不再进行赘述。
步骤S1036,获取节点Si所指示的检测对象特征,基于节点Si所指示的检测对象特征和自边权重,确定用于对节点Si进行特征增强的自增强特征;
其中,服务器确定用于对节点Si进行特征增强的自增强特征的具体过程,可以参见上述确定用于对嵌入对象特征Si进行特征增强的自增强特征的描述,这里将不再进行赘述。
步骤S1037,对相对增强特征和自增强特征进行特征聚合,得到节点Si对应的增强对象特征,将节点Si对应的增强对象特征,作为节点Si所指示的嵌入对象特征对应的增强对象特征。
其中,服务器对节点Si进行特征增强的具体过程可以参见下述公式(3):
Figure BDA0003277236450000261
其中,
Figure BDA0003277236450000262
可以表示节点Si所指示的嵌入对象特征,/>
Figure BDA0003277236450000263
可以表示节点Si对应的相对边权重,/>
Figure BDA0003277236450000264
可以表示节点Si所指示的检测对象特征(即节点Si在t时刻嵌入后的特征图的值),/>
Figure BDA0003277236450000265
可以表示节点Si对应的自边权重。因此,/>
Figure BDA0003277236450000266
可以表示节点Si在t时刻对应的相对增强特征,/>
Figure BDA0003277236450000267
可以表示节点Si在t时刻对应的自增强特征,/>
Figure BDA0003277236450000268
(即/>
Figure BDA0003277236450000269
)可以表示节点Si在(t+1)时刻对应的增强对象特征。其中,(t+1)时刻相比于t时刻,节点特征进行了更新。
应当理解,特征有向图中的S个节点还可以包括节点Sj,这里的j可以为小于或等于S的正整数,且j不等于i,这里的节点Sj所指示的嵌入对象特征为嵌入对象特征Sj。其中,节点Sj可以为特征有向图中的S个节点中除节点Si之外的任意一个节点,服务器对该节点Sj进行特征增强的具体过程,可以参见上述对节点Si进行特征增强的描述,这里将不再进行赘述。
为便于理解,请参见图7,图7是本申请实施例提供的一种构建特征有向图的场景示意图。如图7所示的图像80a、图像80b、…、图像80c可以为服务器获取到的具有相同的目标分类标签信息的目标图像,例如,这里的目标分类标签信息可以为飞机。
如图7所示,服务器可以将图像80a、图像80b、…、图像80c分别输入至卷积神经网络(即第一卷积子网络),通过卷积神经网络对图像80a、图像80b、…、图像80c进行特征提取,在图像80a、图像80b、…、图像80c中切分得到与目标分类标签信息(即飞机)相关联的检测框,比如,在图像80a中切分得到的检测框可以为检测框81a,在图像80b中切分得到的检测框可以为检测框81b,在图像80d(未在图上示出)中切分得到的检测框可以为检测框81c和检测框81d。
如图7所示,服务器可以对上述检测框对应的节点特征进行二次嵌入,将二次嵌入后的节点特征作为节点,通过Transformer结构确定二次嵌入后的节点特征之间的权重,将该权重作为节点之间的边,生成图7所示的特征有向图。比如,检测框81a可以对应于节点H′i,检测框81b可以对应于节点H′j1,检测框81c可以对应于节点H′j2,检测框81d可以对应于节点H′j3。
如图7所示,服务器可以对特征有向图中的节点和边权重进行信息整合,信息整合的目的是建立相互之间的相似性联系,即将边权重的信息整合到节点特征中,节点特征会受到周围节点边连接权重的影响,输出更新后的节点信息,以建立节点特征之间的信息联系。进一步地,更新后的节点信息在经过卷积层(即第二卷积子网络)之后,可以具备定位物体的能力,进而可以基于卷积层输出的特征实现对象识别。
由此可见,本申请实施例可以获取具有相同目标分类标签信息的N个目标图像,以目标分类标签信息所指示的目标对象在N个目标图像中的不同位置的位置信息作为节点,以目标对象之间的关系作为边权重,构建得到特征有向图,进而通过特征有向图,挖掘节点之间的语义联系,从而通过对特征有向图中的节点进行相互特征增强,可以增加信息的丰富度。此外,由于嵌入对象特征可以表示目标分类标签信息所指示的目标对象在N个目标图像中的表现形式,因此,特征有向图中可以包括目标对象所展示的多种形式。
进一步地,请参见图8,图8是本申请实施例提供的一种图像数据处理方法的流程示意图。该方法可以由服务器执行,也可以由用户终端执行,还可以由服务器可以用户终端共同执行,该服务器可以为上述图2a和图2b所对应实施中的服务器20a,该用户终端可以为上述图2a和图2b所对应实施中的用户终端20b。为便于理解,本申请实施例以该方法由服务器执行为例进行说明。其中,该图像数据处理方法可以包括以下步骤S201-步骤S204:
步骤S201,通过初始网络模型获取N个样本图像分别对应的初始样本特征;
应当理解,初始网络模型可以包括用于进行卷积操作的初始第一卷积子网络、用于进行对象检测的初始对象检测子网络、用于进行特征嵌入的初始特征嵌入子网络、用于进行注意力机制处理的初始注意力处理子网络、用于进行特征增强的初始特征增强子网络和用于进行卷积操作的初始第二卷积子网络。可选的,初始网络模型还包括用于进行池化操作的池化层。
具体的,服务器可以获取具有相同样本分类标签信息的N个样本图像(即N个样本图像均具有相同的样本分类标签信息),将N个样本图像输入至初始网络模型。其中,这里的N可以为大于1的正整数。进一步地,服务器可以通过初始网络模型中的初始第一卷积子网络对N个样本图像进行卷积操作,得到N个样本图像分别对应的初始样本特征。
其中,服务器通过初始第一卷积子网络对N个样本图像进行卷积操作的具体过程可以参见上述通过第一卷积子网络对N个目标图像进行卷积操作的描述,这里将不再进行赘述。
步骤S202,在初始网络模型中,根据N个初始样本特征,获取与样本分类标签信息相关联的K个样本嵌入对象特征,生成K个样本嵌入对象特征中的每两个样本嵌入对象特征对应的样本相似度矩阵;
具体的,服务器可以将N个初始样本特征输入至初始对象检测子网络,通过初始对象检测子网络在N个初始样本特征上提取与样本分类标签信息相关联的K个样本检测对象特征。其中,一个初始样本特征对应一个或多个样本检测对象特征,这里的K可以为大于或等于N的正整数。进一步地,服务器可以将K个样本检测对象特征输入至初始特征嵌入子网络,通过初始特征嵌入子网络对K个样本检测对象特征进行特征嵌入,得到具有相同特征维度的K个样本嵌入对象特征。进一步地,服务器可以将K个样本嵌入对象特征输入至初始注意力处理子网络,通过初始注意力处理子网络对K个样本嵌入对象特征进行注意力机制处理,生成K个样本嵌入对象特征中的每两个样本嵌入对象特征对应的样本相似度矩阵。
其中,服务器在N个初始样本特征上提取K个样本检测对象特征的具体过程,可以参见上述在N个初始图像特征上提取S个检测对象特征的描述,这里将不再进行赘述。其中,服务器对K个样本检测对象特征进行特征嵌入的具体过程,可以参见上述对S个检测对象特征进行特征嵌入的描述,这里将不再进行赘述。其中,服务器对K个样本嵌入对象特征进行注意力机制处理的具体过程,可以参见上述对S个嵌入对象特征进行注意力机制处理的描述,这里将不再进行赘述。
步骤S203,基于每两个样本嵌入对象特征对应的样本相似度矩阵,对K个样本嵌入对象特征进行特征增强,得到K个样本嵌入对象特征中的每个样本嵌入对象特征分别对应的样本增强对象特征;
可以理解的是,服务器可以通过初始特征增强子网络对K个样本嵌入对象特征进行特征增强,其中,服务器对K个样本嵌入对象特征进行特征增强的具体过程,可以参见上述对S个嵌入对象特征进行特征增强的描述,这里将不再进行赘述。
步骤S204,基于样本增强对象特征和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型;
具体的,服务器可以获取属于同一个样本图像的样本增强对象特征,对属于同一个样本图像的样本增强对象特征进行特征融合,得到N个样本图像分别对应的样本融合图像特征。进一步地,服务器可以对样本融合图像特征进行卷积操作,得到样本融合图像特征对应的目标样本特征。进一步地,服务器可以将目标样本特征输入至池化层,通过池化层对目标样本特征进行池化操作,得到目标样本特征对应的池化特征向量。进一步地,服务器可以对池化特征向量进行归一化处理,得到池化特征向量对应的分类特征向量。其中,一个样本图像对应一个分类特征向量。进一步地,服务器可以基于N个样本图像中的每个样本图像分别对应的分类特征向量和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型。
可以理解的,服务器可以将样本融合图像特征输入至初始第二卷积子网络,通过初始第二卷积子网络对样本融合图像特征进行卷积操作,得到样本融合图像特征对应的目标样本特征。其中,服务器通过初始第二卷积子网络对样本融合图像特征进行卷积操作的具体过程,可以参见上述通过第二卷积子网络对融合图像特征进行卷积操作的描述,这里将不再进行赘述。
可以理解的是,服务器可以通过池化层对目标样本特征进行池化操作(例如,平均池化操作),以实现对目标样本特征进行降维,得到降维后的目标样本特征(即池化特征向量)。其中,池化特征向量是一维的,该一维向量可以用于表示样本图像属于每种样本分类标签信息的概率分布,进而可以基于该概率分布确定样本图像属于哪个预测分类标签信息,进而可以基于该预测分类标签信息和样本分类标签信息确定初始网络模型的对象识别能力。
其中,一个样本图像可以对应一个池化特征向量,例如,样本图像T对应的池化特征向量可以为池化特征向量C,在样本分类标签信息的数量为2个(例如,样本分类标签信息L1和样本分类标签信息L2)时,池化特征向量C中可以包括2个元素,一个元素用于表示样本图像T属于样本分类标签信息L1的概率O1(例如,0.25),另一个元素用于表示样本图像T属于样本分类标签信息L2的概率O2(例如,0.50)。
其中,目标网络模型可以用于对样本分类标签信息所指示的样本对象进行对象识别,即目标网络模型可以基于样本分类标签信息,对目标图像进行对象识别,得到目标图像对应的对象识别结果。其中,目标图像的分类标签信息可以为目标分类标签信息。
可以理解的是,服务器可以通过具有样本分类标签信息的样本图像对初始网络模型进行模型训练,得到目标网络模型,该目标网络模型具有对样本分类标签信息进行对象识别的功能。这样,通过使用样本分类标签信息训练得到的目标网络模型可以用于对具有目标分类标签信息的目标图像进行对象识别。其中,这里的目标分类标签信息可以与样本分类标签信息是相同的。
应当理解,服务器基于N个样本图像中的每个样本图像分别对应的分类特征向量和样本分类标签信息,对初始网络模型进行参数调整的具体过程可以描述为:服务器可以根据样本分类标签信息,生成用于确定初始网络模型的模型损失值的分类标签向量。进一步地,服务器可以基于N个样本图像中的每个样本图像分别对应的分类特征向量和分类标签向量,确定每个样本图像分别对应的分类损失值。进一步地,服务器可以根据每个样本图像分别对应的分类损失值,得到初始网络模型的模型损失值。进一步地,服务器可以根据模型损失值对初始网络模型进行参数调整,当参数调整后的初始网络模型满足模型收敛条件时,将参数调整后的初始网络模型作为目标网络模型。
其中,分类标签向量是由样本分类标签信息所确定的,分类标签向量的维度是由样本分类标签信息的数量所确定的,在样本分类标签信息的数量为L个时,分类标签向量的维度为L维。比如,在样本图像的样本分类标签信息为L1时,分类标签向量可以为(1,0,…,0);在样本图像的样本分类标签信息为L2时,分类标签向量可以为(0,1,…,0)。
可以理解的是,服务器可以将每个样本图像分别对应的分类特征向量和分类标签向量输入至模型损失函数,通过模型损失函数确定初始网络模型的模型损失值。其中,这里的模型损失值是由每个样本图像分别对应的分类损失值进行损失融合(例如,加权平均)后所得到的。
为便于理解,请再参见图7,如图7所示的图像80a、图像80b、…、图像80c可以为服务器获取到的具有相同的样本分类标签信息的样本图像,例如,这里的样本分类标签信息可以为飞机。
如图7所示,服务器可以将图像80a、图像80b、…、图像80c分别输入至卷积神经网络(即初始第一卷积子网络),通过卷积神经网络对图像80a、图像80b、…、图像80c进行特征提取,在图像80a、图像80b、…、图像80c中切分得到与样本分类标签信息(即飞机)相关联的检测框,比如,在图像80a中切分得到的检测框可以为检测框81a,在图像80b中切分得到的检测框可以为检测框81b,在图像80d(未在图上示出)中切分得到的检测框可以为检测框81c和检测框81d。
如图7所示,服务器可以对上述检测框对应的节点特征进行二次嵌入,将二次嵌入后的节点特征作为节点,通过Transformer结构确定二次嵌入后的节点特征之间的权重,将该权重作为节点之间的边,生成图7所示的特征有向图。比如,检测框81a可以对应于节点H′i,检测框81b可以对应于节点H′j1,检测框81c可以对应于节点H′j2,检测框81d可以对应于节点H′j3。
如图7所示,服务器可以对特征有向图中的节点和边权重进行信息整合,输出更新后的节点信息,以建立节点特征之间的信息联系。进一步地,更新后的节点信息在经过卷积层(即初始第二卷积子网络)之后,可以通过平均池化层输出类别特征向量,进而将类别特征向量与图片列表标签向量(即分类标签向量)做交叉熵损失函数,进行训练。
应当理解,模型训练过程中的损失函数可以用来表示预测值与实际值的差距程度,损失函数所对应的损失值(例如,分类损失值、模型损失值)越小,则模型就越好,因此,训练一个机器学习模型的目标就是找到模型损失函数达到极小值的点。其中,模型损失函数可以为交叉熵损失函数,模型损失函数也可以为逻辑损失函数,这里以模型损失函数为交叉熵损失函数为例进行说明,本申请实施例不对模型损失函数的具体类型进行限定。
其中,在样本图像的样本分类标签信息可以划分为两类时(例如,样本图像的样本分类标签信息可以为汽车或者飞机,即预测值可以划分为汽车(即正)或者飞机(即负)),本申请可以使用二分类交叉熵作为初始网络模型的模型损失函数,即模型损失函数可以参见下述公式(4):
C=-(1/n)∑[ylna+(1-y)ln(1-a)] (4)
其中,这里的n可以为样本图像的数量,这里的y可以表示样本分类标签信息的实际值(在实际值为汽车时,y可以为1(即分类标签向量等于(1,0));在实际值为飞机时,y可以为0(即分类标签向量等于(0,1)),这里的a可以表示预测值为汽车(即正)的概率。
可选的,在样本图像的样本分类标签信息可以划分为多类时(例如,样本图像的样本分类标签信息可以为汽车、飞机、天空、苹果等),本申请可以使用多分类交叉熵作为初始网络模型的模型损失函数,即模型损失函数可以参见下述公式(5):
Figure BDA0003277236450000321
其中,这里的n可以为样本图像的数量,这里的m可以表示样本分类标签信息的数量,这里yc可以表示指示变量(在实际值与样本分类标签信息c相同时,指示变量可以为1;在实际值与样本分类标签信息c不同时,指示变量可以为0),这里的ac可以表示预测值为样本分类标签信息c的概率。其中,上述分类标签向量是由这里的指示变量所组成的集合所确定的。比如,样本图像T1的分类损失值可以为:loss1=-(0×ln0.3+0×ln0.3+1×ln0.4)=0.91,样本图像T2的分类损失值可以为:loss2=-(0×ln0.3+0×ln0.3+1×ln0.4)=0.91,样本图像T3的分类损失值可以为:loss3=-(0×ln0.7+0×ln0.2+1×ln0.1)=2.30,则所有样本图像的模型损失值可以为:C=(1/3)×(0.91+0.91+2.30)=1.37。其中,分类标签向量可以表示为(0,0,1)。
应当理解,服务器根据模型损失值对初始网络模型进行参数调整(即对初始网络模型进行迭代训练)的具体过程可以描述为:当初始网络模型的模型损失值不满足模型收敛条件时,服务器可以基于不满足模型收敛条件的模型损失值,对初始网络模型的模型参数进行调整。进一步地,服务器可以将调整模型参数后的初始网络模型确定为过渡网络模型,对过渡网络模型进行迭代训练,直到迭代训练后的过渡网络模型的模型损失值满足模型收敛条件时,将满足模型收敛条件的过渡网络模型作为目标网络模型。
为便于理解,请再参见图4,在该系统框架图对应于初始网络模型的模型结构时,该系统框架图中的步骤S301-步骤S305可以对应于模型训练的过程。如图4所示,服务器可以执行步骤S301,在步骤S301中获取多张有同类别物体的图片(即N个具有样本分类标签信息的样本图像)。进一步地,服务器可以执行步骤S302,在步骤S302中通过卷积神经网络(即初始第一卷积子网络)对N个样本图像进行特征提取,得到N个样本图像分别对应的初始样本特征。
如图4所示,服务器可以执行步骤S303,通过步骤S303在N个初始样本特征中获取与样本分类标签信息相关联的K个样本检测对象特征,进而将K个样本检测对象特征输入至图神经网络(GraphNeuralNetwork,简称GNN),通过图神经网络基于N个样本图像的K个样本检测对象特征,生成N个样本图像分别对应的样本融合图像特征。其中,服务器可以通过初始对象检测子网络对N个样本图像进行对象检测,得到K个样本检测对象特征,进而将K个样本检测对象特征输入至图神经网络,通过图神经网络输出N个样本图像分别对应的目标样本特征。
其中,可以理解的是,图神经网络中可以包括初始特征嵌入子网络、初始注意力处理子网络、初始特征增强子网络和初始第二卷积子网络。将K个样本检测对象特征依次流经图神经网络中的初始特征嵌入子网络、初始注意力处理子网络、初始特征增强子网络和初始第二卷积子网络,通过初始第二卷积子网络可以输出N个样本图像分别对应的目标样本特征。
如图4所示,服务器可以执行步骤S304,在步骤S304中通过池化层对目标样本特征进行全局池化,得到目标样本特征对应的类别特征向量(即分类特征向量),进而执行步骤S305,在步骤S305中将类别特征向量和真实的类别标签之间建立损失函数,且以N个样本图像的样本分类标签信息进行监督学习,得到目标网络模型。其中,上述步骤S301-步骤S305的整个流程是端到端的。
应当理解,在对象识别结果为图像检测结果时,目标网络模型可以用于对目标图像进行图像检测;在对象识别结果为语义分割结果时,目标网络模型可以用于对目标图像进行语义检测。其中,在目标网络模型用于对目标图像进行图像检测时,目标网络模型以及目标网络模型中的对象检测子网络均可以用于对目标图像进行目标检测(即对象检测、图像检测),但是目标网络模型和对象检测子网络具有不同的检测精度,目标网络模型可以利用对象检测子网络的对象检测结果,来确定对目标网络模型的图像检测结果,进而可以提升图像检测的准确度。
应当理解,初始网络模型和目标网络模型可以统称为泛化网络模型,初始网络模型和目标网络模型属于泛化网络模型在不同时刻的名称,在训练阶段,泛化网络模型可以称之为初始网络模型,在预测阶段,泛化网络模型可以称之为目标网络模型。其中,初始网络模型中的初始第一卷积子网络和目标网络模型中的第一卷积子网络属于同一子网络在不同时刻的名称,初始网络模型中的初始对象检测子网络和目标网络模型中的对象检测子网络属于同一子网络在不同时刻的名称,初始网络模型中的初始特征嵌入子网络和目标网络模型中的特征嵌入子网络属于同一子网络在不同时刻的名称,初始网络模型中的初始注意力处理子网络和目标网络模型中的注意力处理子网络属于同一子网络在不同时刻的名称,初始网络模型中的初始特征增强子网络和目标网络模型中的特征增强子网络属于同一子网络在不同时刻的名称,初始网络模型中的初始第二卷积子网络和目标网络模型中的第二卷积子网络属于同一子网络在不同时刻的名称。
由此可见,本申请实施例可以对多张(例如,N个)样本图像做目标检测,将目标框在初始样本特征中框出的特征作为目标框所对应的特征(即patch特征),且将目标框所对应的特征作为节点,进而通过Transformer注意力机制学习不同目标框的相似度,将该相似度作为边权重,构建图网络。图网络学习到的节点特征使用样本分类标签信息进行弱监督学习,实现对N个样本图像的对象识别的功能。可以理解的是,在训练完成后,节点特征具有明显的空间attention结果,即通过attention机制进行加强学习可以实现节点特征之间的相互互补。其中,在对象识别为语义分割时,本申请实施例可以达到像素级别语义分割的效果。
进一步地,请参见图9,图9是本申请实施例提供的一种图像数据处理装置的结构示意图。该图像数据处理装置1可以包括:特征获取模块11,矩阵生成模块12,特征增强模块13,对象识别模块14;进一步地,该图像数据处理装置1还可以包括:权重生成模块15,有向图构建模块16;
特征获取模块11,用于获取N个目标图像分别对应的初始图像特征;N个目标图像均具有相同的目标分类标签信息;N为大于1的正整数;
其中,特征获取模块11包括:图像获取单元111,第一卷积单元112;
图像获取单元111,用于获取具有相同目标分类标签信息的N个目标图像,将N个目标图像输入至目标网络模型;目标网络模型包括用于进行卷积操作的第一卷积子网络;
第一卷积单元112,用于通过第一卷积子网络对N个目标图像进行卷积操作,得到N个目标图像分别对应的初始图像特征。
其中,图像获取单元111和第一卷积单元112的具体实现方式,可以参见上述图3所对应实施例中对步骤S102的描述,这里将不再进行赘述。
矩阵生成模块12,用于根据N个初始图像特征,获取与目标分类标签信息相关联的S个嵌入对象特征,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵;S为大于或等于N的正整数;
其中,目标网络模型还包括用于进行对象检测的对象检测子网络、用于进行特征嵌入的特征嵌入子网络和用于进行注意力机制处理的注意力处理子网络;
矩阵生成模块12包括:对象检测单元121,特征嵌入单元122,注意力处理单元123;
对象检测单元121,用于将N个初始图像特征输入至对象检测子网络,通过对象检测子网络在N个初始图像特征上提取与目标分类标签信息相关联的S个检测对象特征;一个初始图像特征对应一个或多个检测对象特征;
其中,对象检测单元121,具体用于将N个初始图像特征输入至对象检测子网络,在对象检测子网络中,根据N个初始图像特征,对N个目标图像进行对象检测,在N个目标图像中确定用于表征目标对象的对象检测区域;目标对象具有目标分类标签信息;对象检测区域的数量为S个;
对象检测单元121,具体用于提取S个对象检测区域分别对应的检测对象特征。
特征嵌入单元122,用于将S个检测对象特征输入至特征嵌入子网络,通过特征嵌入子网络对S个检测对象特征进行特征嵌入,得到具有相同特征维度的S个嵌入对象特征;
注意力处理单元123,用于将S个嵌入对象特征输入至注意力处理子网络,通过注意力处理子网络对S个嵌入对象特征进行注意力机制处理,生成S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵。
其中,注意力处理单元123,具体用于将S个嵌入对象特征输入至注意力处理子网络,通过注意力处理子网络对S个嵌入对象特征中的每两个嵌入对象特征进行特征运算处理,得到每两个嵌入对象特征对应的融合对象特征;
注意力处理单元123,具体用于确定S个嵌入对象特征的特征尺寸,根据特征尺寸,对每两个嵌入对象特征对应的融合对象特征进行特征缩放,得到每两个嵌入对象特征对应的缩放对象特征;
注意力处理单元123,具体用于对每两个嵌入对象特征对应的缩放对象特征进行归一化处理,生成每两个嵌入对象特征对应的相似度矩阵。
其中,对象检测单元121,特征嵌入单元122和注意力处理单元123的具体实现方式,可以参见上述图3所对应实施例中对步骤S103和图5所对应实施例中对步骤S1021-步骤S1026的描述,这里将不再进行赘述。
特征增强模块13,用于基于每两个嵌入对象特征对应的相似度矩阵,对S个嵌入对象特征进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征;
对象识别模块14,用于根据增强对象特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
其中,目标网络模型还包括用于进行卷积操作的第二卷积子网络;
对象识别模块14包括:特征融合单元141,第二卷积单元142,对象识别单元143;
特征融合单元141,用于获取属于同一个目标图像的增强对象特征,对属于同一个目标图像的增强对象特征进行特征融合,得到N个目标图像分别对应的融合图像特征;
第二卷积单元142,用于将融合图像特征输入至第二卷积子网络,通过第二卷积子网络对融合图像特征进行卷积操作,得到融合图像特征对应的目标图像特征;
对象识别单元143,用于根据目标图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的对象识别结果。
其中,对象识别单元143,具体用于对目标图像特征进行上采样处理,得到目标图像特征对应的上采样图像特征;
对象识别单元143,具体用于根据N个目标图像的图像尺寸,对上采样图像特征进行特征调整,得到上采样图像特征对应的分割图像特征;
对象识别单元143,具体用于根据分割图像特征,在N个目标图像中分别确定与目标分类标签信息相关联的语义分割结果,将语义分割结果作为与目标分类标签信息相关联的对象识别结果。
其中,特征融合单元141,第二卷积单元142和对象识别单元143的具体实现方式,可以参见上述图3所对应实施例中对步骤S104的描述,这里将不再进行赘述。
可选的,权重生成模块15,用于将S个嵌入对象特征作为节点,基于每两个嵌入对象特征对应的相似度矩阵,生成节点之间的边权重;一个嵌入对象特征对应一个节点;一个相似度矩阵对应一个边权重;
有向图构建模块16,用于基于节点和边权重,构建与N个目标图像相关联的特征有向图;
则特征增强模块13,具体用于基于特征有向图中的边权重,对特征有向图中的S个节点进行特征增强,得到S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征。
其中,特征有向图中的S个节点包括节点Si;i为小于或等于S的正整数;目标网络模型还包括用于进行特征增强的特征增强子网络;
特征增强模块13包括:权重确定单元131,第一增强单元132,第二增强单元133,特征聚合单元134;
权重确定单元131,用于将特征有向图中除节点Si之外的节点确定为辅助节点;
权重确定单元131,用于通过特征增强子网络在边权重中获取辅助节点针对节点Si的相对边权重,以及节点Si的自边权重;一个辅助节点对应一个相对边权重;
第一增强单元132,用于基于节点Si所指示的嵌入对象特征和相对边权重,确定用于对节点Si进行特征增强的相对增强特征;
第二增强单元133,用于获取节点Si所指示的检测对象特征,基于节点Si所指示的检测对象特征和自边权重,确定用于对节点Si进行特征增强的自增强特征;
特征聚合单元134,用于对相对增强特征和自增强特征进行特征聚合,得到节点Si对应的增强对象特征,将节点Si对应的增强对象特征,作为节点Si所指示的嵌入对象特征对应的增强对象特征。
其中,权重确定单元131,第一增强单元132,第二增强单元133和特征聚合单元134的具体实现方式,可以参见上述图6所对应实施例中对步骤S1031-步骤S1037的描述,这里将不再进行赘述。
其中,特征获取模块11,矩阵生成模块12,特征增强模块13、对象识别模块14、权重生成模块15和有向图构建模块16的具体实现方式,可以参见上述图3所对应实施例中对步骤S101-步骤S102、图5所对应实施例中对步骤S1021-步骤S1026和图6所对应实施例中对步骤S1031-步骤S1037的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图10,图10是本申请实施例提供的一种图像数据处理装置的结构示意图。该图像数据处理装置2可以包括:样本特征获取模块21,样本矩阵生成模块22,样本特征增强模块23,参数调整模块24;
样本特征获取模块21,用于通过初始网络模型获取N个样本图像分别对应的初始样本特征;N个样本图像均具有相同的样本分类标签信息;N为大于1的正整数;
样本矩阵生成模块22,用于在初始网络模型中,根据N个初始样本特征,获取与样本分类标签信息相关联的K个样本嵌入对象特征,生成K个样本嵌入对象特征中的每两个样本嵌入对象特征对应的样本相似度矩阵;K为大于或等于N的正整数;
样本特征增强模块23,用于基于每两个样本嵌入对象特征对应的样本相似度矩阵,对K个样本嵌入对象特征进行特征增强,得到K个样本嵌入对象特征中的每个样本嵌入对象特征分别对应的样本增强对象特征;
参数调整模块24,用于基于样本增强对象特征和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型;目标网络模型用于对样本分类标签信息所指示的样本对象进行对象识别。
其中,初始网络模型包括用于进行池化操作的池化层;
参数调整模块24包括:卷积操作单元241,池化操作单元242,归一化处理单元243,参数调整单元244;
卷积操作单元241,用于获取属于同一个样本图像的样本增强对象特征,对属于同一个样本图像的样本增强对象特征进行特征融合,得到N个样本图像分别对应的样本融合图像特征;
卷积操作单元241,用于对样本融合图像特征进行卷积操作,得到样本融合图像特征对应的目标样本特征;
池化操作单元242,用于将目标样本特征输入至池化层,通过池化层对目标样本特征进行池化操作,得到目标样本特征对应的池化特征向量;
归一化处理单元243,用于对池化特征向量进行归一化处理,得到池化特征向量对应的分类特征向量;一个样本图像对应一个分类特征向量;
参数调整单元244,用于基于N个样本图像中的每个样本图像分别对应的分类特征向量和样本分类标签信息,对初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型。
其中,参数调整单元244包括:向量确定子单元2441,损失确定子单元2442,参数调整子单元2443;
向量确定子单元2441,用于根据样本分类标签信息,生成用于确定初始网络模型的模型损失值的分类标签向量;
损失确定子单元2442,用于基于N个样本图像中的每个样本图像分别对应的分类特征向量和分类标签向量,确定每个样本图像分别对应的分类损失值;
损失确定子单元2442,用于根据每个样本图像分别对应的分类损失值,得到初始网络模型的模型损失值;
参数调整子单元2443,用于根据模型损失值对初始网络模型进行参数调整,当参数调整后的初始网络模型满足模型收敛条件时,将参数调整后的初始网络模型作为目标网络模型。
其中,向量确定子单元2441,损失确定子单元2442和参数调整子单元2443的具体实现方式,可以参见上述图8所对应实施例中对步骤S204的描述,这里将不再进行赘述。
其中,卷积操作单元241,池化操作单元242,归一化处理单元243和参数调整单元244的具体实现方式,可以参见上述图8所对应实施例中对步骤S204的描述,这里将不再进行赘述。
其中,样本特征获取模块21,样本矩阵生成模块22,样本特征增强模块23和参数调整模块24的具体实现方式,可以参见上述图8所对应实施例中对步骤S201-步骤S204的描述,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
进一步地,请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图5、图6或图8所对应实施例中对图像数据处理方法的描述,也可执行前文图9所对应实施例中对图像数据处理装置1和图10所对应实施例中对图像数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像数据处理装置1和图像数据处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图5、图6或图8所对应实施例中对图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3、图5、图6或图8所对应实施例中对图像数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (15)

1.一种图像数据处理方法,其特征在于,包括:
获取N个目标图像分别对应的初始图像特征;所述N个目标图像均具有相同的目标分类标签信息;所述N为大于1的正整数;
根据N个初始图像特征,获取与所述目标分类标签信息相关联的S个嵌入对象特征,生成所述S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵;所述S为大于或等于所述N的正整数;
基于所述每两个嵌入对象特征对应的相似度矩阵,对所述S个嵌入对象特征进行特征增强,得到所述S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征;
根据所述增强对象特征,在所述N个目标图像中分别确定与所述目标分类标签信息相关联的对象识别结果。
2.根据权利要求1所述的方法,其特征在于,所述获取N个目标图像分别对应的初始图像特征,包括:
获取具有相同目标分类标签信息的N个目标图像,将所述N个目标图像输入至目标网络模型;所述目标网络模型包括用于进行卷积操作的第一卷积子网络;
通过所述第一卷积子网络对所述N个目标图像进行卷积操作,得到所述N个目标图像分别对应的初始图像特征。
3.根据权利要求2所述的方法,其特征在于,所述目标网络模型还包括用于进行对象检测的对象检测子网络、用于进行特征嵌入的特征嵌入子网络和用于进行注意力机制处理的注意力处理子网络;
所述根据N个初始图像特征,获取与所述目标分类标签信息相关联的S个嵌入对象特征,生成所述S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵,包括:
将N个初始图像特征输入至所述对象检测子网络,通过所述对象检测子网络在所述N个初始图像特征上提取与所述目标分类标签信息相关联的S个检测对象特征;一个初始图像特征对应一个或多个检测对象特征;
将所述S个检测对象特征输入至所述特征嵌入子网络,通过所述特征嵌入子网络对所述S个检测对象特征进行特征嵌入,得到具有相同特征维度的S个嵌入对象特征;
将所述S个嵌入对象特征输入至所述注意力处理子网络,通过所述注意力处理子网络对所述S个嵌入对象特征进行注意力机制处理,生成所述S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵。
4.根据权利要求3所述的方法,其特征在于,所述将N个初始图像特征输入至所述对象检测子网络,通过所述对象检测子网络在所述N个初始图像特征上提取与所述目标分类标签信息相关联的S个检测对象特征,包括:
将N个初始图像特征输入至所述对象检测子网络,在所述对象检测子网络中,根据所述N个初始图像特征,对所述N个目标图像进行对象检测,在所述N个目标图像中确定用于表征目标对象的对象检测区域;所述目标对象具有所述目标分类标签信息;所述对象检测区域的数量为S个;
提取S个对象检测区域分别对应的检测对象特征。
5.根据权利要求3所述的方法,其特征在于,所述将所述S个嵌入对象特征输入至所述注意力处理子网络,通过所述注意力处理子网络对所述S个嵌入对象特征进行注意力机制处理,生成所述S个嵌入对象特征中的每两个嵌入对象特征对应的相似度矩阵,包括:
将所述S个嵌入对象特征输入至所述注意力处理子网络,通过所述注意力处理子网络对所述S个嵌入对象特征中的每两个嵌入对象特征进行特征运算处理,得到所述每两个嵌入对象特征对应的融合对象特征;
确定所述S个嵌入对象特征的特征尺寸,根据所述特征尺寸,对所述每两个嵌入对象特征对应的融合对象特征进行特征缩放,得到所述每两个嵌入对象特征对应的缩放对象特征;
对所述每两个嵌入对象特征对应的缩放对象特征进行归一化处理,生成所述每两个嵌入对象特征对应的相似度矩阵。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
将所述S个嵌入对象特征作为节点,基于所述每两个嵌入对象特征对应的相似度矩阵,生成所述节点之间的边权重;一个嵌入对象特征对应一个节点;一个相似度矩阵对应一个边权重;
基于所述节点和所述边权重,构建与所述N个目标图像相关联的特征有向图;
则所述基于所述每两个嵌入对象特征对应的相似度矩阵,对所述S个嵌入对象特征进行特征增强,得到所述S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征,包括:
基于所述特征有向图中的所述边权重,对所述特征有向图中的S个节点进行特征增强,得到所述S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征。
7.根据权利要求6所述的方法,其特征在于,所述特征有向图中的S个节点包括节点Si;所述i为小于或等于所述S的正整数;所述目标网络模型还包括用于进行特征增强的特征增强子网络;
所述基于所述特征有向图中的所述边权重,对所述特征有向图中的S个节点进行特征增强,得到所述S个嵌入对象特征中的每个嵌入对象特征分别对应的增强对象特征,包括:
将所述特征有向图中除所述节点Si之外的节点确定为辅助节点;
通过所述特征增强子网络在所述边权重中获取所述辅助节点针对所述节点Si的相对边权重,以及所述节点Si的自边权重;一个辅助节点对应一个相对边权重;
基于所述节点Si所指示的嵌入对象特征和所述相对边权重,确定用于对所述节点Si进行特征增强的相对增强特征;
获取所述节点Si所指示的检测对象特征,基于所述节点Si所指示的检测对象特征和所述自边权重,确定用于对所述节点Si进行特征增强的自增强特征;
对所述相对增强特征和所述自增强特征进行特征聚合,得到所述节点Si对应的增强对象特征,将所述节点Si对应的增强对象特征,作为所述节点Si所指示的嵌入对象特征对应的增强对象特征。
8.根据权利要求2所述的方法,其特征在于,所述目标网络模型还包括用于进行卷积操作的第二卷积子网络;
所述根据所述增强对象特征,在所述N个目标图像中分别确定与所述目标分类标签信息相关联的对象识别结果,包括:
获取属于同一个目标图像的增强对象特征,对所述属于同一个目标图像的增强对象特征进行特征融合,得到所述N个目标图像分别对应的融合图像特征;
将所述融合图像特征输入至所述第二卷积子网络,通过所述第二卷积子网络对所述融合图像特征进行卷积操作,得到所述融合图像特征对应的目标图像特征;
根据所述目标图像特征,在所述N个目标图像中分别确定与所述目标分类标签信息相关联的对象识别结果。
9.根据权利要求8所述的方法,其特征在于,所述根据所述目标图像特征,在所述N个目标图像中分别确定与所述目标分类标签信息相关联的对象识别结果,包括:
对所述目标图像特征进行上采样处理,得到所述目标图像特征对应的上采样图像特征;
根据所述N个目标图像的图像尺寸,对所述上采样图像特征进行特征调整,得到所述上采样图像特征对应的分割图像特征;
根据所述分割图像特征,在所述N个目标图像中分别确定与所述目标分类标签信息相关联的语义分割结果,将所述语义分割结果作为与所述目标分类标签信息相关联的对象识别结果。
10.一种图像数据处理方法,其特征在于,包括:
通过初始网络模型获取N个样本图像分别对应的初始样本特征;所述N个样本图像均具有相同的样本分类标签信息;所述N为大于1的正整数;
在所述初始网络模型中,根据N个初始样本特征,获取与所述样本分类标签信息相关联的K个样本嵌入对象特征,生成所述K个样本嵌入对象特征中的每两个样本嵌入对象特征对应的样本相似度矩阵;所述K为大于或等于所述N的正整数;
基于所述每两个样本嵌入对象特征对应的样本相似度矩阵,对所述K个样本嵌入对象特征进行特征增强,得到所述K个样本嵌入对象特征中的每个样本嵌入对象特征分别对应的样本增强对象特征;
基于所述样本增强对象特征和所述样本分类标签信息,对所述初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型;所述目标网络模型用于对所述样本分类标签信息所指示的样本对象进行对象识别。
11.根据权利要求10所述的方法,其特征在于,所述初始网络模型包括用于进行池化操作的池化层;
所述基于所述样本增强对象特征和所述样本分类标签信息,对所述初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型,包括:
获取属于同一个样本图像的样本增强对象特征,对所述属于同一个样本图像的样本增强对象特征进行特征融合,得到所述N个样本图像分别对应的样本融合图像特征;
对所述样本融合图像特征进行卷积操作,得到所述样本融合图像特征对应的目标样本特征;
将所述目标样本特征输入至所述池化层,通过所述池化层对所述目标样本特征进行池化操作,得到所述目标样本特征对应的池化特征向量;
对所述池化特征向量进行归一化处理,得到所述池化特征向量对应的分类特征向量;一个样本图像对应一个分类特征向量;
基于所述N个样本图像中的每个样本图像分别对应的分类特征向量和所述样本分类标签信息,对所述初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型。
12.根据权利要求11所述的方法,其特征在于,所述基于所述N个样本图像中的每个样本图像分别对应的分类特征向量和所述样本分类标签信息,对所述初始网络模型进行参数调整,将参数调整后的初始网络模型作为目标网络模型,包括:
根据所述样本分类标签信息,生成用于确定所述初始网络模型的模型损失值的分类标签向量;
基于所述N个样本图像中的每个样本图像分别对应的分类特征向量和所述分类标签向量,确定所述每个样本图像分别对应的分类损失值;
根据所述每个样本图像分别对应的分类损失值,得到所述初始网络模型的模型损失值;
根据所述模型损失值对所述初始网络模型进行参数调整,当参数调整后的初始网络模型满足模型收敛条件时,将所述参数调整后的初始网络模型作为目标网络模型。
13.一种计算机设备,其特征在于,包括:处理器和存储器;
所述处理器与所述存储器相连,其中,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中,且适于由处理器读取并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
CN202111121657.XA 2021-09-24 2021-09-24 一种图像数据处理方法、计算机设备以及可读存储介质 Pending CN115861605A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111121657.XA CN115861605A (zh) 2021-09-24 2021-09-24 一种图像数据处理方法、计算机设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111121657.XA CN115861605A (zh) 2021-09-24 2021-09-24 一种图像数据处理方法、计算机设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN115861605A true CN115861605A (zh) 2023-03-28

Family

ID=85652499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111121657.XA Pending CN115861605A (zh) 2021-09-24 2021-09-24 一种图像数据处理方法、计算机设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN115861605A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343308A (zh) * 2023-04-04 2023-06-27 湖南交通工程学院 一种融合人脸图像检测方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116343308A (zh) * 2023-04-04 2023-06-27 湖南交通工程学院 一种融合人脸图像检测方法、装置、设备及存储介质
CN116343308B (zh) * 2023-04-04 2024-02-09 湖南交通工程学院 一种融合人脸图像检测方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109816009B (zh) 基于图卷积的多标签图像分类方法、装置及设备
WO2021129181A1 (en) Portrait segmentation method, model training method and electronic device
CN111191654B (zh) 道路数据生成方法、装置、电子设备及存储介质
CN115457531A (zh) 用于识别文本的方法和装置
CN111738280A (zh) 一种图像识别方法、装置、设备及可读存储介质
CN114283350B (zh) 视觉模型训练和视频处理方法、装置、设备及存储介质
CN114283351A (zh) 视频场景分割方法、装置、设备及计算机可读存储介质
CN113762138A (zh) 伪造人脸图片的识别方法、装置、计算机设备及存储介质
CN116580257A (zh) 特征融合模型训练及样本检索方法、装置和计算机设备
CN113762326A (zh) 一种数据识别方法、装置、设备及可读存储介质
CN115424013A (zh) 模型的训练方法、图像处理方法和设备、介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN114529750A (zh) 图像分类方法、装置、设备及存储介质
CN115861605A (zh) 一种图像数据处理方法、计算机设备以及可读存储介质
CN112906517A (zh) 一种自监督的幂律分布人群计数方法、装置和电子设备
CN111898544A (zh) 文字图像匹配方法、装置和设备及计算机存储介质
CN116740078A (zh) 图像分割处理方法、装置、设备以及介质
CN113569867A (zh) 一种图像处理方法、装置、计算机设备及存储介质
CN114692715A (zh) 一种样本标注方法及装置
CN113822521A (zh) 题库题目的质量检测方法、装置及存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN116129279B (zh) 图像处理方法、装置、设备及介质
CN114332884B (zh) 文档元素的识别方法、装置、设备及存储介质
CN117315791B (zh) 骨骼动作识别方法、设备及存储介质
CN114332516A (zh) 数据处理、模型训练方法及装置、设备、存储介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40082738

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination