CN115905605A

CN115905605A - 一种数据处理方法、设备以及计算机可读存储介质

Info

Publication number: CN115905605A
Application number: CN202111156262.3A
Authority: CN
Inventors: 赵佳伟; 鄢科; 杜俊珑; 黄飞跃
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-04-04

Abstract

本申请公开了一种数据处理方法、设备以及计算机可读存储介质，该方法包括：获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征；对标签词向量矩阵以及图像属性初始特征进行特征融合，得到图像属性特征，对图像属性特征进行自注意力增强，得到图像属性增强特征；对图像属性特征以及图像语义初始特征进行特征融合，得到图像语义增强特征；根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，在类别标签集合中确定图像的目标类别标签。采用本申请，可以提高图像的目标类别标签的识别准确度。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。

Description

一种数据处理方法、设备以及计算机可读存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种数据处理方法、设备以及计算机可读存储介质。

背景技术

在图像识别场景、图像分类场景、图像推荐场景、视频属性识别场景等业务场景下，确定图像或视频帧的目标类别标签(即识别图像或视频帧的类别)是至关重要的。

已有的图像类别标签确定方法，大都是基于图像的属性特征(例如风格属性、颜色属性等)的先验信息以进行模型的监督训练，并选取模型的中间层特征作为图像的表征特征，根据该表征特征确定图像的目标类别标签，但该表征特征仅限于图像本身的属性信息，可能无法准确地表征图像的整体内容或整体信息，而在图像内容表征不准确的情况下，会降低对图像的目标类别标签的识别准确度。

发明内容

本申请实施例提供一种数据处理方法、设备以及计算机可读存储介质，可以提高图像的目标类别标签的识别准确度。

本申请实施例一方面提供了一种数据处理方法，包括：

获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征；

对标签词向量矩阵以及图像属性初始特征进行特征融合，得到图像属性特征，对图像属性特征进行自注意力增强，得到图像属性增强特征；标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的；

对图像属性特征以及图像语义初始特征进行特征融合，得到图像语义增强特征；

根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，在类别标签集合中确定图像的目标类别标签。

本申请实施例一方面提供了一种数据处理装置，包括：

获取数据模块，用于获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征；

第一融合模块，用于对标签词向量矩阵以及图像属性初始特征进行特征融合，得到图像属性特征，对图像属性特征进行自注意力增强，得到图像属性增强特征；标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的；

第二融合模块，用于对图像属性特征以及图像语义初始特征进行特征融合，得到图像语义增强特征；

确定标签模块，用于根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，在类别标签集合中确定图像的目标类别标签。

其中，第一融合模块，包括：

第一获取单元，用于获取图像识别模型，将标签词向量矩阵以及图像属性初始特征分别输入至图像识别模型；图像识别模型包括跨模态融合网络层，跨模态融合网络层包括跨模态交叉注意力融合组件以及特征加权组件；

第一融合单元，用于通过跨模态交叉注意力融合组件，对标签词向量矩阵以及图像属性初始特征进行特征融合，得到与标签词向量矩阵相关联的跨模态关联矩阵；

第一加权单元，用于将跨模态关联矩阵以及图像属性初始特征分别输入至特征加权组件；

第一加权单元，还用于在特征加权组件中，根据跨模态关联矩阵对图像属性初始特征进行特征加权，得到图像属性特征。

其中，跨模态交叉注意力融合组件包括全连接层子组件、特征点积子组件、矩阵缩放子组件以及矩阵归一化子组件；

第一融合单元，包括：

第一变换子单元，用于通过全连接层子组件，对图像属性初始特征进行特征变换，得到待融合图像属性特征；

第一输入子单元，用于将待融合图像属性特征以及标签词向量矩阵分别输入至特征点积子组件；

第一输入子单元，还用于通过特征点积子组件，对待融合图像属性特征以及标签词向量矩阵进行特征点积，得到待缩放跨模态关联矩阵；

第二输入子单元，用于将待缩放跨模态关联矩阵输入至矩阵缩放子组件，通过矩阵缩放子组件，对待缩放跨模态关联矩阵进行特征缩放，得到待归一化跨模态关联矩阵；

第一生成子单元，用于将待归一化跨模态关联矩阵输入至矩阵归一化子组件，通过矩阵归一化子组件，对待归一化跨模态关联矩阵进行特征归一化，得到与标签词向量矩阵相关联的跨模态关联矩阵。

其中，特征加权组件包括全连接层子组件、加权权重子组件、加权归一化子组件以及属性加权子组件；

第一加权单元，包括：

第二变换子单元，用于通过全连接层子组件，对图像属性初始特征进行特征变换，得到待融合图像属性特征；

第二生成子单元，用于通过加权权重子组件，对跨模态关联矩阵以及标签词向量矩阵进行特征乘积，得到针对待融合图像属性特征的待归一化加权权重；

第三输入子单元，用于将待归一化加权权重输入至加权归一化子组件，通过加权归一化子组件，对待归一化加权权重进行权重归一化，得到针对待融合图像属性特征的特征加权权重；

第四输入子单元，用于将特征加权权重以及待融合图像属性特征分别输入至属性加权子组件；

第四输入子单元，还用于在属性加权子组件中，基于特征加权权重对待融合图像属性特征进行特征加权，得到图像属性特征。

其中，跨模态融合网络层还包括跨模态自注意力增强组件，跨模态自注意力增强组件包括第一全连接层子组件、第二全连接层子组件、第三全连接层子组件以及跨模态自注意力增强子组件；

第一融合模块，包括：

第一输入单元，用于将图像属性特征输入至第一全连接层子组件，通过第一全连接层子组件对图像属性特征进行特征变换，得到第一待融合图像属性特征：

第二输入单元，用于将图像属性特征输入至第二全连接层子组件，通过第二全连接层子组件对图像属性特征进行特征变换，得到第二待融合图像属性特征；

第三输入单元，用于将图像属性特征输入至第三全连接层子组件，通过第三全连接层子组件对图像属性特征进行特征变换，得到待增强图像属性特征；

第一增强单元，用于将第一待融合图像属性特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至跨模态自注意力增强子组件；

第一增强单元，还用于在跨模态自注意力增强子组件中，通过第一待融合图像属性特征以及第二待融合图像属性特征，对待增强图像属性特征进行特征增强，得到图像属性增强特征。

其中，跨模态自注意力增强子组件包括第一特征转置子组件、第一增强权重子组件、第一增强缩放子组件、第一增强归一化子组件以及属性增强子组件；

第一增强单元，包括：

第三生成子单元，用于通过第一特征转置子组件，对第二待融合图像属性特征进行特征转置，得到第二待融合图像属性特征对应的转置图像属性特征；

第四生成子单元，用于将转置图像属性特征以及第一待融合图像属性特征分别输入至第一增强权重子组件；

第四生成子单元，还用于通过第一增强权重子组件，对第一待融合图像属性特征以及转置图像属性特征进行特征乘积，得到针对待增强图像属性特征的第一待缩放增强权重；

第五输入子单元，用于将第一待缩放增强权重输入至第一增强缩放子组件，通过第一增强缩放子组件，对第一待缩放增强权重进行权重缩放，得到第一待归一化增强权重；

第五生成子单元，用于将第一待归一化增强权重输入至第一增强归一化子组件，通过第一增强归一化子组件，对第一待归一化增强权重进行权重归一化，得到第一特征增强权重；

第六输入子单元，用于将第一特征增强权重以及待增强图像属性特征分别输入至属性增强子组件；

第六输入子单元，还用于在属性增强子组件中，基于第一特征增强权重对待增强图像属性特征进行特征增强，得到图像属性增强特征。

其中，图像识别模型还包括模态内融合网络层，模态内融合网络层包括模态内自注意力增强组件、模态内交叉注意力融合组件以及特征融合组件；

第二融合模块，包括：

第二增强单元，用于将图像语义初始特征输入至模态内自注意力增强组件，通过模态内自注意力增强组件，对图像语义初始特征进行特征增强，得到第一图像语义特征；

第二融合单元，用于将图像语义初始特征以及图像属性特征分别输入至模态内交叉注意力增强组件；

第二融合单元，还用于通过模态内交叉注意力融合组件，对图像语义初始特征以及图像属性特征进行特征融合，得到第二图像语义特征；

第三融合单元，用于将第一图像语义特征以及第二图像语义特征分别输入至特征融合组件；

第三融合单元，还用于通过特征融合组件，对第一图像语义特征以及第二图像语义特征进行特征融合，得到图像语义增强特征。

其中，模态内自注意力增强组件包括第四全连接层子组件、第五全连接层子组件、第六全连接层子组件以及模态内自注意力增强子组件；

第二增强单元，包括：

第三变换子单元，用于通过第四全连接层子组件对图像语义初始特征进行特征变换，得到第一待融合图像语义特征；

第四变换子单元，用于通过第五全连接层子组件对图像语义初始特征进行特征变换，得到第二待融合图像语义特征；

第五变换子单元，用于通过第六全连接层子组件对图像语义初始特征进行特征变换，得到待增强图像语义特征；

第七输入子单元，用于将第一待融合图像语义特征、第二待融合图像语义特征以及待增强图像语义特征分别输入至模态内自注意力增强子组件；

第七输入子单元，还用于在模态内自注意力增强子组件中，通过第一待融合图像语义特征以及第二待融合图像语义特征，对待增强图像语义特征进行特征增强，得到第一图像语义特征。

其中，模态内自注意力增强子组件包括第二特征转置子组件、第二增强权重子组件、第二增强缩放子组件、第二增强归一化子组件以及第一语义增强子组件；

第七输入子单元，包括：

第一转置子单元，用于通过第二特征转置子组件，对第二待融合图像语义特征进行特征转置，得到第二待融合图像语义特征对应的转置图像语义特征；

第一乘积子单元，用于将转置图像语义特征以及第一待融合图像语义特征分别输入至第二增强权重子组件；

第一乘积子单元，还用于通过第二增强权重子组件，对第一待融合图像语义特征以及转置图像语义特征进行特征乘积，得到针对待增强图像语义特征的第二待缩放增强权重；

第一缩放子单元，用于将第二待缩放增强权重输入至第二增强缩放子组件，通过第二增强缩放子组件，对第二待缩放增强权重进行权重缩放，得到第二待归一化增强权重；

第一归一子单元，用于将第二待归一化增强权重输入至第二增强归一化子组件，通过第二增强归一化子组件，对第二待归一化增强权重进行权重归一化，得到第二特征增强权重；

第一增强子单元，用于将第二特征增强权重以及待增强图像语义特征分别输入至第一语义增强子组件；

第一增强子单元，还用于在第一语义增强子组件中，基于第二特征增强权重，对待增强图像语义特征进行特征增强，得到第一图像语义特征。

其中，模态内交叉注意力融合组件包括第四全连接层子组件、第二全连接层子组件、第三全连接层子组件以及模态内交叉注意力增强子组件；

第二融合单元，包括：

第六变换子单元，用于通过第四全连接层子组件对图像语义初始特征进行特征变换，得到第一待融合图像语义特征；

第七变换子单元，用于通过第二全连接层子组件对图像属性特征进行特征变换，得到第二待融合图像属性特征；

第八变换子单元，用于通过第三全连接层子组件对图像属性特征进行特征变换，得到待增强图像属性特征；

第八输入子单元，用于将第一待融合图像语义特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至模态内交叉注意力增强子组件；

第八输入子单元，还用于在模态内交叉注意力增强子组件中，通过第一待融合图像语义特征以及第二待融合图像属性特征，对待增强图像属性特征进行特征增强，得到第二图像语义特征。

其中，模态内交叉注意力增强子组件包括第一特征转置子组件、第三增强权重子组件、第三增强缩放子组件、第三增强归一化子组件以及第二语义增强子组件；

第八输入子单元，包括：

第二转置子单元，用于通过第一特征转置子组件，对第二待融合图像属性特征进行特征转置，得到第二待融合图像属性特征对应的转置图像属性特征；

第二乘积子单元，用于将转置图像属性特征以及第一待融合图像语义特征分别输入至第三增强权重子组件；

第二乘积子单元，还用于通过第三增强权重子组件，对第一待融合图像语义特征以及转置图像属性特征进行特征乘积，得到针对待增强图像属性特征的第三待缩放增强权重；

第二缩放子单元，用于将第三待缩放增强权重输入至第三增强缩放子组件，通过第三增强缩放子组件，对第三待缩放增强权重进行权重缩放，得到第三待归一化增强权重；

第二归一子单元，用于将待第三归一化增强权重输入至第三增强归一化子组件，通过第三增强归一化子组件，对第三待归一化增强权重进行权重归一化，得到第三特征增强权重；

第二增强子单元，用于将第三特征增强权重以及待增强图像属性特征分别输入至第二语义增强子组件；

第二增强子单元，还用于在第二语义增强子组件中，基于第三特征增强权重，对待增强图像属性特征进行特征增强，得到第二图像语义特征。

其中，图像识别模型还包括标签增强网络层，标签增强网络层包括跨模态语义增强组件、特征池化组件以及特征分类组件；

确定标签模块，包括：

第二加权单元，用于将标签词向量矩阵以及图像语义增强特征分别输入至跨模态语义增强组件；

第二加权单元，还用于在跨模态语义增强组件中，基于标签词向量矩阵对图像语义增强特征进行特征加权，得到图像语义加权特征；

第二获取单元，用于将图像语义加权特征输入至特征池化组件，通过特征池化组件，得到图像语义加权特征对应的语义特征分类结果；

第三获取单元，用于将图像属性增强特征输入至特征分类组件，通过特征分类组件，得到图像属性增强特征对应的属性特征分类结果；

第四融合单元，用于对语义特征分类结果以及属性特征分类结果进行结果融合，得到目标分类结果；

第四融合单元，还用于根据目标分类结果在类别标签集合中确定图像的目标类别标签。

其中，标签词向量矩阵包括至少两个标签词向量；至少两个标签词向量包括标签词向量A_b以及标签词向量A_c，b与c均为正整数，且b小于或等于至少两个标签词向量对应的总数量，c小于或等于至少两个标签词向量对应的总数量；跨模态语义增强组件包括标签相似子组件、第七全连接层子组件以及语义加权子组件；

第二加权单元，包括：

第六生成子单元，用于通过标签相似子组件，获取标签词向量A_b以及标签词向量A_c之间的向量相似度，基于获取到的向量相似度生成标签相似矩阵；

第九变换子单元，用于通过第七全连接层子组件，对图像语义增强特征进行特征变换，得到待加权图像语义增强特征；

第七生成子单元，用于将标签相似矩阵以及待加权图像语义增强特征分别输入至语义加权子组件；

第七生成子单元，还用于在语义加权子组件中，基于标签相似矩阵对待加权图像语义增强特征进行特征加权，得到图像语义加权特征。

其中，获取数据模块，包括：

第四获取单元，用于获取样本图像集；样本图像集中的每个样本图像均携带类别标签；

第四获取单元，还用于根据每个样本图像分别携带的类别标签，生成类别标签集；

第五获取单元，用于获取词向量模型，根据词向量模型获取类别标签集中的每个类别标签分别对应的标签词向量；

第六获取单元，用于获取图像，对图像进行剪裁处理，获取D个子图像，获取D个子图像分别对应的图像属性初始特征；D为正整数，D个子图像分别对应的图像尺寸均相同，且D个子图像分别对应的图像尺寸均小于或等于图像对应的图像尺寸；

第七获取单元，用于获取图像特征提取模型，根据图像特征提取模型获取图像对应的图像语义初始特征。

本申请一方面提供了一种计算机设备，包括：处理器、存储器、网络接口；

上述处理器与上述存储器、上述网络接口相连，其中，上述网络接口用于提供数据通信功能，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以使得计算机设备执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质中存储有计算机程序，上述计算机程序适于由处理器加载并执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中；计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中的方法。

在本申请实施例中，通过获取标签词向量、图像属性初始特征以及图像语义初始特征，可以对标签词向量矩阵(类别标签属于文本模态)以及图像属性初始特征进行跨模态特征融合，即通过标签词向量矩阵对图像属性初始特征实现跨模态交叉注意力增强，可以得到图像属性特征；进一步，对图像属性特征进行自注意力增强，得到图像属性增强特征；进一步，对图像属性特征以及图像语义初始特征进行特征融合，即通过图像属性特征对图像语义初始特征实现模态内交叉注意力增强，可以得到图像语义增强特征；进一步，结合多模态特征(包括标签词向量矩阵、图像语义增强特征以及图像属性增强特征)，可以在类别标签集合中确定图像的目标类别标签。上述可知，本申请不仅对文本模态特征(标签词向量矩阵)以及图像模态特征(图像属性初始特征)进行跨模态特征融合，以增强图像模态特征，得到图像属性增强特征，还可以对图像属性特征以及图像语义初始特征进行模态内的特征融合，以增强图像语义初始特征，得到图像语义增强特征；通过跨模态特征融合以及模态内特征融合，可以综合多模态信息，生成包括多模态信息的特征，进而可以提高图像的特征表征能力，故可以提高图像的目标类别标签的识别准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种数据处理的场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种数据处理的场景示意图；

图5是本申请实施例提供的一种数据处理的场景示意图；

图6是本申请实施例提供的一种数据处理的场景示意图；

图7是本申请实施例提供的一种数据处理的场景示意图；

图8是本申请实施例提供的一种数据处理方法的流程示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，首先对部分名词进行以下简单解释：

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中，计算机视觉技术可以用于识别图像中的类别标签(例如人、狗、猫、鸟等)。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，图像识别模型以及图像特征提取模型均是基于机器学习技术的AI模型，图像识别模型可用于对图像进行识别处理，图像特征提取模型可用于对图像进行特征提取。

请参见图1，图1是本申请实施例提供的一种系统架构示意图。如图1所示，该系统可以包括业务服务器100以及终端集群，终端集群可以包括：终端设备200a、终端设备200b、终端设备200c、...、终端设备200n，可以理解的是，上述系统可以包括一个或者多个终端设备，本申请不对终端设备的数量进行限制。

其中，终端集群之间可以存在通信连接，例如终端设备200a与终端设备200b之间存在通信连接，终端设备200a与终端设备200c之间存在通信连接。同时，终端集群中的任一终端设备可以与业务服务器100存在通信连接，例如终端设备200a与业务服务器100之间存在通信连接，其中，上述通信连接不限定连接方式，可以通过有线通信方式进行直接或间接地连接，也可以通过无线通信方式进行直接或间接地连接，还可以通过其它方式，本申请在此不做限制。

应当理解，如图1所示的终端集群中的每个终端设备均可以安装有应用客户端，当该应用客户端运行于各终端设备中时，可以分别与上述图1所示的业务服务器100之间进行数据交互，即上述的通信连接。其中，该应用客户端可以为短视频应用、视频应用、直播应用、社交应用、即时通信应用、游戏应用、音乐应用、购物应用、小说应用、支付应用、浏览器等具有加载图像功能的应用客户端。其中，该应用客户端可以为独立的客户端，也可以为集成在某客户端(例如，社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端，在此不做限定。以社交应用为例，业务服务器100可以为包括社交应用对应的后台服务器、数据处理服务器等多个服务器的集合，因此，每个终端设备均可以通过该社交应用对应的应用客户端与业务服务器100进行数据传输，如每个终端设备均可以通过社交应用的应用客户端将其本地的图像上传至业务服务器100，进而业务服务器100可以将该图像下发给其它终端设备或传送至云服务器。需要说明的是，终端设备对图像的上传是在获取到终端设备对应的设备用户授予的权限之后才进行的。

为便于后续理解和说明，本申请实施例可以在图1所示的终端集群中选择一个终端设备作为目标终端设备，例如以终端设备200a作为目标终端设备。当获取到图像，并需要对图像进行处理时，例如标记图像的类别标签，终端设备200a可以将图像发送至业务服务器100。接收到终端设备200a发送的图像后，业务服务器100可以获取类别标签集合中每个类别标签分别对应的标签词向量，其中，类别标签集合是基于样本图像集中的每个样本图像所分别携带的类别标签生成的，样本图像集中的样本图像用于训练图像识别初始模型，以得到用于对图像进行识别(分类)的图像识别模型；进一步，业务服务器100可以获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征，其中，图像属性初始特征是指图像属性对应的初始特征，例如针对颜色属性的初始特征、针对轮廓属性的初始特征等，可以理解的是，该图像属性初始特征是图像的低层初始特征；图像语义初始特征是指通过图像特征提取模型所提取到的图像的语义初始特征，可以理解的是，图像语义初始特征是图像的高层初始特征。进一步，基于提前训练好的图像识别模型，业务服务器100对标签词向量矩阵以及图像属性初始特征进行特征融合，可以得到图像表征能力优于图像属性初始特征的图像属性特征，该特征融合过程可以理解为通过标签词向量矩阵，对图像属性初始特征进行特征增强的过程，明显地，该特征融合过程为跨模态(即文本模态与图像模态)融合过程，其中，标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的；进一步，业务服务器100对图像属性特征进行自注意力增强，可以得到图像表征能力优于图像属性特征的图像属性增强特征；进一步，基于图像识别模型，业务服务器100对图像属性特征以及图像语义初始特征进行特征融合，可以得到图像表征能力优于图像语义初始特征的图像语义增强特征，此处的特征融合过程可以理解为通过图像属性特征，对图像语义初始特征进行特征增强的过程，明显地，此处的特征融合过程为模态(即图像模态)内融合过程；进一步，在图像识别模型中，业务服务器100根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，可以在类别标签集合中确定图像的目标类别标签。

后续，业务服务器100可以将目标类别标签标记于图像上，并将携带有目标类别标签的图像发送至终端设备200a，终端设备200a接收到业务服务器100发送的携带有目标类别标签的图像后，可以在其对应的屏幕上显示该携带有目标类别标签的图像。可以理解的是，业务服务器100还可以仅将上述的目标类别标签发送至终端设备200a，或将目标类别标签与图像关联发送至终端设备200a。

可选的，若终端设备200a的本地存储了上述图像识别模型以及标签词向量矩阵，则终端设备200a可以在本地生成图像对应的图像属性初始特征，以及图像对应的图像语义初始特征，然后通过图像识别模型、图像属性初始特征、图像语义初始特征，以及标签词向量矩阵，确定图像对应的目标类别标签；可以理解的是，在终端设备200a的本地确定目标类别标签的过程，与业务服务器100确定目标类别标签的过程一致，故此处不进行赘述，请参见上文业务服务器100确定目标类别标签的描述。其中，由于训练图像识别模型涉及到大量的离线计算，因此终端设备200a本地的图像识别模型可以是由业务服务器100训练完成后发送至终端设备200a的，同理，标签词向量矩阵可以是由业务服务器100生成后发送至终端设备200a的。

可选的，可以理解的是，系统架构中可以包括多个业务服务器，一个终端设备可以与一个业务服务器相连接，每个业务服务器可以获取到与之相连接的终端设备所上传的图像，从而可以识别该图像并确定与该图像对应的目标类别标签，并将目标类别标签返回给与之相连接的终端设备。

需要说明的是，上述业务服务器100、终端设备200a、终端设备200b、终端设备200c...、终端设备200n均可以为区块链网络中的区块链节点，全文叙述的数据(例如图像以及图像对应的目标类别标签)可以进行存储，存储方式可以是区块链节点根据数据生成区块，并将区块添加至区块链中进行存储的方式。

区块链是一种分布式数据存储、点对点传输、共识机制以及加密算法等计算机技术的新型应用模式，主要用于对数据按时间顺序进行整理，并加密成账本，使其不可被篡改和伪造，同时可进行数据的验证、存储和更新。区块链本质上是一个去中心化的数据库，该数据库中的每个节点均存储一条相同的区块链，区块链网络可以将节点区分为核心节点、数据节点以及轻节点。核心节点、数据节点以及轻节点共同组成区块链节点。其中核心节点负责区块链全网的共识，也就是说核心节点为区块链网络中的共识节点。对于区块链网络中的交易数据被写入账本的流程可以为，区块链网络中的数据节点或轻节点获取到交易数据，将交易数据在区块链网络中传递(也就是节点以接力棒的方式进行传递)，直到共识节点收到该交易数据，共识节点再将该交易数据打包进区块，对该区块执行共识，待共识完成后将该交易数据写入账本。此处以图像以及图像对应的目标类别标签示例交易数据，业务服务器100(区块链节点)在通过对交易数据的共识后，根据交易数据生成区块，将区块存储至区块链网络中；而对于交易数据(即图像以及图像对应的目标类别标签)的读取，则可以由区块链节点在区块链网络中，获取到包含该交易数据的区块，进一步，在区块中获取交易数据。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于终端设备或业务服务器。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。其中，终端设备和业务服务器可以通过有线或无线方式进行直接或间接地连接，本申请实施例在此不做限制。

可以理解的是，上述系统架构可适用于图像识别场景、图像分类场景、图像推荐场景、图像分发场景、图像搜索场景、视频属性识别场景等业务场景，这里将不对具体的业务场景进行一一列举。

进一步地，请参见图2，图2是本申请实施例提供的一种数据处理的场景示意图。其中，该数据处理场景的实现过程可以在业务服务器中进行，也可以在终端设备中进行，还可以在终端设备和业务服务器中交互进行，此处不做限制，其中，终端设备可以为上述图1所对应实施例的终端集群中的任意一个终端设备，图2以终端设备200a为例进行叙述，业务服务器可以为上述图1所对应实施例的业务服务器100。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

如图2所示，用户201a可以将图像202a上传到终端设备200a上的某个具有图像识别功能的应用客户端(例如，浏览器)，可选的，该应用客户端可以集成有摄像功能，因此图像202a可以是通过该应用客户端上的摄像功能采集到的图像；可选的，图像202a是用户201a从其它平台获取的图像，本申请实施例对图像的具体内容和来源不进行限定。进一步，当用户201a点击该应用客户端上的识别控件203a时，终端设备200a可以响应该识别操作，将图像202a发送至业务服务器100。

进一步，获取到终端设备200a发送的图像202a后，业务服务器100获取类别标签集合20b中每个类别标签分别对应的标签词向量，如图2所示，该类别标签集合20b可以包括人、猫、...、房屋等类别标签，其中，类别标签人对应的标签词向量为标签词向量201c，类别标签猫对应的标签词向量为标签词向量202c，...，类别标签房屋对应的标签词向量为标签词向量203c；需要说明的是，本申请实施例不对类别标签的内容进行限定，实际应用时，可以根据实际场景进行设定，同理，不对类别标签的类别数量进行限定，实际应用时，可以根据实际场景进行设定。

进一步，根据每个类别标签分别对应的标签词向量，业务服务器100可以生成标签词向量矩阵20c，为了便于理解，假设每个类别标签分别对应的标签词向量均为一个100维的向量，类别标签集合20b共3个类别标签(例如图2所示例的人、猫以及房屋)，则业务服务器100可以生成一个3*100的标签词向量矩阵20c。业务服务器100获取图像202a对应的图像属性初始特征20d，以及图像202a对应的图像语义初始特征20e，上述获取过程本申请实施例暂不展开描述，请参见下文图3所对应的实施例中步骤S101的描述。

进一步，业务服务器100将标签词向量矩阵20c、图像属性初始特征20d以及图像语义初始特征20e均输入至提前训练好的图像识别模型，图像识别模型的框架大致分为3部分，分别为图2所示的跨模态融合网络层20f、模态内融合网络层20g以及标签增强网络层20h；通过跨模态融合网络层20f，业务服务器100对标签词向量矩阵20c以及图像属性初始特征20d进行特征融合，得到图像属性特征201d，可以理解的是，标签词向量矩阵20c属于文本模态，图像属性初始特征20d属于图像模态，故该融合过程为跨模态特征融合，生成的图像属性特征201d不仅包含图像模态特征，还包括文本模态特征；进一步，通过跨模态融合网络层20f，服务服务器100对图像属性特征201d进行自注意力增强，得到图像属性增强特征202d，可以理解的是，图像属性增强特征202d不仅包含图像模态特征，还包括文本模态特征。

请再参见图2，通过模态内融合网络层20g，业务服务器100对图像属性特征201d以及图像语义初始特征20e进行特征融合，得到图像语义增强特征201e，可以理解的是，图像属性特征201d以及图像语义初始特征20e均属于图像模态特征，但图像属性特征201d为图像202a的属性特征，例如颜色特征、轮廓特征等，图像语义初始特征20e为图像202a的语义特征，故图像语义增强特征201e不仅包含图像202a的高层特征，还可以包含图像202a的低层特征。

需要说明的是，本申请实施例不对由跨模态融合网络层20f以及模态内融合网络层20g所组成的网络结构的结构数量进行限定，可以为1个或多个该网络结构，若图像识别模型包括上述1个网络结构，即图像识别模型只包括一个跨模态融合网络层20f以及一个模态内融合网络层20g，则业务服务器100将图像语义增强特征201e以及图像属性增强特征202d均输入至标签增强网络层20h；若图像识别模型包括上述N个网络结构(N为大于1的正整数)，即图像识别模型只包括N个跨模态融合网络层20f以及N个模态内融合网络层20g，则上一个的跨模态融合网络层20f的输出数据(例如图2示例的图像属性增强特征202d)，作为下一个跨模态融合网络层20f的输入数据，同理，上一个模态内融合网络层20g的输出数据(例如图2示例的图像语义增强特征201e)，作为下一个模态内融合网络层20g的输入数据，循环上述过程N轮，不断增强图像202a的属性特征以及语义特征；业务服务器100将最后一个(第N个)跨模态融合网络层20f的输出数据输入至标签增强网络层20h，将最后一个(第N个)模态内融合网络层20g的输出数据输入至标签增强网络层20h，同时，将标签词向量矩阵20c输入至标签增强网络层20h。

进一步，在标签增强网络层20h中，业务服务器100根据标签词向量矩阵20c、图像语义增强特征以及图像属性增强特征，得到图像202a的目标分类结果，本申请实施例不对目标分类结果的生成过程展开描述，请参见下文图3所对应的实施例中步骤S104的描述。如图2所示，根据目标分类结果，业务服务器100在类别标签集合20b中确定图像202a的目标类别标签包括人以及房屋。后续，业务服务器100将目标类别标签(即人与房屋)返回至终端设备200a。

综上所述，本申请实施例的输入数据可以包括两种模态数据，即文本模态数据以及图像模态数据，在跨模态融合网络层中，通过标签词向量矩阵(属于文本模态数据)，对图像的图像属性初始特征(属于图像模态数据)进行跨模态特征增强，得到图像属性增强特征；在模态内融合网络层中，通过图像属性特征，对图像的图像语义初始特征(属于图像模态数据)进行模态内特征增强，得到图像语义增强特征；在标签增强网络层中，通过标签词向量矩阵，对图像语义增强特征进行跨模态特征加权，实现进一步对图像语义增强特征的加权增强，故图像属性增强特征以及图像语义加权特征均可以准确地表征图像信息，进而可以提升图像的目标类别标签的识别精度。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。该数据处理方法可以由业务服务器(例如，上述图1所示的业务服务器100)执行，也可以由终端设备(例如，上述图1所示的终端设备200a)执行，还可以由业务服务器和终端设备交互执行。为便于理解，本申请实施例以该方法由业务服务器执行为例进行说明。如图3所示，该数据处理方法至少可以包括以下步骤S101-步骤S104。

步骤S101，获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征。

具体的，获取样本图像集；样本图像集中的每个样本图像均携带类别标签；根据每个样本图像分别携带的类别标签，生成类别标签集；获取词向量模型，根据词向量模型获取类别标签集中的每个类别标签分别对应的标签词向量；获取图像，对图像进行剪裁处理，获取D个子图像，获取D个子图像分别对应的图像属性初始特征；D为正整数，D个子图像分别对应的图像尺寸均相同，且D个子图像分别对应的图像尺寸均小于或等于图像对应的图像尺寸；获取图像特征提取模型，根据图像特征提取模型获取图像对应的图像语义初始特征。

模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式，有些数据的存在形式不同，但都是描述同一事物或事件。本申请实施例的输入数据包含两种模态数据：文字模态与图像模态，对于文字模态，本申请实施例可以通过词向量模型得到类别标签单词对应的标签词向量，请一并参见图4，图4是本申请实施例提供的一种数据处理的场景示意图。如图4所示，业务服务器100获取样本图像集40a，样本图像集40a可以包括多个样本图像，如图4所示例的样本图像401a、样本图像402a、...、样本图像403a，本申请实施例不对样本图像的总数量以及图像内容进行限定，应根据实际应用场景进行设定。样本图像集40a中的每个样本图像均携带类别标签，样本图像401a携带有类别标签1(图4缩写为标签1)以及类别标签2(图4缩写为标签2)，样本图像402a携带有类别标签1以及类别标签3(图4缩写为标签3)，...，样本图像403a携带有类别标签2。根据每个样本图像分别携带的类别标签，业务服务器100生成类别标签集40b，本申请实施例为了便于叙述以及理解，假设类别标签集40b包括3个类别标签，即图4示例的标签1、标签2以及标签3。可以理解的是，样本图像集40a用于对图像识别初始模型进行训练，以得到图像识别模型。

进一步，业务服务器100取词向量模型40c，本申请实施例不对词向量模型40c的模型类型进行限定，可以为任意一种自然语言处理模型，例如深度自注意力变换网络(Transformer，一种广泛应用于自然语言翻译和图像处理领域的深度学习模型)，Word2Vec(用来产生词向量的模型)，双向编码模型(Bidirectional Encoder Representation fromTransformers，Bert)等。业务服务器100根据词向量模型40c获取类别标签集40a中的每个类别标签分别对应的标签词向量，如图4所示例，标签1对应于标签词向量401d，标签2对应于标签词向量402d，标签3对应于标签词向量403d。

对于图像模态，当获取到图像后，业务服务器可以获取图像特征提取模型，本申请实施例不对图形特征提取模型的模型类型进行限定，可以由任意一种或多种神经网络模型组成，如条件随机场(Conditional Random Fields，CRFs)、卷积神经网络(ConvolutionalNeural Networks，CNN)、全卷积网络(Fully Convolutional Networks，FCNs)等。根据图像特征提取模型，业务服务器可以获取图像对应的图像语义初始特征，需要说明的是，本申请实施例的图像语义初始特征是图像的高层语义特征，为了与下文增强后的高层语义特征(例如图像语义增强特征)进行区别，故将图像特征提取模型输出的语义特征称为图像语义初始特征。

可选的，业务服务器对图像进行剪裁处理，获取D个子图像，其中，D个子图像分别包含的图像内容可以独立，也可以有部分重叠的图像内容；可选的，业务服务器将图像作为子图像；进一步，业务服务器获取D个子图像分别对应的图像属性初始特征，需要说明的是，图像属性初始特征是图像的低层属性特征，为了与下文增强后的属性特征(例如图像属性特征)进行区别，称为初始特征。本申请实施例不对属性类型进行限定，可以为任意一种图像属性类型，例如颜色属性、纹理属性等，本申请实施例不对获取图像属性初始特征的方法进行限定，可以根据实际应用场景进行设定，例如属性类型为颜色属性，则业务服务器可以通过颜色直方图获取图像的图像属性初始特征，例如属性类型为纹理属性，则业务服务器可以通过灰度共生矩阵获取图像的图像属性初始特征，还可以通过神经网络模型获取图像属性初始特征。

步骤S102，对标签词向量矩阵以及图像属性初始特征进行特征融合，得到图像属性特征，对图像属性特征进行自注意力增强，得到图像属性增强特征；标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的。

具体的，业务服务器获取已训练好的图像识别模型，该图像识别模型主要包括跨模态融合网络层，模态内融合网络层以及标签增强网络层，本申请实施例不对跨模态融合网络层以及模态内融合网络层分别对应的网络层数进行限定，可以根据实际应用场景设定上述两个网络层的数量，此处可以参见上文图2所对应的实施例中的描述。

业务服务器先通过跨模态融合网络层，对图像属性初始特征进行特征增强，请一并参见图5，图5是本申请实施例提供的一种数据处理的场景示意图，如图5所示，跨模态融合网络层可以包括跨模态交叉注意力融合组件、特征加权组件以及跨模态自注意力增强组件，业务服务器将标签词向量矩阵40d以及图像属性初始特征50a分别输入至跨模态交叉注意力融合组件，本申请实施例假设类别标签集合中共3个类别标签，如图4所示例的标签1、标签2以及标签3，故标签词向量矩阵40d包括标签1对应的标签词向量401d、标签2对应的标签词向量402d以及标签3对应的标签词向量403d，需要说明的是，上述示例只是为了便于理解，实际应用时，类别标签集合可以包括1个或多个类别标签，故业务服务器可以获取1个或多个标签词向量。

通过跨模态交叉注意力融合组件，业务服务器对标签词向量矩阵40d以及图像属性初始特征50a进行特征融合，得到与标签词向量矩阵40d相关联的跨模态关联矩阵50c，上述过程可以理解为多模态交叉注意力融合过程，即文本模态(标签词向量矩阵40d)与图像模态(图像属性初始特征50a)融合的过程。进一步，业务服务器将跨模态关联矩阵50c以及图像属性初始特征50a分别输入至特征加权组件，在特征加权组件中，通过跨模态关联矩阵50c以及标签词向量矩阵40d，提取针对图像属性初始特征50a的权重，根据提取到的权重对图像属性初始特征50a进行特征加权，该过程可以增强图像属性初始特征50a中共现类别标签的响应，得到图像属性特征501a。进一步，业务服务器将图像属性特征501a输入至跨模态自注意力增强组件，通过自注意力进一步增强图像属性特征501a的图像表征能力，得到图像属性增强特征502a。

步骤S103，对图像属性特征以及图像语义初始特征进行特征融合，得到图像语义增强特征。

具体的，在获取到图像属性特征以及图像语义初始特征后，业务服务器在模态内融合网络层中，通过图像属性特征，对图像语义初始特征进行模态内特征融合增强，请一并参见图6，图6是本申请实施例提供的一种数据处理的场景示意图。如图6所示，模态内融合网络层可以包括模态内自注意力增强组件、模态内交叉注意力融合组件以及特征融合组件60b；业务服务器将图像语义初始特征60a输入至模态内自注意力增强组件，对图像语义初始特征60a进行自注意力特征增强，得到第一图像语义特征601a；将图像属性特征501a以及图像语义初始特征60a分别输入至模态内交叉注意力融合组件，业务服务器利用图像属性特征501a(为加权增强后的图像属性初始特征)，对图像语义初始特征60a进行模态内的交叉注意力融合增强，得到第二图像语义特征602a，可以理解的是，本申请实施例是利用增强后的图像属性特征与图像语义初始特征60a进行融合，故可以增强图像语义初始特征60a；最后将第一图像语义特征601a(自注意力增强后的图像语义特征)，以及第二图像语义特征602a(交叉注意力增强后的图像语义特征)分别输入至特征融合组件60b，业务服务器通过特征融合组件60b，对第一图像语义特征601a以及第二图像语义特征602a进行特征融合，得到图像语义增强特征603a。

步骤S104，根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，在类别标签集合中确定图像的目标类别标签。

具体的，标签增强网络层包括跨模态语义增强组件、特征池化组件以及特征分类组件；将标签词向量矩阵以及图像语义增强特征分别输入至跨模态语义增强组件；在跨模态语义增强组件中，基于标签词向量矩阵对图像语义增强特征进行特征加权，得到图像语义加权特征；将图像语义加权特征输入至特征池化组件，通过特征池化组件，得到图像语义加权特征对应的语义特征分类结果；将图像属性增强特征输入至特征分类组件，通过特征分类组件，得到图像属性增强特征对应的属性特征分类结果；对语义特征分类结果以及属性特征分类结果进行结果融合，得到目标分类结果；根据目标分类结果在类别标签集合中确定图像的目标类别标签。

其中，标签词向量矩阵包括至少两个标签词向量；至少两个标签词向量包括标签词向量A_b以及标签词向量A_c，b与c均为正整数，且b小于或等于至少两个标签词向量对应的总数量，c小于或等于至少两个标签词向量对应的总数量；跨模态语义增强组件包括标签相似子组件、第七全连接层子组件以及语义加权子组件；基于标签词向量矩阵对图像语义增强特征进行特征加权，得到图像语义加权特征的具体过程可以包括：通过标签相似子组件，获取标签词向量A_b以及标签词向量A_c之间的向量相似度，基于获取到的向量相似度生成标签相似矩阵；通过第七全连接层子组件，对图像语义增强特征进行特征变换，得到待加权图像语义增强特征；将标签相似矩阵以及待加权图像语义增强特征分别输入至语义加权子组件；在语义加权子组件中，基于标签相似矩阵对待加权图像语义增强特征进行特征加权，得到图像语义加权特征。

结合步骤S102-步骤S103，本申请先通过跨模态融合网络层增强图像属性初始特征，再通过模态内融合网络层增强图像语义初始特征，循环N轮后，将标签词向量矩阵、增强后的图像属性特征(即图像属性增强特征)和增强后的图像语义特征(即图像语义增强特征)，分别输入至标签增强网络层，在标签增强网络层中，利用文字模态信息中的标签相关性对图像语义增强特征进行加权增强。请一并参见图7，图7是本申请实施例提供的一种数据处理的场景示意图。如图7所示，标签增强网络层可以包括跨模态语义增强组件80d、特征池化组件以及特征分类组件；业务服务器将标签词向量矩阵40d以及图像语义增强特征603a分别输入至跨模态语义增强组件80d，该跨模态语义增强组件80d可以包括标签相似子组件、第七全连接层子组件以及语义加权子组件。

通过标签相似子组件，业务服务器获取标签词向量矩阵40d中每两个标签词向量之间的向量相似度(可以包括标签词向量本身的向量相似度，即为1)，如图8所示例，业务服务器获取标签词向量401d以及标签词向量402d之间的向量相似度，标签词向量401d以及标签词向量403d之间的向量相似度，以及标签词向量401d以及标签词向量401d之间的向量相似度，其余标签词向量亦如此，此处不进行赘述，故可以得到N*N的标签相似矩阵80a，N等于类别标签集合中的类别标签的总数量，如图8所示例，N＝3，即标签相似矩阵80a为一个3*3的矩阵。本申请实施例不对获取向量相似度的方法进行限定，可以为任意一种相似度计算方法，例如欧氏距离、皮尔逊相关系数以及余弦相似度等算法。

通过第七全连接层子组件，业务服务器对图像语义增强特征603a进行特征变换，将其特征维度调整为与标签相似矩阵80a相同的维度，得到待加权图像语义增强特征80b；进一步，将标签相似矩阵80a以及待加权图像语义增强特征80b分别输入至语义加权子组件80c，在语义加权子组件80c中，基于标签相似矩阵80a对待加权图像语义增强特征80b进行特征加权，即利用标签词向量之间的相关性对待加权图像语义增强特征进行加权增强，得到图像语义加权特征80c。

进一步，将图像语义加权特征80c输入至特征池化组件，本申请实施例中的特征池化组件可以为一个全局池化层，通过特征池化组件，业务服务器得到图像语义加权特征80c对应的语义特征分类结果801e，该语义特征分类结果801e可以是一个N维的概率向量；此外，业务服务器将图像属性增强特征502a输入至特征分类组件，通过特征分类组件，得到图像属性增强特征502a对应的属性特征分类结果802e，该属性特征分类结果802e可以是一个N维的概率向量；进一步，业务服务器对语义特征分类结果801e以及属性特征分类结果802e进行结果融合，得到目标分类结果803e，结果融合表示可以如公式(1)。

CLS_final＝CLS_sem+CLS_patch (1)

其中，公式(1)中的CLS_sem表示语义特征分类结果801e，CLS_patch可以表示属性特征分类结果802e，CLS_final可以表示目标分类结果803e。

请再参见图7，业务服务器可以根据目标分类结果803e在类别标签集合40b中确定图像的目标类别标签。本申请实施例中的目标类别标签的总数量应当根据图像确定，可以为1个或多个。多标签识别是指同时预测出一张图片上的多个共存类别标签，在多标签识别中，有些类别经常一起出现，而有些类别一般不会一起出现，该现象称为共现依赖。

上述可知，本方案通过跨模态与模态内特征融合增强操作，既使用标签之间的相关性对图像特征(包括图语义特征以及图像属性特征)进行了跨模态增强，又利用图像语义特征和图像属性特征进行了模态内的相互增强，故可以辅助用户进行图片属性、内容的精准识别。

请参见图8，图8是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由业务服务器(例如，上述图1所示的业务服务器100)执行，也可以由终端设备(例如，上述图1所示的终端设备200a)执行，还可以由业务服务器和终端设备交互执行。为便于理解，本申请实施例以该方法由业务服务器执行为例进行说明。如图8所示，该方法至少可以包括以下步骤。

步骤S201，获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征。

步骤S202，获取图像识别模型，将标签词向量矩阵以及图像属性初始特征分别输入至图像识别模型；图像识别模型包括跨模态融合网络层，跨模态融合网络层包括跨模态交叉注意力融合组件以及特征加权组件。

具体的，本申请实施例的图像识别模型主要包含三部分，分别是图像属性初始特征与标签词向量矩阵之间的跨模态融合网络层、图像属性特征与图像语义初始特征之间的模态内融合网络层、图像语义增强特征与标签词向量矩阵之间的跨模态语义增强网络层(也可称作标签增强网络层)。具体地说，跨模态融合网络层是将文字模态信息与图像模态中的图像属性初始特征进行融合，从而增强图像属性初始特征；模态内融合网络层是利用增强后的图像属性特征与图像语义初始特征进行融合，从而增强图像语义初始特征；跨模态语义增强网络层是利用文字模态信息中的标签相关性对图像语义增强特征进行加权增强。

步骤S201-步骤S202的具体实现过程，请参见上文图3所对应的实施例中的步骤S101-步骤S102，此处不进行赘述。

步骤S203，通过跨模态交叉注意力融合组件，对标签词向量矩阵以及图像属性初始特征进行特征融合，得到与标签词向量矩阵相关联的跨模态关联矩阵。

具体的，跨模态交叉注意力融合组件包括全连接层子组件、特征点积子组件、矩阵缩放子组件以及矩阵归一化子组件；通过全连接层子组件，对图像属性初始特征进行特征变换，得到待融合图像属性特征；将待融合图像属性特征以及标签词向量矩阵分别输入至特征点积子组件；通过特征点积子组件，对待融合图像属性特征以及标签词向量矩阵进行特征点积，得到待缩放跨模态关联矩阵；将待缩放跨模态关联矩阵输入至矩阵缩放子组件，通过矩阵缩放子组件，对待缩放跨模态关联矩阵进行特征缩放，得到待归一化跨模态关联矩阵；将待归一化跨模态关联矩阵输入至矩阵归一化子组件，通过矩阵归一化子组件，对待归一化跨模态关联矩阵进行特征归一化，得到与标签词向量矩阵相关联的跨模态关联矩阵。

在跨模态交叉注意力融合组件中，通过交叉注意力，业务服务器对标签词向量矩阵以及图像属性初始特征进行特征融合，得到跨模态关联矩阵，该特征融合可以表示为如下公式(2)。

其中，公式(2)中的N_P表示子图像的数量，N_C表示类别标签集合中类别标签的总数量，T_patch表示图像属性初始特征，其数量对应于子图像的数量，本申请实施例对图像属性初始特征的特征通道数以及图像属性初始特征的特征维度均不限定，可以根据实际应用场景进行调整；T_label表示标签词向量矩阵，即由N_C个标签词向量组成；

表示全连接层子组件，也可以理解为一个全连接层的权重参数，T_patch经过

均目的是将图像属性初始特征的特征维度与标签词向量对应的向量维度对齐，

表示待融合图像属性特征，该特征的特征维度等同于标签词向量对应的向量维度；公式(2)中的D(.)表示缩放点积操作，可以包括特征点积子组件以及矩阵缩放子组件，首先通过特征点积子组件，对待融合图像属性特征

以及标签词向量矩阵T_label进行特征点积，得到待缩放跨模态关联矩阵，然后通过矩阵缩放子组件，对待缩放跨模态关联矩阵进行特征缩放，得到待归一化跨模态关联矩阵，本申请实施例不对缩放因子进行限定，可以根据实际应用场景进行调整，例如可以为标签词向量的向量维度的算术平方根；

是归一化函数，i∈N_P×N_C，j表示(∑(N_P×N_C))，等同于上述的矩阵归一化子组件，通过该矩阵归一化子组件，对待归一化跨模态关联矩阵进行特征归一化，得到与标签词向量矩阵T_label相关联的跨模态关联矩阵M^inter。

步骤S204，将跨模态关联矩阵以及图像属性初始特征分别输入至特征加权组件；在特征加权组件中，根据跨模态关联矩阵对图像属性初始特征进行特征加权，得到图像属性特征。

具体的，其特征在于，特征加权组件包括全连接层子组件、加权权重子组件、加权归一化子组件以及属性加权子组件；通过全连接层子组件，对图像属性初始特征进行特征变换，得到待融合图像属性特征；通过加权权重子组件，对跨模态关联矩阵以及标签词向量矩阵进行特征乘积，得到针对待融合图像属性特征的待归一化加权权重；将待归一化加权权重输入至加权归一化子组件，通过加权归一化子组件，对待归一化加权权重进行权重归一化，得到针对待融合图像属性特征的特征加权权重；将特征加权权重以及待融合图像属性特征分别输入至属性加权子组件；在属性加权子组件中，基于特征加权权重对待融合图像属性特征进行特征加权，得到图像属性特征。

在特征加权组件中，通过跨模态关联矩阵，业务服务器对图像属性初始特征T_patch进行加权增强，其过程可以表示为如下公式(3)。

其中，公式(3)中的

的含义请参见公式(2)中的

的描述，M^interT_label可以表示通过加权权重子组件，对跨模态关联矩阵M^inter以及标签词向量矩阵T_label进行特征乘积所得到的待归一化加权权重；softmax为归一化函数，等同于上述的加权归一化子组件，softmax(M^interT_label)可以表示特征加权权重，公式(3)中的符号“⊙”表示点乘操作，符号“+”可以表示属性加权子组件，通过属性加权子组件，得到图像属性特征

步骤S205，将图像属性特征输入至第一全连接层子组件，通过第一全连接层子组件对图像属性特征进行特征变换，得到第一待融合图像属性特征；将图像属性特征输入至第二全连接层子组件，通过第二全连接层子组件对图像属性特征进行特征变换，得到第二待融合图像属性特征；将图像属性特征输入至第三全连接层子组件，通过第三全连接层子组件对图像属性特征进行特征变换，得到待增强图像属性特征。

具体的，跨模态融合网络层还包括跨模态自注意力增强组件，跨模态自注意力增强组件包括第一全连接层子组件、第二全连接层子组件、第三全连接层子组件以及跨模态自注意力增强子组件。

其中，第一全连接层子组件、第二全连接层子组件、第三全连接层子组件为并列关系，均用于对图像属性特征进行特征变换，除了具有与标签词向量的向量维度对齐的功能，该处理还可以提升表征能力，以及提升泛化性。其表示请参见下文步骤S206。

步骤S206，将第一待融合图像属性特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至跨模态自注意力增强子组件；在跨模态自注意力增强子组件中，通过第一待融合图像属性特征以及第二待融合图像属性特征，对待增强图像属性特征进行特征增强，得到图像属性增强特征。

具体的，跨模态自注意力增强子组件包括第一特征转置子组件、第一增强权重子组件、第一增强缩放子组件、第一增强归一化子组件以及属性增强子组件；通过第一特征转置子组件，对第二待融合图像属性特征进行特征转置，得到第二待融合图像属性特征对应的转置图像属性特征；将转置图像属性特征以及第一待融合图像属性特征分别输入至第一增强权重子组件；通过第一增强权重子组件，对第一待融合图像属性特征以及转置图像属性特征进行特征乘积，得到针对待增强图像属性特征的第一待缩放增强权重；将第一待缩放增强权重输入至第一增强缩放子组件，通过第一增强缩放子组件，对第一待缩放增强权重进行权重缩放，得到第一待归一化增强权重；将第一待归一化增强权重输入至第一增强归一化子组件，通过第一增强归一化子组件，对第一待归一化增强权重进行权重归一化，得到第一特征增强权重；将第一特征增强权重以及待增强图像属性特征分别输入至属性增强子组件；在属性增强子组件中，基于第一特征增强权重对待增强图像属性特征进行特征增强，得到图像属性增强特征。

该步骤通过自注意力，进一步增强图像属性特征之间的联系，以及增强表征能力，得到进一步增强后的图像属性增强特征，该过程可以表示为如下公式(4)。

其中，公式(4)中的

表示第一全连接层子组件，可以理解为一个全连接层的权重参数，

表示第二全连接层子组件，可以理解为另一个全连接层的权重参数，

表示第三全连接层子组件，可以理解为又一个全连接层的权重参数；

表示第一待融合图像属性特征，

表示第二待融合图像属性特征，

表示待增强图像属性特征；符号“T”表示第一特征转置子组件，

表示转置图像属性特征，

表示第一待缩放增强权重，D_h表示第一增强缩放子组件中的缩放因子，本申请实施例不对D_h进行限定，可以根据实际应用场景进行设定，可以为标签词向量的向量维度的算术平方根；softmax表示第一增强归一化子组件，softmax()表示第一特征增强权重，

表示图像属性增强特征。

步骤S207，将图像语义初始特征输入至模态内自注意力增强组件，通过模态内自注意力增强组件，对图像语义初始特征进行特征增强，得到第一图像语义特征。

具体的，模态内自注意力增强组件包括第四全连接层子组件、第五全连接层子组件、第六全连接层子组件以及模态内自注意力增强子组件；通过第四全连接层子组件对图像语义初始特征进行特征变换，得到第一待融合图像语义特征；通过第五全连接层子组件对图像语义初始特征进行特征变换，得到第二待融合图像语义特征；通过第六全连接层子组件对图像语义初始特征进行特征变换，得到待增强图像语义特征；将第一待融合图像语义特征、第二待融合图像语义特征以及待增强图像语义特征分别输入至模态内自注意力增强子组件；在模态内自注意力增强子组件中，通过第一待融合图像语义特征以及第二待融合图像语义特征，对待增强图像语义特征进行特征增强，得到第一图像语义特征。

其中，模态内自注意力增强子组件包括第二特征转置子组件、第二增强权重子组件、第二增强缩放子组件、第二增强归一化子组件以及第一语义增强子组件；在模态内自注意力增强子组件中，得到第一图像语义特征的具体过程可以包括：通过第二特征转置子组件，对第二待融合图像语义特征进行特征转置，得到第二待融合图像语义特征对应的转置图像语义特征；将转置图像语义特征以及第一待融合图像语义特征分别输入至第二增强权重子组件；通过第二增强权重子组件，对第一待融合图像语义特征以及转置图像语义特征进行特征乘积，得到针对待增强图像语义特征的第二待缩放增强权重；将第二待缩放增强权重输入至第二增强缩放子组件，通过第二增强缩放子组件，对第二待缩放增强权重进行权重缩放，得到第二待归一化增强权重；将第二待归一化增强权重输入至第二增强归一化子组件，通过第二增强归一化子组件，对第二待归一化增强权重进行权重归一化，得到第二特征增强权重；将第二特征增强权重以及待增强图像语义特征分别输入至第一语义增强子组件；在第一语义增强子组件中，基于第二特征增强权重，对待增强图像语义特征进行特征增强，得到第一图像语义特征。

其中，第四全连接层子组件、第五全连接层子组件、第六全连接层子组件为并列关系，均用于对图像属性特征进行特征变换，除了具有与标签词向量的向量维度对齐的功能，该处理还可以提升表征能力，以及提升泛化性。

在该步骤中，对于图像属性特征

和图像语义初始特征T_sem，可以先对图像语义初始特征通过自注意力增强得到增强后的图像语义特征，即第一图像语义特征，该过程可以表示为如下公式(5)。

其中，公式(5)中的

表示第四全连接层子组件，可以理解为一个全连接层的权重参数，

表示第五全连接层子组件，可以理解为另一个全连接层的权重参数，

表示第六全连接层子组件，可以理解为又一个全连接层的权重参数；D_h、符合“T”以及softmax可以参见上文公式(4)的解释，在两个公式中的功能一致，区别是处理的数据不相同；

表示第一待融合图像语义特征，

表示第二待融合图像语义特征，

表示待增强图像语义特征；

表示转置图像语义特征，

表示第一图像语义特征；可以理解的是，公式(4)与公式(5)分别对应的处理过程以及表示过程基本相似，区别仅在于处理的数据不相同，所以此处对公式(5)中的部分表示不进行赘述，可以参见上文针对公式(4)的描述。

步骤S208，将图像语义初始特征以及图像属性特征分别输入至模态内交叉注意力增强组件；通过模态内交叉注意力融合组件，对图像语义初始特征以及图像属性特征进行特征融合，得到第二图像语义特征。

具体的，模态内交叉注意力融合组件包括第四全连接层子组件、第二全连接层子组件、第三全连接层子组件以及模态内交叉注意力增强子组件；通过第四全连接层子组件对图像语义初始特征进行特征变换，得到第一待融合图像语义特征；通过第二全连接层子组件对图像属性特征进行特征变换，得到第二待融合图像属性特征；通过第三全连接层子组件对图像属性特征进行特征变换，得到待增强图像属性特征；将第一待融合图像语义特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至模态内交叉注意力增强子组件；在模态内交叉注意力增强子组件中，通过第一待融合图像语义特征以及第二待融合图像属性特征，对待增强图像属性特征进行特征增强，得到第二图像语义特征。

其中，模态内交叉注意力增强子组件包括第一特征转置子组件、第三增强权重子组件、第三增强缩放子组件、第三增强归一化子组件以及第二语义增强子组件；在模态内交叉注意力增强子组件中，得到第二图像语义特征的具体过程可以包括：通过第一特征转置子组件，对第二待融合图像属性特征进行特征转置，得到第二待融合图像属性特征对应的转置图像属性特征；将转置图像属性特征以及第一待融合图像语义特征分别输入至第三增强权重子组件；通过第三增强权重子组件，对第一待融合图像语义特征以及转置图像属性特征进行特征乘积，得到针对待增强图像属性特征的第三待缩放增强权重；将第三待缩放增强权重输入至第三增强缩放子组件，通过第三增强缩放子组件，对第三待缩放增强权重进行权重缩放，得到第三待归一化增强权重；将待第三归一化增强权重输入至第三增强归一化子组件，通过第三增强归一化子组件，对第三待归一化增强权重进行权重归一化，得到第三特征增强权重；将第三特征增强权重以及待增强图像属性特征分别输入至第二语义增强子组件；在第二语义增强子组件中，基于第三特征增强权重，对待增强图像属性特征进行特征增强，得到第二图像语义特征。

在该步骤中，业务服务器利用图像属性特征，通过交叉注意力对图像语义初始特征进行模态内的特征增强，该过程可以用如下公式(6)表示。

其中，公式(6)中的

表示第二图像语义特征，其余符号以及表述可以参见上文公式(4)以及公式(5)分别对应的描述，此处不进行赘述，可以理解的是，公式(6)与公式(5)的区别仅在于处理的数据不同，其处理过程是一致的。

步骤S209，将第一图像语义特征以及第二图像语义特征分别输入至特征融合组件；通过特征融合组件，对第一图像语义特征以及第二图像语义特征进行特征融合，得到图像语义增强特征。

具体的，业务服务器将自注意力增强后的图像语义特征(即第一图像语义特征)，和交叉注意力增强后的图像语义特征(即第二图像语义特征)通过加和的形式融合，得到最后增强后的图像语义特征，即图像语义增强特征，该过程可以用如下公式(7)表示。

其中，公式(7)中的

表示第一图像语义特征，

表示第二图像语义特征，

表示图像语义增强特征。

步骤S210，根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，在类别标签集合中确定图像的目标类别标签。

其中，步骤S210的具体实现过程，请参见上文图3所对应的实施例中的步骤S104，此处不进行赘述。

上述可知，本申请不仅对文本模态特征(标签词向量矩阵)以及图像模态特征(图像属性初始特征)进行跨模态特征融合，以增强图像模态特征，得到图像属性增强特征，还可以对图像属性特征以及图像语义初始特征进行模态内的特征融合，以增强图像语义初始特征，得到图像语义增强特征；通过跨模态特征融合以及模态内特征融合，可以综合多模态信息，生成包括多模态信息的特征，进而可以提高图像的特征表征能力，故可以提高图像的目标类别标签的识别准确度。

进一步地，请参见图9，图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示，该数据处理装置1可以包括：获取数据模块11、第一融合模块12、第二融合模块13以及确定标签模块14。

获取数据模块11，用于获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及图像对应的图像语义初始特征：

第一融合模块12，用于对标签词向量矩阵以及图像属性初始特征进行特征融合，得到图像属性特征，对图像属性特征进行自注意力增强，得到图像属性增强特征；标签词向量矩阵是基于每个类别标签分别对应的标签词向量所生成的；

第二融合模块13，用于对图像属性特征以及图像语义初始特征进行特征融合，得到图像语义增强特征；

确定标签模块14，用于根据标签词向量矩阵、图像语义增强特征以及图像属性增强特征，在类别标签集合中确定图像的目标类别标签。

其中，获取数据模块11、第一融合模块12、第二融合模块13以及确定标签模块14的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S104，这里不再进行赘述。

再请参见图9，第一融合模块12可以包括：第一获取单元121、第一融合单元122以及第一加权单元123。

第一获取单元121，用于获取图像识别模型，将标签词向量矩阵以及图像属性初始特征分别输入至图像识别模型；图像识别模型包括跨模态融合网络层，跨模态融合网络层包括跨模态交叉注意力融合组件以及特征加权组件；

第一融合单元122，用于通过跨模态交叉注意力融合组件，对标签词向量矩阵以及图像属性初始特征进行特征融合，得到与标签词向量矩阵相关联的跨模态关联矩阵；

第一加权单元123，用于将跨模态关联矩阵以及图像属性初始特征分别输入至特征加权组件；

第一加权单元123，还用于在特征加权组件中，根据跨模态关联矩阵对图像属性初始特征进行特征加权，得到图像属性特征。

其中，第一获取单元121、第一融合单元122以及第一加权单元123的具体功能实现方式可以参见上述图8对应实施例中的步骤S202-步骤S204，这里不再进行赘述。

再请参见图9，跨模态交叉注意力融合组件包括全连接层子组件、特征点积子组件、矩阵缩放子组件以及矩阵归一化子组件；

第一融合单元122可以包括：第一变换子单元1221、第一输入子单元1222、第二输入子单元1223以及第一生成子单元1224。

第一变换子单元1221，用于通过全连接层子组件，对图像属性初始特征进行特征变换，得到待融合图像属性特征；

第一输入子单元1222，用于将待融合图像属性特征以及标签词向量矩阵分别输入至特征点积子组件；

第一输入子单元1222，还用于通过特征点积子组件，对待融合图像属性特征以及标签词向量矩阵进行特征点积，得到待缩放跨模态关联矩阵；

第二输入子单元1223，用于将待缩放跨模态关联矩阵输入至矩阵缩放子组件，通过矩阵缩放子组件，对待缩放跨模态关联矩阵进行特征缩放，得到待归一化跨模态关联矩阵；

第一生成子单元1224，用于将待归一化跨模态关联矩阵输入至矩阵归一化子组件，通过矩阵归一化子组件，对待归一化跨模态关联矩阵进行特征归一化，得到与标签词向量矩阵相关联的跨模态关联矩阵。

其中，第一变换子单元1221、第一输入子单元1222、第二输入子单元1223以及第一生成子单元1224的具体功能实现方式可以参见上述图8对应实施例中的步骤S203，这里不再进行赘述。

再请参见图9，特征加权组件包括全连接层子组件、加权权重子组件、加权归一化子组件以及属性加权子组件；

第一加权单元123可以包括：第二变换子单元1231、第二生成子单元1232、第三输入子单元1233以及第四输入子单元1234。

第二变换子单元1231，用于通过全连接层子组件，对图像属性初始特征进行特征变换，得到待融合图像属性特征；

第二生成子单元1232，用于通过加权权重子组件，对跨模态关联矩阵以及标签词向量矩阵进行特征乘积，得到针对待融合图像属性特征的待归一化加权权重；

第三输入子单元1233，用于将待归一化加权权重输入至加权归一化子组件，通过加权归一化子组件，对待归一化加权权重进行权重归一化，得到针对待融合图像属性特征的特征加权权重；

第四输入子单元1234，用于将特征加权权重以及待融合图像属性特征分别输入至属性加权子组件；

第四输入子单元1234，还用于在属性加权子组件中，基于特征加权权重对待融合图像属性特征进行特征加权，得到图像属性特征。

其中，第二变换子单元1231、第二生成子单元1232、第三输入子单元1233以及第四输入子单元1234的具体功能实现方式可以参见上述图8对应实施例中的步骤S204，这里不再进行赘述。

再请参见图9，跨模态融合网络层还包括跨模态自注意力增强组件，跨模态自注意力增强组件包括第一全连接层子组件、第二全连接层子组件、第三全连接层子组件以及跨模态自注意力增强子组件；

第一融合模块12可以包括：第一输入单元124、第二输入单元125、第三输入单元126以及第一增强单元127。

第一输入单元124，用于将图像属性特征输入至第一全连接层子组件，通过第一全连接层子组件对图像属性特征进行特征变换，得到第一待融合图像属性特征；

第二输入单元125，用于将图像属性特征输入至第二全连接层子组件，通过第二全连接层子组件对图像属性特征进行特征变换，得到第二待融合图像属性特征；

第三输入单元126，用于将图像属性特征输入至第三全连接层子组件，通过第三全连接层子组件对图像属性特征进行特征变换，得到待增强图像属性特征；

第一增强单元127，用于将第一待融合图像属性特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至跨模态自注意力增强子组件；

第一增强单元127，还用于在跨模态自注意力增强子组件中，通过第一待融合图像属性特征以及第二待融合图像属性特征，对待增强图像属性特征进行特征增强，得到图像属性增强特征。

其中，第一输入单元124、第二输入单元125、第三输入单元126以及第一增强单元127的具体功能实现方式可以参见上述图8对应实施例中的步骤S205-步骤S206，这里不再进行赘述。

再请参见图9，跨模态自注意力增强子组件包括第一特征转置子组件、第一增强权重子组件、第一增强缩放子组件、第一增强归一化子组件以及属性增强子组件；

第一增强单元127可以包括：第三生成子单元1271、第四生成子单元1272、第五输入子单元1273、第五生成子单元1274以及第六输入子单元1275。

第三生成子单元1271，用于通过第一特征转置子组件，对第二待融合图像属性特征进行特征转置，得到第二待融合图像属性特征对应的转置图像属性特征：

第四生成子单元1272，用于将转置图像属性特征以及第一待融合图像属性特征分别输入至第一增强权重子组件；

第四生成子单元1272，还用于通过第一增强权重子组件，对第一待融合图像属性特征以及转置图像属性特征进行特征乘积，得到针对待增强图像属性特征的第一待缩放增强权重；

第五输入子单元1273，用于将第一待缩放增强权重输入至第一增强缩放子组件，通过第一增强缩放子组件，对第一待缩放增强权重进行权重缩放，得到第一待归一化增强权重；

第五生成子单元1274，用于将第一待归一化增强权重输入至第一增强归一化子组件，通过第一增强归一化子组件，对第一待归一化增强权重进行权重归一化，得到第一特征增强权重；

第六输入子单元1275，用于将第一特征增强权重以及待增强图像属性特征分别输入至属性增强子组件；

第六输入子单元1275，还用于在属性增强子组件中，基于第一特征增强权重对待增强图像属性特征进行特征增强，得到图像属性增强特征。

其中，第三生成子单元1271、第四生成子单元1272、第五输入子单元1273、第五生成子单元1274以及第六输入子单元1275的具体功能实现方式可以参见上述图8对应实施例中的步骤S206，这里不再进行赘述。

再请参见图9，图像识别模型还包括模态内融合网络层，模态内融合网络层包括模态内自注意力增强组件、模态内交叉注意力融合组件以及特征融合组件；

第二融合模块13可以包括：第二增强单元131、第二融合单元132以及第三融合单元133。

第二增强单元131，用于将图像语义初始特征输入至模态内自注意力增强组件，通过模态内自注意力增强组件，对图像语义初始特征进行特征增强，得到第一图像语义特征；

第二融合单元132，用于将图像语义初始特征以及图像属性特征分别输入至模态内交叉注意力增强组件；

第二融合单元132，还用于通过模态内交叉注意力融合组件，对图像语义初始特征以及图像属性特征进行特征融合，得到第二图像语义特征；

第三融合单元133，用于将第一图像语义特征以及第二图像语义特征分别输入至特征融合组件；

第三融合单元133，还用于通过特征融合组件，对第一图像语义特征以及第二图像语义特征进行特征融合，得到图像语义增强特征。

其中，第二增强单元131、第二融合单元132以及第三融合单元133的具体功能实现方式可以参见上述图8对应实施例中的步骤S207-步骤S209，这里不再进行赘述。

再请参见图9，模态内自注意力增强组件包括第四全连接层子组件、第五全连接层子组件、第六全连接层子组件以及模态内自注意力增强子组件；

第二增强单元131可以包括：第三变换子单元1311、第四变换子单元1312、第五变换子单元1313以及第七输入子单元1314。

第三变换子单元1311，用于通过第四全连接层子组件对图像语义初始特征进行特征变换，得到第一待融合图像语义特征；

第四变换子单元1312，用于通过第五全连接层子组件对图像语义初始特征进行特征变换，得到第二待融合图像语义特征；

第五变换子单元1313，用于通过第六全连接层子组件对图像语义初始特征进行特征变换，得到待增强图像语义特征；

第七输入子单元1314，用于将第一待融合图像语义特征、第二待融合图像语义特征以及待增强图像语义特征分别输入至模态内自注意力增强子组件；

第七输入子单元1314，还用于在模态内自注意力增强子组件中，通过第一待融合图像语义特征以及第二待融合图像语义特征，对待增强图像语义特征进行特征增强，得到第一图像语义特征。

其中，第三变换子单元1311、第四变换子单元1312、第五变换子单元1313以及第七输入子单元1314的具体功能实现方式可以参见上述图8对应实施例中的步骤S207，这里不再进行赘述。

再请参见图9，模态内自注意力增强子组件包括第二特征转置子组件、第二增强权重子组件、第二增强缩放子组件、第二增强归一化子组件以及第一语义增强子组件；

第七输入子单元1314可以包括：第一转置子单元13141、第一乘积子单元13142、第一缩放子单元13143、第一归一子单元13144以及第一增强子单元13145。

第一转置子单元13141，用于通过第二特征转置子组件，对第二待融合图像语义特征进行特征转置，得到第二待融合图像语义特征对应的转置图像语义特征；

第一乘积子单元13142，用于将转置图像语义特征以及第一待融合图像语义特征分别输入至第二增强权重子组件；

第一乘积子单元13142，还用于通过第二增强权重子组件，对第一待融合图像语义特征以及转置图像语义特征进行特征乘积，得到针对待增强图像语义特征的第二待缩放增强权重；

第一缩放子单元13143，用于将第二待缩放增强权重输入至第二增强缩放子组件，通过第二增强缩放子组件，对第二待缩放增强权重进行权重缩放，得到第二待归一化增强权重；

第一归一子单元13144，用于将第二待归一化增强权重输入至第二增强归一化子组件，通过第二增强归一化子组件，对第二待归一化增强权重进行权重归一化，得到第二特征增强权重；

第一增强子单元13145，用于将第二特征增强权重以及待增强图像语义特征分别输入至第一语义增强子组件；

第一增强子单元13145，还用于在第一语义增强子组件中，基于第二特征增强权重，对待增强图像语义特征进行特征增强，得到第一图像语义特征。

其中，第一转置子单元13141、第一乘积子单元13142、第一缩放子单元13143、第一归一子单元13144以及第一增强子单元13145的具体功能实现方式可以参见上述图8对应实施例中的步骤S207，这里不再进行赘述。

再请参见图9，模态内交叉注意力融合组件包括第四全连接层子组件、第二全连接层子组件、第三全连接层子组件以及模态内交叉注意力增强子组件；

第二融合单元132可以包括：第六变换子单元1321、第七变换子单元1322、第八变换子单元1323以及第八输入子单元1324。

第六变换子单元1321，用于通过第四全连接层子组件对图像语义初始特征进行特征变换，得到第一待融合图像语义特征；

第七变换子单元1322，用于通过第二全连接层子组件对图像属性特征进行特征变换，得到第二待融合图像属性特征；

第八变换子单元1323，用于通过第三全连接层子组件对图像属性特征进行特征变换，得到待增强图像属性特征；

第八输入子单元1324，用于将第一待融合图像语义特征、第二待融合图像属性特征以及待增强图像属性特征分别输入至模态内交叉注意力增强子组件；

第八输入子单元1324，还用于在模态内交叉注意力增强子组件中，通过第一待融合图像语义特征以及第二待融合图像属性特征，对待增强图像属性特征进行特征增强，得到第二图像语义特征。

其中，第六变换子单元1321、第七变换子单元1322、第八变换子单元1323以及第八输入子单元1324的具体功能实现方式可以参见上述图8对应实施例中的步骤S208，这里不再进行赘述。

再请参见图9，模态内交叉注意力增强子组件包括第一特征转置子组件、第三增强权重子组件、第三增强缩放子组件、第三增强归一化子组件以及第二语义增强子组件；

第八输入子单元1324可以包括：第二转置子单元13241、第二乘积子单元13242、第二缩放子单元13243、第二归一子单元13244以及第二增强子单元13245。

第二转置子单元13241，用于通过第一特征转置子组件，对第二待融合图像属性特征进行特征转置，得到第二待融合图像属性特征对应的转置图像属性特征；

第二乘积子单元13242，用于将转置图像属性特征以及第一待融合图像语义特征分别输入至第三增强权重子组件；

第二乘积子单元13242，还用于通过第三增强权重子组件，对第一待融合图像语义特征以及转置图像属性特征进行特征乘积，得到针对待增强图像属性特征的第三待缩放增强权重；

第二缩放子单元13243，用于将第三待缩放增强权重输入至第三增强缩放子组件，通过第三增强缩放子组件，对第三待缩放增强权重进行权重缩放，得到第三待归一化增强权重；

第二归一子单元13244，用于将待第三归一化增强权重输入至第三增强归一化子组件，通过第三增强归一化子组件，对第三待归一化增强权重进行权重归一化，得到第三特征增强权重；

第二增强子单元13245，用于将第三特征增强权重以及待增强图像属性特征分别输入至第二语义增强子组件；

第二增强子单元13245，还用于在第二语义增强子组件中，基于第三特征增强权重，对待增强图像属性特征进行特征增强，得到第二图像语义特征。

其中，第二转置子单元13241、第二乘积子单元13242、第二缩放子单元13243、第二归一子单元13244以及第二增强子单元13245的具体功能实现方式可以参见上述图8对应实施例中的步骤S208，这里不再进行赘述。

再请参见图9，图像识别模型还包括标签增强网络层，标签增强网络层包括跨模态语义增强组件、特征池化组件以及特征分类组件；

确定标签模块14可以包括：第二加权单元141、第二获取单元142、第三获取单元143以及第四融合单元144。

第二加权单元141，用于将标签词向量矩阵以及图像语义增强特征分别输入至跨模态语义增强组件；

第二加权单元141，还用于在跨模态语义增强组件中，基于标签词向量矩阵对图像语义增强特征进行特征加权，得到图像语义加权特征；

第二获取单元142，用于将图像语义加权特征输入至特征池化组件，通过特征池化组件，得到图像语义加权特征对应的语义特征分类结果；

第三获取单元143，用于将图像属性增强特征输入至特征分类组件，通过特征分类组件，得到图像属性增强特征对应的属性特征分类结果；

第四融合单元144，用于对语义特征分类结果以及属性特征分类结果进行结果融合，得到目标分类结果；

第四融合单元144，还用于根据目标分类结果在类别标签集合中确定图像的目标类别标签。

其中，第二加权单元141、第二获取单元142、第三获取单元143以及第四融合单元144的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

再请参见图9，标签词向量矩阵包括至少两个标签词向量；至少两个标签词向量包括标签词向量A_b以及标签词向量A_c，b与c均为正整数，且b小于或等于至少两个标签词向量对应的总数量，c小于或等于至少两个标签词向量对应的总数量；跨模态语义增强组件包括标签相似子组件、第七全连接层子组件以及语义加权子组件；

第二加权单元141可以包括：第六生成子单元1411、第九变换子单元1412以及第七生成子单元1413。

第六生成子单元1411，用于通过标签相似子组件，获取标签词向量A_b以及标签词向量A_c之间的向量相似度，基于获取到的向量相似度生成标签相似矩阵；

第九变换子单元1412，用于通过第七全连接层子组件，对图像语义增强特征进行特征变换，得到待加权图像语义增强特征；

第七生成子单元1413，用于将标签相似矩阵以及待加权图像语义增强特征分别输入至语义加权子组件；

第七生成子单元1413，还用于在语义加权子组件中，基于标签相似矩阵对待加权图像语义增强特征进行特征加权，得到图像语义加权特征。

其中，第六生成子单元1411、第九变换子单元1412以及第七生成子单元1413的具体功能实现方式可以参见上述图3对应实施例中的步骤S104，这里不再进行赘述。

再请参见图9，获取数据模块11可以包括：第四获取单元111、第五获取单元112、第六获取单元113以及第七获取单元114。

第四获取单元111，用于获取样本图像集；样本图像集中的每个样本图像均携带类别标签；

第四获取单元111，还用于根据每个样本图像分别携带的类别标签，生成类别标签集；

第五获取单元112，用于获取词向量模型，根据词向量模型获取类别标签集中的每个类别标签分别对应的标签词向量；

第六获取单元113，用于获取图像，对图像进行剪裁处理，获取D个子图像，获取D个子图像分别对应的图像属性初始特征；D为正整数，D个子图像分别对应的图像尺寸均相同，且D个子图像分别对应的图像尺寸均小于或等于图像对应的图像尺寸；

第七获取单元114，用于获取图像特征提取模型，根据图像特征提取模型获取图像对应的图像语义初始特征。

其中，第四获取单元111、第五获取单元112、第六获取单元113以及第七获取单元114的具体功能实现方式可以参见上述图3对应实施例中的步骤S101，这里不再进行赘述。

进一步地，请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，该计算机设备1000可以包括：至少一个处理器1001，例如CPU，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3以及图8所分别对应实施例中对数据处理方法的描述，也可执行前文图9所对应实施例中对数据处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现图3以及图8中各个步骤所提供的数据处理方法，具体可参见上述图3以及图8各个步骤所提供的实现方式，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可执行前文图3以及图8所分别对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及所述图像对应的图像语义初始特征；

对标签词向量矩阵以及所述图像属性初始特征进行特征融合，得到图像属性特征，对所述图像属性特征进行自注意力增强，得到图像属性增强特征；所述标签词向量矩阵是基于所述每个类别标签分别对应的标签词向量所生成的；

对所述图像属性特征以及所述图像语义初始特征进行特征融合，得到图像语义增强特征；

根据所述标签词向量矩阵、所述图像语义增强特征以及所述图像属性增强特征，在所述类别标签集合中确定所述图像的目标类别标签。

2.根据权利要求1所述的方法，其特征在于，所述对标签词向量矩阵以及所述图像属性初始特征进行特征融合，得到图像属性特征，包括：

获取图像识别模型，将所述标签词向量矩阵以及所述图像属性初始特征分别输入至所述图像识别模型；所述图像识别模型包括跨模态融合网络层，所述跨模态融合网络层包括跨模态交叉注意力融合组件以及特征加权组件；

通过所述跨模态交叉注意力融合组件，对所述标签词向量矩阵以及所述图像属性初始特征进行特征融合，得到与所述标签词向量矩阵相关联的跨模态关联矩阵；

将所述跨模态关联矩阵以及所述图像属性初始特征分别输入至所述特征加权组件；

在所述特征加权组件中，根据所述跨模态关联矩阵对所述图像属性初始特征进行特征加权，得到所述图像属性特征。

3.根据权利要求2所述的方法，其特征在于，所述跨模态交叉注意力融合组件包括全连接层子组件、特征点积子组件、矩阵缩放子组件以及矩阵归一化子组件；

所述通过所述跨模态交叉注意力融合组件，对所述标签词向量矩阵以及所述图像属性初始特征进行特征融合，得到与所述标签词向量矩阵相关联的跨模态关联矩阵，包括：

通过所述全连接层子组件，对所述图像属性初始特征进行特征变换，得到待融合图像属性特征；

将所述待融合图像属性特征以及所述标签词向量矩阵分别输入至所述特征点积子组件；

通过所述特征点积子组件，对所述待融合图像属性特征以及所述标签词向量矩阵进行特征点积，得到待缩放跨模态关联矩阵；

将所述待缩放跨模态关联矩阵输入至所述矩阵缩放子组件，通过所述矩阵缩放子组件，对所述待缩放跨模态关联矩阵进行特征缩放，得到待归一化跨模态关联矩阵；

将所述待归一化跨模态关联矩阵输入至所述矩阵归一化子组件，通过所述矩阵归一化子组件，对所述待归一化跨模态关联矩阵进行特征归一化，得到与所述标签词向量矩阵相关联的所述跨模态关联矩阵。

4.根据权利要求2所述的方法，其特征在于，所述特征加权组件包括全连接层子组件、加权权重子组件、加权归一化子组件以及属性加权子组件；

所述在所述特征加权组件中，根据所述跨模态关联矩阵对所述图像属性初始特征进行特征加权，得到所述图像属性特征，包括：

通过所述加权权重子组件，对所述跨模态关联矩阵以及所述标签词向量矩阵进行特征乘积，得到针对所述待融合图像属性特征的待归一化加权权重；

将所述待归一化加权权重输入至所述加权归一化子组件，通过所述加权归一化子组件，对所述待归一化加权权重进行权重归一化，得到针对所述待融合图像属性特征的特征加权权重；

将所述特征加权权重以及所述待融合图像属性特征分别输入至所述属性加权子组件；

在所述属性加权子组件中，基于所述特征加权权重对所述待融合图像属性特征进行特征加权，得到所述图像属性特征。

5.根据权利要求2所述的方法，其特征在于，所述跨模态融合网络层还包括跨模态自注意力增强组件，所述跨模态自注意力增强组件包括第一全连接层子组件、第二全连接层子组件、第三全连接层子组件以及跨模态自注意力增强子组件；

所述对所述图像属性特征进行自注意力增强，得到图像属性增强特征，包括：

将所述图像属性特征输入至所述第一全连接层子组件，通过所述第一全连接层子组件对所述图像属性特征进行特征变换，得到第一待融合图像属性特征；

将所述图像属性特征输入至所述第二全连接层子组件，通过所述第二全连接层子组件对所述图像属性特征进行特征变换，得到第二待融合图像属性特征；

将所述图像属性特征输入至所述第三全连接层子组件，通过所述第三全连接层子组件对所述图像属性特征进行特征变换，得到待增强图像属性特征；

将所述第一待融合图像属性特征、所述第二待融合图像属性特征以及所述待增强图像属性特征分别输入至所述跨模态自注意力增强子组件；

在所述跨模态自注意力增强子组件中，通过所述第一待融合图像属性特征以及所述第二待融合图像属性特征，对所述待增强图像属性特征进行特征增强，得到所述图像属性增强特征。

6.根据权利要求5所述的方法，其特征在于，所述跨模态自注意力增强子组件包括第一特征转置子组件、第一增强权重子组件、第一增强缩放子组件、第一增强归一化子组件以及属性增强子组件；

所述在所述跨模态自注意力增强子组件中，通过所述第一待融合图像属性特征以及所述第二待融合图像属性特征，对所述待增强图像属性特征进行特征增强，得到所述图像属性增强特征，包括：

通过所述第一特征转置子组件，对所述第二待融合图像属性特征进行特征转置，得到所述第二待融合图像属性特征对应的转置图像属性特征；

将所述转置图像属性特征以及所述第一待融合图像属性特征分别输入至所述第一增强权重子组件；

通过所述第一增强权重子组件，对所述第一待融合图像属性特征以及所述转置图像属性特征进行特征乘积，得到针对所述待增强图像属性特征的第一待缩放增强权重；

将所述第一待缩放增强权重输入至所述第一增强缩放子组件，通过所述第一增强缩放子组件，对所述第一待缩放增强权重进行权重缩放，得到第一待归一化增强权重；

将所述第一待归一化增强权重输入至所述第一增强归一化子组件，通过所述第一增强归一化子组件，对所述第一待归一化增强权重进行权重归一化，得到第一特征增强权重；

将所述第一特征增强权重以及所述待增强图像属性特征分别输入至所述属性增强子组件；

在所述属性增强子组件中，基于所述第一特征增强权重对所述待增强图像属性特征进行特征增强，得到所述图像属性增强特征。

7.根据权利要求2所述的方法，其特征在于，所述图像识别模型还包括模态内融合网络层，所述模态内融合网络层包括模态内自注意力增强组件、模态内交叉注意力融合组件以及特征融合组件；

所述对所述图像属性特征以及所述图像语义初始特征进行特征融合，得到图像语义增强特征，包括：

将所述图像语义初始特征输入至所述模态内自注意力增强组件，通过所述模态内自注意力增强组件，对所述图像语义初始特征进行特征增强，得到第一图像语义特征；

将所述图像语义初始特征以及所述图像属性特征分别输入至所述模态内交叉注意力增强组件；

通过所述模态内交叉注意力融合组件，对所述图像语义初始特征以及所述图像属性特征进行特征融合，得到第二图像语义特征；

将所述第一图像语义特征以及所述第二图像语义特征分别输入至所述特征融合组件；

通过所述特征融合组件，对所述第一图像语义特征以及所述第二图像语义特征进行特征融合，得到所述图像语义增强特征。

8.根据权利要求7所述的方法，其特征在于，所述模态内自注意力增强组件包括第四全连接层子组件、第五全连接层子组件、第六全连接层子组件以及模态内自注意力增强子组件；

所述通过所述模态内自注意力增强组件，对所述图像语义初始特征进行特征增强，得到第一图像语义特征，包括：

通过所述第四全连接层子组件对所述图像语义初始特征进行特征变换，得到第一待融合图像语义特征；

通过所述第五全连接层子组件对所述图像语义初始特征进行特征变换，得到第二待融合图像语义特征；

通过所述第六全连接层子组件对所述图像语义初始特征进行特征变换，得到待增强图像语义特征；

将所述第一待融合图像语义特征、所述第二待融合图像语义特征以及所述待增强图像语义特征分别输入至所述模态内自注意力增强子组件；

在所述模态内自注意力增强子组件中，通过所述第一待融合图像语义特征以及所述第二待融合图像语义特征，对所述待增强图像语义特征进行特征增强，得到所述第一图像语义特征。

9.根据权利要求8所述的方法，其特征在于，所述模态内自注意力增强子组件包括第二特征转置子组件、第二增强权重子组件、第二增强缩放子组件、第二增强归一化子组件以及第一语义增强子组件；

所述在所述模态内自注意力增强子组件中，通过所述第一待融合图像语义特征以及所述第二待融合图像语义特征，对所述待增强图像语义特征进行特征增强，得到所述第一图像语义特征，包括：

通过所述第二特征转置子组件，对所述第二待融合图像语义特征进行特征转置，得到所述第二待融合图像语义特征对应的转置图像语义特征；

将所述转置图像语义特征以及所述第一待融合图像语义特征分别输入至所述第二增强权重子组件；

通过所述第二增强权重子组件，对所述第一待融合图像语义特征以及所述转置图像语义特征进行特征乘积，得到针对所述待增强图像语义特征的第二待缩放增强权重；

将所述第二待缩放增强权重输入至所述第二增强缩放子组件，通过所述第二增强缩放子组件，对所述第二待缩放增强权重进行权重缩放，得到第二待归一化增强权重；

将所述第二待归一化增强权重输入至所述第二增强归一化子组件，通过所述第二增强归一化子组件，对所述第二待归一化增强权重进行权重归一化，得到第二特征增强权重；

将所述第二特征增强权重以及所述待增强图像语义特征分别输入至所述第一语义增强子组件；

在所述第一语义增强子组件中，基于所述第二特征增强权重，对所述待增强图像语义特征进行特征增强，得到所述第一图像语义特征。

10.根据权利要求7所述的方法，其特征在于，所述模态内交叉注意力融合组件包括第四全连接层子组件、第二全连接层子组件、第三全连接层子组件以及模态内交叉注意力增强子组件；

所述通过所述模态内交叉注意力融合组件，对所述图像语义初始特征以及所述图像属性特征进行特征融合，得到第二图像语义特征，包括：

通过所述第二全连接层子组件对所述图像属性特征进行特征变换，得到第二待融合图像属性特征；

通过所述第三全连接层子组件对所述图像属性特征进行特征变换，得到待增强图像属性特征；

将所述第一待融合图像语义特征、所述第二待融合图像属性特征以及所述待增强图像属性特征分别输入至所述模态内交叉注意力增强子组件；

在所述模态内交叉注意力增强子组件中，通过所述第一待融合图像语义特征以及所述第二待融合图像属性特征，对所述待增强图像属性特征进行特征增强，得到所述第二图像语义特征。

11.根据权利要求10所述的方法，其特征在于，所述模态内交叉注意力增强子组件包括第一特征转置子组件、第三增强权重子组件、第三增强缩放子组件、第三增强归一化子组件以及第二语义增强子组件；

所述在所述模态内交叉注意力增强子组件中，通过所述第一待融合图像语义特征以及所述第二待融合图像属性特征，对所述待增强图像属性特征进行特征增强，得到所述第二图像语义特征，包括：

将所述转置图像属性特征以及所述第一待融合图像语义特征分别输入至所述第三增强权重子组件；

通过所述第三增强权重子组件，对所述第一待融合图像语义特征以及所述转置图像属性特征进行特征乘积，得到针对所述待增强图像属性特征的第三待缩放增强权重；

将所述第三待缩放增强权重输入至所述第三增强缩放子组件，通过所述第三增强缩放子组件，对所述第三待缩放增强权重进行权重缩放，得到第三待归一化增强权重；

将所述待第三归一化增强权重输入至所述第三增强归一化子组件，通过所述第三增强归一化子组件，对所述第三待归一化增强权重进行权重归一化，得到第三特征增强权重；

将所述第三特征增强权重以及所述待增强图像属性特征分别输入至所述第二语义增强子组件；

在所述第二语义增强子组件中，基于所述第三特征增强权重，对所述待增强图像属性特征进行特征增强，得到所述第二图像语义特征。

12.根据权利要求2所述的方法，其特征在于，所述图像识别模型还包括标签增强网络层，所述标签增强网络层包括跨模态语义增强组件、特征池化组件以及特征分类组件；

所述根据所述标签词向量矩阵、所述图像语义增强特征以及所述图像属性增强特征，在所述类别标签集合中确定所述图像的目标类别标签，包括：

将所述标签词向量矩阵以及所述图像语义增强特征分别输入至所述跨模态语义增强组件；

在所述跨模态语义增强组件中，基于所述标签词向量矩阵对所述图像语义增强特征进行特征加权，得到图像语义加权特征；

将所述图像语义加权特征输入至所述特征池化组件，通过所述特征池化组件，得到所述图像语义加权特征对应的语义特征分类结果；

将所述图像属性增强特征输入至所述特征分类组件，通过所述特征分类组件，得到所述图像属性增强特征对应的属性特征分类结果；

对所述语义特征分类结果以及所述属性特征分类结果进行结果融合，得到目标分类结果；

根据所述目标分类结果在所述类别标签集合中确定所述图像的所述目标类别标签。

13.根据权利要求12所述的方法，其特征在于，所述标签词向量矩阵包括至少两个标签词向量；所述至少两个标签词向量包括标签词向量A_b以及标签词向量A_c，b与c均为正整数，且b小于或等于所述至少两个标签词向量对应的总数量，c小于或等于所述至少两个标签词向量对应的总数量；所述跨模态语义增强组件包括标签相似子组件、第七全连接层子组件以及语义加权子组件；

所述在所述跨模态语义增强组件中，基于所述标签词向量矩阵对所述图像语义增强特征进行特征加权，得到图像语义加权特征，包括：

通过所述标签相似子组件，获取所述标签词向量A_b以及所述标签词向量A_c之间的向量相似度，基于获取到的向量相似度生成标签相似矩阵；

通过所述第七全连接层子组件，对所述图像语义增强特征进行特征变换，得到待加权图像语义增强特征；

将所述标签相似矩阵以及所述待加权图像语义增强特征分别输入至所述语义加权子组件；

在所述语义加权子组件中，基于所述标签相似矩阵对所述待加权图像语义增强特征进行特征加权，得到所述图像语义加权特征。

14.根据权利要求1所述的方法，其特征在于，所述获取类别标签集合中每个类别标签分别对应的标签词向量，获取图像对应的图像属性初始特征，以及所述图像对应的图像语义初始特征，包括：

获取样本图像集；所述样本图像集中的每个样本图像均携带类别标签；

根据所述每个样本图像分别携带的类别标签，生成所述类别标签集；

获取词向量模型，根据所述词向量模型获取所述类别标签集中的每个类别标签分别对应的标签词向量；

获取所述图像，对所述图像进行剪裁处理，获取D个子图像，获取所述D个子图像分别对应的图像属性初始特征；D为正整数，所述D个子图像分别对应的图像尺寸均相同，且所述D个子图像分别对应的图像尺寸均小于或等于所述图像对应的图像尺寸；

获取图像特征提取模型，根据所述图像特征提取模型获取所述图像对应的所述图像语义初始特征。

15.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供数据通信功能，所述存储器用于存储计算机程序，所述处理器用于调用所述计算机程序，以使得所述计算机设备执行权利要求1至14任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序适于由处理器加载并执行，以使得具有所述处理器的计算机设备执行权利要求1-14任一项所述的方法。

17.一种计算机程序产品，其特征在于，计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，所述计算机指令适于由处理器读取并执行，以使得具有所述处理器的计算机设备执行如权利要求1-14任一项的方法。