CN115223020A

CN115223020A - 图像处理方法、装置、电子设备以及可读存储介质

Info

Publication number: CN115223020A
Application number: CN202210861588.4A
Authority: CN
Inventors: 吴铭宇; 陈思宏; 陈宸
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-07-20
Filing date: 2022-07-20
Publication date: 2022-10-21
Anticipated expiration: 2042-07-20
Also published as: CN115223020B

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备以及可读存储介质，涉及人工智能、多媒体、以及云技术等领域。该方法包括：基于待处理图像，提取待处理图像对应的至少两种模态的数据特征；根据每种模态的数据特征，确定每种模态的数据特征的权重，其中，每种模态对应的权重表征了该模态的数据特征对于图像处理任务的贡献度；根据各模态的数据特征以及对应的权重，确定每种模态的目标特征；基于各模态的目标特征，确定待处理图像对应于图像处理任务的处理结果。基于本申请实施例提供的该方法，能够有效提高图像处理效果。

Description

图像处理方法、装置、电子设备以及可读存储介质

技术领域

本申请涉及人工智能、云技术以及多媒体技术领域，具体而言，本申请涉及一种图像处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

随着科技的快速发展和人们生活水平的提高，图像、视频等多种多样的多媒体数据已经成为日常生活中随处可见的信息，对于图像的处理需求也越来越多样化。在不同的应用场景中，对于图像、视频等数据的处理需求也有所不同。

随着人工智能技术研究和进步，人工智能技术也已经被广泛应用于各种数据的处理场景中，可以通过训练好的模型提取数据特征并基于特征预测出处理结果。对于图像、视频等多媒体数据，为了提升数据处理效果，多模态学习任务随之出现，目前，虽然有些多模态学习任务能够在一定程度改善处理效果，但由于多模态学习的复杂性，现有的多模态学习方式的数据处理效果并不理想，仍需改善。

发明内容

本申请实施例的目的旨在提供一种能够有效提升图像处理效果的图像处理方法、装置、电子设备及计算机可读存储介质。为了实现上述目的，本申请实施例提供的技术方案如下：

一方面，本申请实施例提供了一种图像处理方法，该方法包括：

获取待处理图像；基于所述待处理图像，提取所述待处理图像对应的至少两种模态的数据特征；

对于每种模态的数据特征，根据该模态的数据特征，确定该模态的数据特征的权重，每种模态的数据特征的权重表征了该模态的数据特征对于图像处理任务的贡献度；

根据各模态的数据特征以及对应的权重，确定每种模态的目标特征；

基于各模态的目标特征，确定所述待处理图像对应于所述图像处理任务的处理结果。

可选的，对于每种模态的数据特征，所述根据该模态的数据特征，确定该模态的数据特征的权重，包括：

若该模态的数据特征为图像特征，基于该图像特征中的每个特征图，确定每个特征图的权重；采用该图像特征中每个特征图的权重，对相应的特征图进行加权，基于加权后的各特征图，确定该图像特征的权重；

若该模态的数据特征为文本特征，根据该文本特征中各个特征点的特征值，确定该文本特征的权重。

可选的，所述基于该图像特征中的每个特征图，确定每个特征图的权重，包括：对于每个特征图，将该特征图中各特征点的特征值的均值作为该特征图的权重；

所述基于加权后的各特征图，确定该图像特征的权重，包括：将加权后的各特征图中所有特征点的特征值的均值，确定为该图像特征的权重。

另一方面，本申请实施例提供了一种图像处理装置，该装置包括：

图像获取模块，用于获取待处理图像；

多模态特征提取模块，用于基于所述待处理图像，提取所述待处理图像对应的至少两种模态的数据特征；

模态判别模块，用于对于每种模态的数据特征，根据该模态的数据特征，确定该模态对应的权重，每种模态的数据特征的权重表征了该模态的数据特征对于图像处理任务的贡献度；

多模态特征融合模块，用于根据各模态的数据特征以及对应的权重，确定每种模态的目标特征；

处理结果获取模块，用于基于各模态的目标特征，确定所述待处理图像对应于所述图像处理任务的处理结果。

可选的，多模态特征融合模块在确定每种模态的目标特征时可以用于：

对于每种模态的数据特征，确定该模态的数据特征与所述至少两种模态的数据特征中每种模态的数据特征之间的关联性，根据该模态的数据特征与所述至少两种模态的数据特征中每种模态的数据特征之间的关联性，对所述至少两种模态的数据特征中各模态的数据特征进行加权融合，得到该模态的融合后的特征；

采用每种模态对应的权重，对相应模态的融合后的特征进行加权，得到每种模态的目标特征。

对所述待处理图像对应的以下信息中的至少一项信息进行特征提取，得到每项信息的信息特征，将每项信息的信息特征作为一种模态的数据特征：

所述待处理图像；

所述待处理图像对应的文本；

至少一个图像块中的每个图像块，每个所述图像块为所述待处理图像中一个目标对象所在的图像区域。

可选的，多模态特征提取模块可以用于：对所述待处理图像进行特征提取，得到所述待处理图像的全局图像特征；基于所述全局图像特征，预测所述待处理图像中与所述图像处理任务关联的目标图像区域；对所述目标图像区域进行特征提取，得到关键图像特征，将所述关键图像特征作为一种模态的数据特征。

可选的，所述全局图像特征包括多个特征图，多模态特征提取模块在基于所述全局图像特征，预测所述待处理图像与所述图像处理任务关联的目标图像区域时，可以用于：

通过将所述多个特征图中相同位置的特征点的特征值进行融合，得到融合后的特征图；

基于所述融合后的特征图，确定所述融合后的特征图中每个特征点的权重，每个特征点的权重表征了该特征点对应的图像区域与所述图像处理任务的关联程度；

根据所述融合特征图中各个特征点的权重，确定所述待处理图像中的目标图像区域。

可选的，上述至少一项信息包括所述文本，多模态特征提取模块可以用于：对所述文本中的每个文本单元进行特征提取，得到每个文本单元的局部特征；对于所述文本进行全局特征提取，得到所述文本的全局特征；将所述文本的全局特征和各个文本单元的局部特征融合，得到所述文本的文本特征，将所述文本特征作为一种模态的数据特征。

可选的，多模态特征提取模块在得到所述文本的文本特征时，可以用于：

将所述文本的全局特征和各个文本单元的局部特征融合，得到融合特征；通过对所述融合特征再次进行特征提取，将所述融合特征转换至与所述图像处理任务对应的特征空间，将再次提取后的特征作为所述文本的文本特征。

可选的，对于每种模态的数据特征，模态判别模块可以用于：若该模态的数据特征为图像特征，基于该图像特征中的每个特征图，确定每个特征图的权重；采用该图像特征中每个特征图的权重，对相应的特征图进行加权，基于加权后的各特征图，确定该图像特征的权重；若该模态的数据特征为文本特征，根据该文本特征中各个特征点的特征值，确定该文本特征的权重。

可选的，模态判别模块在基于该图像特征中的每个特征图，确定每个特征图的权重时，可以用于：对于该图像特征中的每个特征图，确定该特征图中各个特征点的特征值的均值，将该均值确定为该特征图的权重。

可选的，模态判别模块在基于加权后的各特征图，确定该图像特征的权重时，可以用于：确定加权后的各个特征图中的所有特征点的特征值的均值，将该均值确定为该图像特征的权重。

可选的，图像处理装置在基于待处理图像，确定所述待处理图像对应于所述图像处理任务的处理结果时，是通过调用训练好的图像处理模型实现的，所述图像处理模型是基于训练样本集对神经网络模型重复执行训练操作得到的，所述训练样本集包括多个带有标签的样本图像，每个所述样本图像的标签表征了该样本图像对应于所述图像任务的真实处理结果。

可选的，所述图像处理模型是由模型训练装置通过以下方式训练得到的：

获取训练样本集；

基于所述训练样本集对神经网络模型重复执行训练操作，直至满足训练结束条件，将满足训练结束条件时的神经网络模型作为训练好的图像处理模型，其中，所述训练操作包括以下步骤：

对于每个所述样本图像，提取所述样本图像对应的至少两种模态的样本特征，根据每种模态的样本特征，确定该模态的样本特征的权重；

对于每个所述样本图像，基于该样本图像的每种模态的样本特征以及对应的权重，确定该样本图像的每种模态的目标样本特征；

对于每个所述样本图像，基于该样本图像的各模态的目标样本特征，预测该样本图像对应于所述图像处理任务的第一处理结果；

基于各所述样本图像的标签和各模态对应的权重，确定第一训练损失，基于各所述样本图像的标签和第一处理结果，确定第二训练损失，并根据所述第一训练损失和所述第二训练损失，得到训练总损失；

若不满足所述训练结束条件，则基于所述训练总损失对神经网络模型的模型参数进行调整。

可选的，所述神经网络模型包括第一网络模型和第二网络模型，其中，所述第一网络模型为预先训练好的；对于每个所述样本图像，模型训练装置可以通过以下方式提取所述样本图像对应的至少两种模态的样本特征：

通过所述第一网络模型提取所述样本图像对应的第一文本特征、样本图像特征(全局图像特征)、以及所述样本图像中至少一个目标对象中每个目标对象所在的图像区域的局部图像特征；

通过所述第二网络模型对所述第一文本特征进行特征转换，得到第二文本特征，并通过所述第二网络模型识别所述样本图像中与图像处理任务关联的样本目标区域，提取所述样本目标区域的样本关键特征；

将所述第二文本特征、样本图像特征、每个目标对象对应的局部图像特征和所述样本关键特征分别作为一种模态的样本特征；

其中，每种模态的样本特征的权重、以及所述样本图像的第一处理结果是通过第二网络模型确定的；

所述对神经网络模型的模型参数调整包括：对所述第二网络模型的模型参数进行调整。

可选的，所述第一网络模型包括文本特征提取模块(文本特征提取器)、所述图像特征提取模块(如卷积网络模型)和所述对象特征提取模块(如对象检测模型和卷积网络模型)，文本特征提取模块用于提取样本图像的第一文本特征，图像特征提取模块用于提取样本图像的样本图像特征，对象特征提取模块用于检测样本图像中目标对象所在的图像区域，并提取每个目标对象所在图像区域的局部图像特征。

可选的，所述第二网络模型包括文本特征映射模块(如一个或多个级联的全连接层)、关键信息检测模块(比如图像特征提取模型和第一CAM模型)、模态判别模块(如第二CAM模型)、多模态融合模块(如基于注意力机制的特征提取模型，如基于Transformer的特征提取模型)和结果预测模块(如图像任务匹配的模块，如分类任务可以是分类层)，其中，文本特征映射模块用于将第一文本特征转换为第二文本特征；关键信息检测模块用于提取样本图像的全局图像特征，基于该全局图像特征确定样本图像中的样本目标区域，并对样本目标区域进行特征提取，得到样本关键特征；模态判别模块用于确定样本图像的每种模态的样本特征的权重，多模态融合模块用于根据样本图像的各模态的样本特征以及对应的权重，得到该样本图像的每种模态的目标样本特征，结果预测模块用于基于样本图像的各模态的目标样本特征，预测样本图像的第一处理结果。

可选的，多模态融合模块可以是基于注意力机制的特征提取模型，多模态融合模块可以基于各模态的样本特征之间的相关性，得到每种模态对应的特征融合后的特征，并采用每种模态对应的权重对相应模态的融合后的特征进行加权，得到每种模态的目标样本特征。

可选的，对于每个所述样本图像，模型训练装置在提取该样本图像对应的至少两种模态的样本特征时，可以用于：

提取该样本图像的全局图像特征；根据该样本图像的全局图像特征，确定该样本图像中的样本目标区域，并提取所述样本目标区域的样本关键特征，将所述样本关键特征作为一种模态的样本特征；

所述训练操作还包括：

对于每个所述样本图像，基于该样本图像的样本关键特征对应的全局图像特征(如通过关键信息检测模块提取的样本图像的全局图像特征)，预测该样本图像对应的第二处理结果；

根据各所述样本图像对应的标签和第二处理结果，确定第三训练损失；

相应的，所述训练总损失是根据所述第一训练损失、所述第二训练损失和所述第三训练损失得到的。

另一方面，本申请实施例还提供了一种电子设备，该电子设备包括存储器和处理器，存储器中存储有计算机程序，处理器执行该计算机程序以实现本申请任一可选实施例中提供的方法。

另一方面，本申请实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。

另一方面，本申请实施例还提供了一种计算机程序产品，该计算机产品包括计算机程序，该计算机程序被处理器执行时实现本申请任一可选实施例中提供的方法。

本申请实施例提供的技术方案带来的有益效果如下：

本申请实施例提供的图像处理方法，在对待处理图像进行处理时，为了获取到更好的图像处理效果，会对待处理图像进行多模态的数据特征的提取，在此基础上，会进一步根据各模态的数据特征，来评估每种模态的信息对于图像处理任务的贡献度即权重，并根据各模态的数据特征和对应的贡献度，得到最终用于确定图像处理结果的各模态的目标特征。本申请实施例提供的该方法，通过预测每种模态的信息的贡献度，可以控制每种模态的数据特征对图像处理任务产生相应程度的作用，使得对任务贡献度大的信息的特征可以发挥更大的作用，削弱贡献度小的信息的特征的作用，从而可以根据各模态的目标特征，有效提升图像的处理效果，可以更好的满足实际应用需求。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种图像处理方法的流程示意图；

图2为本申请实施例提供的一种模型训练方法的流程示意图；

图3为本申请实施例提供的一种图像处理模型的结构示意图；

图4为本申请实施例所适用的一种图像处理系统的结构示意图；

图5为本申请实施例提供的一种神经网络模型的结构示意图；

图6为本申请实施例提供的一种关键信息检测模块的模型结构示意图；

图7为本申请实施例提供的一种文本特征提取方式的原理示意图；

图8为本申请实施例提供的一种图像处理装置的结构示意图；

图9为本申请实施例所适用的一种电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。在描述多个(两个或两个以上)项目时，如果没有明确限定多个项目之间的关系，这多个项目之间可以是指多个项目中的一个、多个或者全部，例如，对于“参数A包括A1、A2、A3”的描述，可以实现为参数A包括A1或A2或A3，还可以实现为参数A包括参数A1、A2、A3这三项中的至少两项。

本申请实施例是针对现有技术中图像处理效果仍需改进的问题，二提出的一种图像处理方法，基于本申请实施例提供的方法，可以有效提升处理效果。

可选的，本申请实施例提供的方案，可以基于人工智能(ArtificialIntelligence，AI)技术实现，比如，本申请实施例提供的图像处理方法，可以通过训练好的神经网络模型(即图像处理模型)实现，其中，该训练好的神经网络模型是基于训练数据集，采用机器学习(Machine Learning，ML)的方式训练得到的。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。随着人工智能技术的研究和进步，人工智能技术已经在常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等多个领域展开研究和应用，相信随着技术的发展，该技术将在更多的领域得到应用，并发挥越来越重要的价值。本申请实施例提供的方法，具体可以涉及到人工智能中的计算机视觉技术(Computer Vision,CV)、自然语言处理(NatureLanguage processing，NLP))和机器学习。

CV是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行检测、识别和测量等机器视觉，并可以进一步做图形处理。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的生物特征识别技术。

NLP是研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习是专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选的，本申请实施例中的图像处理模型可以采用基于编码器-解码器的模型结构，其中，编码器用于对待处理图像进行特征提取，得到待处理图像对应的多种模态的目标特征，解码器则基于待处理图像的各模态的目标特征，预测待处理图像的处理结果。本申请实施例提供的图像处理模型，可以采用端到端的训练方式训练得到，即模型的编码器部分和解码器部分可以同时训练。

在实际应用中，本申请实施例提供的方法中所涉及的数据处理还可以基于云技术实现。例如，模型训练过程中所设计的各种计算可以采用云计算技术实现，训练数据集可以采用云存储的方式此次。其中，云计算(cloud computing)是一种计算模式，它将计算任务分布在大量计算机构成的资源池上，使各种应用系统能够根据需要获取计算力、存储空间和信息服务，提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的，并且可以随时获取，按需使用，随时扩展，按使用付费。而云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，)云存储可以将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。

在本申请的可选实施例中，所涉及到的与对象有关的各种数据(如待处理图像可以是与对象有关的图像等)，当本申请的实施例运用到具体产品或技术中时，需要获得对象许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。也就是说，本申请实施例中如果涉及到与对象有关的数据，这些数据需要经由对象授权同意、且符合国家和地区的相关法律法规和标准的情况下获取的。

为了更好的说明和理解本申请实施例提供的方案，首先对本申请实施例中所涉及的一些相关的技术用语进行介绍：

模态：每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。

图片/图像分类:指使用模型学习图片信息从而进行识别分类的一类算法。

Feature map:即特征图，可以是图像和滤波器进行卷积后得到的特征图，Featuremap可以和滤波器进行卷积生成新的Feature map。

Transformer：指的是学习序列之间顺序关系的一类算法。

多模态学习：多模态机器学习(MultiModal Machine Learning，MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

本申请实施例提供的图像处理方法，可以由任意的计算机设备执行，如可以由终端设备或服务器执行。其中，终端设备或服务器可以通过调用训练好的图像处理模型实现本申请实施例提供的方法。其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端(也可以称为用户终端或用户设备)可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备(例如智能音箱)、可穿戴电子设备(例如智能手表)、车载终端、智能家电(例如智能电视)、AR/VR设备等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例提供的图像处理方法，理论上可以适用于任何需要提取图像的特征，并基于提取的图像特征实现对图像处理的应用场景中，例如，图像处理任务可以包括但不限于图像分类、图像分割、图像检测或图像生成等。可选的，本申请实施例提供的方法可以实现为一独立的应用程序或者是一应用程序的功能模块/插件，比如，该应用程序可以是专门的图像处理软件或者是具有图像处理功能的其他应用程序，通过该应用程序，可以实现对图像的分类、分割或其他处理。

图1示出了本申请实施例提供的一种图像处理方法的流程示意图，可选的，该方法可以由服务器执行，如图1所示，该方法可以包括如下步骤S110至步骤S150。

步骤S110：获取待处理图像。

其中，待处理图像的具体来源本申请实施例不做限定。待处理图像可以是独立的一张图像，也可以是视频中的图像。可选的，待处理图像可以是待处理视频中的各张图像，比如，在需要对待处理视频进行处理时，可以将该视频中的每张图像分别作为待处理图像，或者是按照设定的抽帧策略(如按照预设间隔)对待处理视频进行抽帧，将抽帧后的各帧图像分别作为待处理图像。

步骤S120：基于待处理图像，提取待处理图像对应的至少两种模态的数据特征。

其中，模态是指信息/数据的来源或者形式，每一种不同来源或形式的信息都可以作为一种模态。本申请实施例中，对于待处理图像，可以通过对该待处理图像对应的不同来源的信息来提取得到该图像对应的至少两种模态的数据特征。可选的，不同来源的信息可以包括但不限于待处理图像本身、待处理图像对应的文本、待处理图像中的部分区域图像等。那么可以通过对待处理图像进行全局特征提取，得到该图像的全局图像特征，可以通过文本进行特征提取，得到该图像的文本特征，可以通过对部分区域图像进行特征，得到该图像对应的局部图像特征，上述全局图像特征、文本特征、局部图像特征可以分别作为一种模态的数据特征。

其中，待处理图像对应的文本可以包括待处理图像中包含的文本信息或者是基于待处理图像生成的该图像的文本描述。可选的，在待处理图像中包含文本时，可以通过对待处理图像进行文本识别，得到该图像对应的文本，如果待处理图像中不包含文本，可以通过训练好的神经网络模型生成该图像对应的文本描述，将该文本描述作为该图像对应的文本。

本申请的可选实施例中，上述基于待处理图像，提取待处理图像对应的至少两种模态的数据特征，可以包括：

对待处理图像对应的以下信息中的至少一项信息进行特征提取，得到每项信息的信息特征，将每项信息的信息特征作为一种模态的数据特征：

待处理图像；

待处理图像对应的文本；

至少一个图像块中的每个图像块，每个图像块为待处理图像中一个目标对象所在的图像区域。

其中，每种模态的数据特征可以采用相应的神经网络模型实现。上述图像块为待处理图像中的目标对象所在的区域的图像即子图像，目标对象具体是指哪个或哪些类型的对象，可以根据实际应用需求预先配置，可选的，目标对象可以包括但不限于待处理图像中指定对象或对象的指定部位中的至少一项，例如，指定对象可以是人物，也可以是人物的身体部位。若待处理图像中的目标对象有多个，每个目标对象在待处理图像中所在的图像区域都可以分别作为一个图像块，可以通过对每个图像块分别进行特征提取，得到每个图像块对应的图像特征，每个图像块对应的图像特征都可以作为一种模态的数据特征。

相对于待处理图像的特征(即待处理图像的全局图像特征，这里称为第一图像特征)而言，图像块对应的图像特征可以理解为待处理图像的局部图像特征。可选的，在获取局部图像特征，可以先对待处理图像进行检测，检测出该图像中每个目标对象所在的区域，再通过特征提取网络对该区域进行特征提取，得到每个目标对象对应的局部图像特征。

对于待处理图像对应的文本，可以通过OCR(Optical Character Recognition，光学字符识别)模型或其他方式对待处理图像进行文本识别，得到待处理图像的文本信息，之后，可以通过对该文本信息进行特征提取，得到对应的文本特征。

可选的，上述至少一项信息包括待处理图像对应的文本，该项信息的信息特征即文本特征可以是通过以下方式得到的：

对文本中的每个文本单元进行特征提取，得到每个文本单元的局部特征；

对于文本进行全局特征提取，得到文本的全局特征；

将文本的全局特征和各个文本单元的局部特征融合，得到文本的文本特征，将文本特征作为一种模态的数据特征。

其中，文本单元是构成文本的基本单元，文本单元可以是文本中的字、字符或者单词，文本单元的粒度本申请实施例不做限定。可选的，文本单元可以是文本中的单词。采用本申请实施例提供的该方法，可以获取到文本所对应的两种不同粒度的文本特征，即上述每个文本单元的局部特征、以及文本的全局特征，例如，文本是一个句子，那么可以获取到该句子中每个单词的词特征、以及该句子的整句特征。

由于文本的全局特征更加关注的是对文本整体的表达，对于文中各个文本单元的表达会有所削弱，而在实际应用中，文本的某个或某些文本单元是与图像处理任务强相关的，或者某个文本单元是与其他模态的数据特征具有较强的关联，考虑到该原因，本申请提供的该可选方案中，通过将文本中的文本单元和文本划分开，分别提取文本的全局特征和各文本单元局部特征，得到两种不同粒度的特征，从而既可以关注到文本全局的语义信息，又能够关注到文本中各个文本单元的语义信息，通过将文本的各文本单元的局部特征和文本的全局特征融合，可以得到加强版的文本特征，比如，可以将各个文本单元的局部特征和文本的全局特征拼接，得到待处理图像的文本特征，或者对拼接后的特征再次进行特征提取，得到待处理图像的文本特征。

可选的，上述将所述文本的全局特征和各个文本单元的局部特征融合，得到所述文本的文本特征，可以包括：

将文本的全局特征和各个文本单元的局部特征融合(如拼接)，得到融合特征；

通过对融合特征再次进行特征提取，将所述融合特征转换至与图像处理任务对应的特征空间，将再次提取后的特征作为文本的文本特征。

可选的，可以通过一层或多层级联的全连接层，将该融合后的特征映射到特定的特征空间，将该映射后的特征作为待处理图像的文本特征。

在图像处理场景中，特征的提取通常认为是上游特征提取任务，基于提取的特征得到图像处理结果是下游任务。本申请提供的处理方法可以通过训练好的图像处理模型实现，其中，该图像处理模型中可以包括用于上述文本特征提取的文本特征提取模块、用于提取其他模态的特征的特征提取模块、以及实现后续各个步骤的神经网络结构，其中，在对图像处理模型进行训练时，为了提高模型的训练效率和效果，文本特征提取模块可以是预先训练好的，也就是说，在对整个图像处理模型进行训练时，文本特征提取模块的模型参数可以是固定的，但是这种方式可能会导致文本特征提取模块所提取的文本特征是通用特征，不一定能够很好的适用于当前的图像处理任务，为了解决该问题，本申请提供的该方案，在用于通用特征提取的文本特征提取模块之后连接一个或多个特征映射模块(如一个或多个全连接层)，通过训练，该特征映射模块可以将特征提取模块所提取的通用特征转换为更加适用于当前图像处理任务的文本特征，以进一步提升图像处理效果。

可选的，上述至少两种模态的数据特征包括待处理图像中目标图像区域(关键图像区域)的图像特征(关键图像特征)，其中，关键图像区域的关键图像特征可以是通过以下方式得到的：

对待处理图像进行特征提取，得到待处理图像的全局图像特征(这里称为第二图像特征)；

基于全局图像特征，预测待处理图像中与图像处理任务关联的目标图像区域；

对目标图像区域进行特征提取，得到关键图像特征，将关键图像特征作为一种模态的数据特征。

其中，第二图像特征和第一图像特征都是待处理图像的全局图像特征，第二图像特征和第一图像特征可以是同一特征，也可以不同。也就是说，可以将待处理图像输入到训练好的图像提取网络中，得到该图像的全局图像特征，该特征可以作为第一图像特征，又可以作为第二图像特征，也可以通过两个不同的图像特征提取网络分别对待处理图像进行全局特征提取，分别得到第一图像特征和第二图像特征。

本申请实施例中，目标图像区域指的是待处理图像中与图像待处理任务相关性比较高的区域，即对待处理图像的处理结果起到重要决定作用的图像区域。其中，目标图像区域的检测及特征提取可以采用训练好的神经网络模型实现，可选的，在训练时，样本图像中可以标注有样本图像中的目标图像区域(即样本图像的关键图像区域是已知的)，可以基于大量的样本图像进行神经网络模型的训练，使得神经网络模型可以根据样本图像中已标注的目标图像区域，可以自适应的学习到检测图像中关键图像区域的能力。在得到训练好的该模型之后，可以通过该模型检测出待处理图像中的目标图像区域，从而可以对该区域进行特征提取，得到关键图像特征。

可选的，在检测待处理图像中的目标图像区域时，上述全局图像特征包括多个特征图，上述基于所述全局图像特征，预测待处理图像与图像处理任务关联的目标图像区域，可以包括：

通过将多个特征图中相同位置的特征点的特征值进行融合，得到融合后的特征图；

基于融合后的特征图，确定融合后的特征图中每个特征点的权重，每个特征点的权重表征了该特征点对应的图像区域与所述图像处理任务的关联程度；

根据融合特征图中各个特征点的权重，确定待处理图像中的目标图像区域。

可以理解的是，第二图像特征中的多张特征图是指多个通道的特征图。本申请实施例提供的该方案，可以通过对第二图像特征中的多个通道的特征图进行通道维度的特征融合，即将多张特征图融合得到一张特征图，具体的，可以是将多张特征图中相同位置的多个特征值进行融合，得到该位置的一个融合特征值，其中，对同一位置的多个特征值进行融合的方式，本申请实施例不做限定，可选的，可以是将同一位置的多个特征值的平均值作为该位置的融合特征值，或者是将该位置的多个特征值中的最大特征值作为该位置的融合特征值。

作为一个示例，设第二图像特征包括8个通道的特征图，第二图像特征可以表示为W*H*8，其中，W和H分别表示各个特征图的长和宽，W*H为每张特征图中特征点(特征图中的像素点)的数量，8表示通道数即特征图的数量，对于坐标(x，y)为的特征点，假设该特征点在8个通道的特征图中的特征值(特征图中的像素值)分别为P1至P8，该特征点的融合特征值可以是P1至P8这8个特征值的均值。通过计算得到出W*H个特征点的融合特征值，即可以得到第二图像特征对应的一个大小为W*H的融合后的特征图，该融合后的特征图中每个特征点的特征值即为上述8个通道的特征图中对应位置点的融合特征值。

特征图中的每个特征点对应待处理图像中的一块区域(区域的具体大小是由特征图的感受野决定的)，相应的，每个特征点的特征值反映了该特征点对应的图像区域的语义信息，因此，在得到融合了多个维度的特征图的融合特征图之后，可以基于该融合后的特征图来预测该特征图中各个特征点对于图像处理任务的重要性即上述权重，也就是各个特征点对应的图像区域在当前图像处理需求中的重要程度，之后，则可以根据各个特征点对应的权重之后，确定出融合特征图中的关键区域，该关键区域在待处理图像中对应的图像区域则为待处理图像中的关键图像区域。

可选的，可以将融合后的特征图划分为若干块，可以计算每块中的特征点的权重的均值，将均值最大或者超过阈值的块所对应的图像区域作为关键图像区域。

可选的，确定待处理图像中目标图像区域的具体过程，可以采用基于注意力机制的神经网络模型实现，对于神经网络模型的具体网络架构本申请实施例不做限定，可选的，可以基于第二图像特征，采用CAM(Class Activation Mapping，类激活映射图)网络来预测各个特征点的权重，将待处理图像的第二图像特征通过CAM网络可以预测得到图像对应的attention图(注意力图)，attention图中包括各个特征点的注意力分数即权重，之后，可以根据attention图将该图中平均分数最大的区域作为关键区域，将待处理图像中该关键区域对应的图像区域作为关键图像区域。

由于关键图像特征是与图像处理任务关联度比较高的图像区域的信息，因此，将关键图像特征作为一种模态的数据特征，融入到对待处理图像的处理中，可以进一步的有效提升图像处理效果。

在实际实施时，可选的，上述至少两种模态的数据特征包括待处理图像的第一图像特征、文本特征、至少一种局部图像特征和关键图像特征。

步骤S130：对于每种模态的数据特征，根据该模态的数据特征，确定该模态的数据特征的权重，每种模态的数据特征的权重表征了该模态的数据特征对于图像处理任务的贡献度。

其中，图像处理任务是指处理图像的目的，也就是对图像要进行何种处理。图像处理任务具体哪种任务是由实际应用需求决定的，是根据需求配置的，本申请实施例不做限定。理论上，本申请实施例中的图像处理任务可以是任意的基于图像的处理需求。可选的，图像处理任务可以包括但不限于图像分类、图像分割、图像检测或图像生成(比如，基于待处理图像生成其他风格的图像，如卡通图像)等任务。其中，在对待处理图像进行特征提取时，上述至少两种模态具体包括哪几种模态是可以根据具体的图像处理任务配置的。

在实际应用中，对于一个待处理图像，该图像的不同来源的信息在该图像图像处理过程中起到的作用通常是不同的，比如，图像处理任务是对图像分类，要判断图像是否存在特定因素(如“是否存在危险”)，那么对于图像的识别结果而言，待处理图像中与该因素有关的对象所在的图像块或者与该因素有关联的文本信息显示是更重要的，与该因素有关联的模态的数据特征应该具有相对更大的权重。为了提高图像处理的准确性，在得到各种模态的数据特征之后，可以根据每种模态的数据特征，来确定该模态的数据特征的重要程度即权重，以在基于各模态的数据特征确定待处理图像对应于图像处理任务的处理结果时，可以根据每种模态的数据特征的权重，控制不同模态的数据特征发挥相应的作用，如削弱与图像处理任务关联较弱的模态的数据特征的作用，提高与图像处理任务关联较高的模态的数据特征的作用。

其中，每种模态的数据特征的权重的具体确定方式本申请实施例不做唯一限定。比如，可以通过训练好的神经网络模型来预测每种模态对应的权重。可选的，对于每种模态的数据特征，该模态的数据特征的权重可以通过以下方式确定：

若该模态的数据特征为图像特征，基于该图像特征中的每个特征图，确定每个特征图的权重，基于各个特征图以及各个特征图的权重，确定该图像特征的权重；

其中，对于图像模态的图像特征(即特征的信息来源是图像)，每种模态的图像特征包括多张特征图，即多个通道的特征图，也就是多个不同维度的特征，由于不同通道的特征图的作用也通常是不同的，因此，在确定图像模态的数据特征的权重时，可以先确定该模态的每张特征图的重要程度即权重，并采用每张特征图的权重对该特征图进行加权，之后，可以基于加权后的各个特征图来确定该模态的图像特征对于图像处理任务的重要性。

可选的，对于图像模态的数据特征，该数据特征中的每个特征图的权重可以通过以下方式确定：

对于该图像特征中的每个特征图，确定该特征图中各个特征点的特征值的均值，将该均值确定为该特征图的权重。

对于图像模态的图像特征，在得到该图像特征对应的加权后的各特征图之后，可以通过计算加权后的各个特征图中的所有特征点的特征值的均值，将该均值确定为该图像特征的权重。

可选的，对于文本模态的数据特征，由于文本信息与图像不同，不具有空间特征，可以将该文本特征(文本的特征表示)中各个特征点的特征值的均值，作为该文本特征的权重。

步骤S140：根据各模态的数据特征以及对应的权重，确定每种模态的目标特征。

步骤S150：基于各模态的目标特征，确定所述待处理图像对应于图像处理任务的处理结果。

对于每种模态的数据特征，在确定出每种模态对应的权重之后，可以根据该模态对应的权重对该模态的数据特征进行更新，得到其目标特征，以使每种模态的数据特征可以根据其对于图像处理任务的重要性产生相应的作用。作为一种可选方案，对于每种模态，可以采用该模态的权重对该模态的数据特征进行加权，得到该模态的目标特征。

作为另一可选方案，每种模态的目标特征可以是通过以下方式确定的：

对于每种模态的数据特征，确定该模态的数据特征与所述至少两种模态的数据特征中每种模态的数据特征之间的关联性；

对于每种模态的数据特征，根据该模态的数据特征与所述至少两种模态的数据特征中每种模态的数据特征之间的关联性，对所述至少两种模态的数据特征中各模态的数据特征进行加权融合，得到该模态的融合后的特征；

在实际应用中，由于待处理图像的各种模态的数据特征，都是基于待处理图像的不同维度的信息获取得到的，各个维度的信息之间是存在关联的，比如，待处理图像对应的文本通常是描述待处理图像的图像信息的文字，文本和图像之间是存在联系的，同样的，待处理图像的全局图像特征和图像中目标对象所在区域的局部图像特征也是存在关联的。因此，为了提升各模态的数据特征的表达能力，以提高图像处理效果，在获取到待处理图像的各模态的数据特征之后，可以根据各模态的数据特征之间的关联性进行特征融合，得到每种模态对应的融合后的特征，即上述更新后的特征。每种模态对应的更新后的特征不仅仅包含了该模态的信息，还融入了其他各模态的相关信息。

可选的，在计算两种模态的数据特征之间的关联性时，可以是直接计算这两种模态的数据特征之间的相关性，也可以先对每种模态的数据特征再次进行特征的提取，得到每种模态对应的再次提取后的特征，基于两种模态对应的再次提取后的特征，计算两种模态之间的关联性。

对于每种模态的数据特征，在计算该模态的数据特征与每种模态的数据特征之间的关联性时，该模态自身之间的关联性可以包含在内，也可以不包含，比如，可以将每种模态的数据特征与该模态的数据特征之间的关联性设置为设定值，只计算该模态的数据特征与除了该模态之外的其他各模态的数据特征之间的关联性，也可以是计算每种模态的数据特征与该模态的数据特征之间的关联性，比如，对于每种模态，可以通过不同的特征提取模块，对该模态的数据特征进行进一步的特征提取，得到该模态的数据特征对应的两个不同的再提取后的特征，通过计算这两个再提取后的特征之间的关联性，得到该模态的数据特征自身之间的关联性。

可选的，基于各模态的数据特征之间的关联性，得到每种模态对应的更新后的特征，可以采用训练好的基于注意力机制的神经网络模型实现，比如，可以采用基于注意力机制的Transformer模型实现，可以将各模态的数据特征输入到Transformer中，得到融合后的各种模态的数据特征即更新后的特征。

在得到各模态对应的更新后的特征之后，可以采用每种模态对应的权重，对相应模态的更新后的特征进行加权，得到每种模态的目标特征，每种模态的目标特征不仅考虑该模态的信息、还考虑该模态的信息与其他模态的信息的语义关联、还考虑该模态的信息对于图像处理任务的贡献度，因此，基于各模态的目标特征，可以得到更加准确的图像处理结果。

可选的，可以将各模态的目标特征作为待处理图像的编码结果，通过训练好的解码器，预测得到待处理图像的处理结果。比如，图像处理任务为图像分类，基于各模态的目标特征，可以通过解码器得到待处理图像的分类结果，再比如，图像处理任务为图像分割任务，基于各模态的目标特征，可以得到更加精确的图像分割结果。

由前文的描述可知，本申请实施例提供的上述图像处理方法可以是通过调用训练好的图像处理模型实现的，该图像处理模型可以是基于带有标签的样本图像训练得到的。可以理解的是，在训练阶段，该模型对样本图像的处理过程与训练好的图像处理模型对待处理图像的处理过程是相同的，只是训练阶段和应用阶段的模型参数不同。样本图像的标签代表了样本图像的真实处理结果即真值(Ground-truth)，在训练阶段，将样本图像输入到模型中，可以得到样本图像的预测结果，可以基于各样本图像的预测结果和标签来约束模型的训练，使得模型的预测结果越来越接近样本图像的真值，在模型的训练满足预设条件(训练损失函数收敛或者训练次数达到预设次数等)时，可以将满足条件时的模型作为训练好的图像处理模型，或者是基于测试数据集对满足条件的模型的性能进行测试，在测试结果满足要求时，将该模型作为训练好的图像处理模型，如果不满足，可以基于训练样本对模型继续进行训练。

为了更好的提升模型的性能，本申请实施例还提供了一种图像处理模型的训练方法，该训练方法可以包括：

步骤S210：获取训练样本集，训练样本集包括多个带有标签的样本图像，每个样本图像的标签表征了该样本图像对应于图像任务的真实处理结果；

步骤S220：基于训练样本集对神经网络模型重复执行图2中所示的步骤S221至步骤S225的训练操作，直至满足训练结束条件，将满足训练结束条件时的神经网络模型作为图像处理模型，其中，训练操作包括以下步骤：

步骤S221：对于每个样本图像，提取该样本图像对应的至少两种模态的样本特征，根据每种模态的样本特征，确定该模态的样本特征的权重；

步骤S222：对于每个样本图像，基于该样本图像的每种模态的样本特征以及对应的权重，确定该样本图像的每种模态的目标样本特征；

步骤S223：对于每个样本图像，基于该样本图像的各模态的目标样本特征，预测该样本图像对应于图像处理任务的第一处理结果；

步骤S224：基于各样本图像的标签和各模态对应的权重，确定第一训练损失，基于各样本图像的标签和第一处理结果，确定第二训练损失，根据第一训练损失和第二训练损失，得到训练总损失；

步骤S225：若不满足训练结束条件，则基于训练总损失对神经网络模型的模型参数进行调整。

其中，上述训练结束条件可以根据实际应用需求配置，可以包括但不限于训练次数达到设定次数或模型对应的损失函数收敛，如模型的训练总损失小于设定值或连续次数的训练总损失均小于设定值等等。

可以理解的是，在实际实施时，可以将训练样本集划分多批数据即多个batch，每次训练操作可以采用一个batch中的样本图像，相应的，每个训练操作对应的训练总损失是相应batch中各样本图像对应的训练损失。

本申请实施例提供的该训练方法，模型的训练总损失包含了两部分，一部分是通过模型得到的各样本图像的处理结果(即第一处理处理)和样本图像的真实处理结果(即标签)之间的差异(第二训练损失)，一部分是通过模型预测得到的各样本图像的各模态的数据特征的权重与样本图像的标签之间的差异(第一训练损失)。其中，对于每个样本图像，可以根据该样本图像的标签，确定该样本图像的各模态的数据特征的权重标签，即真实权重，根据各模态的真实权重和模型预测出的权重之间的差异，可以计算得到第二训练损失。如果模型的训练总损失不满足预设条件或者训练次数未达到设定次数，可以对模型参数进行调整，并对调整后的模型重复进行训练。

比如，图像处理任务是图像分类任务，候选类别一共为n个，样本图像的标签代表了该图像的真实类别，标签的形式可以是一个n维的向量，该向量中与该图像的真实类别对应的维度的取值为1，其他维度的取值为0。由于样本图像中各模态的信息是已知的，可以根据样本图像的标签，将与该标签代表的真实类别有关的模态的信息对应权重确定为1(权重标签)，无关的确定为0，那么在预测出每个样本特征每种模态的权重之后，可以预测出的权重和根据标签获知的权重计算损失。可选的，可以直接将样本图像的真实类别标签作为各模态的信息的权重标签，例如，图像分类任务是2分类，样本图像的标签可以分别为0或1，0和1分别表示一种类别，对于标签为1的样本图像，该图像的各模态的信息对应的权重标签可以基于1确定，如可以直接使用1，对于标签为0的样本图像，该图像的各模态的信息对应的权重标签可以基于0确定。

对于上述示例，样本图像的第一处理结果可以是一个n维的概率向量，该概率向量中包含该图像属于每个候选类别的概率，可以根据各样本图像的标签和概率向量计算第二训练损失(如交叉熵损失)，可以根据样本图像的每种模态的预测权重和权重标签计算第一训练损失(如均方差损失)。

本申请提供的该训练方案中，采用上述两部分损失约束模型的训练，可以使训练好的模型能够客观地预测出待处理图像的各模态的数据特征对应的权重，并可以根据该权重对每种模态的特征进行修正，从而可以更加准确地预测出待处理图像的处理结果。

本申请实施例提供的该训练方法，可以对模型采用端到端的训练方式，该方法可以在不改变上游特征提取模型的情况下，保证上游特征可以在下游多模态融合中端到端学习，可以避免由于上游特征和图像处理任务的信息不匹配导致图像处理效果不理想的问题。

图3中示出了本申请实施例提供的一种神经网络模型的结构示意图，如图3所示，上述需要训练的神经网络模型(也就是图像处理模型)可以包括文本特征提取模块31、文本特征映射模块32、图像特征提取模块33、对象特征提取模块34、关键信息检测模块35、模态判别模块36、多模态融合模块37和结果预测模块38，其中，对于任一图像(待处理图像或样本图像)，文本特征提取模块31用于对图像进行文本识别，并对识别出的文本进行特征提取，得到图像的初始文本特征，文本特征映射模块32用于对初始文本特征进行再次提取，得到图像的最终文本特征。图像特征提取模块33用于提取图像的全局图像特征。对象特征模块34用于检测图像中目标对象所在的区域，并提取目标对象所在区域的局部图像特征。关键信息检测模块35用于检测图像中的关键图像区域，并提取该区域的关键图像特征。模态判别模块36用于预测图像的各模态的数据特征的权重。多模态融合模块37用于根据图像的各模态的数据特征以及对应的权重，得到图像的每种模态的目标特征，可选的，多模态融合模态可以先基于图像的各模态的数据特征之间的关联性，对各模态的数据特征进行融合，得到每种模态对应的融合后的特征，再采用每种模态对应的权重，对相应模态的数据特征进行加权，得到每种模态的目标特征，结果预测模块38用于基于图像的各模态的目标特征，预测图像的处理结果。

其中，对于需要训练的上述神经网络模型中的各部分的具体模型结构本申请实施例不做限定，理论上只要能够实现每个部分相应功能的神经网络结构都可以。可选的，各特征提取模块可以采用基于卷积神经网络的特征提取结构，文本特征映射模块可以包括一个或多个级联的全连接层，模态判别模块36可以采用基于CAM的网络结构，多模态融合模块可以采用基于注意力机制的网络结构，如采用Transformer进行多模态特征的融合，得到每种模态融合后的特征即目标特征。结果预测模块38的网络结构可以根据具体的图像的图像处理任务选择及配置。

由于该模型中包含的模块较多，模型参数的参数量也较大，为了在不影响训练得到图像处理模型的性能的前提下，提高模型的训练效率，该模型的上述文本特征提取模块、图像特征提取模块和对象特征提取模块可以是预先训练好的，也就是说，对于这几个模块，可以先采用现有的模型训练方式，训练得到具有较好性能的通用特征提取模块，在对图像处理模型进行训练时，这几个部分的模型参数可以固定、不再调整的。当然，如果不考虑训练效率和训练的复杂度，也可以是对图像处理模型的所有部分一起训练，即所有部分的模型参数都参与模型的反向传播过程中。

可选的，上述神经网络模型包括第一网络模型和第二网络模型，其中，第一网络模型为预先训练好的；对于每个样本图像，提取该样本图像对应的至少两种模态的样本特征，包括：

通过第一网络模型提取该样本图像对应的第一文本特征、样本图像特征、以及该样本图像中至少一个目标对象中每个目标对象所在的图像区域的局部图像特征；

通过第二网络模型对第一文本特征进行特征转换(特征映射)，得到第二文本特征，并通过第二网络模型识别该样本图像中与图像处理任务关联的样本目标区域(也就是样本图像中的关键图像区域)，提取该样本目标区域的样本关键特征；

将第二文本特征、样本图像特征、每个目标对象对应的局部图像特征和样本关键特征分别作为一种模态的样本特征；

其中，每种模态的样本特征的权重、以及样本图像的第一处理结果也是是通过第二网络模型确定的；

上述对神经网络模型的模型参数调整包括：对第二网络模型的模型参数进行调整。

也就是说，作为实际实施中的一种可选方案，神经网络模型中的第一网络模型可以是预先训练好的通用模型，在上述训练操作中，可以只对第二网络模型部分的模型参数进行调整，采用该方案，可以加快模型的训练效果。此外，在训练过程中，对于样本图像的文本特征，可以先通过预先训练好的第一网络模型提取得到文本的第一文本特征，再通过需要训练的第二网络模型对第一文本特征进行特征再提取，得到第二文本特征，由于第二网络模型的模型参数在训练过程中不断进行优化、调整的，因此，经由第二网络模型将第一文本特征转换为第二文本特征，可以使得训练好的神经网络模型能够获取到与图像任务处理更符合的文本特征。

需要说明的是，本申请实施例中，神经网络模型的各部分的具体网络结构，本申请实施例不做唯一限定，理论上只要能够实现对应模块或模型的功能的神经网络结构均可。另外，在实施实施时，样本图像或待处理图像的多种模态的特征，可以包括前文中所描述的各种模态的特征中的至少两种，比如，作为一种选择，样本图像的样本特征可以包括第二文本特征、样本图像特征、每个目标对象对应的局部图像特征、以及样本关键特征中的至少两种，相应的，神经网络模型的结构也可以相应调整，例如，样本特征不包括局部图像特征时，神经网络模型中可以不包括用于对象识别以及提取对象所在局部区域的局部图像特征的模型结构。可选的，上述第一网络模型可以包括上述的文本特征提取模块、图像特征提取模块和对象特征提取模块。可选的，第二网络模型可以包括上述的包括文本特征映射模块、关键信息检测模块、模态判别模块(如第二CAM模型)、多模态融合模块和结果预测模块。

作为一可选实施方式，每个样本图像的第二文本特征可以是通过以下方式得到的：

通过文本特征提取模块提取样本图像对应的第一文本特征，通过文本特征映射模块对第一文本特征进行特征提取，得到第二文本特征。

其中，文本特征提取模块可以包括文本识别模型(如OCR模型)和文本特征提取模型(如NLP模型)，文本特征提取模型可以包括一个或多个全连接层，或者其他具有特征映射功能的模型结构。

样本图像的样本图像特征可以是通过上述图像特征提取模块对样本图像进行全局特征提取得到的，比如，图像特征模块可以是CNN模型。

对于样本图像的局部图形特征，可以通过对象特征提取模块对样本图像中至少一个目标对象所在的图像区域进行识别并进行特征提取，得到每个目标对象对应的局部图像特征。可选的，对象特征提取模块可以对象识别模型和图像特征提取模型，对象识别模型可以检测出目标对象在样本图像中的位置，图像特征提取模型可以对相应位置的局部图像区域进行特征提取，得到局部图像特征。

样本关键特征则可以是通过关键信息检测模块对样本图像进行特征提取，基于提取的图像特征预测样本图像中与图像处理任务关联的样本目标区域，并对样本目标区域进行特征提取得到。可选的，关键信息检测模块可以包括CNN模型和CAM模型，CNN模型用于提取样本图像的全局图像特征，CAM模型用于基于CNN模型提取的全局图像特征得到画面的注意力图，可以根据注意力图确定样本图像中的样本目标区域，之后，可以通过CNN对样本目标区域进行特征提取，得到样本关键特征。

其中，对于每个样本图像，在得到该样本图像对应的各模态的样本特征之后，可以通过模态判别模块确定该样本图像的每种模态的样本特征的权重，多模态融合模块则可以根据该样本图像的各模态的样本特征及对应的权重，确定该样本图像的各模态的目标样本特征，结果预测模块用于基于该样本图像的各模态的目标样本特征，预测该样本图像的第一处理结果。

相应的，上述基于训练总损失对神经网络模型的模型参数进行调整是指：基于训练总损失对文本特征映射模块、关键信息检测模块、模态判别模块、多模态融合模块和结果预测模块的模型参数进行调整。

本申请实施例提供的上述训练方法，可以加快模型的训练速度，且文本特征映射模块通过训练学习，可以将预先训练好的文本特征提取模块提取的同样第一文本特征转换为更加适用于具体图像处理任务的第二文本特征。可选的，文本特征提取模块对样本图像进行特征提取时，可以先对样本图像进行文本识别，对识别出的文本进行全局特征、以及对文本中的各个文本单元进行局部特征提取，将提取出的各局部特征和全局特征融合，得到第一文本特征，之后，该第一文本特征可以经过文本特征映射模块(如一个或多个级联的全连接层)转换为第二文本特征。

可选的，样本图像的至少两种模态的样本特征包括样本关键特征，为了进一步提升神经网络模型对于图像中关键图像区域检测的准确性，(即训练得到的关键信息检测模块的性能)，本申请的可选实施例中，上述训练操作还可以包括：

对于每个样本图像，基于该样本图像的样本关键特征对应的全局图像特征(即神经网络模型所提取的用于确定样本目标区域的全局图像特征)，预测该样本图像对应的第二处理结果；

根据各样本图像对应的标签和第二处理结果，确定第三训练损失；

相应的，上述根据第一训练损失和所述第二训练损失，得到训练总损失，包括：根据第一训练损失、第二训练损失和第三训练损失，得到训练总损失。

本申请提供的该可选方案中，在训练过程中，可以基于关键信息检测模块所提取的样本图像的全局图像特征和样本图像的标签进行有监督学习，使得可以基于关键信息检测模块提取出的全局图像特征可以更加准确的确定出图像中的关键图像区域，可以进一步提升所训练得到的图像处理模型的性能。可选的，对于每个样本图像，可以基于通过关键信息检测模块提取得到的该样本图像的图像特征，通过辅助的图像结果预测模块(如一个或多个级联的全连接层)，得到该样本图像对应的第二处理结果。该辅助模块是用于辅助模型训练的，训练好的图像处理模型不包括该辅助模块。

可选的，上述各部分的训练损失可以对应有相应的权重，可以根据应用需求、经验值或实验值配置，在计算训练总损失时，可以采用各部分的训练损失对应的权重，对各部分的训练损失进行加权求和，得到训练总损失。

本申请实施例提供的图像处理方法和图像处理模块，理论上可与任意的多模态任务结合，可用于一切多模态任务或者特征提取上，可适用于一切图像、视频等具备空间特征的多模态融合任务中，通过本申请实施例提供的方法，可以得到多个模态融合后的加强特征(目标特征)，该特征可适用但不限于分类、分割、检测、生成等任务中。本申请可选实施例中提供的图像处理模型至少可以具有以下有益效果：

1)可以在不改变上游特征模型的情况下，保证上游特征在下游多模态融合中端到端学习；

2)可以通过端到端的关键因素学习和文字引导学习，让多模态融合模型自行找出潜在的关键判别模态；

3)基于模态判别模块(如基于CAM的模态判别)可以找出与标签最关联的模态(即判别出每种模态对应的权重)，减少不相关模态带来的影响。

为了更好的理解和说明本申请实施例提供的方案以及该方案的实用价值，下面结合一个具体的场景实施例对本申请实施例提供的方案的一种可选实施方式进行说明。该场景实施例中，图像处理任务为图像分类任务，用于判别待处理图像中是否存在危险(是否危险的具体界定方式本申请实施例不做限定)，即图像中存在危险是一个类别，图像中不存在危险是另一个类别。

图4示出来本申请实施例所适用的一种图像处理系统的结构示意图，如图4所示，该图像处理系统可以包括通信连接的训练服务器10、图像处理服务器20和终端设备30，其中，训练服务器10可以基于训练样本集执行本申请实施例提供的模型训练方法，得到训练好的图像处理模型，训练好的图像处理模型可以部署到图像处理服务器20中，图像处理服务器20可以基于该图像处理模型对待处理图像进行处理，得到对应的处理结果，如在本场景实施例中，图像处理模型可以是图像分类模型，图像的处理结果为图像的分类结果。其中，待处理图像的来源本申请实施例不做限定，可以是终端设备30发送给图像处理服务器20的图像，图像处理服务器20在得到图像处理结果之后，可以将图像处理结果反馈给终端设备30。

本场景实施例中的数据处理流程可以分为两个阶段，第一阶段是模块训练阶段，由训练服务器10(如云服务器)执行，第二阶段是模型的应用阶段，该阶段是基于训练好的图像处理模型对待处理图像进行处理，该阶段可以由图像处理服务器20执行。图5示出了本场景实施例中提供的一种神经网络模型(待训练的图像处理模型)的数据处理原理的示意图，如图5中所示，该神经网络模型可以包括关键因素识别部分(关键信息检测模块)、风格识别部分(图像特征提取模块)、文字特征提取器(文本特征提取模块和文本特征映射模块)、对象识别部分(对象特征提取)、CAM模态判别(多模态判别模块)和Transformer融合部分(多模态特征融合模块)。

其中，在实际应用中，该神经网络模型还包括结果预测模块，该模块可以基于Transformer融合部分输出的各模态的目标特征预测图像的图像处理效果，本场景实施例中重要是介绍模型的训练原理以及图像的各种模态的目标特征的获取，结果预测模块可以根据具体应用场景的处理任务选择，如本场景实施例中，图像处理任务为图像分类，结果预测模块也可以是常用的分类模型的解码器结构，Transformer融合部分输出的各模态的目标特征作为分类模型的编码结果，解码器部分可以基于编码结果预测得到图像的分类结果。下面结合图4和图5对本场景实施例中两个阶段的相关数据处理流程进行说明。

第一阶段：模型训练阶段

本场景实施例中，至少两种模态的数据特征包括5种模态的数据特征，包括图片(即图像)的文本特征f_文字、关键图像特征f_关键、图像中对象的脸部特征f_脸部，图像中对象的身体特征f_身体图像的全局图像特征f_风格即整图特征。

本场景实施例中，神经网络模型的文本特征提取模块、风格识别部分和对象识别部分可以是预先已经训练好的，在通过对该模型进行迭代训练得到训练好的图像处理模型的过程中，预先训练好的这几部分的模型参数可以不调整。其中，文本特征提取模块可以包括OCR模型和NLP文本模型，文本特征映射模块可以是多层级联的全连接层，图像特征提取模块可以是基于CNN的特征提取模型，关键因素识别部分可以包括级联的特征提取模型(如CNN)和权重预测模块(如CAM)，对象识别部分可以包括对象的脸部识别模型、身体识别模型和特征提取模型(如CNN模型)。下面对各个模态的数据特征的获取过程进行介绍。

输入一张图片(在训练阶段是样本图像，在应用阶段是待处理图像)，使用已经预训练的OCR模型获取图片文字(如图5中所示的A正在跳芭蕾等文字)，再通过预训练的NLP文本模型，得到每个单词的特征(文本单元的特征)以及整个语句特征(文本的全局特征)。具体的，将每个单词和整句经过文字特征提取器，将提取到的单词特征和整句文字特征进行融合，得到加强版文字特征f_文字。

同时，可以使用已经训练好的通用脸部识别模型和身体识别模型，获取目标对象的脸部检测框和身体检测框，根据识别出的脸部、身体的检测框的位置在原图中找出对应的脸部图像块和身体图像块，并通过CNN模型得到对应的脸部特征f_脸部和身体特征f_身体。

对于整图特征f_风格，整个图片经过CNN(图像特征提取模块)获取画面特征f_风格，该特征主要提供画面风格识别信息。关键因素识别则在图上检测出和任务结果强相关的位置信息(即关键图像区域)，并得到检测框内的图像特征f_关键。

在获取到f_关键，f_文字，f_脸部，f_身体和f_风格这5个模态的特征之后，每种模态的特征可以经过两路，一路则将五个模态的特征分别送入到CAM模态判别模块中，得到每个模态对任务标签的贡献分数即每种模态的数据特征的权重；另一路为Transformer融合模块，将5个模态的特征送入该融合模块，可以实现各模态特征之间的融合，得到融合后的5个模态的特征即5个模态的融合后的特征，并与对应的CAM模态判别模块输出的每个模态的贡献分数进行加权，得到5个模态最终的特征(即目标特征)，与下游任务监督标签(即样本图像的标签)进行交互学习，学到最终下游任务的判断能力。

下面对上述几部分的具体数据处理原理分别进行说明。

关键因素检测模块(即图4中的关键因素识别部分)：图6示出了该模块的数据处理原理的示意图，对于一张图片而言，该图片和最终的图像处理任务的标签有关系的模态是不确定的，是很难人为地规定是哪种模态起作用，也很难规定上游需要提供的特征。如图6所示的图片中，假定要判断这张图“是否存在危险”，在图像中包含的人物(目标对象)的脸部、身体、文字、甚至是画面风格上，我们很难找出跟“危险”相关的元素，也就是说，我们很难预先规定出需要哪些模态特征，帮助判断任务需求。为了让模型在学习中，自适应感知到决定任务结果的潜在模态，本申请实施在上游特征部分增加了关键因素检测模块即关键信息检测模块。

关键因素检测模块的本质是一个弱监督检测模型，可以嵌入到多模态融合模型(即图像处理模型)之后可以进行端到端的训练。可选的，如图6所示，输入一张图片，关键因素检测模块可以用CNN对整张图提取画面特征(第二图像特征)，画面特征可以通过全连接层之后与标签进行有监督学习(该部分学习也可以没有)。画面的CNN特征通过CAM可以得到画面的attention图即特征图中各个特征点的注意力分数(权重)，可以取平均分数最大的区域(图中所示的区域最大化)作为检测区域即关键信息对应的区域(可以得到该区域的位置信息，如左上角和右下角的坐标)，由于特征图中的特征点都是对应原图中的一块区域的，因此，可以将检测区域映射回原图中，检测区域在原图中对应的图像区域即为关键图像区域，如图6右上角的图片中的虚线框内的区域即为该图片的关键图像区域的检测结果。在确定出关键图像区域之后，可以通过CNN提取特征后得到关键区检测的画面特征f_关键。

文本特征提取模块：由于OCR模型、NLP模型都属于大模型，而且业界已经有非常完备的预训练大模型。因此，可以基于已有的OCR模型和NLP模型直接得到初始的文字特征。为了进一步将文字特征与多模态融合模型的标签做端到端训练，同时利用文字信息进行空间定位，本申请实施例提供了如下做法：

如图7所示，对于要处理的图片(即模型输入)，使用已经预训练的OCR模型提取出文字(图7中的“A正在跳芭蕾，舞台灯漏水？”)，随后，使用预训练的NLP模型得到每个单词以及整句的文本特征，这些特征都经过几层全连接层(文本特征映射模块)，得到对应的单词(如单词“A”的特征，“正在”的特征等)和整句特征，单词和整句特征分别与其他模态的特征(如图7中所示的模态1的特征、以及省略号所省略的其他几个模态的特征，通过Transformer融合模块两两建立关系，得到融合后的特征，最后和标签进行监督学习。

本申请实施例提供的文本处理方式，由于我们将单词和句子划分开，通过训练，可使得一句话的重点单词可以和模型的f_关键，f_脸部，f_身体和f_风格四个模态都建立联系，最终实现配套的文字可以追溯回配套的图片空间区域，如文字“舞台灯”和图片中灯的检测。当图片中灯的检测位置错误时，文字可以对空间起到二次纠正作用，即f_文字可以起到文字引导学习的作用。

CAM模态判别：从图5的例子可以看出，若要对输入的图片判断“是否危险”这个任务上，只有人物、灯、水等因素是造成“危险”的关键模态，而对象的脸部、是否“跳芭蕾”等，不是危险的决定性模态，在学习过程中，这些不相关的模态甚至可能和需要判断的最终类别是相悖的，因此，模型需要通过自我学习，削弱这些不相关模态的权重。

本申请实施例设计了基于CAM的模态判别模块，可选的，该模块在具有空间特征的特征图上的使用(f_关键，f_脸部，f_身体和f_风格)方式如下：

以f_脸部这一模态的特征为例，脸部模态(即图片中脸部所在的区域)通过CNN后可以得到该部分的局部特征，即多张特征图Featuremaps，该模态的权重可以通过如下表达式计算出：

其中，C表示Featuremaps的channel数量(特征图的数量)，n表示每个channel中Featuremap的元素个数(特征图中特征点的数量)，

表示每个通道的特征图中的第i个元素，w_c为一个通道的Featuremap的权重。

特征经过平均池化(average pooling)之后得到加权分数

即f_脸部的权重。在训练阶段，分数和权重可以经过下列损失函数(对应第一训练损失)进行学习：

其中，N为batchsize即一次训练使用的样本图像的数量，y_i为第i个样本图像的标签数据，通过计算模型预测出的各个样本图像的每种模态的权重和标签之间的差异，可以得到该部分对应的损失。

对于f_关键，f_身体和f_风格这几个空间特征，可以采用与上述脸部特征同样的原理，预测每种模态对应的权重，并计算损失。

对于没有空间特征的文字特征，可以将对应的文字全连接特征进行求平均，得到文字特征对应的权重

最后，各个模态的分数和经过transformer融合后的各个模态特征h_i(θ)，i∈{脸部，身体，文字，关键，风格}进行加权，加权过后的特征(目标特征)和标签做交叉熵，具体可以是基于各模态的加权后的特征预测图片的处理结果，将处理结果和标签计算损失，得到第二训练损失。

通过对模型进行不断训练，直至训练次数达到设定次数，或者是模型的训练总损失收敛，得到训练好的图像处理模型，如图像分类模型。

如图7所示的示例中，图7的左下角的图像(训练好模型attention结果)示意性的示出了模型训练好之后，通过模型预测得到的图像的各种模态的特征对应的预测权重，图中被遮挡的部分的内容表示被分配了较大的权重。

第二阶段：模型应用阶段

在得到训练好的图像处理模型之后，将该模型部署到图像处理服务器20中，该服务器可以采用该模型对待处理图像进行处理，如图4中所示的系统，图像处理服务器20可以接收终端设备30发送的待处理图像，调用图像处理模型对待处理图像进行分类识别，得到待处理图像的分类结果，并根据分类结果对待处理图像进行相应的处理，如将处理结果反馈至终端设备30，或者如果待处理图像是要发布的图像，可以根据分类结果判别待处理图像是否合规。

本申请实施例提供的方案，设计了基于图片空间纠正的多模态端到端训练方案，既可以保留不改变上游模型的特点，又能完成上游特征与下游模型的端到端训练。通过增加模态判别模块，可以减少不相关模态对下游结果的影响，提升多模态模型的判别能力。该方案可以解决传统的多模态学习任务中，上游特征和下游融合模型往往不是端到端训练所导致的下游标签与上游特征的信息冲突的问题，以及由于各个模态和下游任务标签的关系也不被关注，极易导致融合模型失效的问题。此外，本申请实施例提供的方案，可以适用于任意基于多模态特征的处理任务中，训练过程中下游标签会对上游特征造成影响，可以保证训练得到的模型的性能。本本申请实施例中，模型的部分结构可以是预先训练好的，在轻量级的模型内完成各项上游特征在下游融合模型中的合理端到端训练，大大提升模型效果，能够更好的满足实际应用需求。

基于与本申请实施例提供的图像处理方法相同的原理，本申请实施例提供了一种图像处理装置，如图8所示，该图像处理装置100包括图像获取模块110、多模态特征提取模块120、模态判别模块130、多模态特征融合模块140以及处理结果获取模块150。

图像获取模块110，用于获取待处理图像；

多模态特征提取模块20，用于基于待处理图像，提取待处理图像对应的至少两种模态的数据特征；

模态判别模块130，用于对于每种模态的数据特征，根据该模态的数据特征，确定该模态对应的权重，每种模态的数据特征的权重表征了该模态的数据特征对于图像处理任务的贡献度；

多模态特征融合模块140，用于根据各模态的数据特征以及对应的权重，确定每种模态的目标特征；

处理结果获取模块150，用于基于各模态的目标特征，确定待处理图像对应于图像处理任务的处理结果。

对于每种模态的数据特征，确定该模态的数据特征与至少两种模态的数据特征中每种模态的数据特征之间的关联性，根据该模态的数据特征与至少两种模态的数据特征中每种模态的数据特征之间的关联性，对至少两种模态的数据特征中各模态的数据特征进行加权融合，得到该模态的融合后的特征；

待处理图像；待处理图像对应的文本；至少一个图像块中的每个图像块，每个图像块为待处理图像中一个目标对象所在的图像区域。

可选的，多模态特征提取模块可以用于：对待处理图像进行特征提取，得到待处理图像的全局图像特征；基于全局图像特征，预测待处理图像中与图像处理任务关联的目标图像区域；对目标图像区域进行特征提取，得到关键图像特征，将关键图像特征作为一种模态的数据特征。

可选的，全局图像特征包括多个特征图，多模态特征提取模块在基于全局图像特征，预测待处理图像与图像处理任务关联的目标图像区域时，可以用于：

基于融合后的特征图，确定融合后的特征图中每个特征点的权重，每个特征点的权重表征了该特征点对应的图像区域与图像处理任务的关联程度；

可选的，上述至少一项信息包括文本，多模态特征提取模块可以用于：对文本中的每个文本单元进行特征提取，得到每个文本单元的局部特征；对于文本进行全局特征提取，得到文本的全局特征；将文本的全局特征和各个文本单元的局部特征融合，得到文本的文本特征，将文本特征作为一种模态的数据特征。

可选的，多模态特征提取模块在得到文本的文本特征时，可以用于：

将文本的全局特征和各个文本单元的局部特征融合，得到融合特征；通过对融合特征再次进行特征提取，将融合特征转换至与图像处理任务对应的特征空间，将再次提取后的特征作为文本的文本特征。

可选的，图像处理装置在基于待处理图像，确定待处理图像对应于图像处理任务的处理结果时，是通过调用训练好的图像处理模型实现的，图像处理模型是基于训练样本集对神经网络模型重复执行训练操作得到的，训练样本集包括多个带有标签的样本图像，每个样本图像的标签表征了该样本图像对应于图像任务的真实处理结果。

可选的，图像处理模型是由模型训练装置通过以下方式训练得到的：

获取训练样本集；

基于训练样本集对神经网络模型重复执行训练操作，直至满足训练结束条件，将满足训练结束条件时的神经网络模型作为训练好的图像处理模型，其中，训练操作包括以下步骤：

对于每个样本图像，提取该样本图像对应的至少两种模态的样本特征，根据每种模态的样本特征，确定该模态的样本特征的权重；

对于每个样本图像，基于该样本图像的每种模态的样本特征以及对应的权重，确定该样本图像的每种模态的目标样本特征；

对于每个样本图像，基于该样本图像的各模态的目标样本特征，预测该样本图像对应于图像处理任务的第一处理结果；

基于各样本图像的标签和各模态对应的权重，确定第一训练损失，基于各样本图像的标签和第一处理结果，确定第二训练损失，并根据第一训练损失和第二训练损失，得到训练总损失；

若不满足训练结束条件，则基于训练总损失对神经网络模型的模型参数进行调整。

可选的，上述神经网络模型包括第一网络模型和第二网络模型，其中，第一网络模型为预先训练好的；对于每个样本图像，模型训练装置可以通过以下方式提取所述样本图像对应的至少两种模态的样本特征：

通过第一网络模型提取样本图像对应的第一文本特征、样本图像特征(全局图像特征)、以及样本图像中至少一个目标对象中每个目标对象所在的图像区域的局部图像特征；

通过第二网络模型对第一文本特征进行特征转换，得到第二文本特征，并通过第二网络模型识别样本图像中与图像处理任务关联的样本目标区域，提取样本目标区域的样本关键特征；

其中，每种模态的样本特征的权重、以及样本图像的第一处理结果是通过第二网络模型确定的；

对神经网络模型的模型参数调整包括：对第二网络模型的模型参数进行调整。

可选的，对于每个样本图像，模型训练装置在提取该样本图像对应的至少两种模态的样本特征时，可以用于：

提取该样本图像的全局图像特征；根据该样本图像的全局图像特征，确定该样本图像中的样本目标区域，并提取该样本目标区域的样本关键特征，将样本关键特征作为一种模态的样本特征；

上述训练操作还包括：

对于每个样本图像，基于该样本图像的样本关键特征对应的全局图像特征，预测该样本图像对应的第二处理结果；

相应的，训练总损失是根据第一训练损失、第二训练损失和第三训练损失得到的。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行存储器中存储的计算机程序时可实现本申请任一可选实施例中的方法。

图9示出了本发明实施例所适用的一种电子设备的结构示意图，如图9所示，该电子设备可以为服务器或者用户终端，该电子设备可以用于实施本发明任一实施例中提供的方法。

如图9中所示，该电子设备2000主要可以包括至少一个处理器2001(图9中示出了一个)、存储器2002、通信模块2003和输入/输出接口2004等组件，可选的，各组件之间可以通过总线2005实现连接通信。需要说明的是，图9中示出的该电子设备2000的结构只是示意性的，并不构成对本申请实施例提供的方法所适用的电子设备的限定。

其中，存储器2002可以用于存储操作系统和应用程序等，应用程序可以包括在被处理器2001调用时实现本发明实施例所示方法的计算机程序，还可以包括用于实现其他功能或服务的程序。存储器2002可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和计算机程序的其他类型的动态存储设备，也可以是EEPROM(ElectricallyErasable Programmable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(CompactDisc Read Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

处理器2001通过总线2005与存储器2002连接，通过调用存储器2002中所存储的应用程序实现相应的功能。其中，处理器2001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application Specific Integrated Circuit，专用集成电路)，FPGA(FieldProgrammable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合，其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

电子设备2000可以通过通信模块2003(可以包括但不限于网络接口等组件)连接到网络，以通过网络与其它设备(如用户终端或服务器等)的通信，实现数据的交互，如向其他设备发送数据或从其他设备接收数据。其中，通信模块2003可以包括有线网络接口和/或无线网络接口等，即通信模块可以包括有线通信模块或无线通信模块中的至少一项。

电子设备2000可以通过输入/输出接口2004可以连接所需要的输入/输出设备，如键盘、显示设备等，电子设备200自身可以具有显示设备，还可以通过接口2004外接其他显示设备。可选的，通过该接口2004还可以连接存储装置，如硬盘等，以可以将电子设备2000中的数据存储到存储装置中，或者读取存储装置中的数据，还可以将存储装置中的数据存储到存储器2002中。可以理解的，输入/输出接口2004可以是有线接口，也可以是无线接口。根据实际应用场景的不同，与输入/输出接口2004连接的设备，可以是电子设备2000的组成部分，也可以是在需要时与电子设备2000连接的外接设备。

用于连接各组件的总线2005可以包括一通路，在上述组件之间传送信息。总线2005可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。根据功能的不同，总线2005可以分为地址总线、数据总线、控制总线等。

可选的，对于本发明实施例所提供的方案而言，存储器2002可以用于存储执行本发明方案的计算机程序，并由处理器2001来运行，处理器2001运行该计算机程序时实现本发明实施例提供的方法或装置的动作。

基于与本申请实施例提供的方法相同的原理，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的相应内容。

本申请实施例还提供了一种计算机程序产品，该产品包括计算机程序，该计算机程序被处理器执行时可实现前述方法实施例的相应内容。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

基于所述待处理图像，提取所述待处理图像对应的至少两种模态的数据特征；

2.根据权利要求1所述的方法，其特征在于，所述根据各模态的数据特征以及对应的权重，确定每种模态的目标特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述待处理图像，提取所述待处理图像对应的至少两种模态的数据特征，包括：

所述待处理图像；

所述待处理图像对应的文本；

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基于所述待处理图像，提取得到所述待处理图像的至少两种模态的数据特征，包括：

对所述待处理图像进行特征提取，得到所述待处理图像的全局图像特征；

基于所述全局图像特征，预测所述待处理图像中与所述图像处理任务关联的目标图像区域；

对所述目标图像区域进行特征提取，得到关键图像特征，将所述关键图像特征作为一种模态的数据特征。

5.根据权利要求4所述的方法，其特征在于，所述全局图像特征包括多个特征图，所述基于所述全局图像特征，预测所述待处理图像与所述图像处理任务关联的目标图像区域，包括：

6.根据权利要求3所述的方法，其特征在于，所述至少一项信息包括所述文本，所述对所述至少一项信息中的各项信息分别进行特征提取，得到每项信息的信息特征，包括：

对所述文本中的每个文本单元进行特征提取，得到每个文本单元的局部特征；

对于所述文本进行全局特征提取，得到所述文本的全局特征；

将所述文本的全局特征和各个文本单元的局部特征融合，得到所述文本的文本特征，将所述文本特征作为一种模态的数据特征。

7.根据权利要求6所述的方法，其特征在于，所述将所述文本的全局特征和各个文本单元的局部特征融合，得到所述文本的文本特征，包括：

将所述文本的全局特征和各个文本单元的局部特征融合，得到融合特征；

通过对所述融合特征再次进行特征提取，将所述融合特征转换至与所述图像处理任务对应的特征空间，将再次提取后的特征作为所述文本的文本特征。

8.根据权利要求1所述的方法，其特征在于，对于每种模态的数据特征，所述根据该模态的数据特征，确定该模态的数据特征的权重，包括：

9.根据权利要求1至3以及6至8中任一项所述的方法，其特征在于，所述方法是通过调用训练好的图像处理模型实现的，所述图像处理模型是通过以下方式训练得到的：

获取训练样本集，所述训练样本集包括多个带有标签的样本图像，每个所述样本图像的标签表征了该样本图像对应于所述图像任务的真实处理结果；

对于每个所述样本图像，提取所述样本图像对应的至少两种模态的样本特征；

对于每个所述样本图像，根据该样本图像的每种模态的样本特征，确定该样本图像的该模态的样本特征的权重；

基于各所述样本图像的标签和各模态对应的权重，确定第一训练损失，基于各所述样本图像的标签和第一处理结果，确定第二训练损失，根据所述第一训练损失和所述第二训练损失，得到训练总损失；

10.根据权利要求9所述的方法，其特征在于，所述神经网络模型包括第一网络模型和第二网络模型，其中，所述第一网络模型为预先训练好的；

对于每个所述样本图像，所述提取所述样本图像对应的至少两种模态的样本特征，包括：

通过所述第一网络模型提取所述样本图像对应的第一文本特征、样本图像特征、以及所述样本图像中至少一个目标对象中每个目标对象所在的图像区域的局部图像特征；

11.根据权利要求9所述的方法，其特征在于，对于每个所述样本图像，所述提取所述样本图像对应的至少两种模态的样本特征，包括：

提取该样本图像的全局图像特征；

根据该样本图像的全局图像特征，确定该样本图像中的样本目标区域，并提取所述样本目标区域的样本关键特征，将所述样本关键特征作为一种模态的样本特征；

所述训练操作还包括：

对于每个所述样本图像，基于该样本图像的样本关键特征对应的全局图像特征，预测该样本图像对应的第二处理结果；

所述根据所述第一训练损失和所述第二训练损失，得到训练总损失，包括：

根据所述第一训练损失、所述第二训练损失和所述第三训练损失，得到训练总损失。

12.一种图像处理装置，其特征在于，所述装置包括：

图像获取模块，用于获取待处理图像；

13.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序以实现权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。

15.一种计算机程序产品，其特征在于，所述计算机产品包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。