CN116977655A

CN116977655A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN116977655A
Application number: CN202310259653.0A
Authority: CN
Inventors: 张明昊; 陈曦
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-10-31

Abstract

本申请实施例提供了一种图像处理方法、装置、电子设备及存储介质。该方法包括：获取待处理图像；对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征；对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征；利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；根据所述融合特征确定所述待处理图像是否为异常图像。通过采用上述的图像处理方法，可以准确地确定待处理图像是否为异常图像。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理和机器学习技术领域，更具体地，涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的飞速发展，图像处理技术可应用的范围越来越广泛。通过图像处理技术，可以根据图像中包含的内容，基于图像处理模型对图像进行处理，如确定图像是否为异常图像。

目前，在对于异常图像的确定，通常直接对图像进行特征提取以根据提取到的特征确定图像是否为异常图像，但是采用目前的方法在确定图像是否为异常图像时，不够准确。

发明内容

有鉴于此，本申请实施例提出了一种图像处理方法、装置、电子设备及存储介质，可以利用更准确的图像处理模型对图像进行分类，从而提高图像处理的准确性。

第一方面，本申请实施例提供了一种图像处理方法，方法包括：获取待处理图像；对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征；对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征；利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；根据所述融合特征确定所述待处理图像是否为异常图像。

第二方面，本申请实施例提供了一种图像处理装置，所述装置包括：图像获取模块、文字特征提取模块、图像特征提取模块、冲突特征提取模块、特征融合模块以及图像类型确定模块。图像获取模块，用于获取待处理图像；文字特征提取模块，用于对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征；图像特征提取模块，用于对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征；冲突特征提取模块，用于利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；特征融合模块，用于对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；图像类型确定模块，用于根据所述融合特征确定所述待处理图像是否为异常图像。

在一种可实施方式中，冲突特征提取模块，还用于将所述文字特征作为注意力机制中的查询向量，将所述图像特征作为注意力机制中的键向量和值向量进行多头注意力计算，得到矩阵形式的图像文本融合特征；从所述图像文本融合特征中获取位于矩阵中指定位置的特征，作为跨模态冲突特征。

在一种可实施方式中，所述冲突特征特征提取模块包括第一特征获得子模块和第二特征获得子模块。第一特征获得子模块，用于将所述文字特征作为注意力机制中的查询向量，将所述图像特征作为注意力机制中的键向量和值向量进行多头注意力计算，得到矩阵形式的图像文本融合特征；第二特征获得子模块，用于从所述图像文本融合特征中获取位于矩阵中指定位置的特征，作为跨模态冲突特征。

在一种可实施方式中，图像特征包括物体类别编码特征和图像编码特征，图像特征提取模块包括第三特征获得子模块和第四特征获得子模块，第三特征获得子模块，用于对所述待处理图像进行图像识别，得到所述待处理图像中的物体的类别，对所述物体的类别进行编码，得到物体类别编码特征；第四特征获得子模块，用于对所述待处理图像进行编码，得到所述待处理图像的图像编码特征。

在一种可实施方式中，第三特征获得子模块，还用于对待处理图像进行分类，得到待处理图像中的物体为每种类别的概率；对每种类别进行编码，得到每种类别的编码特征；对每种类别的编码特征按照对应的概率进行加权求和，得到待处理图像的物体类别编码特征。

在一种可实施方式中，所述文字特征包括标签文本特征和内嵌文本特征，文字特征提取模块包括第五特征提取子模块和第六特征提取子模块，第五特征提取子模块，用于对所述待处理图像进行文字识别，得到待处理图像中包括的内嵌文本，并对所述内嵌文本进行编码，得到所述内嵌文本特征；第六特征提取子模块，用于获取所述待处理图像的标题文本，对所述标题文本进行编码，得到所述标题编码特征。

在一种可实施方式中，特征融合模块包括图像冲突特征获取子模块、文字冲突特征获取子模块以及特征融合子模块。图像冲突特征获取子模块，用于提取所述物体类别编码特征与所述图像编码特征之间的图像模态冲突特征；文字冲突特征获取子模块，用于提取所述内嵌文本特征与所述标题编码特征之间的文本模态冲突特征；特征融合子模块，用于对所述图像模态冲突特征、文本模态冲突特征以及跨模态冲突特征进行特征拼接，得到融合特征。

在一种可实施方式中，图像冲突特征获取子模块，还用于利用激活函数对第一预设权重矩阵、所述物体类别编码特征以及图像编码特征进行计算，得到第一偏好矩阵；对所述第一偏好矩阵利用列级别的最大池化处理，得到第一权重向量；基于所述第一权重向量和所述图像编码特征，得到所述物体类别编码特征和图像编码特征之间的图像模态冲突特征。

在一种可实施方式中，文字冲突特征获取子模块，还用于利用激活函数对第二预设权重矩阵、所述内嵌文本编码特征和标题编码特征进行计算，得到第二偏好矩阵；对所述第二偏好矩阵利用列级别的最大池化处理，得到第二权重向量；基于所述第一权重向量和所述标题编码特征，得到所述内嵌文本编码特征和标题编码特征之间的文本模态冲突特征。

在一种可实施方式中，图像类型确定模块，还用于利用分类函数对所述融合特征进行分类计算，得到待处理图像的分类结果，基于待处理图像的分类结果确定所述待处理图像是否为异常图像。

在一种可实施方式中，图像处理装置还包括损失获取模块和模型调整模块，所述图像获取模块，还用于获取携带有样本分类标签的样本图像，所述样本分类标签用于指示所述样本图像是否为异常图像；文字特征提取模块，还用于对所述样本图像进行文字特征提取，得到所述样本图像的样本文字特征；图像特征提取模块，还用于对所述样本图像进行图像特征提取，得到所述样本图像的样本图像特征；冲突特征提取模块，还用于利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；特征融合模块，还用于利用图像处理模型对所述样本图像特征、样本文字特征以及样本跨模态冲突特征进行融合，得到样本融合特征；损失获取模块，用于基于所述样本融合特征和样本分类标签，进行损失计算得到模型损失；模型调整模块，用于基于所述模型损失调整所述图像处理模型的模型参数以最小化模型损失，得到训练后的图像处理模型。

在一种可实施方式中，图像获取模块，还用于对目标视频进行抽帧，得到待处理图像。

第三方面，本申请实施例提供了一种电子设备，包括处理器以及存储器；一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的方法。

第五方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述的方法。

本申请实施例提供的一种图像处理方法、装置、电子设备及存储介质，方法包括：获取待处理图像；对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征；对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征；利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；根据所述融合特征确定所述待处理图像是否为异常图像。通过采用本申请的方法，对待处理图像进行特征提取过程中，通过提取待处理图像中的图像特征与文字特征之间的跨模态冲突特征，以在后续基于对所述图像特征、文字特征以及跨模态冲突特征进行融合得到的融合特征确定待处理图像是否为异常图像时，实现利用不同模态数据之间的互补性来提高对待处理图像进行检测其是否为异常图像时的性能，进而提升了对待处理图像确定其是否为异常图像的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种图像处理模型训练方法的应用场景图；

图2示出了本申请实施例提出的一种图像处理方法的流程示意图；

图3示出了本申请实施例提供的一种图像处理方法的另一流程示意图；

图4示出了本申请实施例提出的一种图像处理方法的另一流程示意图；

图5示出了本申请实施例提出的一种图像处理方法的又一流程示意图；

图6示出了本申请实施例提出的一种图像处理模型的结构示意图；

图7示出了本申请实施例提供的一种图像处理装置的连接框图；

图8示出了本申请实施例提供的一种图像处理装置的另一连接框图；

图9示出了用于执行本申请实施例的方法的电子设备的结构框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本申请的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本申请的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

需要说明的是：在本文中提及的“多个”是指两个或两个以上。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，并发挥越来越重要的价值。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式作出反应的智能机器。以人工智能应用在机器学习上为例进行说明：

其中，机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。本申请的方案主要是利用机器学习进行图像处理。

发明人经研究发现，随着互联网技术的发展，海量的视频图像文字在网络中传输使用。一些用户在网上分享生活的美好，另一些人却利用看似正常的图像和文字构建异常且突兀的图文，来吸引用户的关注。而这类图像在网络上流传会造成极大的影响。因此，识别出此类图像并进行处理是当前亟待解决的技术问题。

目前，对于此类图像在对具有文字的图像进行异常检测时，通常是提取图像中的图像特征和文字特征，并利用图像特征得到确定图像为异常的概率，以及利用文字特征确定图像为异常的概率，最终基于图像特征和文字特征各自对应的权重对图像为异常的概率进行加权求和，最终得到图像为异常的概率，从而依据最终得到的概率确定图像是否为异常图像。

然而，利用上述方式在确定图片是否为异常时，没有充分考虑到图像与文字之间存在冲突，如图和文字可能都是较为正常的或一种正常，但另一种为不正常的情况下，也即存在待处理图像中的图像和文字单独来看没有太大问题，但是两者之间存在于同一图像中时存在较大反差从而导致待处理图像整体为异常图像，显然，在上述几种情况下图像与文字之间的冲突通常会影响图像是否为异常图像的判定结果，因此采用相关技术中的图像处理方式确定得到的待处理图像是否为异常图像的结果不够准确。

鉴于此，本申请提供的一种图像处理方法、装置、电子设备及存储介质，方法包括：获取待处理图像；对待处理图像进行图像特征提取，得到待处理图像的图像特征；对待处理图像进行文字特征提取，得到待处理图像的文字特征；利用图像处理模型提取样本图像特征和样本文字特征之间的样本跨模态冲突特征；对图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；根据融合特征确定待处理图像是否为异常图像。通过采用上述的图像处理方法，对待处理图像进行特征提取过程中，通过提取待处理图像中的图像特征与文字特征之间的跨模态冲突特征，以在后续基于对图像特征、文字特征以及跨模态冲突特征进行融合得到的融合特征确定待处理图像是否为异常图像时，实现利用不同模态数据之间的互补性来提高对待处理图像进行检测其是否为异常图像时的性能，进而提升了对待处理图像确定其是否为异常图像的准确性。

在进行具体说明之前，对本申请涉及的术语进行如下解释：

样本图像：样本图像可以是标识有类别信息的图像，且图像中应该包括类别信息对应的图像特征，且不同的图像中包括的图像特征不同，特征的多少也不同，图像中还可以内嵌有文字信息。

待处理图像：待处理图像是指任意需要确定其是否为异常的图像，其可以是信息交互平台中的。

图像特征：图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征等。其中，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质，是基于像素点的特征。纹理特征也是一种全局特征，它也描述了图像或图像区域所对应景物的表面性质，其与颜色特征不同，纹理特征不是基于像素点的特征，它需要在包含多个像素点的区域中进行统计计算。形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征，图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。空间关系特征，是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等，通常空间位置信息可以分为两类：相对空间位置信息和绝对空间位置信息。前一种关系强调的是目标之间的相对情况，如上下左右关系等，后一种关系强调的是目标之间的距离大小以及方位。

图像处理模型：是指利用深度学习模型(如，卷积神经网络模型)进行对大量的经过标注的样本图像进行端到端的训练。经过充分训练的图像处理模型可以对图像进行较为精确的分类。如，确定待处理图像是否为异常图像。

下面说明本发明实施例提供的用于执行上述图像处理模型训练方法的设备的示例性应用，本发明实施例提供的图像处理模型训练方法可以应用于如图1所示的应用环境中的服务器中。

图1是根据本申请一实施例示出的应用场景的示意图，如图1所示，该应用场景包括终端设备10和通过网络与终端设备10通信连接的服务器20。

终端设备10可以设有用于展示待处理图像的客户端，如浏览器客户端、即时通信客户端、教育客户端、社交网络客户端、购物客户端以及音视频播放客户端等。

网络可以是广域网或者局域网，或者是二者的组合。终端设备10可以是智能手机、智能电视、平板电脑、笔记本电脑或者台式计算机等。

服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

若利用如图1中的终端设备10和服务器20对待识别图像进行图像处理以确定待处理图像是否为异常图像时，则可以具体执行如下步骤。用户可以通过终端设备10向服务器20上传待处理图像，服务器20在获取到获取待处理图像；对待处理图像进行图像特征提取，得到待处理图像的图像特征；对待处理图像进行文字特征提取，得到待处理图像的文字特征；利用图像处理模型提取样本图像特征和样本文字特征之间的样本跨模态冲突特征；对图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；根据融合特征确定待处理图像是否为异常图像。此时，服务器20在确定待处理图像是否为异常图像后，还可以向终端设备10发送待处理图像的处理结果。以使终端设备10显示待处理图像的处理结果，也即显示待处理图像是否为异常图像。

图1中示出了利用服务器20上述的处理方法对待处理图像进行处理，得到待处理图像的处理结果为异常图像并反馈至终端设备10，以在终端设备10的显示界面中显示待处理图像及对应的处理结果的示意图。

应当理解，上述的方法步骤也可以仅有终端设备10来执行或者仅由服务器20来执行，也即，上述描述的方法步骤仅仅是示意性的，并不作为本方案的限制。

下面将结合附图具体描述本申请的各实施例。

请参阅图2，图2所示为本申请还提供一种图像处理方法，该方法包括：

步骤S110：获取待处理图像。

其中，待处理图像中可以是具有物体和/或文字的图像，其中，上述的物体可以是人物、动物或者人物或动物的某些身体部位等，上述的文字可以是待处理图像的标题或待处理图像内嵌入的文本。

待处理图像可以是用户上传的图像，也可以是任意的客户端关联的信息平台中获取的图像。示例性的，当待处理图像为信息平台中获取时，其具体的获取过程可以是从信息交互平台中的带有图片的文章中获取的图像，也可以是视频播放平台中的视频中抽取的图像，根据实际需求进行设置即可，在本申请实施例中不作具体限定。

其中，当待处理图像是从信息交互平台中的带有图片的文章中获取的图像时，待处理图像具体可以是文章的封面图或内容图；当待处理图像是从视频播放平台中的视频中抽取的图像时，待处理图像具体可以是视频封面图像，也可以是对视频进行抽帧处理得到的图像。

在一种可实施方式中，待处理图像的获取方式具体可以是：对目标视频进行抽帧，得到待处理图像。

其中，目标视频具体可以是视频播放平台中的视频，也可以是用户上传的视频。上述对目标视频进行抽帧，得到的待处理图像可以是多张，且具体的抽帧方式可以根据目标视频的视频长度确定，如按照预设的视频长度与抽帧频率之间的对应关系对目标视频进行抽帧，得到待处理图像。还可以根据视频交互平台中上传该视频的用户的可信度与抽帧频率之间的对应的关系对目标视频进行抽帧，得到待处理图像。

需要说明的是，由于视频和文章的标题通常用来表示该视频和文章所代表的意义或内容，为使后续确定待处理图像是否为异常图像得到的结果更准确，在本申请的一种可实施方式中，上述待处理图像可以对应有标题文本。其中，标题文本可以用于具体指示待处理图像的内容或其表达的意思。

若待处理图像为信息交互平台中的文章的封面图和内容图时，则待处理图像的标题文本可以为文章标题、内容图的标题或基于内容图的上下文提取的信息。相应的，若待处理图像为视频播放平台中的视频的封面图或抽帧图时，待处理图像对应的标题文本具体可以是视频标题或者待处理图像在视频中对应的文字解说。

步骤S120：对待处理图像进行图像特征提取，得到待处理图像的图像特征。

其中，对待处理图像进行图像特征提取的方式可以是利用卷积神经网络，以对待处理图像进行特征提取，得到图像特征；也可以是对待处理图像进行图像识别，并基于识别结果进行编码得到待处理图像的图像特征；还可以是对待处理图像进行图像识别得到的结果进行编码后的特征，以及对待识别图像进行特征提取得到的特征共同作为图像特征。应当理解，上述对待处理图像进行图像特征提取的方式仅仅是示例性的，还可以有更多的提取方式，根据实际需求进行选取即可，在本申请实施例不作一一赘述。

步骤S130：对待处理图像进行文字特征提取，得到待处理图像的文字特征。

其中，对待处理图像进行文字特征提取的方式可以是：对待处理图像的标签文本进行编码得到待处理图像的文字特征；也可以是：对待处理图像进行图片文字识别，得到待处理图像中内嵌的文本，对待处理图像中内嵌的文本进行编码，得到待处理图像的文字特征；还可以是待处理图像的标签文本进行编码得到待处理图像的特征，以及对待识别图像中内嵌的文本编码得到的特征作为待处理图像的文字特征。上述对待处理图像进行文字特征提取的方式仅仅是示例性的，还可以有更多的提取方式，根据实际需求进行选取即可，在本申请实施例不作一一赘述

步骤S140：提取图像特征和文字特征之间的跨模态冲突特征。

其中，在提取图像特征和文字特征之间的跨模态冲突特征时，具体可以是基于注意力机制提取图像特征和文字特征之间的跨模态冲突特征，也可以是对图像特征和文字特征进行拼接、按位相加或者按位相乘等方式进行处理得到跨模态的冲突特征。

在一种可实施方式中，在基于注意力机制提取图像特征和文字特征之间的跨模态冲突特征时，具体可以是将文字特征作为注意力机制中的查询向量，将图像特征作为注意力机制中的键向量和值向量进行多头注意力计算，得到矩阵形式的图像文本融合特征；从图像文本融合特征中获取位于矩阵中指定位置的特征，作为跨模态冲突特征。

在另一种可实施方式中，在基于注意力机制提取图像特征和文字特征之间的跨模态冲突特征时，具体可以是将图像特征作为注意力机制中的查询向量，将文字特征作为注意力机制中的键向量和值向量进行多头注意力计算，得到矩阵形式的图像文本融合特征；从图像文本融合特征中获取位于矩阵中指定位置的特征，作为跨模态冲突特征。

考虑到基于注意力机制计算得到的矩阵形式的向量中，矩阵中的第一行的特征为全局特征，因此，上述的位于矩阵中的指定位置的特征具体可以是位于矩阵中第一行的特征。也即，将位于矩阵中第一行的特征作为跨模态的冲突特征。还可以是位于矩阵中前设定行的特征，如前两行或者前三行的特征，根据实际需求进行设置即可。

示例性的，以具有多个匹配融合模块的跨模态冲突特征的提取模块利用多头注意力机制提取图像特征和文字特征之间的跨模态冲突特征为例进行说明，则对于第i个注意力头，匹配融合模块其计算方式如下所示：其中，H表示文本特征，G表示图像特征，d_k∈R^d/h，/>都是预先设置的参数(如，在训练阶段训练好的参数)，h标识注意力头的数量。当h个注意力头的输出被拼接之后，经过线性变换得到最终的结果，如下所示：M ATT(H,G)＝[ATT₁(H,G),…,ATT_h(H,G)]W^O；其中，W^O∈R^d*d是预先设置的参数(如，在训练阶段训练好的参数)，R^d*d是指维度为d*d的特征。之后，使用残差连接作用在文本特征H和自注意力层MATT(H,G)的输出上，计算方式如下所示：Z＝LN(H+M ATT(H,G))；其中，LN表示层标准化操作。之后，使用一个前馈神经(MLP)和另一个残差连接应用在Z上，以获得跨模态冲突特征的提取模块中的第一个匹配融合模块的输出：TIM(H,G)＝LN(Z+MLP(Z))；其中，TIM(H,G)∈R^N*d表示第一个图像文本匹配融合模块的输出。本申请实施例中堆叠了l_m个图像文本匹配融合模块，并且以最后一个模块的输出/>作为最终的跨模态冲突特征。此处，l_m是一个预先定义好的超参数。最终的跨模态冲突信息可以被表示为H_G∈R^d，即/>在[CLS]位置上(矩阵中的第一行位置上)的编码。

步骤S150：对图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征。

其中，对图像特征、文字特征以及跨模态冲突特征进行融合的方式可以是对图像特征、文字特征以及跨模态冲突特征进行拼接、按位相加或者按位相乘等中的一种或多种处理方式。应当理解，上述的融合方式仅仅是示意性的，还可以有更多的融合方式，在本实施例不作具体限定，根据实际需求进行设置即可。

步骤S160：根据融合特征确定待处理图像是否为异常图像。

其中，根据融合图像确定待处理图像是否为异常图像的方式具体可以是根据融合特征和预先设定的图像类型与特征之间的对应关系确定待处理图像是否为异常图像。也可以是利用预先训练的图像处理模型对融合特征进行分类计算，以确定待处理图像是否为异常图像。还可以基于某些固定的算法或软件程序来确定待处理图像是否为异常图像。应当理解，上述的对待处理图像的异常确定过程仅仅是示意性的，在本申请实施例不作具体限定。

应当理解，若上述步骤S160具体是通过预先训练的图像处理模型对融合特征进行分类计算，以确定待处理图像是否为异常图像，则上述步骤S120-S150具体也可以是利用图像处理模型来执行。

通过采用本申请的图像处理方法，在确定待处理图像是否为异常图像时，通过提取待处理图像的图像特征和文字特征，并提取图像特征与文字特征之间的冲突特征，可以实现在特征提取阶段，充分获取图像中的图像特征与文本特征之间的冲突和反差，从而在后续基于冲突特征、图像特征以及文本特征获得融合特征并利用融合特征确定待识别图像是否异常时，实现了利用不同模态数据之间的互补性来提高对待处理图像进行检测其是否为异常图像时的性能，进而提升了对待处理图像确定其是否为异常图像的准确性。

请参阅图3，本申请另一实施例提供了一种图像处理方法，该方法包括：

步骤S210：获取待处理图像。

步骤S220：对待处理图像进行图像识别，得到待处理图像中的物体的类别，对物体的类别进行编码，得到物体类别编码特征。

其中，对待处理图像进行图像识别，具体可以采用图像识别模型对待处理图像进行分类识别，也可以是利用具体的算法或应用程序对待处理图像进行分类识别，若利用图像识别模型进行分类识别，则上述的图像识别模型可以是能够用于进行图像处理的卷积神经网络模型。具体的，上述的卷积神经网络可以是ResNet(Residual Neural Network，残差神经网络)，也可以是AlexNet网络模型，也可以是DenseNet(Densely ConnectedConvolutional Networks，密集卷积网络)，也可以是DPN网络模型(Dual Path Networks)，还可以是SENet(Squeeze-and-Extraction Networks，挤压和提取网络)等等，此处不作具体限定，根据实际需求进行选取即可。

在一种可实施方式中，具体可以利用图像识别模型识别待处理图像中包括的物体为每种类别的概率，从而根据待处理图像中包括的物体为每种类别的概率确定该待处理图像中物体的具体类别，以及对该物体的具体类别进行编码得到待处理图像对应的物体类别编码特征。

在另一种可实施方式中，具体可以对待处理图像进行分类，获得待处理图像中包括的物体为每种类别的概率，对每种类别进行编码得到每种类别的编码特征，以及根据每种类别的概率对对应的编码特征进行加权求和，得到待处理图像对应的物体类别编码特征。

在该种实施方式下，若利用图像识别模型待处理图像进行分类识别时，具体可以采用系列的YOLO模型，以应用YOLOv4来检测图像为例。在利用图像识别模型对待检测图像进行识别并编码得到待处理图像中物体的类别特征时，利用预先训练的YOLOv4模型对待处理图像进行识别，得到待处理图像中的物体为不同类别的概率，然后，将检测到的物体对象的名称转换为相应的类别编码特征，同时使用YOLOv4识别图像过程中获得的每种类别是识别结果对应的概率对类别编码特征进行加权平均获得一个物体类别编码特征，记为O：

Objects＝YOLOv4(I)；如公式所示，其中Objects是YOLOv4检测到的对象的类别集合；C_i是对象的类别对应的概率，N是模型识别出的物体的类别的数量。

还应当说明的是，在对物体的类别进行编码时，具体可以采用编码器进行编码(如，利用词向量编码器进行编码)，编码的维度可以根据实际需求进行设置，例如，可以是300维度，400维度等，根据实际需求进行设置即可。

步骤S230：对待处理图像进行编码，得到待处理图像的图像编码特征。

其中，对待处理图像进行编码时，可以利用编码器进行编码，且上述的编码器具体可以是预先训练的图像分类模型或识别模型等中的编码器。

在进行编码时，为使不同大小或分辨率的图像进行编码得到的图像编码特征的维度相同，在一种可实施方式中，上述对待处理图像进行编码的方式具体可以是：将待处理图像缩放为指定大小的待处理图像，并对进行缩放处理后的待处理图像采用算法模型中的编码器进行编码，得到待处理图像的图像编码特征。

应当理解，上述图像编码特征应当与按上述的物体类别编码特征的维度相同，从而便于进行后续计算。因此，在本申请的一种可实施方式中，将待处理图像缩放为指定大小的待处理图像，并对进行缩放处理后的待处理图像采用算法模型中的编码器进行编码得到编码后的特征，将编码后的特征进行投影，以得到待处理图像的图像编码特征，其中，投影后的待处理图像的图像编码特征与物体类别编码特征的维度相同。

示例性的，可以将待处理图像缩放为224*224像素尺寸的图像，然后使用ResNet-152图像识别分类模型对待处理图像进行编码，并在编码过程去掉ResNet中最后一个全连接层的结构，并且获取最后一个卷积层的输出作为编码后的特征：ResNet(I)＝{r_i|r_i∈R²⁰⁴⁸,i＝1,2,…,49，此处i表示序号，(具体用于表示待处理图像首先经过放缩，处理成统一的224*224的尺寸，然后被均匀的分成49块(7*7)，49块小的图像区域分别经过ResNet的计算，获得2048维的r_i。文本中选择分成49份(7*7)是一种经验上的做法)。因此，一个待处理图像I可以被编码表示为ResNet(I)∈R^2048*49。最后，为了把视觉特征投影到与文本特征(物体类别编码特征)相同维度的特征空间中，可以对图像的ResNet编码表示使用了线性变换以进行投影得到待处理图像的图像编码特征G：G＝W_vResNet(I)，其中，W_v∈R^d*2048是一组可训练的线性变化参数，d是文本特征的维度，G∈R^d*49是最终获得的待处理图像的图像编码特征。

步骤S240：对待处理图像进行文字特征提取，得到待处理图像的文字特征。

步骤S250：提取图像编码特征和文字特征之间的跨模态冲突特征。

其中，提取图像编码特征域文字特征之间的跨模态冲突特征的方式可以参阅前文对步骤S140的具体描述，在本申请实施例不作具体赘述。

应当理解，若待处理图像中内嵌有文本且待处理图像具有标题信息，则上述的文字特征具体包括标题编码特征(对标题信息进行编码得到的特征)和内嵌文本特征(对待处理图像进行文字识别，并对识别得到的文字进行编码得到的特征)，则上述提取图像编码特征与文字特征之间的跨模态冲突特征的方式可以是，提取图像编码特征与标题编码特征之间的跨模态冲突特征，也可以是提取图像编码特征域内嵌文本特征之间的跨模态冲突特征，还可以是提取内嵌文本特征和标题编码特征融合后的特征与图像编码特征之间的跨模态冲突特征。

步骤S260：对图像编码特征、物体类别编码特征、文字特征以及跨模态冲突特征进行融合，得到融合特征。

在一种可实施方式中，上述步骤S260具体可以是，对图像编码特征、物体类别编码特征、文字特征以及跨模态冲突特征采用拼接、按位相加或者按位相乘等特征融合方式进行融合，得到融合特征。

在另一种可实施方式中，上述步骤S260具体可以是：提取图像编码特征与物体类别编码特征之间的图像模态冲突特征，将图像模态冲突特征、文字特征以及跨模态冲突特征进行拼接、按位相加或者按位相乘，得到融合特征。

在该种方式下，提取图像编码特征与物体类别编码特征之间的图像模态冲突特征的方式具体可以是，利用激活函数对第一预设权重矩阵、物体类别编码特征以及图像编码特征进行计算，得到第一偏好矩阵；对第一偏好矩阵利用列级别的最大池化处理，得到第一权重向量；基于第一权重向量和图像编码特征，得到物体类别编码特征和图像编码特征之间的图像模态冲突特征。

通过采用上述的图像模态冲突特征的提取方式，可以实现对图像模态的内部冲突信息进行捕捉。此外，为了平衡模型复杂度和表现力，注意力融合层中并没有引入过多的参数，从而可以有效提升获得的图像模态冲突特征的准确性。此外利用激活函数对第一预设权重矩阵、物体类别编码特征以及图像编码特征进行计算以提取图像模态冲突特征时，由于物体类别编码特征是从待处理图像中抽取出来的局部信息，为了避免全局信息的损失，可以通过将第一预设权重矩阵、物体类别编码特征以及图像编码特征相乘来实现注意到局部特征和全局特征并获得第一偏好矩阵C₁。C₁＝tanh(I^TW_aO)，I∈R^d*49和O∈R^d*N分别表示图像编码特征和物体类别编码特征，N是超参数，N表示图像中被识别的物体的种类数。W_a∈R^d ^*d是一组可学习的权重参数(也即对第一预设权重矩阵)。在获得第一偏矩阵之后，通过对第一偏好矩阵利用列级别的最大池化处理，得到第一权重向量a₁；对第一权重向量a₁和图像编码特征I，采用如下计算式进行计算，得到物体类别编码特征和图像编码特征之间的图像模态冲突特征H_I，其中，H_I＝a₁I^T。

步骤S270：根据融合特征确定待处理图像是否为异常图像。

关于步骤S270的具体描述，可以参阅前文对步骤S160的具体描述，在此处不作一一赘述。

通过采用上述的方法，可以实现在确定待处理图像是否为异常图像时，通过提取待处理图像中的物体类别编码特征、图像编码特征和文字特征，并提取图像编码特征与文字特征之间的跨模态冲突特征，以及提取物体类别编码特征和图像编码特征之间的图像模态冲突特征，可以实现在特征提取阶段，充分获取图像中的图像特征与文本特征之间的冲突和反差，以及获取图像模态中局部和全局之间的特征冲突和反差，从而在后续基于跨模态冲突特征、图像模态冲突特征以及文本特征获得融合特征并利用融合特征确定待识别图像是否异常时，实现了利用不同模态数据之间的互补性以及图像模态中局部特征和全局特征之间的冲突和反差来提高对待处理图像进行检测其是否为异常图像时的性能，进而提升了对待处理图像确定其是否为异常图像的准确性。

请参阅图4，本申请又一实施例提供了一种图像处理方法。该方法包括：

步骤S310：获取待处理图像；

步骤S320：对待处理图像进行图像特征提取，得到待处理图像的图像特征。

步骤S330：对待处理图像进行文字识别，得到待处理图像中包括的内嵌文本，并对内嵌文本进行编码，得到内嵌文本特征。

其中，对待处理图像进行文字识别的方式具体可以是利用预先训练的图像识别模型(如OCR模型)进行识别，得到待处理图像中包括的内嵌文本。

步骤S340：获取待处理图像的标题文本，对标题文本进行编码，得到标题编码特征。

其中，关于获取待处理图像的标题文本的具体方式可以参阅前述实施例中对步骤S110的具体描述。

应当理解，上述对内嵌文本进行编码和对标题文本进行编码的编码方式可以相同。此外，待处理图像中包括的标题文本和内嵌文本可能分别为多个，当标题文本或内嵌文本为多个时，则可以针对利用预先定义的分隔符对待处理图像中的标题文本和内嵌文本进行分隔，相应的，在对标题文本和内嵌文本进行编码时，可以针对每个标题文本及每个内嵌文本分别进行编码。

也即，对于一个标题文本或内嵌文本的文本序列X＝{x₁,x₂,…,x_N}，其中x_i∈R^d是词嵌入、分段嵌入、位置嵌入的和，N表示文本序列的最大长度，d表示嵌入的维度。可以利用预训练的BERT模型来获得文本序列的编码表示。也即与训练的BERT模型中BERT编码器最后一层的输出，可以作为文本编码后的表示H∈R^d*N，其中d是BERT中隐藏层的维度。通过将文本进行编码，可以实现将文本中字符转换为计算机可识别计算的浮点数，同时文本编码表示会包含一些文本字符和序列中蕴含的一些隐藏信息。这些隐藏信息对于人类是不可读的，但是对于计算机模型，可以通过大量数据分析计算，总结出相应的规律。编码过程，文本可以依次通过嵌入层、自注意力层、加权归一化层、前馈神经层等的计算，获得文本的编码表示。

应当说明的是，考虑到可能存在部分图像中不具有内嵌文本或标题文本，为便于后续对此类图像进行处理，因此，对于不具有内嵌文本或标题文本的图像，则可以利用预先设置特征生成方式生成内嵌文本特征或者标题编码特征。

步骤S350：提取图像特征和标题编码特征之间的跨模态冲突特征。

其中，提取图像编码特征与标题编码特征之间的跨模态冲突特征的方式可以参阅前文对步骤S140的具体描述，在本申请实施例不作具体赘述。

应当理解，若图像特征具体包括图像编码特征和物体类别编码特征，则上述提取图像特征和标题编码特征之间的跨模态冲突特征的方式具体可以是，提取图像编码特征与标题编码特征之间的跨模态冲突特征，也可以是提取物体类别编码特征与标题编码特征之间的跨模态冲突特征，还可以是提取图像编码特征和物体类别编码特征融合后的特征与标题编码特征之间的跨模态冲突特征。

步骤S360：对图像特征、内嵌文本特征、标题编码特征以及跨模态冲突特征进行融合，得到融合特征。

在一种可实施方式中，上述步骤S360具体可以是，对图像特征、内嵌文本特征、标题编码特征以及跨模态冲突特征采用拼接、按位相加或者按位相乘等特征融合方式进行融合，得到融合特征。

在另一种可实施方式中，上述步骤S360具体可以是：提取内嵌文本特征与标题编码特征之间的文本模态冲突特征，将文本模态冲突特征、图像特征以及跨模态冲突特征进行拼接、按位相加或者按位相乘，得到融合特征。

在该种方式下，提取内嵌文本特征与标题编码特征之间的文本模态冲突特征的方式具体可以是，利用激活函数对第二预设权重矩阵、内嵌文本特征与标题编码特征进行计算，得到第二偏好矩阵；对第二偏好矩阵利用列级别的最大池化处理，得到第二权重向量；基于第二权重向量和标题编码特征，得到内嵌文本编码特征和标题编码特征之间的文本模态冲突特征。

通过采用上述的文本模态冲突特征的提取方式，可以实现对文本模态的内部冲突信息进行捕捉。此外，为了平衡模型复杂度和表现力，注意力融合层中并没有引入过多的参数，从而可以有效提升获得的文本模态冲突特征的准确性。此外利用激活函数对第二预设权重矩阵、内嵌文本特征以及标题编码特征进行计算以提取文本模态冲突特征时，由于内嵌文本特征是从待处理图像中抽取出来的局部信息，为了避免全局信息的损失，可以通过将第二预设权重矩阵、内嵌文本特征以及标题文本特征相乘来实现注意到局部特征和全局特征并获得第二偏好矩阵C₂。C₂＝tanh(H^TW_bT)，H∈R^d*L表示文本特征，T∈R^d*M表示内嵌文本特征，L是超参数且表示图像内嵌文本的序列长度，M是超参数且表示标题的序列长度。W_b∈R^d*d是一组可学习的权重参数(也即第二预设权重矩阵中的权重参数)。在获得第二偏矩阵之后，通过对第二偏好矩阵利用列级别的最大池化处理，得到第二权重向量a₂；对第一权重向量a₂和内嵌文本特征T，采用如下计算式进行计算，得到内嵌文本编码特征和标题编码特征之间的文本模态冲突特征H_T，其中，H_T＝a₂T^T。

步骤S370：根据融合特征确定待处理图像是否为异常图像。

关于上述步骤S370的具体描述可以参阅前文对步骤S150的具体描述，在此处不作一一赘述。

通过采用上述的方法，可以实现在确定待处理图像是否为异常图像时，通过提取待处理图像中的物体类别编码特征、图像编码特征、标题编码特征以及内嵌文本特征，并提取图像编码特征与标题文本之间的跨模态冲突特征，提取物体类别编码特征与图像编码特征之间的图像模态冲突特征，以及提取标题编码特征与内嵌文本编码特征之间的文本模态冲突特征，可以实现在特征提取阶段，充分获取图像中的图像特征与文本特征之间的冲突和反差，获取图像模态中局部和全局之间的特征冲突和反差，以及获取文本模态中标题文本和内嵌文本之间的冲突和反差，从而在后续基于跨模态冲突特征、图像模态冲突特征以及文本模态冲突特征获得融合特征并利用融合特征确定待识别图像是否异常时，实现了利用不同模态数据之间的互补性、图像模态中局部特征和全局特征之间的冲突和反差以及文本模态中标题文本与内嵌文本之间的冲突和反差来提高对待处理图像进行检测其是否为异常图像时的性能，进而提升了对待处理图像确定其是否为异常图像的准确性。

请参阅图5，本申请的又一实施例提供了一种图像处理方法，该方法包括：

步骤S410：获取携带有样本分类标签的样本图像，样本分类标签用于指示样本图像是否为异常图像。

其中，样本图像为多张，如数百张、数千张或者数万张，其中，多张样本图像中包括标签指示为正常图像的样本图像和标签指示为异常图像的样本图像。步骤S420：对样本图像进行图像特征提取，得到样本图像的样本图像特征。

其中，对样本图像进行图像特征提取与对待处理图像进行图像特征提取的方式类似，因此，关于对上述步骤S420的具体描述可以参阅前文对步骤S120以及对步骤S220-S230的具体描述，在本实施例不作一一赘述。

应当理解，若图像特征包括图像编码特征和物体类别编码特征时，则上述步骤可以由单独的编码器和图像识别模型获得，也可以由图像处理模型中包括的编码器和图像识别模型获得。

步骤S430：对样本图像进行文字特征提取，得到样本图像的样本文字特征。

其中，对样本图像进行文字特征提取与对待处理图像进行文字特征提取的方式类似，因此，关于对上述步骤S430的具体描述可以参阅前文对步骤S130以及对步骤S330-S340的具体描述，在本实施例不作一一赘述。

应当理解，若文字特征包括标题编码特征和内嵌文本特征时，则上述步骤可以由单独的文字编码器(如预训练的BERT模型)获得，也可以由图像处理模型中包括的文字编码器(图像处理模型中包括的预训练的BERT模型)获得。

步骤S440：利用图像处理模型提取样本图像特征和样本文字特征之间的样本跨模态冲突特征。

其中，提取样本图像特征样本文字特征之间的样本跨模态冲突特征应当与图像特征文字特征之间的跨模态冲突特征类似，因此，关于上述步骤S440的具体描述可以参阅前文对步骤S140、S250以及S350的具体描述，在本实施例不作一一赘述。

步骤S450：利用图像处理模型对样本图像特征、样本文字特征以及样本跨模态冲突特征进行融合，得到样本融合特征。

其中，关于对样本图像特征、样本文字特征以及样本跨模态冲突特征进行融合的过程可以参阅前文对步骤S150、S160以及S360的具体描述，在本实施例不作一一赘述。

需要说明的是，在样本图像特征包括样本物体类别编码特征和样本图像编码特征，以及样本文本特征包括样本内嵌文本编码特征和样本标题编码特征时，上述步骤S450具体可以是：

基于注意力机制提取样本图像编码特征和样本物体编码特征中的一个特征与样本标题编码特征和样本内嵌文本特征中的一个特征之间的样本跨模态冲突特征；提取样本图像编码特征于样本物体编码特征之间的样本图像模态冲突特征；提取样本标题编码特征与样本内嵌文本特征之间的样本文本模态冲突特征；对样本跨模态冲突特征、样本图像模态冲突特征以及样本文本模态冲突特征进行拼接得到样本融合特征。

其中，在提取样本图像编码特征于样本物体编码特征之间的样本图像模态冲突特征；以及提取样本标题编码特征与样本内嵌文本特征之间的样本文本模态冲突特征时。对于相同模态下的特征，如样本图像的标题文本和图像内嵌文本，以及样本图像和样本图像中的物体。由于不协调的信息也有可能仅出现在单模态中，相应的考虑模态内部的冲突信息也是必要的。基于此，可以对相同模态的内部冲突信息进行捕捉。为了平衡模型复杂度和表现力，在提取相同模态的冲突特征时不能引入过多的参数，避免给模型的训练带来过多的干扰。

本申请为了避免引入过多的参数，仅引入了偏好矩阵C来对模型训练过程中模态内部的交互进行建模，偏好矩阵可以理解为一个权重矩阵，表现模型对于不同模态特征的偏好，由图像处理模型自动计算生成。其计算方法如下：C₁＝tanh(I^TW_aO)；C₂＝tanh(H^TW_bT)；其中，H∈R^d*L和T∈R^d*M分别表示文本特征和图像内嵌文本的特征。I∈R^d*49和O∈R^d*N分别表示图像特征和图像物体特征。L、M、N是三个超参数，分别表示样本图像内嵌文本的序列长度、样本标题文本的序列长度、样本图像中被识别的物体的类别数。W_a、W_b∈R^d*d是一组可学习的权重参数。其中，生成的偏好矩阵C₁∈R^49*N，C₂∈R^L*M后，可以最大化偏好矩阵，来获得图像内嵌文本和图像物体各自对应的注意力权重。具体来说，就是在偏好矩阵C上应用列级别的最大池化操作来计算权重向量a₁∈R^M和a₂∈R^N。通过采用最大池化的操作，能够使同一模态内的冲突能够体现出来。最后，相同模态中的不协调可以通过以下公式进行量化：H_T＝a₂T^T；H_I＝a₁I^T；其中，H_T、H_I∈R^d包含相同模态内部的冲突信息。

步骤S460：基于样本融合特征和样本分类标签，进行损失计算得到模型损失。

其中，在获得相同模态内部的冲突表示H_I和H_T，以及不同模态之间的冲突表示H_G后，本文将他们进行拼接用于后续的预测。在预测层包含一个用于降维的线性层和一个用于预测各类别概率分布的Softmax函数。模型会根据最高的概率，判断输入是否为异常图片的案例。计算过程可以表示为：其中，W∈R^3d是随模型训练的可学习的参数，/>是模型的分类结果。公式中的W[H_I:H_G:H_T]表示对融合特征降维过程，H_I:H_G:H_T表示将样本图像模态冲突特征、样本跨模态冲突特征以及样本文本模态冲突特征进行拼接得到的融合特征，b表示全连接神经网络层中的偏置(bias)，是一个可以更新学习的参数。

在进行损失计算时，具体可以采用交叉熵损失函数、指数损失函数等损失函数来对模型进行损失计算，以便后续基于损失计算结果优化模型。在本申请的一种可实施方式中，具体可以利用如下的交叉熵损失函数计算式进行损失计算：其中，J表示损失函数，/>是模型对第i个样本的预测结果，y_i是第i个样本的真实标签，N是训练数据的总量，r表示标准的L2正则化，λ是r的权重。

步骤S470：基于模型损失调整图像处理模型的模型参数以最小化模型损失，得到训练后的图像处理模型。

其中，在调整图像处理模型的模型参数时，上述的模型参数可以包括前述实施例中的第一预设权重矩阵和第二预设权重矩阵中的具体的权重参数。

步骤S480：获取待处理图像：

步骤S490：利用训练后的图像处理模型对待处理图像进行处理，确定待处理图像是否为异常图像。

关于利用训练后的图像处理模型对待处理图像进行处理的过程可以具体参阅前述实施例对步骤S120-S160、S220-S260、S320-S360以及步骤S410-S430的具体描述，在此处不作一一赘述。

请参阅图6，示例性的，以训练一个图像处理模型用于图像进行处理为例进行说明，其中图像处理模型包括图像识别模型、图像编码器、标题文本编码器、内嵌文本编码器、图像模态融合层、文本模态融合层、跨模态融合模块、拼接层以及分类识别层。在训练阶段，输入多张样本图像，具体的图像处理模型的训练阶段和预测结算的数据处理过程如下：

训练阶段：

样本图像的获取，可以通过用户自己创建或者从视频、文章等中抽取异常图像，以及获取正常图像。将上述的异常图像和正常图像进行标记后作为样本图像存放至样本库中。

样本图像模态冲突特征的获取，可以利用图像识别模型对样本图像进行识别，得到样本图像中物体对应的多个类别和每种类别对应的概率，之后，将检测到的物体对象的类别转换为相应的类别编码特征，同时使用YOLOv4识别图像过程中获得的每种类别是识别结果对应的概率对类别编码特征进行加权平均获得一个样本物体类别编码特征；同时，利用图像编码器对样本图像进行编码，得到样本图像编码特征；之后，引入第一偏好矩阵，并利用图像模态融合层基于激活函数对第一注意力权重W_a(示例性的权重W_a包括W_a1、W_a2、W_a3、W_a4)、物体类别编码特征O(示例性的编码特征O包括O₁、O₂、O₃、O₄)以及图像编码特征I(示例性的编码特征I包括I₁、I₂、I₃、I₄)采用公式C₁＝tanh(I^TW_aO)计算以最大化第一偏好矩阵C₁，也即在第一偏好矩阵C₁上应用列级别的最大池化操作来计算权重向量a₁；从而利用公式H_I＝a₁I^T量化得到图像模态的冲突(样本图像模态冲突特征)H_I。

样本文本模态冲突特征的获取，可以在获取到样本图像和对应的标题文本后，先利用OCR文本识别模型(图片文字识别模型)对样本图像进行识别，得到样本图像的内嵌本文，之后，使用相同结构的文本编码器(标题文本编码器、内嵌文本编码器)分别对标题文本和图像内嵌文本进行处理。对于给定的一个文本序列X＝{x₁,x₂,…,x_N}，其中x_i∈R^d是词嵌入、分段嵌入、位置嵌入的和，N表示文本序列的最大长度，d表示嵌入的维度。具体的，可以利用经过预训练的BERT模型来获得标题文本和内嵌文本的编码表示。将BERT模型的编码器中最后一个编码层的输出，可以作为文本编码后的表示，公式为其中d是BERT中隐藏层的维度。之后，引入第一偏好矩阵，并利用文本模态融合层基于激活函数对第二注意力权重W_b(示例性的权重W_b包括W_b1、W_b2、W_b3、W_b4)、内嵌文本编码特征T(示例性的编码特征T包括T₁、T₂、T₃、T₄)以及标题编码特征H(示例性的编码特征H包括H₁、H₂、H₃、H₄)采用公式C₂＝tanh(H^TW_bT)计算以最大化第二偏好矩阵，也即在第二偏好矩阵C₂上应用列级别的最大池化操作来计算权重向量a₂；从而利用公式H_T＝a₂T^T量化得到文本模态的冲突(样本文本模态冲突特征)H_T。

样本跨模态冲突特征的获取，可以是在跨模态融合模块中利用多头注意力机制，将标题编码特征H∈R^d*N作为查询(q)，图像特征G∈R^d*49作为键(K)和值(V)，跨模态融合模块中包括多个匹配模块，则对于第i个注意力头，匹配融合模块其计算方式如下所示：其中，H表示文本特征，G表示图像特征，d_k∈R^d/h，/>都是预先设置的参数(如，在训练阶段训练好的参数)。当h个注意力头的输出被拼接之后，经过线性变换得到最终的结果，如下所示：M ATT(H,G)＝[ATT₁(H,G),…,ATT_h(H,G)]W^O；其中，W^O∈R^d*d是预先设置的参数(如，在训练阶段训练好的参数)。之后，使用残差连接作用在文本特征H和自注意力层MATT(H,G)的输出上，计算方式如下所示：Z＝LN(H+M ATT(H,G))；其中，LN表示层标准化操作。之后，使用一个前馈神经(MLP)和另一个残差连接应用在Z上，以获得跨模态冲突特征的提取模块中的第一个匹配融合模块的输出：TIM(H,G)＝LN(Z+MLP(Z))；其中，TIM(H,G)∈R^N*d表示第一个图像文本匹配融合模块的输出。本申请实施例中堆叠了l_m个图像文本匹配融合模块，并且以最后一个模块的输出/>作为最终的样本跨模态冲突特征。此处，/>l_m是一个预先定义好的超参数。最终的跨模态冲突信息可以被表示为H_G∈R^d，即/>在[CLS]位置上(矩阵中的第一行位置上)的编码。

应当理解，上述的文本编码器、内嵌文本编码器以及跨模态融合模块的具体结构仅仅是示意性的，不应当作为本方案的限制。

在获得样本跨模态冲突特征、样本图像模态冲突特征以及样本文本模态冲突特征之后，为使获得的各个特征的维度相同，可以在文本模态融合层和图像模态融合层的输出端分别连接一全连接神经层，之后利用拼接层将图像模态冲突特征、跨模态冲突特征以及文本模态冲突特征依次拼接得到样本融合特征，并利用分类函数对样本融合特征进行分类，以确定样本图像的处理结果是否为异常图像，根据处理结果和样本标签调整模型的参数，如调整前述的第一注意力权重W_a和第二注意力权重W_b，从而最小化模型损失。

对待处理图像进行图像处理的阶段：

在完成对图像处理模型的训练之后，若获取到待处理图像，则可以对待处理图像利用与样本图像类似的处理方式，获得待处理图像的融合特征，并对融合特征利用分类函数进行分类计算，得到待处理图像的处理结果。

通过构建上述的图像处理模型，并且使用注意力机制图像特征与文本特征之间的冲突和反差，本文方法解决了异常图像识别精度差的问题。由于异常图像的识别是依赖于多模态信息的任务，对于传统的图像或文本单模态识别方法来说是十分困难的。而本申请提出的模型，通过应用注意力机制对多模态信息之间的交互和冲突进行建模，可以有效提升异常图像识别的准确性。

通过设计新的特征融合方法，本文的模型能够更有效的融合预训练语言模型输出的文本特征和视觉模型输出的图像特征。此外还引入了两种特征：内嵌文本特征和物体类别特征以提升获取的特征的准确性。此外，采用注意力融合机制能够使模型在不引入过大的计算开销的同时，充分利用多模态信息之间的互补性，从而更好的识别异常图像。此外，模型的中间结果可以作为未成年人识别的结果输出，能够作为其他业务计算的特征之一。同时也可以使模型适配更多业务要求，业务方可以根据模型返回的结果灵活进行业务配置，从而降低业务线上的人工审核的资源开销，降低人力成本。

为了验证本申请过得图像处理方法的有效性，可以在内容交互平台(如，视频播放平台或图文交互平台)与现有的技术方法进行了对比，结果如下表所示。其中Acc表示准确率，P表示精确率，R表示召回率，F1表示F1值。其中，现有技术的方法包括方法一:基于关键词匹配的单模态识别方法，该方法使用关键词过滤的方法确认异常图像的样本；方案二：基于多模态后期融合的方法，分别通过图片和文本两个模态的特征分别进行判断和评分，再进行加权平均，当最终的评分大于阈值时，把对应的样本识别为异常图像的样本。

表1.不同方法的测试结果

方法	Acc	P	R	F1
					方案一	0.7493	0.6412	0.6270	0.6328
方案二	0.8333	0.6790	0.5957	0.6107
					本方案	0.9041	0.9308	0.8778	0.8938

相比于方案一和方案二，采用本方案的图像处理模型能够显著提高业务的效果(在Acc上分别提升了16％和7％)，证明了该方法的有效性。两种跨模态特征的引入，也帮助模型提升对竞品bad case的识别能力。本方案的图像处理模型在测试集上精确率达到93.08％，召回率达到87.78％。并且在各业务线上效果明显提升，因此，通过采用本申请的图像处理方法，可以有效识别异常图像。

需要说明的是，本申请中装置实施例与前述方法实施例是相互对应的，装置实施例中具体的原理可以参见前述方法实施例中的内容，此处不再赘述。

图7是根据一实施例示出的图像处理装置500，如图7所示，该图像处理装置500包括：图像获取模块510、文字特征提取模块520、图像特征提取模块530、冲突特征提取模块540、特征融合模块550以及图像类型确定模块560。图像获取模块510，用于获取待处理图像；文字特征提取模块520，用于对待处理图像进行图像特征提取，得到待处理图像的图像特征；图像特征提取模块530，用于对待处理图像进行文字特征提取，得到待处理图像的文字特征；冲突特征提取模块540，用于利用图像处理模型提取样本图像特征和样本文字特征之间的样本跨模态冲突特征；特征融合模块550，用于对图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；图像类型确定模块560，用于根据融合特征确定待处理图像是否为异常图像。

在一种可实施方式中，图像获取模块510，还用于对目标视频进行抽帧，得到待处理图像。

在一种可实施方式中，冲突特征特征提取模块包括第一特征获得子模块和第二特征获得子模块。第一特征获得子模块，用于将文字特征作为注意力机制中的查询向量，将图像特征作为注意力机制中的键向量和值向量进行多头注意力计算，得到矩阵形式的图像文本融合特征；第二特征获得子模块，用于从图像文本融合特征中获取位于矩阵中指定位置的特征，作为跨模态冲突特征。

在一种可实施方式中，图像特征包括物体类别编码特征和图像编码特征，图像特征提取模块530包括第三特征获得子模块和第四特征获得子模块，第三特征获得子模块，用于对待处理图像进行图像识别，得到待处理图像中的物体的类别，对物体的类别进行编码，得到物体类别编码特征；第四特征获得子模块，用于对待处理图像进行编码，得到待处理图像的图像编码特征。

在一种可实施方式中，文字特征包括标签文本特征和内嵌文本特征，文字特征提取模块520包括第五特征提取子模块和第六特征提取子模块，第五特征提取子模块，用于对待处理图像进行文字识别，得到待处理图像中包括的内嵌文本，并对内嵌文本进行编码，得到内嵌文本特征；第六特征提取子模块，用于获取待处理图像的标题文本，对标题文本进行编码，得到标题编码特征。

在一种可实施方式中，特征融合模块550包括图像冲突特征获取子模块、文字冲突特征获取子模块以及特征融合子模块。图像冲突特征获取子模块，用于提取物体类别编码特征与图像编码特征之间的图像模态冲突特征；文字冲突特征获取子模块，用于提取内嵌文本特征与标题编码特征之间的文本模态冲突特征；特征融合子模块，用于对图像模态冲突特征、文本模态冲突特征以及跨模态冲突特征进行特征拼接，得到融合特征。

在一种可实施方式中，图像冲突特征获取子模块，还用于利用激活函数对第一预设权重矩阵、物体类别编码特征以及图像编码特征进行计算，得到第一偏好矩阵；对第一偏好矩阵利用列级别的最大池化处理，得到第一权重向量；基于第一权重向量和图像编码特征，得到物体类别编码特征和图像编码特征之间的图像模态冲突特征。

在一种可实施方式中，文字冲突特征获取子模块，还用于利用激活函数对第二预设权重矩阵、内嵌文本编码特征和标题编码特征进行计算，得到第二偏好矩阵；对第二偏好矩阵利用列级别的最大池化处理，得到第二权重向量；基于第一权重向量和标题编码特征，得到内嵌文本编码特征和标题编码特征之间的文本模态冲突特征。

在一种可实施方式中，图像类型确定模块560，还用于利用分类函数对融合特征进行分类计算，得到待处理图像的分类结果，基于待处理图像的分类结果确定待处理图像是否为异常图像。

请参阅图8，在一种可实施方式中，图像处理装置500还包括损失获取模块570和模型调整模块580，图像获取模块510，还用于获取携带有样本分类标签的样本图像，样本分类标签用于指示样本图像是否为异常图像；文字特征提取模块520，还用于对样本图像进行文字特征提取，得到样本图像的样本文字特征；图像特征提取模块530，还用于对样本图像进行图像特征提取，得到样本图像的样本图像特征；冲突特征提取模块540，还用于利用图像处理模型提取样本图像特征和样本文字特征之间的样本跨模态冲突特征；特征融合模块550，还用于利用图像处理模型对样本图像特征、样本文字特征以及样本跨模态冲突特征进行融合，得到样本融合特征；损失获取模块570，用于基于样本融合特征和样本分类标签，进行损失计算得到模型损失；模型调整模块580，用于基于模型损失调整图像处理模型的模型参数以最小化模型损失，得到训练后的图像处理模型。

下面将结合图9对本申请提供的一种电子设备进行说明。

请参阅图9，基于上述实施例提供的图像处理方法，本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100，该电子设备100可以为服务器或终端设备，终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。

电子设备100还包括存储器104。其中，该存储器104中存储有可以执行前述实施例中内容的程序，而处理器102可以执行该存储器104中存储的程序。

其中，处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器104内的指令、程序、代码集或指令集，以及调用存储在存储器104内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器102可以采用数字信号处理(DigitalSignal Processing，DSP)、现场可编程门阵列(Field－Programmable GateArray，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(Central Processing Unit，CPU)、图像处理器(GraphicsProcessing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器102中，单独通过一块通信芯片进行实现。

存储器104可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据(如，待处理图像、内嵌文本、标题信息以及识别结果)等。

电子设备100还可以包括网络模块以及屏幕，网络模块用于接收以及发送电磁波，实现电磁波与电信号的相互转换，从而与通讯网络或者其他设备进行通讯，例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件，例如，天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互。

在一些实施例中，电子设备100还可以包括有：外设接口和至少一个外围设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外设接口连接。具体地，外围设备包括：射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种

外设接口106可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器102和存储器104。在一些实施例中，处理器102、存储器104和外设接口106被集成在同一芯片或电路板上；在一些其他实施例中，处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现，本申请实施例对此不加以限定。

射频组件108用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频组件108包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频组件108还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

定位组件112用于定位电子设备的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、北斗系统或伽利略系统的定位组件。

摄像头114用于采集图像或视频。可选地，摄像头114包括前置摄像头和后置摄像头。通常，前置摄像头设置在电子设备100的前面板，后置摄像头设置在电子设备100的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器102进行处理，或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频组件114还可以包括耳机插孔。

显示屏118用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时，显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时，显示屏118还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏118可以为一个，设置电子设备100的前面板；在另一些实施例中，显示屏118可以为至少两个，分别设置在电子设备100的不同表面或呈折叠设计；在又一些实施例中，显示屏118可以是柔性显示屏，设置在电子设备100的弯曲表面上或折叠面上。甚至，显示屏118还可以设置成非矩形的不规则图形，也即异形屏。显示屏118可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，机发光二极管)等材质制备。

电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本申请实施例还提供一种计算机可读存储介质的结构框图。该计算机可读介质中存储有程序代码，程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中描述的方法。最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像；

对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征；

对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征；

提取所述图像特征和所述文字特征之间的跨模态冲突特征；

对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；

根据所述融合特征确定所述待处理图像是否为异常图像。

2.根据权利要求1所述的方法，其特征在于，所述提取所述图像特征和所述文字特征之间的跨模态冲突特征，包括：

将所述文字特征作为注意力机制中的查询向量，将所述图像特征作为注意力机制中的键向量和值向量进行多头注意力计算，得到矩阵形式的图像文本融合特征；

从所述图像文本融合特征中获取位于矩阵中指定位置的特征，作为跨模态冲突特征。

3.根据权利要求1所述的方法，其特征在于，所述图像特征包括物体类别编码特征和图像编码特征，所述对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征，包括：

对所述待处理图像进行图像识别，得到所述待处理图像中的物体的类别，对所述物体的类别进行编码，得到物体类别编码特征；

对所述待处理图像进行编码，得到所述待处理图像的图像编码特征。

4.根据权利要求3所述的方法，其特征在于，所述对所述待处理图像进行图像识别，得到所述待处理图像中的物体的类别，对所述物体的类别进行编码，得到物体类别编码特征，包括：

对待处理图像进行分类，得到待处理图像中的物体为每种类别的概率；

对每种类别进行编码，得到每种类别的编码特征；

对每种类别的编码特征按照对应的概率进行加权求和，得到待处理图像的物体类别编码特征。

5.根据权利要求3所述的方法，其特征在于，所述文字特征包括标签文本特征和内嵌文本特征，所述对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征，包括：

对所述待处理图像进行文字识别，得到待处理图像中包括的内嵌文本，并对所述内嵌文本进行编码，得到所述内嵌文本特征；

获取所述待处理图像的标题文本，对所述标题文本进行编码，得到所述标题编码特征。

6.根据权利要求5所述的方法，其特征在于，所述对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征，包括：

提取所述物体类别编码特征与所述图像编码特征之间的图像模态冲突特征；

提取所述内嵌文本特征与所述标题编码特征之间的文本模态冲突特征；

对所述图像模态冲突特征、文本模态冲突特征以及跨模态冲突特征进行特征拼接，得到融合特征。

7.根据权利要求6所述的方法，其特征在于，所述提取所述物体类别编码特征与所述图像编码特征之间的图像模态冲突特征，包括：

利用激活函数对第一预设权重矩阵、所述物体类别编码特征以及图像编码特征进行计算，得到第一偏好矩阵；

对所述第一偏好矩阵利用列级别的最大池化处理，得到第一权重向量；

基于所述第一权重向量和所述图像编码特征，得到所述物体类别编码特征和图像编码特征之间的图像模态冲突特征。

8.根据权利要求6所述的方法，其特征在于，所述提取所述内嵌文本特征与所述标题编码特征之间的文本模态冲突特征，包括：

利用激活函数对第二预设权重矩阵、所述内嵌文本编码特征和标题编码特征进行计算，得到第二偏好矩阵；

对所述第二偏好矩阵利用列级别的最大池化处理，得到第二权重向量；

基于所述第二权重向量和所述标题编码特征，得到所述内嵌文本编码特征和标题编码特征之间的文本模态冲突特征。

9.根据权利要求1所述的方法，其特征在于，根据所述融合特征确定所述待处理图像是否为异常图像，包括：

利用分类函数对所述融合特征进行分类计算，得到待处理图像的分类结果，基于待处理图像的分类结果确定所述待处理图像是否为异常图像。

10.根据权利要求1所述的方法，其特征在于，所述对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征之前，所述方法还包括：

获取携带有样本分类标签的样本图像，所述样本分类标签用于指示所述样本图像是否为异常图像；

对所述样本图像进行文字特征提取，得到所述样本图像的样本文字特征；

对所述样本图像进行图像特征提取，得到所述样本图像的样本图像特征；

利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；

利用图像处理模型对所述样本图像特征、样本文字特征以及样本跨模态冲突特征进行融合，得到样本融合特征；

基于所述样本融合特征和样本分类标签，进行损失计算得到模型损失；

基于所述模型损失调整所述图像处理模型的模型参数以最小化模型损失，得到训练后的图像处理模型。

11.根据权利要求1所述的方法，其特征在于，所述获取待处理图像，包括：

对目标视频进行抽帧，得到待处理图像。

12.一种图像处理装置，其特征在于，所述装置包括：

图像获取模块，用于获取待处理图像；

文字特征提取模块，用于对所述待处理图像进行图像特征提取，得到所述待处理图像的图像特征；

图像特征提取模块，用于对所述待处理图像进行文字特征提取，得到所述待处理图像的文字特征；

冲突特征提取模块，用于利用图像处理模型提取所述样本图像特征和所述样本文字特征之间的样本跨模态冲突特征；

特征融合模块，用于对所述图像特征、文字特征以及跨模态冲突特征进行融合，得到融合特征；

图像类型确定模块，用于根据所述融合特征确定所述待处理图像是否为异常图像。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-11中任意一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-11中任意一项所述的方法。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-11中任意一项所述方法的步骤。