CN117011859A

CN117011859A - 一种图片处理的方法以及相关装置

Info

Publication number: CN117011859A
Application number: CN202211412658.4A
Authority: CN
Inventors: 许剑清
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-11-07

Abstract

本申请实施例公开了一种图片处理的方法以及相关装置，可应用于人工智能等场景，提升图片审核结果的准确度和审核效率。该方法包括：获取目标审核任务中的待审核图片与文本信息；分别对待审核图片、文本信息进行特征提取处理，得到待审核图片的图像特征、文本信息的文本特征；将待审核图片的图像特征和文本信息的文本特征作为目标审核模型的输入，得到第一值，第一值用于指示待审核图片的图像特征与文本信息的文本特征之间的相似程度，目标审核模型是以第一场景的第一图片样本与第一文本样本、第二场景的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型；根据第一值确定待审核图片的审核结果。

Description

一种图片处理的方法以及相关装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及一种图片处理的方法以及相关装置。

背景技术

随着对知识产权、品牌保护的重视程度增加，内容审核的需求日益提升。互联网产生的海量图片数据对人工审核带来巨大的挑战，需要提升对互联网图片识别的能力来提升审核效率。

在相关的方案中，主要是使用通用场景中的数据对图文模型进行初始化，并利用初始化后的图文模型中的图像模型进行分类任务的训练，以此实现对图片的识别处理。也就是说，传统的图片识别的方案中摒弃了文本模型，从而导致训练分类任务仍然是从图片这个单一维度的角度考虑，难以准确地确定出图片的审核结果。而且，由于不同图片的形式并不一致，该传统方案中的图文模型需要前置一个目标检测模块实现对目标图片的类型检测后，再进行审核结果的识别，增加了系统复杂性，降低了审核效率。

发明内容

本申请实施例提供了一种图片处理的方法以及相关装置，不仅能够提升图片的审核结果的准确度，而且降低了系统复杂性，使得审核效率得以提升。

第一方面，本申请实施例提供了一种图片处理的方法。该方法包括：获取目标审核任务中的待审核图片与文本信息，文本信息用于描述待审核图片的意思表达；对待审核图片进行特征提取处理，得到待审核图片的图像特征，以及对文本信息进行特征提取处理，得到文本信息的文本特征；将待审核图片的图像特征和文本信息的文本特征作为目标审核模型的输入，得到第一值，第一值用于指示待审核图片的图像特征与文本信息的文本特征之间的相似程度，目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，第二场景为与目标审核任务对应的目标场景，第一文本样本用于描述第一图片样本的意思表达，第二文本样本用于描述第二图片样本的意思表达；根据第一值确定待审核图片的审核结果。

第二方面，本申请实施例提供了一种图片处理装置。该图片处理装置包括获取单元和处理单元。其中，获取单元，用于获取目标审核任务中的待审核图片与文本信息，文本信息用于描述待审核图片的意思表达。处理单元用于：对待审核图片进行特征提取处理，得到待审核图片的图像特征，以及对文本信息进行特征提取处理，得到文本信息的文本特征；将待审核图片的图像特征和文本信息的文本特征作为目标审核模型的输入，得到第一值，第一值用于指示待审核图片的图像特征与文本信息的文本特征之间的相似程度，目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，第二场景为与目标审核任务对应的目标场景，第一文本样本用于描述第一图片样本的意思表达，第二文本样本用于描述第二图片样本的意思表达；根据第一值确定待审核图片的审核结果。

在一些可选的实施方式中，处理单元用于在第一值小于预设阈值时，确定待审核图片为异常图片。

在另一些可选的实施方式中，获取单元，还用于在将待审核图片的图像特征与文本信息的文本特征作为目标审核模型的输入，得到第一值之前，获取第一场景中的每个第一图片样本和对应的第一文本样本、以及第二场景中的每个第二图片样本和对应的第二文本样本。处理单元用于：对每个第一图片样本、每个第一文本样本、每个第二图片样本、每个第二文本样本分别进行特征提取处理，得到对应的第一图片样本的图像特征、第一文本样本的文本特征、第二图片样本的图像特征、第二文本样本的文本特征；计算每个第一图片样本的图像特征、每个第一文本样本的文本特征、每个第二图片样本的图像特征以及每个第二文本样本的文本特征之间的差异，以得到第一目标损失值；基于第一目标损失值对初始审核模型的模型参数进行更新，得到目标审核模型。

在另一些可选的实施方式中，处理单元用于：计算每个目标图像特征与每个目标文本特征之间的差异，得到第一损失值和第二损失值，第一损失值用于指示每个目标图像特征相对于每个目标文本特征之间的相似差异，第二损失值用于指示每个目标文本特征相对于每个目标图像特征之间的相似差异，目标图像特征包括第一图片样本的图像特征和第二图片样本的图像特征，目标文本特征包括第一文本样本的图像特征和第二文本样本的图像特征；对第一损失值和第二损失值进行求和处理，得到第一目标损失值。

在另一些可选的实施方式中，处理单元用于：将每个目标图像特征分别与每个目标文本特征进行相似度计算，得到第一相似矩阵。获取单元，用于获取筛选矩阵，筛选矩阵用于指示第一场景与第二场景之间的差异。处理单元，用于对第一相似矩阵和筛选矩阵进行乘积计算，得到目标相似矩阵；根据第一相似矩阵中的每个相似度与目标相似矩阵，计算第一损失值。

在另一些可选的实施方式中，获取单元用于获取每个目标文本样本，每个目标文本样本为针对目标审核任务添加的样本。处理单元用于：将每个第二图片样本和每个目标文本样本作为目标预训练模型的输入，得到对应的第二图片样本的图像特征、目标文本样本的文本特征，目标预训练模型是以每个第一图片样本和每个第一文本样本为训练数据进行迭代更新得到的机器学习模型；计算每个目标文本样本的文本特征与每个第二图片样本的图像特征之间的相似度，得到第一相似度，以及计算每个目标文本样本的文本特征与每个第三图片样本的图像特征之间的相似度，得到第二相似度，所第三图片样本为第一图片样本中除了第二图片样本以外的其他图片样本；从每个第一相似度和每个第二相似度中选取目标相似度；将目标相似度对应的目标文本样本作为第二文本样本。

在另一些可选的实施方式中，获取单元还用于在将每个第二图片样本和每个目标文本样本作为目标预训练模型的输入，得到对应的第二图片样本的图像特征、目标文本样本的文本特征之前，获取第一场景中的每个第一图片样本与每个第一文本样本。处理单元用于：对每个第一图片样本、每个第一文本样本分别进行特征提取处理，得到对应的第一图片样本的图像特征、第一文本样本的文本特征；计算每个第一图片样本的图像特征与每个第一文本样本的文本特征之间的差异，以得到第二目标损失值；基于第二目标损失值对初始预训练模型的模型参数进行更新，得到目标预训练模型。

在另一些可选的实施方式中，处理单元用于：计算每个第一图片样本的图像特征与每个第一文本样本的图像特征之间的差异，得到第三损失值和第四损失值，第三损失值用于指示每个第一图片样本的图像特征相对于每个第一文本样本的文本特征之间的相似差异，第四损失值用于指示每个第一文本样本的文本特征相对于每个第一图片样本的图像特征之间的相似差异；对第三损失值和第四损失值进行求和处理，得到第二目标损失值。

在另一些可选的实施方式中，处理单元用于：将每个第一图片样本的图像特征与每个第一文本样本的文本特征分别进行相似度计算，得到每个第三相似度；根据每个第三相似度计算第三损失值。

本申请实施例第三方面提供了一种图片处理装置，包括：存储器、输入/输出(I/O)接口和存储器。存储器用于存储程序指令。处理器用于执行存储器中的程序指令，以执行上述第一方面的实施方式对应的图片处理的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行以执行上述第一方面的实施方式对应的方法。

本申请实施例第五方面提供了一种包含指令的计算机程序产品，当其在计算机或者处理器上运行时，使得计算机或者处理器执行上述以执行上述第一方面的实施方式对应的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，由于目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，而且所述第二场景为与所述目标审核任务对应的目标场景，所述第一文本样本用于描述所述第一图片样本的意思表达，所述第二文本样本用于描述所述第二图片样本的意思表达，那么在获取目标审核任务中的待审核图片与文本信息之后，可以对待审核图片进行特征提取处理，得到所述待审核图片的图像特征，以及对所述文本信息进行特征提取处理，得到所述文本信息的文本特征。进一步地，将待审核图片的图像特征和所述文本信息的文本特征作为目标审核模型的输入，得到第一值。通过所述第一值能够指示出所述待审核图片的图像特征与所述文本信息的文本特征之间的相似程度。这样，根据第一值能够确定出该待审核图片的审核结果。通过上述方式，从图片和文本这两个模态的角度，并且联合考虑第一场景下的第一图片样本与第一文本样本、以及第二场景中的第二图片样本与第二文本样本，以此来优化训练得到目标审核模型，使得该目标审核模型能够学习到更多模态的信息，进而通过该目标审核模型计算得到的第一值更加准确，以此提升图片的审核结果的准确度。另外，仅需要采集到目标场景(即第二场景)和第一场景对应的图片和文本即可对模型进行对应的场景化的适配训练，无需增加目标检测模块，降低了系统复杂性，使得审核效率得以提升。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的一种应用场景示意图；

图2示出了本申请实施例提供的图片处理的方法的一种流程图；

图3示出了本申请实施例提供的训练目标审核模型的方法流程图；

图4示出了本申请实施例提供的生成第二文本样本的流程图；

图5示出了本申请实施例提供的训练目标预训练模型的方法流程图；

图6示出了本申请实施例提供的目标预训练模型的训练流程示意图；

图7示出了本申请实施例提供的筛选矩阵的结构示意图；

图8示出了本申请实施例提供的目标审核模型的训练流程示意图；

图9示出了本申请实施例提供的获取目标审核模型的示意图；

图10示出了本申请实施例提供的模型部署的示意图；

图11示出了本申请实施例提供的图片处理装置的结构示意图；

图12示出了本申请实施例提供的图片处理装置的硬件结构示意图。

具体实施方式

可以理解的是，在本申请的具体实施方式中，涉及到用户信息、用户的个人数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供的图片处理的方法是基于人工智能(artificialintelligence，AI)实现的。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能技术包括上述所提及的机器学习等方向。例如，可以涉及机器学习(machine learning，ML)中的深度学习(deep learning)，包括人工神经网络等。

上述所提及的图片处理装置可以具备机器学习能力。机器学习(machinelearning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括神经网络等技术。在本申请实施例提供的图片处理的方法中的采用人工智能模型，主要涉及对神经网络的应用，通过神经网络实现对目标审核任务中的待审核图片的识别，以此判断该待审核图片是否为异常图片，譬如涉及敏感话题的图片等。

另外，上述所提及的图片处理装置可以具备实施计算机视觉技术的处理能力。所提及的计算机视觉技术是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、轨迹追索和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

由于传统的图片识别的方案中仅考虑图像模型，摒弃了文本模型，使得训练分类任务仍然是从图片这个单一维度的角度考虑，难以准确地确定出图片的审核结果。而且，由于不同图片的形式并不一致，该传统方案中的图文模型需要前置一个目标检测模块实现对目标图片的类型检测后，再进行审核结果的识别，增加了系统复杂性，降低了审核效率。

因此，为了解决上述所提及的技术问题，本申请实施例提供了一种图片处理的方法。该方法能够通过第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到目标审核模型。进一步地，使用该目标审核模型对目标审核任务中的待审核图片的图像特征、以及对应的文本信息的文本特征进行相似度计算，以此相似结果来确定该待审核图片的审核结果。通过上述方式，从图片和文本这两个模态的角度，并且联合考虑第一场景下的图片-文本对，以及第二场景下的图片-文本对来优化目标审核模型，使得该目标审核模型能够学习到更多模态的信息，进而通过该目标审核模型计算得到的第一值更加准确，以此提升图片的审核结果的准确度。另外，仅需要采集到目标场景(即第二场景)和第一场景对应的图片和文本即可对模型进行对应的场景化的适配训练，无需增加目标检测模块，降低了系统复杂性，使得审核效率得以提升。

图1示出了本申请实施例提供的一种应用场景示意图。

如图1所示，该应用场景示意图包括终端设备和服务器，其中，终端设备和服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限定。

另外，终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等，本申请实施例中并不局限于此。终端设备可以泛指多个终端中的一个，本实施例仅以终端设备来举例说明。需说明，本申请实施例中对于终端设备的数量、设备类型不做具体限定说明。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器用于为终端设备运行的应用程序提供后台服务。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络，包括但不限于局域网(local area network，LAN)、城域网(metropolitan area network，MAN)、广域网(wide area network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(hyper text markup language，HTML)、可扩展标记语言(extensible markuplanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer，SSL)、传输层安全(transport layer security，TLS)、虚拟专用网络(virtual private network，VPN)、网际协议安全(internet protocolsecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

示意性地，本申请实施例提供的图片处理的方法可以由服务器完成，也可以由终端设备完成，本申请实施例中不限定实现该图片处理的方法的执行主体。

另外，本申请实施例提供的方法可以应用于各种场景，包括但不限于人工智能、智慧交通、辅助驾驶等，本申请实施例中不做具体限定。

下面结合附图，以终端设备作为图片处理装置为例，对本申请实施例提供的一种图片处理的方法进行介绍。

图2示出了本申请实施例提供的图片处理的方法的一种流程图。如图2所示，该图片处理的方法可以包括如下步骤：

201、获取目标审核任务中的待审核图片和文本信息，文本信息用于描述待审核图片的意思表达。

示例中，终端设备可以通过发起针对目标审核任务中的待审核图片的识别请求，进而根据识别请求来获取得到目标审核任务中的待审核图片。所描述的待审核图片可以理解成未经过审核的图片。举例来说，某个对象通过终端设备中的应用程序访问某个网站的图片，而由于某些图片可能会涉及敏感话题、隐含不合规的信息暗示等等内容，那么在反馈给对象之前，终端设备需要将网站中的图片进行审核，那么网站的图片可以理解为待审核图片。

另外，针对每张待审核图片，都可以通过相应的文本信息来表达出待审图图片所需要表达的意思。因此，终端设备也可以获取待审核图片相应的文本信息。

需说明，所描述的目标审核任务，可以理解成对某些特定场景的图片进行审核的任务。例如，目标审核任务可以包括但不限于审核涉及敏感话题场景的任务，也可以为审核存在劣迹的明星的场景任务等等，本申请实施例实施例中不做限定说明。

202、对待审核图片进行特征提取处理，得到待审核图片的图像特征，以及对文本信息进行特征提取处理，得到文本信息的文本特征。

示例中，终端设备在获取到待审核图片后，可以借助图像模型对待审核图片进行特征提取处理，以通过图像模型提取得到待审核图片的图像特征。待审核图片的图像特征能够表示出图像模型对该待审核图片所包含信息的表达。需说明，所提及的图像模型也可以理解成终端设备中的图片网络单元模块等。示例性地，图像模型可以为卷积神经网络(CNN)，也可以为带有transformer类型的网络结构等，本申请实施例中不做限定说明。该图像模型能够包含卷积(convolution)计算、非线性激活函数(relu)计算、池化(pooling)计算等操作。

另外，终端设备在获取到文本信息后，也可以借助文本模型对文本信息进行特征提取处理，以通过文本模型提取得到该文本信息的文本特征。该文本信息的文本特征能够表示出文本模型对该待审核图片所包含信息的表达。需说明，所提及的文本模型也可以理解成终端设备中的文本网络单元模块等。示例性地，文本模型可以为带有transformer类型的网络结构等，本申请实施例中不做限定说明。该文本模型能够包含全连接计算、非线性激活函数计算、池化计算等操作。

203、将待审核图片的图像特征和文本信息的文本特征作为目标审核模型的输入，得到第一值，第一值用于指示待审核图片的图像特征与文本信息的文本特征之间的相似程度，目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，第二场景为与目标审核任务对应的目标场景，第一文本样本用于描述第一图片样本的意思表达，第二文本样本用于描述第二图片样本的意思表达。

该示例中，所描述的第一场景可以理解成通用场景，即第一场景下的图片不区分是否涉及敏感话题、劣迹明星等。第二场景则理解成与该目标审核任务所对应的目标场景，或者说可以理解成需要部署目标审核任务以便于审核图片时的部署场景。该第二场景可以包括但不限于涉及敏感话题的场景、劣迹明星的场景等等，本申请实施例中不做限定说明。

另外，由于在训练过程中无法获知第二场景中第二图片样本真实的文本标签，因此终端设备可以基于第一场景下的第一图片样本和对应第一文本样本为训练数据，以此训练出目标预训练模型，进而通过该目标预训练模型对该第二图片样本和人工添加的目标文本样本进行处理，以此生成该第二图片样本的文本伪标签。也就是说，所描述的第二文本样本，可以理解成针对该第二图片样本所生成的文本伪标签。具体可以参照后续图4所描述的内容进行理解，此处先不做赘述。

示例性地，针对上述所提及的目标审核模型，其训练过程可以参照下述图3所示的实施例的内容进行理解。

下面以终端设备为执行主体来对本申请实施例提出的对于目标审核模型的模型训练的过程进行详细介绍。如图3所示，该目标审核模型的模型训练的过程至少包括如下步骤：

301、获取第一场景中的每个第一图片样本和对应的第一文本样本，以及第二场景中的每个第二图片样本和对应的第二文本样本。

该示例中，针对第一场景，终端设备可以通过采集第一场景下海量的第一图片样本，以及获取每个第一图片样本所对应的第一文本样本，以此构建出第一场景下的图片-文本对数据。同样地，针对第二场景，终端设备也可以采集该第二场景下的每个第二图片样本，并获取每个第二图片样本对应的第二文本样本，构建得到第二场景下的图片-文本对数据。终端设备能够根据第一场景下所有的图片-文本对数据和第二场景下所有的图片-文本对数据，构建出训练样本集。

这样，在训练该目标审核模型的过程中，终端设备可以从该训练样本集中获取得到第一场景中的每个第一图片样本和对应的第一文本样本，以及第二场景中的每个第二图片样本和对应的第二文本样本。

所描述的第二文本样本，可以理解成针对该第二图片样本所生成的文本伪标签。示例性地，针对第二文本样本的获取过程，可以参照图4示出的流程示意图进行理解。如图4所示，至少涉及目标预训练模型、相似度计算模块、相似度排序模块以及标签确定模块。

首先，终端设备可以通过获取人工针对该目标审核任务添加的文本样本集，即目标文本样本。然后，终端设备将每个第二图片样本和每个目标文本样本作为目标预训练模型的输入，进而通过该目标预训练模型对每个第二图片样本和每个目标文本样本分别进行特征提取，以此得到每个第二图片样本的图像特征、以及每个目标文本样本的文本特征。需说明，此处所提及的目标预训练模型是以每个第一图片样本和每个第一文本样本为训练数据进行迭代更新得到的机器学习模型，具体可以参照后续图5中示出的训练过程进行理解，此处先不做赘述。

然后，终端设备将每个目标文本样本的文本特征与每个第二图片样本的图像特征进行相似度计算，以此得到第一相似度。同样地，终端设备还需要将每个目标文本样本的文本特征与每个第三图片样本的图像特征进行相似度度计算，以此得到第二相似度。需说明，所描述的第三图片样本为第一图片样本中除了第二图片样本以外的其他图片样本。示例性地，第三图片样本也可以称为攻击类型的图片，即理解成与目标审核任务无关的图片。通过引入第三图片样本，能够验证该目标预训练模型的误判率。

终端设备在计算出第一相似度和第二相似度后，也可以通过相似度排序模块对该第一相似度进行排序，并通过标签确定模块从第一相似度和第二相似度中选取出目标相似度，譬如说选择最高的相似度作为目标相似度，进而将该目标相似度对应的目标文本样本作为第二文本样本，即作为第二图片样本的文本伪标签。

示例性地，针对图4中提及的目标预训练模型，其训练过程可以参照下述图5所示的实施例的内容进行理解。

下面以终端设备为执行主体来对本申请实施例提出的对于目标预训练模型的模型训练的过程进行详细介绍。如图5所示，该目标预训练模型的模型训练的过程至少包括如下步骤：

501、获取第一场景中的每个第一图片样本与每个第一文本样本。

该示例中，该示例中，针对第一场景，终端设备可以通过采集该第一场景下的第一图片样本，以及获取每个第一图片样本所对应的第一文本样本，以此构建出第一场景下的图片-文本对数据。这样，在训练该目标预训练模型的过程中，终端设备可以从该训练样本集中获取得到第一场景中的每个第一图片样本和对应的第一文本样本。

需说明，此处所描述的第一场景，具体可以参照前述图2中的步骤203所描述的内容进行理解，此处不做赘述。

502、对每个第一图片样本、每个第一文本样本分别进行特征提取处理，得到对应的第一图片样本的图像特征、第一文本样本的文本特征。

该示例中，终端设备在获取到每个第一图片样本后，可以通过图像模型对每个第一图片样本进行特征提取，以此得到每个第一图片样本的图像特征。同样地，针对每个第一文本样本，终端设备也可以通过文本模型提取每个第一文本样本的特征，从而得到每个第一文本样本的文本特征。需说明，此处所描述的文本模型、图像模型具体可以参照前述步骤202中所描述的内容进行理解，此处不做赘述。

503、计算每个第一图片样本的图像特征与每个第一文本样本的文本特征之间的差异，以得到第二目标损失值。

该示例中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到神经网络能够预测出真正想要的目标值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。而且，也希望图片所表达的意思更贴近对应的文本，而且也希望文本所表达的含义更能准确地表达图片所示出的含义。

因此，终端设备在提取得到每个第一图片样本的图像特征以及每个第一文本样本的文本特征后，通过将这所有的第一图片样本的图像特征和第一文本样本的文本特征进行两两特征之间的相似度计算，即在图像特征与文本特征之间进行两两特征之间的相似度计算，以此计算出第一图片样本的图像特征与第一文本样本的文本特征之间的差异，进而得到第二目标损失值。

在一些示例中，在计算第二目标损失值的过程中，具体可以通过如下方式实现，即：首先，计算每个第一图片样本的图像特征与每个第一文本样本的文本特征之间的差异，得到第三损失值和第四损失值。然后，对第三损失值和第四损失值进行求和处理，得到该第二目标损失值。

该示例中，终端设备可以计算每个第一图片样本的图像特征相对于每个第一文本样本的文本特征之间的差异，得到第三损失值。通过该第三损失值能够表示出每个第一图片样本的图像特征相对于每个第一文本样本的文本特征之间的相似差异。

示例性地，终端设备可以将每个第一图片样本的图像特征分别与每个第一文本样本的文本特征进行相似度计算，从而得到各个第一图片样本对应的第三相似度。举例来说，若第一图片样本的个数为N，对应的第一文本样本也为N，此时，终端设备可以先将第1个第一图片样本的图像特征分别与这N个第一文本样本的文本特征进行相似度计算，从而得到第1个第一图片样本对应的N个第三相似度。然后，终端设备遍历其他的N-1个第一图片样本，分别计算各个第一图片样本的图像特征与这N个第一文本样本的文本特征之间的相似度，从而分别得到其余N-1个第一图片样本对应的N个第三相似度。

这样，终端设备再根据这N×N个第三相似度，计算第三损失值。举例来说，第一损失模型可以为：终端设备可以将这N×N个第三相似度作为该第一损失模型的输入，以此通过该第一损失模型对这N×N个第三相似度进行计算，以此计算出第三损失值。需说明，在上述的第一损失模型中，参数N为第一图片样本的总个数，i为第一图片样本中的第i个第一图片样本，j为第一文本样本中的第j个第一文本样本，y_j表示第j个第一文本样本的文本特征，x_i表示第i个第一图片样本的图像特征，x_i ^T·y_j表示出第i个第一图片样本的第三相似度，即第i个第一图片样本的图像特征相对于第j个第一文本样本的文本特征之间的相似度。需说明，第一图片样本的个数与第一文本样本的个数相等。

类似地，针对第四损失值的计算过程，也可以参照上述第三损失值的计算过程进行理解。示例性地，终端设备可以计算每个第一文本样本的文本特征相对于每个第一图片样本的图像特征之间的差异，得到第四损失值。通过该第四损失值能够表示出每个第一文本样本的文本特征相对于每个第一图片样本的图像特征之间的相似差异。举例来说，终端设备可以将每个第一文本样本的文本特征与每个第一图片样本的图像特征进行相似度计算。例如，终端设备可以先将第1个第一文本样本的文本特征分别与这N个第一图片样本的图像特征进行相似度计算，从而得到该第1个第一文本样本对应的N个第四相似度。然后，终端设备遍历其他的N-1个第一文本样本，分别计算各个第一文本样本的文本特征与这N个第一图片样本的图像特征之间的相似度，从而分别得到其余N-1个第一文本样本对应的N个第四相似度。

这样，终端设备将这N×N个第四相似度作为第二损失模型的输入，由此第二损失模型计算对这N×N个第四相似度进行计算，以此计算出第四损失值。举例来说，第二损失模型可以为：需说明，在上述的第二损失模型中，参数N为第一文本样本的总个数，i为第一图片样本中的第i个第一图片样本，j为第一文本样本中的第j个第一文本样本，y_j表示第j个第一文本样本的文本特征，x_i表示第i个第一图片样本的图像特征，y_j ^T·x_i表示出第j个第一文本样本的第四相似度，即第j个第一文本样本的文本特征相对于第i个第一图片样本的图像特征之间的相似度。

这样，终端设备在计算得到第三损失值和第四损失值后，可以将第三损失值和第四损失值相加，以此计算得到最终的第二目标损失值，即L^*＝L1_p2t+L2_t2p。

504、基于第二目标损失值对初始预训练模型的模型参数进行更新，得到目标预训练模型。

该示例中，终端设备在计算得到第二目标损失值后，能够根据该第二目标损失值对初始预训练模型的模型参数进行更新和调整，从而得到最终的目标预训练模型。

举例来说，图6示出了本申请实施例提供的目标预训练模型的训练流程示意图。如图6所示，在训练目标预训练模型的过程中，至少涉及训练数据准备模块、文本网络单元模块、图片网络单元模块、损失函数计算模块、目标函数优化模块等。其中，在训练过程中，训练数据准备模块可以对第一场景中的第一图片样本以及对应的第一文本样本进行采集，并将采集到所有的第一图片样本和第一文本样本组合成一个batch，然后将第一图片样本发送至图片网络单元模块中进行处理，以及将第一文本样本发送至文本网络单元模块中进行处理。图片网络单元模块能够对所有的第一图片样本进行特征提取，进而得到相应的图像特征。文本网络单元模块能够对所有的第一文本样本进行特征提取，进而得到相应的文本特征。应该，此处所描述的图片网络单元模块可以参照前述图2中的步骤202所描述的图像模型进行理解，此处不做赘述。同样地，此处所描述的文本网络单元模块可以参照前述图2中的步骤202所描述的文本模型进行理解，此处不做赘述。

另外，损失函数计算模块能够对该batch中的所有的第一文本样本的文本特征和所有的第一图片样本的图像特征进行两两特征之间的相似度计算，并通过所计算得到的相似度，计算每次迭代过程中第一图片样本的图像特征与第一文本样本的文本特征之间的差异，进而计算得到第二目标损失值。具体第二目标损失值的计算过程，可以参照前述图5中示出的实施例进行理解，此处不做赘述。

目标函数优化模块可以基于梯度下降算法对第二目标损失值进行迭代训练优化，直到训练的结果满足终止模型训练的条件即可。需说明，所描述的梯度下降算法可以包括随机梯度下降、带动量项的随机梯度下降、自适应梯度算法(ada ptive gradient)、自适应矩阵估计算法(adaptive moment estimation)等算法，本申请实施例中不做具体限定。另外，终止模型训练的条件可以包括通过设置训练迭代次数满足预设定的值，或者第二目标损失值小于预设值等，本申请不做具体限定说明。

302、对每个第一图片样本、每个第一文本样本、每个第二图片样本、每个第二文本样本分别进行特征提取处理，得到对应的第一图片样本的图像特征、第一文本样本的文本特征、第二图片样本的图像特征、第二文本样本的文本特征。

该示例中，终端设备在获取到每个第一图片样本后，可以通过图像模型对每个第一图片样本进行特征提取，以此得到每个第一图片样本的图像特征。同样地，针对每个第一文本样本，终端设备也可以通过文本模型提取每个第一文本样本的特征，从而得到每个第一文本样本的文本特征。

需说明，针对每个第二图片样本的图像特征的提取方式，也可以参照前述图像模型提取第一图片样本的图像特征的过程进行理解，此处不做赘述。针对每个第二文本样本的文本特征的提取方式，也可以参照前述文本模型提取第一文本样本的文本特征的过程进行理解，此处不做赘述。另外，此处所描述的文本模型、图像模型具体可以参照前述步骤201中所描述的内容进行理解，此处不做赘述。

303、计算每个第一图片样本的图像特征、每个第一文本样本的文本特征、每个第二图片样本的图像特征以及每个第二文本样本的文本特征之间的差异，以得到第一目标损失值。

该示例中，终端设备在提取得到每个第一图片样本的图像特征、每个第一文本样本的文本特征、每个第二图片样本的图像特征以及每个第二文本样本的文本特征后，通过将这所有的图像特征和文本特征进行两两特征之间的相似度计算，以此计算出第一图片样本的图像特征、第一文本样本的文本特征、第二图片样本的图像特征以及第二文本样本的文本特征之间的差异，进而得到第一目标损失值。

在一些示例中，在计算第一目标损失值的过程中，具体可以通过如下方式实现，即：首先，计算每个目标图像特征与每个目标文本特征之间的差异，得到第一损失值和第二损失值。然后，对第一损失值和第二损失值进行求和处理，得到该第一目标损失值。

该示例中，目标图像特征包括第一图片样本的图像特征和第二图像样本的图像特征。目标文本特征包括第一文本样本的文本特征和第二文本样本的文本特征。

而且，既希望图片所表达的意思更贴近对应的文本，而且也希望文本所表达的含义更能准确地表达图片所示出的含义。因此，终端设备可以计算每个目标图像特征相对于每个目标文本特征之间的差异，得到第一损失值。通过该第一损失值能够表示出每个目标图像特征相对于每个目标文本特征之间的相似差异。

示例性地，终端设备可以将每个目标图像特征分别与每个目标文本特征进行相似度计算，进而得到第一相似矩阵。举例来说，若第一图片样本和第二图片样本所组成的目标图像样本的总个数为M，那么对应的第一文本样本和第二文本样本之和也为M。此时，此时，终端设备可以先将这目标图像样本中的第1个图片样本的图像特征分别与这M个文本样本的文本特征进行相似度计算，从而得到与该第1个图片样本对应的M个相似度。然后，终端设备遍历其他的M-1个图片样本，分别计算各个图片样本的图像特征与这M个文本样本的文本特征之间的相似度，从而分别得到其余M-1个图片样本对应的M个相似度。这样，终端设备将该第1个图片样本对应的M个相似度，以及其余M-1个图片样本对应的M个相似度构建成第一相似矩阵，该第一相似矩阵为M×M维的矩阵。

在该第一相似矩阵中，每一个相似值都能够反映出目标图像特征与相应的目标文本特征之间的相似程度。然后，终端设备对该第一相似矩阵中的所有的相似度进行筛选，以通过预设筛选规则从该第一相似矩阵中选取出合适的筛选矩阵。该筛选矩阵能够指示出图像特征和文本特征在第一场景与第二场景之间的差异。举例来说，预设筛选规则可以包括将第二场景下的图像特征与文本特征之间的相似度置为零、且将第一场景与第二场景下的图像特征与文本特征之间的相似度与第一相似矩阵中的相似度保持不变。图7示出了筛选矩阵的结构示意图。如图7所示，终端设备可以根据图像特征和文本特征在第一场景和第二场景下的差异，以及预设筛选规则，从第一相似矩阵中选取出该筛选矩阵。其中，筛选矩阵中的数值0，表示出第二场景中的图像特征与文本特征之间的相似度为0。这样，终端设备在得到第一相似矩阵和筛选矩阵后，可以将第一相似矩阵和筛选矩阵进行乘积计算，从而得到最终的目标相似矩阵。

终端设备再根据第一相似矩阵中的每个相似度与目标相似矩阵，计算第一损失值。举例来说，第三损失模型可以为：需说明，终端设备可以将第一相似矩阵中的每个相似度，以及目标相似矩阵中对应位置的取值作为该第三损失模型的输入，以此通过该第三损失模型对每个相似度以及在目标相似矩阵中对应位置的取值进行计算，以此计算出第一损失值。需说明，在上述的第三损失模型中，参数M为目标图片样本的总个数(包括了第一图片样本和第二图片样本)，i为目标图片样本中的第i个图片样本，j为文本样本(包括了第一文本样本和第二文本样本)中的第j个文本样本，y_j表示第j个文本样本的文本特征，x_i表示第i个图片样本的图像特征，x_i ^T·y_j表示出第i个图片样本的相似度，即第i个图片样本的图像特征相对于第j个文本样本的文本特征之间的相似度。另外，m_ij表示出该筛选矩阵中第i行第j列位置上的取值。

类似地，针对第二损失值的计算过程，也可以参照上述第一损失值的计算过程进行理解。示例性地，终端设备可以计算每个目标文本特征相对于每个目标图像特征之间的差异，得到第二损失值。通过该第二损失值能够表示出每个目标文本特征相对于每个目标图像特征之间的相似差异。举例来说，终端设备可以将每个目标文本特征与每个目标图像特征进行相似度计算，然后将计算得到的相似度与筛选矩阵进行乘积计算，由此得到最终的相似矩阵。这样，终端设备将每个相似度与最终的相似矩阵对应位置的取值作为第四损失模型的输入，由此第四损失模型计算对每个相似度以及在最终的相似矩阵中对应位置的取值进行计算，以此计算出第二损失值。举例来说，第四损失模型可以为：需说明，在上述的第四损失模型中，参数M为文本样本的总个数(包括了第一文本样本和第二文本样本)，/>表示出第i个文本样本的相似度，即第j个文本样本的文本特征相对于第i个图像样本的图像特征之间的相似度。另外，针对参数i、j、x_i、y_j以及m_ij，可以参照前述第三损失模型中的内容进行理解，此处不做赘述。

这样，终端设备在计算得到第一损失值和第二损失值后，可以将第一损失值和第二损失值相加，以此计算得到最终的第一目标损失值，即L^**＝L3_p2t+L4_t2p。

304、基于第一目标损失值对初始审核模型的模型参数进行更新，得到目标审核模型。

该示例中，终端设备在计算得到第一目标损失值后，能够根据该第一目标损失值对初始审核模型的模型参数进行更新和调整，从而得到最终的目标审核模型。

举例来说，图8示出了本申请实施例提供的目标审核模型的训练流程示意图。如图8所示，在训练目标审核模型的过程中，至少涉及训练数据准备模块、文本网络单元模块、图片网络单元模块、相似度计算模块、相似度筛选模块、损失函数计算模块、目标函数优化模块等。其中，在训练过程中，该训练数据准备模块可以对第一场景中的第一图片样本以及对应的第一文本样本进行采集，而且也需要对第二场景中的第二图片样本以及对应的第二文本样本进行采集，并将采集到所有的图片样本、文本样本组合成一个batch，并将图片样本发送至图片网络单元模块中进行处理，以及将文本样本发送至文本网络单元模块中进行处理。图片网络单元模块能够对所有的图片样本进行特征提取，进而得到相应的图像特征。文本网络单元模块能够对所有的文本样本进行特征提取，进而得到相应的文本特征。

另外，相似度计算模块能够对该batch中的所有的文本特征和所有的图像特征进行两两特征之间的相似度计算，从而得到相应的相似度矩阵。相似度筛选矩阵能够对相似度矩阵中的相似度进行筛选，以得到最终的目标相似矩阵，具体的筛选过程可以参照前述图7示出的内容进行理解，此处不做赘述。

损失函数计算模块能够计算每次迭代过程中所有的图像特征与文本特征之间的差异，进而计算得到第一目标损失值。具体计算过程可以参照前述图3中示出的实施例进行理解，此处不做赘述。

目标函数优化模块可以基于梯度下降算法对第一目标损失值进行迭代训练优化，直到训练的结果满足终止模型训练的条件即可。需说明，所描述的梯度下降算法可以包括随机梯度下降、带动量项的随机梯度下降、自适应梯度算法(ada ptive gradient)、自适应矩阵估计算法(adaptive moment estimation)等算法，本申请实施例中不做具体限定。另外，终止模型训练的条件可以包括通过设置训练迭代次数满足预设定的值，或者第一目标损失值小于预设值等，本申请不做具体限定说明。

这样，终端设备在训练得到该目标审核模型后，可以将所提取到的待审核图片的图像特征以及对应文本信息的文本特征输入到该目标审核模型中，以通过目标审核模型计算出待审核图片的图像特征以及对应文本信息的文本特征之间的相似度，即第一值。

204、根据第一值确定待审核图片的审核结果。

该示例中，终端设备在计算出第一值后，可以根据该第一值与预设阈值之间的大小关系来判断该待审核图片是否是异常图片。譬如说，在第一值小于预设阈值的情况下，可以说明待审核图片的图像特征与对应文本信息的文本特征的相关程度较小，由此可以判断出该待审核图片为异常图片。所描述的异常图片可以理解成涉及敏感话题、存储劣迹明星等内容的图片等，本申请实施例中不做具体限定。

示例性地，如图9所示，获取目标审核模型的过程包括模型训练阶段以及模型部署阶段。模型训练阶段包括通过对初始预训练模型进行训练，得到训练完成的目标预训练模型，并通过训练完成的目标预训练模型指导生成与第二场景中的第二图片样本所对应的文本伪标签，即第二文本样本。然后，再结合第一场景的图片-文本数据对，以及第二场景的图片-文本数据对作为训练数据，以此对初始审核模型进行迭代训练，得到训练完成的目标审核模型。模型部署阶段用于对模块训练阶段中所得到的相关模块进行组合部署，得到一个完整的审核模型，例如，如图10所示，对文本网络单元模块、图片网络单元模块以及阈值比对模块进行整合。其中，文本网络单元模块用于对待审核图片的文本信息进行离线的文本特征提取，图片网络单元模块用于对待审核图片进行图像特征提取。然后，通过阈值比对模块对文本特征和图像特征进行相似度计算，并将计算结果与预设阈值进行比较，以此得到该待审核图片的审核结果。

本申请实施例中，由于目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据，以计算训练数据中图片样本与文本样本之间的相似度为训练目标进行迭代训练得到的机器学习模型，而且第二场景为与目标审核任务对应的目标场景，第一文本样本用于描述第一图片样本的意思表达，第二文本样本用于描述第二图片样本的意思表达，那么在获取目标审核任务中的待审核图片与文本信息之后，可以对待审核图片进行特征提取处理，得到待审核图片的图像特征，以及对文本信息进行特征提取处理，得到文本信息的文本特征。进一步地，将待审核图片的图像特征和文本信息的文本特征作为目标审核模型的输入，得到第一值。通过第一值能够指示出待审核图片的图像特征与文本信息的文本特征之间的相似程度。这样，根据第一值能够确定出该待审核图片的审核结果。通过上述方式，从图片和文本这两个模态的角度，并且联合考虑第一场景下的第一图片样本与第一文本样本、以及第二场景中的第二图片样本与第二文本样本，以此来优化训练得到目标审核模型，使得该目标审核模型能够学习到更多模态的信息，进而通过该目标审核模型计算得到的第一值更加准确，以此提升图片的审核结果的准确度。另外，仅需要采集到目标场景(即第二场景)和第一场景对应的图片和文本即可对模型进行对应的场景化的适配训练，无需增加目标检测模块，降低了系统复杂性，使得审核效率得以提升。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。可以理解的是为了实现上述功能，包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本申请中所公开的实施例描述的各示例的模块及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例可以根据上述方法示例对装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

下面对本申请实施例中的图片处理装置进行详细描述，图11为本申请实施例中提供的图片处理装置的一个实施例示意图。如图11所示，该图片处理装置可以包括获取单元1101和处理单元1102。

其中，获取单元1101，用于获取目标审核任务中的待审核图片与文本信息，所述文本信息用于描述所述待审核图片的意思表达。处理单元1102用于：对所述待审核图片进行特征提取处理，得到所述待审核图片的图像特征，以及对所述文本信息进行特征提取处理，得到所述文本信息的文本特征；将所述待审核图片的图像特征和所述文本信息的文本特征作为目标审核模型的输入，得到第一值，所述第一值用于指示所述待审核图片的图像特征与所述文本信息的文本特征之间的相似程度，所述目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，所述第二场景为与所述目标审核任务对应的目标场景，所述第一文本样本用于描述所述第一图片样本的意思表达，所述第二文本样本用于描述所述第二图片样本的意思表达；根据所述第一值确定所述待审核图片的审核结果。具体可以参照前述图2中的步骤201至步骤204所描述的内容进行理解，此处不做赘述。

在一些可选的实施方式中，处理单元1102用于在所述第一值小于预设阈值时，确定所述待审核图片为异常图片。

在另一些可选的实施方式中，获取单元1101，还用于在将所述待审核图片的图像特征与所述文本信息的文本特征作为目标审核模型的输入，得到第一值之前，获取所述第一场景中的每个所述第一图片样本和对应的第一文本样本、以及所述第二场景中的每个所述第二图片样本和对应的第二文本样本。处理单元1102用于：对每个所述第一图片样本、每个所述第一文本样本、每个所述第二图片样本、每个所述第二文本样本分别进行特征提取处理，得到对应的所述第一图片样本的图像特征、所述第一文本样本的文本特征、所述第二图片样本的图像特征、所述第二文本样本的文本特征；计算所述每个第一图片样本的图像特征、所述每个第一文本样本的文本特征、所述每个第二图片样本的图像特征以及所述每个第二文本样本的文本特征之间的差异，以得到第一目标损失值；基于所述第一目标损失值对初始审核模型的模型参数进行更新，得到所述目标审核模型。具体可以参照前述图3中的步骤301至步骤304所描述的内容进行理解，此处不做赘述。

在另一些可选的实施方式中，处理单元1102用于：计算每个目标图像特征与每个目标文本特征之间的差异，得到第一损失值和第二损失值，所述第一损失值用于指示每个所述目标图像特征相对于每个所述目标文本特征之间的相似差异，所述第二损失值用于指示每个所述目标文本特征相对于每个所述目标图像特征之间的相似差异，所述目标图像特征包括所述第一图片样本的图像特征和所述第二图片样本的图像特征，所述目标文本特征包括所述第一文本样本的图像特征和所述第二文本样本的图像特征；对所述第一损失值和所述第二损失值进行求和处理，得到所述第一目标损失值。

在另一些可选的实施方式中，处理单元1102用于：将每个所述目标图像特征分别与每个所述目标文本特征进行相似度计算，得到第一相似矩阵。获取单元1101，用于获取筛选矩阵，所述筛选矩阵用于指示所述第一场景与所述第二场景之间的差异。处理单元1102，用于对所述第一相似矩阵和所述筛选矩阵进行乘积计算，得到目标相似矩阵；根据所述第一相似矩阵中的每个相似度与所述目标相似矩阵，计算所述第一损失值。

在另一些可选的实施方式中，获取单元1101用于获取每个目标文本样本，每个所述目标文本样本为针对所述目标审核任务添加的样本。处理单元1102用于：将每个所述第二图片样本和每个所述目标文本样本作为目标预训练模型的输入，得到对应的所述第二图片样本的图像特征、所述目标文本样本的文本特征，所述目标预训练模型是以每个所述第一图片样本和每个所述第一文本样本为训练数据进行迭代更新得到的机器学习模型；计算每个所述目标文本样本的文本特征与每个所述第二图片样本的图像特征之间的相似度，得到第一相似度，以及计算每个所述目标文本样本的文本特征与每个所述第三图片样本的图像特征之间的相似度，得到第二相似度，所第三图片样本为所述第一图片样本中除了所述第二图片样本以外的其他图片样本；从每个所述第一相似度和每个所述第二相似度中选取目标相似度；将所述目标相似度对应的目标文本样本作为所述第二文本样本。

在另一些可选的实施方式中，获取单元1101还用于在将每个所述第二图片样本和每个所述目标文本样本作为目标预训练模型的输入，得到对应的所述第二图片样本的图像特征、所述目标文本样本的文本特征之前，获取所述第一场景中的每个所述第一图片样本与每个所述第一文本样本。处理单元1102用于：对每个所述第一图片样本、每个所述第一文本样本分别进行特征提取处理，得到对应的所述第一图片样本的图像特征、所述第一文本样本的文本特征；计算所述每个第一图片样本的图像特征与所述每个第一文本样本的文本特征之间的差异，以得到第二目标损失值；基于所述第二目标损失值对初始预训练模型的模型参数进行更新，得到所述目标预训练模型。具体可以参照前述图5中的步骤501至步骤504所描述的内容进行理解，此处不做赘述。

在另一些可选的实施方式中，处理单元1102用于：计算每个所述第一图片样本的图像特征与每个所述第一文本样本的图像特征之间的差异，得到第三损失值和第四损失值，所述第三损失值用于指示每个所述第一图片样本的图像特征相对于每个所述第一文本样本的文本特征之间的相似差异，所述第四损失值用于指示每个所述第一文本样本的文本特征相对于每个所述第一图片样本的图像特征之间的相似差异；对所述第三损失值和所述第四损失值进行求和处理，得到所述第二目标损失值。

在另一些可选的实施方式中，处理单元1102用于：将每个所述第一图片样本的图像特征与每个所述第一文本样本的文本特征分别进行相似度计算，得到每个第三相似度；根据所述每个第三相似度计算所述第三损失值。

上面从模块化功能实体的角度对本申请实施例中的图片处理装置进行描述，下面从硬件处理的角度对本申请实施例中的图片处理装置进行描述。图12是本申请实施例提供的图片处理装置的结构示意图。该图片处理装置可因配置或性能不同而产生比较大的差异。该图片处理装置可以至少一个处理器1201，通信线路1207，存储器1203以及至少一个通信接口1204。

处理器1201可以是一个通用中央处理器(central processing unit，CPU)，微处理器，特定应用集成电路(application-specific integrated circuit，服务器IC)，或一个或多个用于控制本申请方案程序执行的集成电路。

通信线路1207可包括一通路，在上述组件之间传送信息。

通信接口1204，使用任何收发器一类的装置，用于与其他装置或通信网络通信，如以太网，无线接入网(radio access network，RAN)，无线局域网(wireless local areanetworks，WLAN)等。

存储器1203可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储装置，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储装置，存储器可以是独立存在，通过通信线路1207与处理器相连接。存储器也可以和处理器集成在一起。

其中，存储器1203用于存储执行本申请方案的计算机执行指令，并由处理器1201来控制执行。处理器1201用于执行存储器1203中存储的计算机执行指令，从而实现本申请上述实施例提供的方法。

可选的，本申请实施例中的计算机执行指令也可以称之为应用程序代码，本申请实施例对此不作具体限定。

在具体实现中，作为一种实施例，该图片处理装置可以包括多个处理器，例如图12中的处理器1201和处理器1202。这些处理器中的每一个可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个装置、电路、和/或用于处理数据(例如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，该图片处理装置还可以包括输出设备1205和输入设备1206。输出设备1205和处理器1201通信，可以以多种方式来显示信息。输入设备1206和处理器1201通信，可以以多种方式接收目标对象的输入。例如，输入设备1206可以是鼠标、触摸屏装置或传感装置等。

上述的图片处理装置可以是一个通用装置或者是一个专用装置。在具体实现中，该图片处理装置可以是服务器、终端设备等或有图12中类似结构的装置。本申请实施例不限定该图片处理装置的类型。

需说明，图12中的处理器1201可以通过调用存储器1203中存储的计算机执行指令，使得图片处理装置执行如图2至图9对应的方法实施例中的方法。

具体的，图11中的处理单元1102的功能/实现过程可以通过图12中的处理器1201调用存储器1203中存储的计算机执行指令来实现。图11中的获取单元1101的功能/实现过程可以通过图12中的通信接口1204来实现。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任何一种识图片处理的方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种图片处理的方法的部分或全部步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

上述实施例，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD))等。

以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种图片处理的方法，其特征在于，包括：

获取目标审核任务中的待审核图片与文本信息，所述文本信息用于描述所述待审核图片的意思表达；

对所述待审核图片进行特征提取处理，得到所述待审核图片的图像特征，以及对所述文本信息进行特征提取处理，得到所述文本信息的文本特征；

将所述待审核图片的图像特征和所述文本信息的文本特征作为目标审核模型的输入，得到第一值，所述第一值用于指示所述待审核图片的图像特征与所述文本信息的文本特征之间的相似程度，所述目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，所述第二场景为与所述目标审核任务对应的目标场景，所述第一文本样本用于描述所述第一图片样本的意思表达，所述第二文本样本用于描述所述第二图片样本的意思表达；

根据所述第一值确定所述待审核图片的审核结果。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一值确定所述待审核图片的审核结果，包括：

在所述第一值小于预设阈值时，确定所述待审核图片为异常图片。

3.根据权利要求1或2所述的方法，其特征在于，在将所述待审核图片的图像特征与所述文本信息的文本特征作为目标审核模型的输入，得到第一值之前，所述方法还包括：

获取所述第一场景中的每个所述第一图片样本和对应的第一文本样本、以及所述第二场景中的每个所述第二图片样本和对应的第二文本样本；

对每个所述第一图片样本、每个所述第一文本样本、每个所述第二图片样本、每个所述第二文本样本分别进行特征提取处理，得到对应的所述第一图片样本的图像特征、所述第一文本样本的文本特征、所述第二图片样本的图像特征、所述第二文本样本的文本特征；

计算所述每个第一图片样本的图像特征、所述每个第一文本样本的文本特征、所述每个第二图片样本的图像特征以及所述每个第二文本样本的文本特征之间的差异，以得到第一目标损失值；

基于所述第一目标损失值对初始审核模型的模型参数进行更新，得到所述目标审核模型。

4.根据权利要求3所述的方法，其特征在于，所述计算所述每个第一图片样本的图像特征、所述每个第一文本样本的文本特征、所述每个第二图片样本的图像特征以及所述每个第二文本样本的文本特征之间的差异，以得到第一目标损失值，包括：

计算每个目标图像特征与每个目标文本特征之间的差异，得到第一损失值和第二损失值，所述第一损失值用于指示每个所述目标图像特征相对于每个所述目标文本特征之间的相似差异，所述第二损失值用于指示每个所述目标文本特征相对于每个所述目标图像特征之间的相似差异，所述目标图像特征包括所述第一图片样本的图像特征和所述第二图片样本的图像特征，所述目标文本特征包括所述第一文本样本的图像特征和所述第二文本样本的图像特征；

对所述第一损失值和所述第二损失值进行求和处理，得到所述第一目标损失值。

5.根据权利要求4所述的方法，其特征在于，所述计算每个目标图像特征与每个目标文本特征之间的差异，以得到第一损失值，包括：

将每个所述目标图像特征分别与每个所述目标文本特征进行相似度计算，得到第一相似矩阵；

获取筛选矩阵，所述筛选矩阵用于指示所述第一场景与所述第二场景之间的差异；

对所述第一相似矩阵和所述筛选矩阵进行乘积计算，得到目标相似矩阵；

根据所述第一相似矩阵中的每个相似度与所述目标相似矩阵，计算所述第一损失值。

6.根据权利要求3所述的方法，其特征在于，所述获取第二文本样本，包括：

获取每个目标文本样本，每个所述目标文本样本为针对所述目标审核任务添加的样本；

将每个所述第二图片样本和每个所述目标文本样本作为目标预训练模型的输入，得到对应的所述第二图片样本的图像特征、所述目标文本样本的文本特征，所述目标预训练模型是以每个所述第一图片样本和每个所述第一文本样本为训练数据进行迭代更新得到的机器学习模型；

计算每个所述目标文本样本的文本特征与每个所述第二图片样本的图像特征之间的相似度，得到第一相似度，以及计算每个所述目标文本样本的文本特征与每个所述第三图片样本的图像特征之间的相似度，得到第二相似度，所第三图片样本为所述第一图片样本中除了所述第二图片样本以外的其他图片样本；

从每个所述第一相似度和每个所述第二相似度中选取目标相似度；

将所述目标相似度对应的目标文本样本作为所述第二文本样本。

7.根据权利要求6所述的方法，其特征在于，在将每个所述第二图片样本和每个所述目标文本样本作为目标预训练模型的输入，得到对应的所述第二图片样本的图像特征、所述目标文本样本的文本特征之前，所述方法还包括：

获取所述第一场景中的每个所述第一图片样本与每个所述第一文本样本；

对每个所述第一图片样本、每个所述第一文本样本分别进行特征提取处理，得到对应的所述第一图片样本的图像特征、所述第一文本样本的文本特征；

计算所述每个第一图片样本的图像特征与所述每个第一文本样本的文本特征之间的差异，以得到第二目标损失值；

基于所述第二目标损失值对初始预训练模型的模型参数进行更新，得到所述目标预训练模型。

8.根据权利要求7所述的方法，其特征在于，所述计算所述每个第一图片样本的图像特征与所述每个第一文本样本的文本特征之间的差异，以得到第二目标损失值，包括：

计算每个所述第一图片样本的图像特征与每个所述第一文本样本的图像特征之间的差异，得到第三损失值和第四损失值，所述第三损失值用于指示每个所述第一图片样本的图像特征相对于每个所述第一文本样本的文本特征之间的相似差异，所述第四损失值用于指示每个所述第一文本样本的文本特征相对于每个所述第一图片样本的图像特征之间的相似差异；

对所述第三损失值和所述第四损失值进行求和处理，得到所述第二目标损失值。

9.根据权利要求8所述的方法，其特征在于，所述计算每个所述第一图片样本的图像特征与每个所述第一文本样本的图像特征之间的差异，得到第三损失值，包括：

将每个所述第一图片样本的图像特征与每个所述第一文本样本的文本特征分别进行相似度计算，得到每个第三相似度；

根据所述每个第三相似度计算所述第三损失值。

10.一种图片处理装置，其特征在于，包括：

获取单元，用于获取目标审核任务中的待审核图片与文本信息，所述文本信息用于描述所述待审核图片的意思表达；

处理单元，用于对所述待审核图片进行特征提取处理，得到所述待审核图片的图像特征，以及对所述文本信息进行特征提取处理，得到所述文本信息的文本特征；

所述处理单元，用于将所述待审核图片的图像特征和所述文本信息的文本特征作为目标审核模型的输入，得到第一值，所述第一值用于指示所述待审核图片的图像特征与所述文本信息的文本特征之间的相似程度，所述目标审核模型是以第一场景中的第一图片样本与第一文本样本、第二场景中的第二图片样本与第二文本样本为训练数据进行迭代训练得到的机器学习模型，所述第二场景为与所述目标审核任务对应的目标场景，所述第一文本样本用于描述所述第一图片样本的意思表达，所述第二文本样本用于描述所述第二图片样本的意思表达；

所述处理单元，用于根据所述第一值确定所述待审核图片的审核结果。

11.一种图片处理装置，其特征在于，所述图片处理装置包括：输入/输出(I/O)接口、处理器和存储器，所述存储器中存储有程序指令；

所述处理器用于执行存储器中存储的程序指令，执行如权利要求1至9中任一所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在计算机设备上运行时，使得所述计算机设备执行如权利要求1至9中任一项所述的方法。

13.一种计算机程序产品，其特征在于，所述计算机程序成品包括指令，当所述指令在计算机设备或者处理器上运行时，使得所述计算机设备或者所述处理器执行如权利要求1至9中任一项所述的方法。