CN117011577A

CN117011577A - 图像分类方法、装置、计算机设备和存储介质

Info

Publication number: CN117011577A
Application number: CN202211407520.5A
Authority: CN
Inventors: 许剑清
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-11-07

Abstract

本申请涉及一种图像分类方法、装置、计算机设备、存储介质和计算机程序产品。具体涉及人工智能领域，方法包括：获取目标图像，确定目标图像的候选分类类别；基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征；确定每一候选分类类别各自对应的描述文本的候选文本特征，各候选文本特征基于多模态图文处理模型提取得到；分别确定目标图像特征与每一候选文本特征之间的特征相似度；基于各特征相似度与分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。本申请的方案无需进行额外的目标检测处理，可以有效提高图像分类处理过程的处理效率。

Description

图像分类方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种图像分类方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术与人工智能的发展，出现了计算机视觉(Computer Vision,CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。针对图像识别领域，随着内容审核需求的提高，基于计算机视觉技术来进行图像审核的需求也不断提高。

然而，针对图像内容的分类任务多种多样，例如对于图像审核的任务，目前一般会针对不同类型的审核任务进行不同的模型训练，后为每种任务都分配不同的审核模型来辅助进行图像内容的审核。然而这种方式下，需要额外前置一个目标检测的模块来识别图像的类型再进行审核的分类识别，从而降低图像审核分类的效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够有效提高处理分类效率的图像分类方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种图像分类方法。所述方法包括：

获取目标图像，确定所述目标图像的候选分类类别；

基于多模态图文处理模型对所述目标图像进行图像特征提取，得到目标图像特征；所述多模态图文处理模型，用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，同一类别的图文对象具有相同的描述文本和不同的图像内容；

确定每一候选分类类别各自对应的描述文本的候选文本特征，各所述候选文本特征基于所述多模态图文处理模型提取得到；

分别确定所述目标图像特征与每一所述候选文本特征之间的特征相似度；

基于各所述特征相似度与分类阈值的比较结果，对所述目标图像进行分类，得到所述目标图像的分类结果。

第二方面，本申请还提供了一种图像审核装置。所述装置包括：

图像特征提取模块，用于基于多模态图文处理模型中的图像特征提取模型对目标图像进行图像特征提取处理，得到图像特征，所述多模态图文处理模型用于从图像提取图像特征，以及从所述图像的描述文本中提取文本特征，从所述图像提取的所述图像特征以及从所述描述文本中提取的所述文本特征相似；

特征集查找模块，用于确定所述目标图像对应的文本特征集，所述文本特征集基于所述多模态图文处理模型中的文本特征提取模型对各类别表征图像的描述文本进行文本特征提取处理得到，所述类别表征图像为表征图像分类目标类别的图像；

相似度识别模块，用于确定所述图像特征与所述文本特征集中各文本特征的特征相似度；

图像分类基于所述特征相似度以及分类阈值对所述目标图像进行分类处理，得到所述目标图像的图像分类结果。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标图像，确定所述目标图像的候选分类类别；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标图像，确定所述目标图像的候选分类类别；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标图像，确定所述目标图像的候选分类类别；

上述图像分类方法、装置、计算机设备、存储介质和计算机程序产品，通过先获取目标图像，确定目标图像的候选分类类别，即确定分类的对象以及分类的目标。而后基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征，即从可以藉由目标图像特征来实现针对目标图像的分类处理。之后再每一候选分类类别各自对应的描述文本的候选文本特征，而候选文本特征基于多模态图文处理模型提取得到的；即通过候选文本特征总结一部分候选分类类别下图像的特征，再分别确定目标图像特征与每一候选文本特征之间的特征相似度；如果图像特征与文本特征相似，则说明目标图像与文本特征对应的类别表征图像可以分为一类，因此，最后可以基于各特征相似度与候选分类类别的分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。本申请的方案通过预先提取候选分类类别下各类型图像的描述文本确定各候选分类类别下的候选文本特征，而后在图像分类时，通过提取目标图像的图像特征与各候选文本特征的相似度来进行图像分类，无需进行额外的目标检测处理，可以有效提高图像分类处理过程的处理效率。

附图说明

图1为一个实施例中图像分类方法的应用环境图；

图2为一个实施例中图像分类方法的流程示意图；

图3为一个实施例中文本标签对应图像的示意图；

图4为一个实施例中模型训练的过程的流程示意图；

图5为一个实施例中描述文本筛选过程的流程示意图；

图6为一个实施例中图像分类过程的示意图；

图7为一个实施例中图像分类过程的总体流程图；

图8为另一个实施例中图像分类方法的流程示意图；

图9为一个实施例中图像分类装置的结构框图；

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请涉及人工智能领域，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。而本申请具体涉及人工智能中的计算机视觉技术、自然语言处理(Nature Language processing,NLP)以及机器学习(Machine Learning,ML)。

其中，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习则是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

在本文中，需要理解的是，所涉及的术语包括多模态，即信息的两种形式，包括文本和图像。

本申请实施例提供的图像分类方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他服务器上。当内容发布平台希望对平台上用户上传的图像内容进行审核时，可以通过本申请的方案俩实现针对用户上传图像的分类，判断上传的图像是否属于分类过程需要过滤的图像，首先用户在终端102进行内容发布的操作，而在发布之前，需要先对其中的图像内容进行审核，因此终端102会先将发布内容中的图像发送到服务器104上进行图像分类的处理，而服务器104在接收到需要审核的目标图像后，针对每一张目标图像，都会先确定目标图像的候选分类类别；基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征；多模态图文处理模型，用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，同一类别的图文对象具有相同的描述文本和不同的图像内容；确定每一候选分类类别各自对应的描述文本的候选文本特征，各候选文本特征基于多模态图文处理模型提取得到；分别确定目标图像特征与每一候选文本特征之间的特征相似度；基于各特征相似度与分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。其中，终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像分类方法，方法可以应用于终端或者服务器，以该方法应用于图1中的服务器104为例进行说明，包括以下步骤：

步骤201，获取目标图像，确定目标图像的候选分类类别。

其中，目标图像是指本申请的图像分类方法所分类的对象图像，用户可以通过网络从终端102提交目标图像至服务器104来进行图像分类。而目标图像的候选分类类别是指目标图像可以分到的具体类别，候选分类类别可以根据实际的分类需求进行设置。在其中一个实施例中，本申请的图像分类用于对用户上传的图像进行识别，以确定其是否违规。此时，可以将违规图像作为一个大类，具体地违规类别作为其中的小类。通过图像分类可以确定目标图像是否属于违规图像以及具体的违规类型。

具体地，在终端102上需要进行图像分类处理时，可以先将需要目标图像通过网络提交至服务器104，服务器在获取目标图像，先确定目标图像的候选分类类别。在其中一个实施例中，本申请的图像分类方法用于实现对用户上传图像内容的审核分类处理，且可以实现不同平台上的图像分类，而不同平台具有不同的图像分类需求，因此在图像分类时，当获取目标图像，可以基于目标图像对应的发布平台，来确定目标图像的候选分类类别，再基于目标图像的候选分类类别来进行分类。

步骤203，基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征；多模态图文处理模型，用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，同一类别的图文对象具有相同的描述文本和不同的图像内容。

其中，多模态图文处理模型是指用于对不同模态数据进行特征提取，并对特征数据进行比对的模型，具体包含三个部分，即图像特征提取模型、文本特征提取模型以及特征比对模型，其中图像特征提取模型可以从图像数据中提取出图像特征，作为图像的图像特征，而文本特征提取模型则是可以从文本内容中提取出文本特征，特征比对模型则是用于对图像特征以及文本特征进行比对。图像特征提取是指使用计算机提取图像中属于特征性的信息的方法及过程。多模态图文处理模型具体可以用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，而同一类别的图文对象具有相同的描述文本和不同的图像内容。在本申请的方案，通过训练完成的多模态图文处理模型可以完成对图像特征以及文本特征的提取的比对，如果图像特征以及文本特征来自相同一类别的图文对象，则图像特征与文本特征是相似的特征。

具体地，申请人发现，由于现实应用中的图像没经过形式对齐，因此若采用分类任务的模型无法保证审核的识别准确率。且在图像中所包含的信息并非有一个样本标签，因此若采用分类模型对图像进行拟合，则存在对数据过拟合的风险。本申请的图像分类方法先将针对候选分类类别，确定各候选分类类别下同一图文对象，再基于这些同一图文对象来完成对多模态图文处理模型的训练，而后采用多模态图文处理模型作为分类模型对目标图像进行分类处理，类似将文本作为图像的标签来进行分类处理，而由于在本申请中采用文本作为图像的标签，因此每个图像的标签并非单一性，从而减少模型对训练集过拟合的风险且减少为训练数据强行划分硬标签所带来的误差。保证分类过程的有效性，如图3所示，在其中一个实施例中，该图像的文本标签为：“在花丛中的一匹马”，而在分类任务中该图像的标签只能为“马”、“花”或者“草原”等单一标签，该方式导致分类模型必须强行拟合一类标签模型容易发生过拟合风险。

而

步骤205，确定每一候选分类类别各自对应的描述文本的候选文本特征，各候选文本特征基于多模态图文处理模型提取得到。

其中，候选文本特征是指基于多模态图文处理模型，来分别对每一候选分类类别各自对应的描述文本进行文本特征提取后得到的特征数据。而文本特征提取是指使用计算机提取文本中属于特征性的信息的方法及过程。

具体地，本申请的方案中将同一类别图像的描述文本作为了这一类别图像的标签，而分类的过程即通过比对描述文本的文本特征向量与目标图像的图像特征向量实现，因此在确定目标图像的候选分类类别后，即可针对每一候选分类类别，确定其各自对应的描述文本的候选文本特征。在其中一个实施例中，本申请的图像分类方法用于实现平台的图像审核处理，此时针对每一种类型的违规图像，都可以构建一个候选分类类别。每一个类型的违规图像，图像内容不同，但是其对应的描述文本都是相同的违规行为，比如对于一类图像，其对应的描述文本为“穿着暴露低俗”，但是每张图像内的穿着并不相同。

步骤207，分别确定目标图像特征与每一候选文本特征之间的特征相似度。

其中，特征相似度用于描述两个不同特征之间的相似程度，在其中一个具体实施例中，可以采用余弦相似度作为特征相似度，余弦相似度又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度，在本申请的方案中是通过计算目标图像特征和候选文本特征这两个特征向量之间的余弦值来确定特征相似度。在其他实施例中，还可以通过欧氏距离或者曼哈顿距离等方法来计算特征相似度。

具体地，在得到每一候选分类类别各自对应的描述文本的候选文本特征后，即可通过目标图像的目标图像特征来对其进行分类。分类过程具体可以通过对比目标图像特征与候选文本特征之间的特征相似性来实现，如果目标图像特征与候选文本特征相似，则说明该目标图像特征所对应的目标图像可以分到文本特征对应的候选分类类别中，因此可以确定目标图像所对应的类别。

步骤209，基于各特征相似度与分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。

其中，分类阈值是指根据分类精度的需求所设置的一个阈值，只有在相似度满足分类阈值的情况下才可以认为目标图像可以分类到对应的候选分类类别。目标图像的分类结果则是指目标图像分类处理后得到的结果，具体包括了目标图像是否可分类，以及目标图像在可分类时属于候选分类类别中的哪个类别。

具体地，在得到特征相似度后，可以将得到的特征相似度与候选分类类别的分类阈值进行比较，从而确定目标图像是否可分至候选分类类别中，如果特征相似度均不能满足分类阈值的要求，即最大的相似度都小于分类阈值，则说明当前的目标图像不可分类。而当存在满足分类阈值要求的特征相似度时，则可以通过对比这些满足分类阈值要求的特征相似度，从中确定出目标图像的分类类别。因此，在基于各特征相似度与分类阈值的比较结果，对目标图像进行分类后，得到的即为目标图像的分类结果。在其中一个实施例中，本申请适用于对平台上用户上传的图像内容进行审核，此时可以预先建立一些需要筛选滤除掉的图像类型作为候选分类类别。而后在图像审核的过程中，对用户上传的图像进行分类，如果用户上传的图像不可分，说明这个图像并不属于候选分类类别，即该图像可以通过审核，而当其可分时，则说明目标图像属于违规的图像，不可上传至平台进行发布。

上述图像分类方法，通过先获取目标图像，确定目标图像的候选分类类别，即确定分类的对象以及分类的目标。而后基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征，即从可以藉由目标图像特征来实现针对目标图像的分类处理。之后再每一候选分类类别各自对应的描述文本的候选文本特征，而候选文本特征基于多模态图文处理模型提取得到的；即通过候选文本特征总结一部分候选分类类别下图像的特征，再分别确定目标图像特征与每一候选文本特征之间的特征相似度；如果图像特征与文本特征相似，则说明目标图像与文本特征对应的类别表征图像可以分为一类，因此，最后可以基于各特征相似度与候选分类类别的分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。本申请的方案通过预先提取候选分类类别下各类型图像的描述文本确定各候选分类类别下的候选文本特征，而后在图像分类时，通过提取目标图像的图像特征与各候选文本特征的相似度来进行图像分类，无需进行额外的目标检测处理，可以有效提高图像分类处理过程的处理效率。

在一个实施例中，图像分类方法还包括：获取各候选分类类别各自的图文对象；基于图文对象构建各候选分类类别对应的模型训练数据；通过模型训练数据对初始多模态图文处理模型进行训练，得到多模态图文处理模型。

其中，各候选分类类别对应的同一图文对象是指，每个候选类别之下，都包含有相应的图像以及描述文本，具体可以包含一个描述文本以及多个不同的图像内容，该描述文本可以对这些不同的图像内容进行描述，例如不文明行为中的乱扔垃圾行为，不同图像画面不同，但是其图像内的内容都是乱扔垃圾的行为，因此可以使用描述文本“随地乱扔垃圾”来对其进行描述。模型训练数据是指用于对初始多模态图文处理模型进行模型训练的所用的已标注数据。模型训练的过程实质就是对初始多模态图文处理模型中模型参数调整的过程，通过模型训练数据以及数据的标注来进行对初始多模态图文处理模型的参数进行拟合调整，从而查找到最适合的参数，满足在输入图像与描述文本的情况下，能够达到图像的特征与对应描述文本的特征相似的效果。

具体地，在基于多模态图文处理模型对目标图像进行图像特征提取之前，还需要完成对多模态图文处理模型的训练过程，此过程图像分类过程的输入数据并不相同，因为多模态图文处理模型不仅需要从图像中提取特征，还需要从描述文本中提取特征，并保证针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件。因此，在模型训练过程中，可以先获取各候选分类类别各自的图文对象，一个图文对象中包含有一张图像以及一个文本描述，它们组成一个模型训练数据输入到初始多模态图文处理模型中，初始多模态图文处理模型对其分别进行图像特征以及文本特征的提取，并对提取出的特征进行比较，基于比较结果来对模型参数进行调整优化。在一个实施例中，对模型进行迭代多次训练后，可以通过模型测试数据对训练完成的模型进行测试与验证，在通过测试后，得到的即为可用的多模态图文处理模型，否则需要重新进行训练。本实施例中，通过构建模型训练数据来完成对模型的训练以及优化，可以有效保证基于多模态图文处理模型进行图像分类处理的准确性。

在其中一个实施例中，模型训练数据包括类别表征图像以及类别表征图像的描述文本。通过模型训练数据对初始多模态图文处理模型进行训练，得到多模态图文处理模型包括：通过初始多模态图文处理模型对模型训练数据中的类别表征图像进行图像特征提取处理，得到类别表征图像的图像特征，并通过初始多模态图文处理模型对模型训练数据中的描述文本进行文本特征提取处理，得到类别表征图像的文本特征；对比类别表征图像的图像特征以及类别表征图像的文本特征，确定模型损失；基于模型损失对初始多模态图文处理模型进行模型参数更新处理，直到满足停止训练条件，获得多模态图文处理模型，停止训练条件包括模型损失低于预设损失阈值、以及迭代次数大于预设迭代次数阈值中的至少一项。

其中，模型损失即损失函数，又称目标函数，是多模态图文处理模型训练过程中优化的目标。本申请中的模型损失指的是类别表征图像的图像特征以及类别表征图像的文本特征之间的差值。当差值越小时，说明模型损失越小，模型越准确性。

具体地，初始多模态图文处理模型具体包含了图像网络单元模块、文本网络单元模块以及比对目标函数计算模块三个单元，而对模型训练的过程实质是对图像网络单元模块和文本网络单元模块这两个模块进行训练的过程。模型训练的过程可以参照图4所示，图像网络单元模块功能是对图像进行特征提取，输出的特征表示该网络对图像所包含信息的表达。图像网络单元模块通常具有的结构为卷积神经网络(CNN)或者带有转换器类型的网络结构，包含有卷积(convolution)计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作。文本网络单元模块的功能则是对文本进行特征提取，输出的特征表示该网络对文本对应图像所包含信息的表达。文本网络单元模块通常具有的结构为带有transformer类型的网络结构，包含有全连接计算、非线性激活函数(Relu)计算、池化(Pooling)计算等操作。比对目标函数计算模块则是将每次迭代中所有的图像特征与所有的文本特征进行计算目标函数值。目标函数具体为对比目标函数，如下列公式1、2、3所示，其中N为一次迭代过程中的图像数量，x_i和y_i则分别表示图像特征与文本特征。公式1为图像网络单元模块所得到的损失，公式2为文本网络单元模块所得到的损失。公式3为总损失。

L＝L_p2t+L_t2p (3)

此外，还包括了比对目标函数优化模块，其基于梯度下降的方式(如随机梯度下降，带动量项的随机梯度下降，adam，adagard)，对整个模型网络进行训练优化。训练中重复上述的训练过程，直至训练的结果满足训练终止条件。终止模型训练的条件一般设置迭代次数满足设定的值，或者目标函数计算的损失小于设定的值即可完成模型的训练。本实施例中，通过设置不同的单元来进行图像数据、文本数据的处理以及损失的计算与优化等，可以有效地完成对初始多模态图文处理模型的训练，得到可用的多模态图文处理模型，从而保证图像分类过程的处理效率。

在一个实施例中，获取各候选分类类别各自的图文对象包括：获取历史数据图像；识别历史数据图像中的目标对象以及目标对象之间的对象关系；基于目标对象以及目标对象之间的对象关系对历史数据图像进行图像理解处理，得到历史数据图像的描述文本；基于描述文本对历史数据图像进行分类处理，得到各候选分类类别的类别表征图像；基于类别表征图像以及描述文本，确定各候选分类类别各自的图文对象。

其中，历史数据图像是指从历史数据中收集的图像，比如当本申请的方案适用于内容发布平台的图像内容审核时，可以将平台上已经识别出违规上传的图像作为历史数据图像。目标对象则是指历史数据图像所包含的事物，对象关系则是指历史数据图像中事物之间的关系。图像理解(image understanding,IU)就是对图像的语义理解。它是以图像为对象，知识为核心，研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的一门学科。本申请的方案中，图像理解主要适用于从历史数据图像中提取描述文本，具体可以根据实际的需要选择相应的图像理解方法。

具体地，本申请的方案中可以通过对历史数据的总结来获取用于模型训练的图文数据，而由于历史数据一般只包含图像，而不包含文本，因此需要通过图像理解处理来对各类历史数据图像先进行语义提取的处理。同时，通过历史数据图像的描述文本可以预先对这些历史数据图像进行分类，基于一个描述文本对应一个候选分类类别，同时包含多张不同的类别表征图像。而后，针对每一个类别表征图像以及对应的描述文本，都可以构建出一个图文对象，因此可以确定各候选分类类别各自的图文对象。在一个实施例中，还可以通过人工分类以及人工标注的方法来对历史数据图像进行描述文本的提取以及历史数据图像分类等处理，来进一步地提高候选分类类别中图文对象构建的准确性。本实施例中，通过图像理解的方式从历史图像数据中提取语义来构建描述文本，进而构建用于模型训练的图文对象，可以有效保证模型训练数据构造的准确性与有效性。

在一个实施例中，方法还包括：获取类别表征图像、类别表征图像的描述文本以及类别无关图像，类别无关图像与类别表征图像所表征的图像类别不同；通过多模态图文处理模型对类别表征图像的描述文本进行文本特征提取处理，得到类别表征图像的文本特征；通过多模态图文处理模型分别对类别表征图像以及类别无关图像进行图像特征提取处理，得到类别表征图像的图像特征以及类别无关图像的图像特征；分别计算类别表征图像的文本特征与类别表征图像的图像特征，以及类别表征图像的文本特征与类别无关图像的图像特征之间的特征相似度，得到特征相似度数据；基于特征相似度数据确定类别表征图像的文本特征中的候选文本特征。

具体地，本申请的方案中，还需要针对图像分类过程中所使用的描述文本进行筛选与定义来得到可用的候选文本特征。因此，在得到类别表征图像后，可以先得到类别表征图像的描述文本，同时获取类别无关图像作为攻击数据集来实现候选文本特征的筛选，只有通过攻击数据集才可作为候选文本特征，从而保证基于候选文本特征进行图像分类过程处理的有效性。在得到两类图像特征以及文本特征后，可以通过训练完成的多模态图文处理模型分别对类别表征图像以及类别无关图像进行图像特征提取处理，得到类别表征图像的图像特征以及类别无关图像的图像特征。同时，对类别表征图像的描述文本进行文本特征提取处理，得到类别表征图像的文本特征。而后分别计算类别表征图像的文本特征与类别表征图像的图像特征，以及类别表征图像的文本特征与类别无关图像的图像特征之间的特征相似度，确定类别表征图像的文本特征与类别表征图像的图像特征之间的相似性，同时确定类别表征图像的文本特征与类别无关图像的图像特征之间的相似性。而后基于特征相似度数据确定类别表征图像的文本特征中的候选文本特征，保证候选文本特征满足与类别表征图像的图像特征之间存在较高的相似性，且保证候选文本特征满足与类别无关图像的图像特征之间存在较低的相似性，即保证候选文本特征可以完成对不同类型图像的筛选分类任务。在其中一个实施例中，本申请适用于图像审核过程中的分类处理，如图5所示，本申请可以采用不同的功能模块来完成对描述文本的筛选处理过程，具体包括了：攻击数据集模块，该模块采用与任务无关的图像进行构建，采用图像网络单元模块进行特征提取；对应任务测试集模块：采用审核任务需过滤的图像做为构建测试集。采用图像网络单元模块进行特征提取；相似度计算模块：采用从描述文本提取的特征分别与攻击数据集图像特征、对应任务测试集图像特征进行相似度计算；相似度排序模块：将计算的相似度进行排序；文本数据确定模块：用于依据每一个文本描述对应的相似度数据来进行候选文本特征的筛选。本实施例中，通过加入类别无关图像作为攻击集来完成对描述文本的筛选，可以保证所使用的候选文本特征的可用性，从而提高分类过程的准确性。

在一个实施例中，基于特征相似度数据确定类别表征图像的文本特征中的候选文本特征包括：对每一个文本特征的各特征相似度数据进行排序处理，得到相似度排序结果；确定相似度排序结果中满足相似度筛选条件的目标特征相似度，得到目标特征相似度对应图像，图像为类别表征图像或类别无关图像；基于目标特征相似度对应图像中类别表征图像的占比，确定每一个文本特征对应的相似度命中率；将相似度命中率高于命中率阈值的文本特征作为候选文本特征。

其中，相似度排序结果具体是指将每一个文本特征的特征相似度数据暗从大到小进行排序后所得一组数据。相似度筛选条件具体是指相似度排名靠前的若干相似度数据，例如可以筛选出前20或者前30的相似度作为目标特征相似度。相似度命中率则是指通过前20或者前30的排名所确定的相似图像中，类别表征图像的实际占比，相似度命中率越高，说明基于当前文本特征进行图像分类处理的结果越准确，分类效果越好。命中率阈值则可以根据实际的筛选精度所设置的一个数值。

具体地，可以通过相似度筛选条件以及相似度命中率来对候选文本特征进行筛选。在筛选过程中，首先可以相似度筛选条件从相似度排序结果中截取出相应排名内的目标特征相似度。针对每一个文本特征就可以截取出相同数量的目标特征相似度，在此过程中如果某个文本特征的相似度排序结果无法满足相似度筛选条件的数量要求，则将其舍弃。这些目标特征相似度分别对应着类别表征图像或类别无关图像。因此，还需要通过相似度命中率来对文本特征是否具有区分度进行识别，该过程可以通过计算目标特征相似度对应图像中类别表征图像的占比来实现。通过占比可以确定相似度命中率，而如果某个文本特征的相似度命中率高于命中率阈值，则该文本特征作为候选文本特征。在其中一个实施例中，本申请的方法适用于图像审核过程中的分类处理，此时针对候选文本特征的构建过程。如果包含有4个文本特征A、B、C、D，其对应的特征相似度数据分别包含有30、10、25以及40。而相似度筛选条件为排名靠前的20个特征相似度。此时第二个文本特征B只包含10个特征相似度，不满足条件直接剔除，而对于其他3个文本特征，则分别挑选出排名前20的20个特征相似度数据进行后续的识别。其中A的特征相似度数据对应图像中，类别表征图像为17、类别无关图像为3。C的特征相似度数据对应图像中，类别表征图像为10、类别无关图像为10。D的特征相似度数据对应图像中，类别表征图像为19、类别无关图像为1。此时，基于占比，确定ACD分别对应的相似度命中率为85％、50％以及95％。而基于相似度阈值80％可以将文本特征A以及文本特征D作为候选文本特征。本实施例中，通过相似度筛选条件以及相似度命中率来筛选候选文本特征，可以有效保证候选文本特征的准确性，从而提高基于候选文本特征进行图像分类的准确性。

在其中一个实施例中，方法还包括：将候选文本特征与类别无关图像的图像特征进行特征相似度计算，得到类别无关图像的特征相似度识别结果；对类别无关图像的特征相似度识别结果进行排序，得到类别无关图像的特征相似度排序结果；基于特征相似度排序结果确定满足目标误报率的分类阈值。

其中，目标误差率指的是可以容许的模型分类误差率，其根据实际的分类精度需求进行设置。

具体地，在识别出文本特征中的候选文本特征后，还可以基于候选文本特征以及目标误报率来确定图像分类过程中的分类阈值。可以通过将候选文本特征与攻击集样本进行相似度计算，再将相似度进行排序，得到对应误报率下候选文本特征的分类阈值。如在其中一个实施例中，目标误报率设置为10％。在将候选文本特征与类别无关图像的图像特征进行特征相似度计算，得到类别无关图像的特征相似度识别结果进行计算后，得出的类别无关图像的特征相似度识别结果包含10个特征相似度识别结果，分别为92％、83％、70％、60％、55％、50％、48％、45％、40％以及35％。当确定目标误报率为10％后，即允许10个中存在一个误报，此时92％的类别无关图像可以作为误报，即可将分类阈值设置为大于等于92％。而随着类别无关图像的数据量的增大，分类阈值的设置也可以更加精确。在另一个实施例中，本申请的方法适用于图像审核过程中的分类处理，此时针对每个候选文本特征都可以计算出一个对应的分类阈值，而后再将所有的分类阈值的均值作为最后确定的分类阈值来实现图像审核。本实施例中，通过确定的候选文本特征来反推对应的分类阈值，可以有效地确定满足目标误报率的分类阈值，保证分类阈值设置的合理性。

在一个实施例中，步骤209包括：确定特征相似度中的相似度最大值；当相似度最大值大于或等于分类阈值时，确定目标图像为可分类图像，基于相似度最大值得到目标图像的图像分类结果；当相似度最大值小于审核阈值时，确定目标图像为不可分类图像，得到图像分类失败的图像分类结果。

具体地，对于图像分类的过程，可以直接基于特征相似度中的相似度最大值来进行分类，如果相似度最大值都大于或等于分类阈值，说明当前的目标图像是可以分类到候选分类类别中的。而若是相似度最大值都小于审核阈值，说明目标图像与各个描述文本之间并不是特征相似，也就无法分到候选分类类别中，此时可以直接得到图像分类失败的图像分类结果。而对于具体的分类类别，则可以通过查找相似度最大值对应的候选文本特征；并将候选文本特征对应的候选分类类别作为目标图像的图像分类结果来实现。在一个实施例中，本申请的方法适用于图像审核过程中的分类处理，如图6所示，待审核的目标图像经过图像网络单元模块提取特征，将得到的图像特征与各个候选文本特征的文本特征进行相似度比对计算。所有相似度与阈值进入阈值比对模块，来对图像进行审核。此时可以针对各类无法上传发布的图像作为候选分类类别，在用户提交目标图像后，如果目标图像可以分类到候选分类类别中，说明该图像属于无法上传发布的图像，而如果目标图像不可分类，则说明该图像可以正常上传。在其中一个实施例中，还可以加入人工审核处理的流程，对筛选出的无法上传发布的图像进行人工审核。本实施例中，通过相似度最大值与分类阈值的比较来判断图像是否可以分类，从而准确地对目标图像进行分类，保证分类处理的准确性。

在一个实施例中，方法还包括：获取类别更新图像以及类别更新图像对应的类别更新文本描述；基于类别更新图像以及类别更新文本描述获取更新文本特征，并基于更新文本特征对应的分类类别对候选分类类别进行更新。

其中，类别更新图像是指用于对图像分类处理过程中候选分类类别进行更新的图像数据。类别更新图像对应的类别更新文本描述则是指类别更新图像的描述文本。

具体地，在图像分类的过程中，可能随着图像处理的需求需要增加部分新的候选分类类别。此时，在本申请的方案中并不需要额外重新训练模型，而只需要通过训练完成的多模态图文处理模型提取这些类别更新图像对应的更新文本特征即可。在获得类别更新图像以及类别更新图像对应的类别更新文本描述后，通过如上述实施例中处理，基于多模态图文处理模型从类别更新文本描述提取出相应的更新文本特征，即可新增更新文本特征对应的分类类别到候选分类类别中，拓展可以分类的类别。本实施例中，通过类别更新图像以及类别更新文本描述来对候选分类类别进行更新，从而保证针对目标图像进行分类处理的时效性，提高图像分类的准确性。

本申请还提供一种应用场景，该应用场景应用上述的图像分类方法。具体地，该图像分类方法在该应用场景的应用如下：

当内容发布平台方需要对用户上传的发布内容进行审核，判断其中图像是否属于违规图像时，可以通过本申请的图像分类来完成对用户上传内容中图像内容的审核。预先，平台需要提交需要审核过滤掉图像的类别以及各类别对应的历史图像数据作为训练数据提交至平台。如图7所示，本申请的方案具体包括了网络模块训练阶段以网络模块部署阶段，对于网络模块训练阶段，平台需要基于这些历史图像数据完成对多模态图文处理模型的训练以及候选文本特征的提取。首先，平台在获取历史数据图像后；识别历史数据图像中的目标对象以及目标对象之间的对象关系；基于目标对象以及目标对象之间的对象关系对历史数据图像进行图像理解处理，得到历史数据图像的描述文本；基于描述文本对历史数据图像进行分类处理，得到各候选分类类别的类别表征图像；基于类别表征图像以及描述文本，确定各候选分类类别各自的图文对象。而后基于同一图文对象来进行模型训练，基于图文对象构建各候选分类类别对应的模型训练数据；通过初始多模态图文处理模型对模型训练数据中的类别表征图像进行图像特征提取处理，得到类别表征图像的图像特征，并通过初始多模态图文处理模型对模型训练数据中的描述文本进行文本特征提取处理，得到类别表征图像的文本特征；对比类别表征图像的图像特征以及类别表征图像的文本特征，确定模型损失；基于模型损失对初始多模态图文处理模型进行模型参数更新处理，直到满足停止训练条件，获得多模态图文处理模型，而停止训练条件包括模型损失低于预设损失阈值、以及迭代次数大于预设迭代次数阈值中的至少一项。对于候选文本特征的提取的过程，则需要获取类别表征图像、类别表征图像的描述文本以及类别无关图像，类别无关图像与类别表征图像所表征的图像类别不同；通过多模态图文处理模型对类别表征图像的描述文本进行文本特征提取处理，得到类别表征图像的文本特征；通过多模态图文处理模型分别对类别表征图像以及类别无关图像进行图像特征提取处理，得到类别表征图像的图像特征以及类别无关图像的图像特征；分别计算类别表征图像的文本特征与类别表征图像的图像特征，以及类别表征图像的文本特征与类别无关图像的图像特征之间的特征相似度，得到特征相似度数据。再对每一个文本特征的各特征相似度数据进行排序处理，得到相似度排序结果；确定相似度排序结果中满足相似度筛选条件的目标特征相似度，得到目标特征相似度对应图像，图像为类别表征图像或类别无关图像；基于目标特征相似度对应图像中类别表征图像的占比，确定每一个文本特征对应的相似度命中率；将相似度命中率高于命中率阈值的文本特征作为候选文本特征。此外还需要筛选分类阈值，此时需要将候选文本特征与类别无关图像的图像特征进行特征相似度计算，得到类别无关图像的特征相似度识别结果；对类别无关图像的特征相似度识别结果进行排序，得到类别无关图像的特征相似度排序结果；基于特征相似度排序结果确定满足目标误报率的分类阈值。而对于网络模块部署阶段，则是指具体的图像分类过程，此时平台可以上传目标图像，而部署图像分类方法的服务器则获取目标图像，确定目标图像的候选分类类别；基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征；多模态图文处理模型，用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，同一类别的图文对象具有相同的描述文本和不同的图像内容；确定每一候选分类类别各自对应的描述文本的候选文本特征，各候选文本特征基于多模态图文处理模型提取得到；分别确定目标图像特征与每一候选文本特征之间的特征相似度；确定特征相似度中的相似度最大值；当相似度最大值大于或等于分类阈值时，确定目标图像为可分类图像，基于相似度最大值得到目标图像的图像分类结果；当相似度最大值小于审核阈值时，确定目标图像为不可分类图像，得到图像分类失败的图像分类结果。

在一个具体实施例中，本申请还提供了一种图像分类方法，流程图可以参照图8所示，包括以下步骤：步骤801，获取各候选分类类别各自的图文对象。步骤803，基于图文对象构建各候选分类类别对应的模型训练数据。步骤805，通过模型训练数据对初始多模态图文处理模型进行训练，得到多模态图文处理模型。步骤807，获取类别表征图像、类别表征图像的描述文本以及类别无关图像。步骤809，通过多模态图文处理模型对类别表征图像的描述文本进行文本特征提取处理，得到类别表征图像的文本特征。步骤811，通过多模态图文处理模型分别对类别表征图像以及类别无关图像进行图像特征提取处理，得到类别表征图像的图像特征以及类别无关图像的图像特征。步骤813，分别计算类别表征图像的文本特征与类别表征图像的图像特征，以及类别表征图像的文本特征与类别无关图像的图像特征之间的特征相似度，得到特征相似度数据。步骤815，基于特征相似度数据确定类别表征图像的文本特征中的候选文本特征。步骤817，获取目标图像，确定目标图像的候选分类类别。步骤819，基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征。步骤821，确定每一候选分类类别各自对应的描述文本的候选文本特征。步骤823，分别确定目标图像特征与每一候选文本特征之间的特征相似度。步骤825，基于各特征相似度与分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像分类方法的图像分类装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像分类装置实施例中的具体限定可以参见上文中对于图像分类方法的限定，在此不再赘述。

在一个实施例中，如图9所示，提供了一种图像分类装置，包括：

数据获取模块902，用于获取目标图像，确定目标图像的候选分类类别。

图像特征提取模块904，用于基于多模态图文处理模型对目标图像进行图像特征提取，得到目标图像特征；多模态图文处理模型，用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，同一类别的图文对象具有相同的描述文本和不同的图像内容。

文本特征查找模块906，用于确定每一候选分类类别各自对应的描述文本的候选文本特征，各候选文本特征基于多模态图文处理模型提取得到。

相似度识别模块908，用于分别确定目标图像特征与每一候选文本特征之间的特征相似度。

图像分类模块910，用于基于各特征相似度与分类阈值的比较结果，对目标图像进行分类，得到目标图像的分类结果。

在一个实施例中，包括模型训练模块，用于：获取各候选分类类别各自的图文对象；基于图文对象构建各候选分类类别对应的模型训练数据；通过模型训练数据对初始多模态图文处理模型进行训练，得到多模态图文处理模型。

在一个实施例中，模型训练数据包括类别表征图像以及类别表征图像的描述文本。模型训练模块还用于：通过初始多模态图文处理模型对模型训练数据中的类别表征图像进行图像特征提取处理，得到类别表征图像的图像特征，并通过初始多模态图文处理模型对模型训练数据中的描述文本进行文本特征提取处理，得到类别表征图像的文本特征；对比类别表征图像的图像特征以及类别表征图像的文本特征，确定模型损失；基于模型损失对初始多模态图文处理模型进行模型参数更新处理，直到满足停止训练条件，获得多模态图文处理模型，停止训练条件包括模型损失低于预设损失阈值、以及迭代次数大于预设迭代次数阈值中的至少一项。

在一个实施例中，模型训练模块还用于：获取历史数据图像；识别历史数据图像中的目标对象以及目标对象之间的对象关系；基于目标对象以及目标对象之间的对象关系对历史数据图像进行图像理解处理，得到历史数据图像的描述文本；基于描述文本对历史数据图像进行分类处理，得到各候选分类类别的类别表征图像；基于类别表征图像以及描述文本，确定各候选分类类别各自的图文对象。

在一个实施例中，还包括文本特征筛选模块，用于：获取类别表征图像、类别表征图像的描述文本以及类别无关图像，类别无关图像与类别表征图像所表征的图像类别不同；通过多模态图文处理模型对类别表征图像的描述文本进行文本特征提取处理，得到类别表征图像的文本特征；通过多模态图文处理模型分别对类别表征图像以及类别无关图像进行图像特征提取处理，得到类别表征图像的图像特征以及类别无关图像的图像特征；分别计算类别表征图像的文本特征与类别表征图像的图像特征，以及类别表征图像的文本特征与类别无关图像的图像特征之间的特征相似度，得到特征相似度数据；基于特征相似度数据确定类别表征图像的文本特征中的候选文本特征。

在一个实施例中，文本特征筛选模块还用于：对每一个文本特征的各特征相似度数据进行排序处理，得到相似度排序结果；确定相似度排序结果中满足相似度筛选条件的目标特征相似度，得到目标特征相似度对应图像，图像为类别表征图像或类别无关图像；基于目标特征相似度对应图像中类别表征图像的占比，确定每一个文本特征对应的相似度命中率；将相似度命中率高于命中率阈值的文本特征作为候选文本特征。

在一个实施例中，还包括阈值筛选模块，用于：将候选文本特征与类别无关图像的图像特征进行特征相似度计算，得到类别无关图像的特征相似度识别结果；对类别无关图像的特征相似度识别结果进行排序，得到类别无关图像的特征相似度排序结果；基于特征相似度排序结果确定满足目标误报率的分类阈值。

在一个实施例中，图像分类模块910具体用于：确定特征相似度中的相似度最大值；当相似度最大值大于或等于分类阈值时，确定目标图像为可分类图像，基于相似度最大值得到目标图像的图像分类结果；当相似度最大值小于审核阈值时，确定目标图像为不可分类图像，得到图像分类失败的图像分类结果。

在一个实施例中，图像分类模块910还用于：查找相似度最大值对应的候选文本特征；将候选文本特征对应的候选分类类别作为目标图像的图像分类结果。

在一个实施例中，还包括候选类别更新模块，用于：获取类别更新图像以及类别更新图像对应的类别更新文本描述；基于类别更新图像以及类别更新文本描述获取更新文本特征，并基于更新文本特征对应的分类类别对候选分类类别进行更新。

上述图像分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像分类相关数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分类方法。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像分类方法，其特征在于，所述方法包括：

获取目标图像，确定所述目标图像的候选分类类别；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取各候选分类类别各自的图文对象；

基于所述图文对象构建各候选分类类别对应的模型训练数据；

通过所述模型训练数据对初始多模态图文处理模型进行训练，得到所述多模态图文处理模型。

3.根据权利要求2所述的方法，其特征在于，所述模型训练数据包括类别表征图像以及所述类别表征图像的描述文本；

所述通过所述模型训练数据对初始多模态图文处理模型进行训练，得到多模态图文处理模型包括：

通过所述初始多模态图文处理模型对所述模型训练数据中的类别表征图像进行图像特征提取处理，得到所述类别表征图像的图像特征，并通过所述初始多模态图文处理模型对所述模型训练数据中的描述文本进行文本特征提取处理，得到所述类别表征图像的文本特征；

对比所述类别表征图像的图像特征以及所述类别表征图像的文本特征，确定模型损失；

基于所述模型损失对所述初始多模态图文处理模型进行模型参数更新处理，直到满足停止训练条件，获得多模态图文处理模型。

4.根据权利要求2所述的方法，其特征在于，所述获取各候选分类类别各自的图文对象包括：

获取历史数据图像；

识别所述历史数据图像中的目标对象以及所述目标对象之间的对象关系；

基于所述目标对象以及所述对象关系对所述历史数据图像进行图像理解处理，得到所述历史数据图像的描述文本；

基于所述描述文本对所述历史数据图像进行分类处理，得到各候选分类类别的类别表征图像；

基于所述类别表征图像以及所述描述文本，确定各候选分类类别各自的图文对象。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取类别表征图像、所述类别表征图像的描述文本以及类别无关图像，所述类别无关图像与所述类别表征图像所表征的图像类别不同；

通过多模态图文处理模型对所述类别表征图像的描述文本进行文本特征提取处理，得到所述类别表征图像的文本特征；

通过多模态图文处理模型分别对所述类别表征图像以及所述类别无关图像进行图像特征提取处理，得到所述类别表征图像的图像特征以及所述类别无关图像的图像特征；

分别计算所述类别表征图像的文本特征与所述类别表征图像的图像特征，以及所述类别表征图像的文本特征与所述类别无关图像的图像特征之间的特征相似度，得到特征相似度数据；

基于所述特征相似度数据确定所述类别表征图像的文本特征中的候选文本特征。

6.根据权利要求5所述的方法，其特征在于，所述基于所述特征相似度数据确定所述类别表征图像的文本特征中的候选文本特征包括：

对每一个文本特征的各所述特征相似度数据进行排序处理，得到相似度排序结果；

确定所述相似度排序结果中满足相似度筛选条件的目标特征相似度，得到所述目标特征相似度对应图像，所述图像为所述类别表征图像或所述类别无关图像；

基于所述目标特征相似度对应图像中类别表征图像的占比，确定每一个文本特征对应的相似度命中率；

将所述相似度命中率高于命中率阈值的文本特征作为候选文本特征。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

将所述候选文本特征与所述类别无关图像的图像特征进行特征相似度计算，得到类别无关图像的特征相似度识别结果；

对所述类别无关图像的特征相似度识别结果进行排序，得到类别无关图像的特征相似度排序结果；

基于所述特征相似度排序结果确定满足目标误报率的分类阈值。

8.根据权利要求1所述的方法，其特征在于，所述基于各所述特征相似度与分类阈值的比较结果，对所述目标图像进行分类，得到所述目标图像的分类结果包括：

确定所述特征相似度中的相似度最大值；

当所述相似度最大值大于或等于所述分类阈值时，确定所述目标图像为可分类图像，基于所述相似度最大值得到所述目标图像的图像分类结果；

当所述相似度最大值小于所述审核阈值时，确定所述目标图像为不可分类图像，得到图像分类失败的图像分类结果。

9.根据权利要求8所述的方法，其特征在于，所述基于所述相似度最大值得到所述目标图像的图像分类结果包括：

查找所述相似度最大值对应的候选文本特征；

将所述候选文本特征对应的候选分类类别作为所述目标图像的图像分类结果。

10.根据权利要求1至9任意一项所述的方法，其特征在于，所述方法还包括：

获取类别更新图像以及所述类别更新图像对应的类别更新文本描述；

基于所述类别更新图像以及所述类别更新文本描述获取更新文本特征，并基于所述更新文本特征对应的分类类别对所述候选分类类别进行更新。

11.一种图像分类装置，其特征在于，所述装置包括：

数据获取模块，用于获取目标图像，确定所述目标图像的候选分类类别；

图像特征提取模块，用于基于多模态图文处理模型对所述目标图像进行图像特征提取，得到目标图像特征；所述多模态图文处理模型，用于使得针对同一图文对象分别提取的图像特征和文本特征满足特征相似条件，同一类别的图文对象具有相同的描述文本和不同的图像内容；

文本特征查找模块，用于确定每一候选分类类别各自对应的描述文本的候选文本特征，各所述候选文本特征基于所述多模态图文处理模型提取得到；

相似度识别模块，用于分别确定所述目标图像特征与每一所述候选文本特征之间的特征相似度；

图像分类模块，用于基于各所述特征相似度与分类阈值的比较结果，对所述目标图像进行分类，得到所述目标图像的分类结果。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。