CN115082930B

CN115082930B - 图像分类方法、装置、电子设备和存储介质

Info

Publication number: CN115082930B
Application number: CN202110265357.2A
Authority: CN
Inventors: 谢一宾; 侯昊迪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-03-11
Filing date: 2021-03-11
Publication date: 2024-05-28
Anticipated expiration: 2041-03-11
Also published as: CN115082930A

Abstract

本发明公开了一种图像分类方法、装置、电子设备和存储介质；本发明中当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；根据目标融合特征对目标图像的场景进行识别，得到场景信息；基于场景信息确定目标图像的图像类别。当检测到目标图像中对象部位缺失时，结合对应的目标文本的文本特征来识别目标图像的场景，基于目标图像的场景信息对目标图像进行分类；由此，该方案可以提升图像分类的准确率。

Description

图像分类方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机技术领域，具体涉及一种图像分类方法、装置、电子设备和存储介质。

背景技术

当代人们可以通过各种方式来实现信息交流。在信息流场景下，视频/图文内容都需要一个合适的封面图，一个合适的封面会极大地提升用户体验。因此，信息流平台一般会向创作视频/图文内容的用户推荐封面候选图，以使视频/图文内容的封面图符合要求。其次，视频/图文内容上传到信息流平台后，信息流平台会基于该视频/图文内容的质量向其他用户进行推荐。为了保证视频/图文内容的质量，需要对该视频/图文内容中的图像进行图像分类。

然而，目前在对视频/图文内容中的图像进行分类时，图像分类的准确率较低。

发明内容

本发明提供一种图像分类方法、装置、电子设备和存储介质，可以提升图像分类的准确率。

本发明提供一种图像分类方法，包括：

当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；

对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；

对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；

根据目标融合特征对目标图像的场景进行识别，得到场景信息；

基于场景信息确定目标图像的图像类别。

本发明还提供一种图像分类装置，包括：

获取单元，用于当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；

特征提取单元，用于对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；

融合单元，用于对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；

识别单元，用于根据目标融合特征对目标图像的场景进行识别，得到场景信息；

分类单元，用于基于场景信息确定目标图像的图像类别。

在一些实施例中，特征提取单元具体用于：

在特征提取层对目标图像和目标文本进行特征提取；

特征提取层包括图像子网络和文本子网络，在特征提取层对目标图像和目标文本进行特征提取，包括：

采用训练好的图像子网络对目标图像进行图像特征提取，得到目标图像的图像特征；

采用训练好的文本子网络对目标文本进行文本特征提取，得到目标文本的文本特征。

在一些实施例中，图像分类装置还用于：

获取预设模型，预设模型包括特征提取层、全连接层和输出层；

获取训练集，训练集包括训练图像和训练图像对应的训练文本；

基于训练图像训练预设的图像子网络，得到训练好的图像子网络；

基于训练文本训练预设的文本子网络，得到训练好的文本子网络；

采用训练好的图像子网络和训练好的文本子网络，对训练图像和训练文本进行特征提取，得到训练图像的图像特征和训练文本的文本特征；

基于训练图像的图像特征和训练文本的文本特征训练预设的全连接层和输出层，得到训练好的全连接层和输出层。

在一些实施例中，训练好的图像子网络包括浅层特征提取层、采样层、深层特征提取层和池化层，特征提取单元具体用于：

采用浅层特征提取层对目标图像进行浅层特征提取，得到浅层特征；

采用采样层对浅层特征进行采样，得到采样特征；

采用深层特征提取层对采样特征进行深层特征提取，得到深层特征；

采用池化层对深层特征进行池化，得到目标图像的图像特征。

在一些实施例中，特征提取单元具体用于：

在浅层特征上移动采样区域，得到移动后采样区域，其中，移动后采样区域与移动前采样区域部分相交；

对浅层特征上的移动后采样区域进行采样操作，得到采样特征。

在一些实施例中，深层特征提取层包括多个子特征提取层，特征提取单元具体用于：

将当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵进行特征融合，得到融合特征矩阵；

将融合特征矩阵输入下一子特征提取层进行深层特征提取；

获取最后端子特征提取层输出的特征矩阵，得到深层特征。

在一些实施例中，特征提取单元具体用于：

当当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵的维度不一致时，基于当前子特征提取层中预设的卷积层，对当前子特征提取层输出的特征矩阵进行卷积操作，以增加当前子特征提取层输出的特征矩阵的维度；

对增加维度后的当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵进行求和。

在一些实施例中，特征提取单元具体用于：

提取目标文本的字词向量、字词位置向量和全局向量；

对目标文本的字词向量、字词位置向量和全局向量进行向量融合处理，得到目标文本的文本特征。

在一些实施例中，融合单元具体用于：

将目标图像的图像特征的矩阵尾部与目标文本的文本特征的矩阵首部进行拼接处理，得到目标融合特征。

在一些实施例中，图像分类装置还用于：

当场景信息为预设场景时，确定目标图像的图像类别属于第一类别；

当场景信息为无时，确定目标图像的图像类别属于第二类别。

在一些实施例中，图像分类装置还用于：

当所述目标图像的图像类别属于第一类别时，对所述目标图像执行推荐处理；

当检测到目标图像中对象完整时，对所述目标图像执行推荐处理。

在一些实施例中，图像分类装置还用于：

确定多媒体内容的第一推荐权重，多媒体内容中包括目标图像和目标文本；

根据第一类别与推荐池之间的映射关系，确定目标图像的图像类别所对应的目标推荐池；

将多媒体内容存入目标推荐池中；

确定用户的喜好标签；

当用户的喜好标签指向目标推荐池时，基于第一推荐权重向用户推荐多媒体内容。

本发明还提供一种电子设备，包括存储器和处理器，存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明所提供的任一种图像分类方法中的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明所提供的任一种图像分类方法中的步骤。

本发明可以当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；根据目标融合特征对目标图像的场景进行识别，得到场景信息；基于场景信息确定目标图像的图像类别。

在本发明中，当检测到目标图像中的对象部位缺失时，则获取目标图像对应的目标文本，结合图像和文本两个模态的特征，对目标图像的场景进行识别，基于得到的场景信息对目标图像进行分类，得到图像的类别。即在对图像进行分类时，不仅要检测图像中的对象是否存在部位缺失，还需要在目标图像部位缺失时，结合文本特征对目标图像的场景进行识别，从而根据场景信息来对目标图像进行分类。由此，提升了图像分类得准确率。

附图说明

为了更清楚地说明本发明中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明提供的图像分类方法的流程示意图；

图1b是本发明提供的图像子网络的结构示意图；

图1c是本发明提供的残差块的结构示意图；

图1d是本发明提供的文本子网络的示意图；

图1e是本发明提供的场景信息的示意图；

图2a是本发明提供的多模态模型的示意图；

图2b是本发明提供的图像分类方法应用在识别图像中人体完整性场景的流程示意图；

图2c是本发明提供的目标图像的示意图；

图2d是本发明提供的图像分类方法应用在封面图选取的流程示意图；

图2e是本发明提供的图像分类方法应用在推流场景的流程示意图；

图3是本发明提供的图像分类装置的一种结构示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

人工智能(Artificial Intelligence，AI)是一种利用数字计算机来模拟人类感知环境、获取知识并使用知识的技术，该技术可以使机器具有类似于人类的感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、语言技术以及机器学习、深度学习等几大方向。

其中，计算机视觉(Computer Vision，CV)是利用计算机代替人眼对目标图像进行识别、测量等操作并进一步进行处理的技术。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、虚拟现实、增强现实、同步定位与地图构建等技术，比如，图像着色、图像描边提取等图像处理技术。

图像分类，指的是根据各自在图像信息中所反映的不同特征，把不同类别的目标区分开来的图像处理方法。而在本发明中，可以指针对信息流场景下的图像信息进行分类，比如分析图像表达的语义信息的完整性等。

每一种信息的来源或者形式，都可以称为一种模态。例如，信息的媒介，有语音、视频、文字等。

本发明提供一种图像分类方法、装置、电子设备和存储介质。

其中，该图像分类装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，在一些实施例中，服务器也可以以终端的形式来实现。

在一些实施例中，该图像分类装置还可以集成在多个电子设备中，比如，图像分类装置可以集成在多个服务器中，由多个服务器来实现本发明的图像分类方法。

例如，该图像分类装置可以集成在服务器中，服务器获取目标图像，当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；根据目标融合特征对目标图像的场景进行识别，得到场景信息；基于场景信息确定目标图像的图像类别。

本方案中，当检测到目标图像中的对象部位缺失时，则获取目标图像对应的目标文本，结合图像和文本两个模态的特征，对目标图像的场景进行识别，然后基于场景信息对目标图像进行图像分类，得到目标图像的图像类别。即在对图像进行分类之前，不仅检测图像中的对象是否部位缺失；在图像中的对象部位缺失时，还可以根据目标图像的场景信息判断图像表达的语义信息是否完整，若图像表达的语义信息完整，则该图像也可以被认为是有质量的图像，从而减少对图像的误判。由此，该方案可以提升图像分类的准确率。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种基于图像推荐的图像分类方法，如图1a所示，该图像分类方法的具体流程可以如下：

101、当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本。

其中，目标图像为信息流场景下的多媒体内容中的图像，该多媒体内容可以包括视频内容、图文内容和音频内容等。目标文本为与目标图像关联的文本，例如目标图像为视频中的某一帧图像，则目标文本为该视频的标题，再如，目标图像为图文内容中的插图，则目标文本可以为图文内容的标题，或者可以为图文内容中的文字。

服务器可以从用户端处获取目标图像和目标文本；或者，服务器可以从数据库、存储介质等处获取目标图像和目标文本。例如，假设用户通过信息流平台向服务器上传视频，服务器获取到该视频后，可以通过算法从该视频中选取多帧图像形成图像集；其中，目标图像可以为该图像集中的任一图像，目标文本为该视频的标题。

目标图像中的对象为图像中的主体，例如人体、动物等。对象部位缺失表示了图像中的对象缺失了一些组成该对象的部位。例如对象是人体时，人体的组成部位包括脑袋、上身、腿脚和手等；当目标图像中人体没有腿脚部位时，目标图像中对象部位缺失，即图像中对象不完整；当目标图像中的人体包括所有组成部位，则目标图像中对象完整。

在一些实施例中，服务器可以通过图像完整性识别模型来对图像中对象的完整性进行检测，得到目标图像中对象的完整性。其中，该图像完整性识别模型可以为人工神经网络模型，本实施例不做限制。

102、对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征。

其中，目标图像特征主要为目标图像的颜色特征、纹理特征、形状特征和空间关系特征等。文本特征表示了目标文本中的语言特性。

在特征提取层对目标图像和目标文本进行特征提取，特征提取的具体实施方式不做限制，包括但不限于以下实施方式。

在一些实施例中，特征提取层包括图像子网络和文本子网络，在特征提取层对目标图像和目标文本进行特征提取，包括但不限于以下步骤：

(1)服务器采用训练好的图像子网络对目标图像进行图像特征提取，得到目标图像的图像特征。其中，训练好的图像子网络包括浅层特征提取层、采样层、深层特征提取层和池化层，如图1b所示，为图像子网络的结构示意图，采用训练好的图像子网络对目标图像进行图像特征提取，得到目标图像的图像特征，包括但不限于以下步骤：

服务器采用浅层特征提取层对目标图像进行浅层特征提取，得到浅层特征。采用采样层对浅层特征进行采样，得到采样特征。例如，在浅层特征上移动采样区域，得到移动后采样区域，其中，移动后采样区域与移动前采样区域部分相交；对浅层特征上的移动后采样区域进行采样操作，得到采样特征。

服务器采用深层特征提取层对采样特征进行深层特征提取，得到深层特征。如图1b所示，深层特征提取层包括多个子特征提取层。例如，该深层特征提取层可以包括多个残差块，即每个子特征提取层对应一个残差块，如图1c所示为其中任一残差块的结构示意图。具体地，服务器将当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵进行特征融合，得到融合特征矩阵；将融合特征矩阵输入下一子特征提取层进行深层特征提取。其中，当当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵的维度不一致时，基于当前子特征提取层中预设的卷积层，对当前子特征提取层输出的特征矩阵进行卷积操作，以增加当前子特征提取层输出的特征矩阵的维度；对增加维度后的当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵进行求和。当当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵的维度一致时，对当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵进行求和。

服务器获取最后端子特征提取层输出的特征矩阵，得到深层特征。采用池化层对深层特征进行池化，得到目标图像的图像特征。

(2)服务器采用训练好的文本子网络对目标文本进行文本特征提取，得到目标文本的文本特征。例如，如图1d所示，服务器提取目标文本的字词向量、字词位置向量和全局向量；对目标文本的字词向量、字词位置向量和全局向量进行向量融合处理，得到目标文本的文本特征。

在特征提取层对目标图像和目标文本进行特征提取之前，还执行以下步骤：获取预设模型，预设模型包括特征提取层、全连接层和输出层；获取训练集，训练集包括训练图像和训练图像对应的训练文本；即训练图像和训练文本是成对的图文信息；通过成对的图文信息表达的语义信息来确定训练图像和训练文本的标签，训练图像和训练文本的标签是一一对应的。

基于训练图像训练预设的图像子网络，得到训练好的图像子网络；基于训练文本训练预设的文本子网络，得到训练好的文本子网络。采用训练好的图像子网络和训练好的文本子网络，对训练图像和训练文本进行特征提取，得到训练图像的图像特征和训练文本的文本特征。基于训练图像的图像特征和训练文本的文本特征训练预设的全连接层和输出层，得到训练好的全连接层和输出层；例如，将训练图像的图像特征和训练文本的文本特征进行特征融合，得到训练融合特征，采用该训练融合特征训练预设的全连接层和输出层。因此，服务器分别对图像子网络和文本子网络进行训练，将训练好的图像子网络和文本子网络用于提取特征，再对全连接层和输出层进行训练；通过这种两阶段的训练方式可以使模型收敛地更快。

在一些实施例中，图像子网络可以为训练好的视觉学习迁移模型(BigTransfer，BiT)，也可以为EfficientNet系列模型，或其他神经网络模型(如backbone模型)；文本子网络可以为多层双向变换器编码器(Bidirectional Encoder Representation fromTransformers，BERT)模型，也可以为其他改进优化的模型，比如RoBERTa等。

其中，BiT是一种图像预训练模型，主要是在残差网络的基础上对预训练做了优化，使用了更大规模的训练图像集，在预训练阶段用组归一化(Group Normalization)和权重归一化(Weight Standardization)，以减少批处理量的大小对训练的影响；组归一化是将通道(channels)划分为多个组(groups)，再计算每个group内的均值和方差以进行归一化；然后采用超参数配置(HyperRule)机制减少微调阶段(finetune)的调参工作。可以使得BiT拥有更强的特征提取能力，可以很容易的用在下游任务中。

BERT是一种自然语言处理(Natural Language Processing，NLP)预训练模型，BERT在大规模无监督语料中训练了遮蔽语言模型(Masked LM)和下一句预测(NextSentence Prediction)两个任务。BERT通过在大规模无监督语料上训练这两个任务可以使得模型学习到充分的上下文语义特征，并且在预训练阶段由于不需要标注数据，因此可以收集庞大的无监督语料用于预训练。预训练模型的表征能力得到大幅度提升，在下游任务上finetune时只需要少量标注样本即可取得很好的效果。

采用训练好的BiT对目标图像进行特征提取，得到目标图像的图像特征；采用训练好的BERT对目标文本进行特征提取，得到目标图像的文本特征。

103、对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征。

其中，目标融合特征为融合了目标文本的文本特征和目标图像的图像特征的特征矩阵。融合特征中包括了图像模态的特征和文本模态的特征，结合文本模态的特征能够更好检测出的目标图像表达的语义信息。

对目标图像的图像特征和目标文本的文本特征进行特征融合的具体实施方式不做限制。在一些实施例中，可以将目标图像的图像特征的矩阵尾部与目标文本的文本特征的矩阵首部进行拼接处理，得到目标融合特征。在一些实施例中，也可以将目标文本的文本特征的矩阵尾部与目标图像的图像特征的矩阵首部进行拼接处理，得到目标融合特征。其中，矩阵的尾部可以为矩阵的最后一行或者最后一列；矩阵的首部可以为矩阵的第一行或者第一列；若矩阵为行向量，则首部为行向量的第一个元素，尾部为行向量的最后一个元素；若矩阵为列向量，则首部为列向量的第一个元素，尾部为列向量的最后一个元素。

104、根据目标融合特征对目标图像的场景进行识别，得到场景信息。

场景信息可以表征目标图像的表达的语义信息。以目标图像中的对象为人体为例，场景信息可以包括但不限于特写场景、展示场景、其他和无。特写场景表征目标图像为对人体进行特写的图像；展示场景表征目标图像为展示与人体相关物品的图像；其他表征目标图像表达的语义信息完整，但不能划分为特写场景和展示场景的场景；无表征不能识别出目标图像的场景。如图1e所示，特写场景可以包括但不限于头部特写、脖子特写、锁骨特写、上身特写、手臂特写、腿部特写和脚部特写等；展示场景可以包括但不限于展示上衣、展示裤子、展示鞋子和展示东西等；其他可以为多人聚餐等场景。

在一些实施例中，可将目标融合特征输入步骤102中训练好的全连接层和输出层来识别目标图像的场景，得到场景信息。

105、基于场景信息确定目标图像的图像类别。

其中，图像类别表征目标图像表达的语义信息的完整性；图像类别包括第一类别和第二类别。其中，第一类别表征目标图像表达的语义信息的完整性为完整；第二类别表征目标图像表达的语义信息的完整性为不完整。

在一些实施例中，当场景信息为预设场景时，确定目标图像的图像类别属于第一类别；当场景信息为无时，确定目标图像的图像类别属于第二类别。其中，预设场景为根据实际应用情况进行设置的场景；例如，以目标图像中的对象为人体为例，预设场景可以为特写场景、展示场景和其他；则当场景信息为特写场景、展示场景和其他时，确定目标图像的图像类别属于第一类别；即目标图像中的对象虽然部位缺失，但是目标图像具有一定的场景，因此其表达的语义信息便是完整的。

在一些实施例中，当检测到目标图像中对象完整时，确定目标图像的图像类别属于第一类别，即目标图像表达的语义信息也是完整的。

可选地，在一些实施例中，当服务器检测到目标图像中对象完整时，对目标图像执行推荐处理。在一些实施例中，当服务器确定目标图像的图像类别属于第一类别时，说明目标图像表达的语义信息是完整的，可以对该图像执行推荐处理。例如，目标图像中只有人体的上身，上身着紫色的毛衣，标题为毛衣的编织方法，则表明目标图像表达的语义信息是完整的。当目标图像的图像类别属于第二类别时，例如，输出层的输出结果表征目标图像的场景为无时，目标图像表达的语义信息不完整，则不对目标图像执行推荐处理。推荐处理的具体实施方式不做限制，包括但不限于以下几种实施方式。

在一些实施例中，针对封面图选取场景，服务器可以将目标图像推荐给用户端，以便用户通过用户端选择封面图；服务器从用户端获取封面图。例如，当目标图像的图像类别属于第一类别时，该目标图像符合作为封面图的标准，因此服务器可以将该图像发送给用户端，让用户选择是否将该图像作为封面图，然后服务器从用户端处获取封面图。

可选的，服务器可以获取一个图像集，确定该图像集中的所有图像的类别是否属于第一类别，当某一图像属于第一类别时，则保留该图像作为封面候选图，当属于第二类别时，则从图像集中清除该图像。进而服务器可以将处理后的图像集中的图像发送给用户端，以便用户从该图像集中选择封面图。由于服务器向用户推荐的图像都是符合作为封面图标准的图像，从而保证了封面图的质量。

在一些实施例中，针对推流场景。假设多媒体内容中包括目标图像和目标文本，服务器确定多媒体内容的第一推荐权重。例如，当目标图像的图像类别属于第一类别时，将第一推荐权重确定为第一阈值，该第一推荐阈值表示该多媒体内容被推荐的可能性较高；若多媒体中包括多张图像，在后续确定图像的类别时，每得到一张图像的图像类别属于第二类别时，可以减小第一推荐权重。再如，假设服务器从多媒体内容中获取图像集，该图像集中包括多张图像，确定该多张图像中图像的图像类别属于第一类别的图像的数量，根据该数量占图像集中图像总数的百分比，根据该百分比确定第一推荐权重。

可选地，服务器根据第一类别与推荐池之间的映射关系，确定目标图像的图像类别所对应的目标推荐池；服务器将多媒体内容存入该目标推荐池中。其中，推荐池可以为一种存储介质的部分存储区域，如数据库中的部分存储区域。例如信息流平台可以在服务端设置第一类别与推荐池之间的映射关系的表格，当确定了目标图像的图像类别时，则根据该映射关系确定对应的目标推荐池，然后将多媒体内容存储在目标推荐池中。

服务器确定用户的喜好标签；当用户的喜好标签指向目标推荐池时，基于第一推荐权重向用户推荐多媒体内容。服务器可以根据第一推荐权重计算推荐次数；根据推荐次数向用户推荐该多媒体内容，权重越高，被推荐的次数越多。

当目标图像的图像类别属于第二类别时，服务器可以确定多媒体内容的第二推荐权重；例如确定第二推荐权重为第二阈值，该第二阈值用于表示该多媒体内容被推荐的可能性较低。例如，服务器可以根据第二推荐权重计算推荐次数；根据推荐次数向用户推荐多媒体内容，权重越低，被推荐的次数越低。再如，可以不启用该多媒体内容，即不向用户推荐。

通过本发明提供的方法可以当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；根据目标融合特征对目标图像的场景进行识别，得到场景信息；基于场景信息确定目标图像的图像类别。

在本发明中，当检测到目标图像中的对象部位缺失时，则获取目标图像对应的目标文本；提取目标图像和目标文本两个模态的特征，并对该两个模态的特征进行融合得到多模态的特征；然后基于多模态特征对目标图像的场景进行识别，得到场景信息；基于该场景信息对目标图像进行图像分类；结合图像和文字的特征能够识别出图像的场景，根据图像的场景能够更准确地检测出图像表达的语义信息是否完整；由此，提升了图像分类的准确率。当目标图像的图像类别属于第一类别，或者检测到目标图像中的对象为完整时，目标图像表达的语义信息完整，则对目标图像执行推荐处理；由此，提高了推荐处理的合理性。

本发明提供的图像推荐方案可以应用在各种图像语义信息的完整性识别中。比如，以识别图像中人体完整性为例，假设识别图像中人体完整性的多模态模型如图2a所示，该模型包括特征提取层、融合层、全连接层和输出层。其中，特征提取层包括图像子网络和文本子网络；该图像子网络可以为训练好的BiT；文本子网络可以为BERT。

根据上述实施例所描述的方法，以下将作进一步详细说明。

如图2b所示，一种图像分类方法具体流程如下：

201、检测目标图像中人体的完整性。

信息流平台(如腾讯看点和视频号)的服务器接收用户端发送的图文/视频内容，可以通过信息流平台上的算法在该图文/视频内容中提取多张图像，形成图像集。目标图像为图像集中的任一图像，可以根据信息流平台搭载的图像完整性识别模型检测目标图像中人体的完整性。比如，如图2c所示，为目标图像。因为图像中人体的头部缺失，图像完整性识别模型检测得到该图像中的人体是部位缺失的。

202、当检测到目标图像中人体部位缺失时，获取目标图像对应的目标文本。

例如，如图2c所示，当检测到目标图像中人体部位缺失时，可以获取该目标图像对应的目标文本，例如“秋冬毛衣织起来，像月光一样美好的女士套头衫，棒针编织附教程”。

203、对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征。

其中，采用训练好的BiT对目标图像进行特征提取，得到目标图像的图像特征；采用训练好的BERT对目标文本进行特征提取，得到目标图像的文本特征。

可选地，在进行特征提取之前可以对预设模型进行训练，得到多模态模型。为了更好地训练多模态模型，本方案采用一种两阶段的训练方式。

第一阶段，先训练BiT和BERT。具体地，获取训练集，该训练集中包括训练图像和对应的训练文本。在一些实施例中，训练文本和训练图像的标签可以为步骤104中所述的目标图像中的对象为人体时的场景信息。

采用训练图像对BiT预训练模型进行微调，得到训练好的BiT；例如，使用随机梯度下降(Stochastic gradient descent，SGD)优化器，初始学习率为0.003，动量为0.9，批大小为512；微调过程中，在训练到总步数的30％，60％和90％时，学习率降低10倍。采用训练文本对BERT与训练模型进行微调，得到训练好的BERT。

第二阶段，冻结BiT和BERT中的分类网络，得到冻结后的BiT和BERT；采用冻结后的BiT进行图像特征提取，得到训练图像的图像特征；采用冻结后的BERT对训练文本进行文本特征提取，得到训练文本的文本特征；对训练图像的图像特征和训练文本的文本特征进行特征拼接，得到训练融合特征；基于训练融合特征对全连接层和输出层进行训练，得到训练好的全连接层和输出层。其中，冻结表示采用BiT和BERT来进行特征提取，不会更新该模型的参数。通过这种两阶段的训练方式可以使模型更快地收敛。

204、对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征。例如，对目标图像的图像特征和目标文本的文本特征进行拼接，得到目标融合特征。

205、根据目标融合特征对目标图像的场景进行识别，得到场景信息。

将目标融合特征输入训练好的全连接层和输出层，得到场景信息。

206、基于场景信息确定目标图像的图像类别。

第一类别可参照步骤104，这里不再赘述。例如，如图2c所示的目标图像的场景信息为展示上衣，则确定目标图像的图像类别属于第一类别，表达的语义信息完整，因此对目标图像执行推荐处理。

当检测到目标图像中人体完整时，对目标图像执行推荐处理。

在一些实施例中，如图2d所示，针对腾讯看点和视频号的封面图选取场景。服务器检测图像集中目标图像中的人体的完整性，当目标图像中的人体部位缺失时，则采用多模态模型对将该目标图片进行图像分类。当图像的图像类别属于第一类别时，表明目标图像表达的语义信息是完整的，则将目标图像作为封面候选图；当图像的图像类别属于第二类别时，表明目标图像表达的语义信息不完整，则从图像集中清除目标图像。

在一些实施例中，如图2e所示，针对腾讯看点和视频号的推流场景。服务器检测图像集中目标图像中的人体的完整性，当目标图像中的人体部位缺失时，则采用多模态模型对将该目标图片进行图像分类。当图像的图像类别属于第一类别时，表明目标图像表达的语义信息时完整的，将目标图像对应的视频存入推荐池。当图像的图像类别属于第二类别时，表明目标图像表达的语义信息不完整，对目标图像对应的图文/视频内容进行降权，或者不启用该图文/视频内容。

由上可知，当检测到目标图像中的人体部位缺失时，则获取目标图像对应的目标文本，提取图像和文本两个模态的特征，并对该两个模态的特征进行融合得到多模态的融合特征，然后基于多模态融合特征对目标图像的场景进行识别，根据目标图像的场景进行图像分类；结合图像和文字的特征能够判断出目标图像的场景，根据场景能够更准确的判断图像表达的语义信息是否完整；由此，提升了图像分类得准确率。当目标图像的图像类别属于第一类别时，即表达的语义信息完整时，或者检测到目标图像中的人体为完整时，则对目标图像执行推荐处理。即，在对图像进行推荐之前，不仅检测图像中的人体是否完整，还可以结合文本与图像的多模态特征，来确定图像表达的语义信息是否完整，例如对人体的某些部位进行特写或者展示某些物品等，此时表达的语义信息就是完整的；因此当图像中的人体不完整，但表达的语义信息时完整的时候，图像也可以被推荐，减少了误判的情况。

为了更好地实施以上方法，本发明还提供一种图像分类装置，该图像分类装置具体可以集成在电子设备中，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑等设备；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

比如，在本实施例中，将以图像分类装置具体集成在服务器为例，对本发明的方法进行详细说明。

例如，如图3所示，该图像分类装置可以包括获取单元301、特征提取单元302、融合单元303、识别单元304以及分类单元305，如下：

(一)获取单元301

获取单元301，用于当检测到目标图像中对象部位缺失时，获取目标图像对应的目标文本；

(二)特征提取单元302

特征提取单元302，用于对目标图像和目标文本进行特征提取，得到目标图像的图像特征和目标文本的文本特征；

在一些实施例中，特征提取单元302具体用于：

在特征提取层对目标图像和目标文本进行特征提取；

在一些实施例中，训练好的图像子网络包括浅层特征提取层、采样层、深层特征提取层和池化层，特征提取单元302具体用于：

采用采样层对浅层特征进行采样，得到采样特征；

在一些实施例中，特征提取单元302具体用于：

在一些实施例中，深层特征提取层包括多个子特征提取层，特征提取单元302具体用于：

将融合特征矩阵输入下一子特征提取层进行深层特征提取；

获取最后端子特征提取层输出的特征矩阵，得到深层特征。

在一些实施例中，特征提取单元302具体用于：

提取目标文本的字词向量、字词位置向量和全局向量；

(三)融合单元303

融合单元303，用于对目标图像的图像特征和目标文本的文本特征进行特征融合，得到目标融合特征；

在一些实施例中，融合单元303具体用于：

(四)识别单元304

分类单元304，用于根据目标融合特征对目标图像的场景进行识别，得到场景信息；

(五)分类单元305

分类单元305，用于基于场景信息确定目标图像的图像类别。

在一些实施例中，图像分类装置还用于：

将多媒体内容存入目标推荐池中；

确定用户的喜好标签；

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的图像分类装置可以当检测到目标图像中的对象部位缺失时，则获取目标图像对应的目标文本，结合图像和文本两个模态的特征，对目标图像的场景进行识别，基于得到的场景信息对目标图像进行分类，得到图像的类别。即在对图像进行分类时，不仅要检测图像中的对象是否存在部位缺失，还需要在目标图像部位缺失时，结合文本特征对目标图像的场景进行识别，从而根据场景信息来对目标图像进行分类。由此，提升了图像分类得准确率。

本发明还提供一种电子设备，该电子设备可以为终端、服务器等设备。其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑，等等；服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本发明所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体检测。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

基于场景信息确定目标图像的图像类别。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本实施例的服务器可以当检测到目标图像中的对象部位缺失时，则获取目标图像对应的目标文本，结合图像和文本两个模态的特征，对目标图像的场景进行识别，基于得到的场景信息对目标图像进行分类，得到图像的类别。即在对图像进行分类时，不仅要检测图像中的对象是否存在部位缺失，还需要在目标图像部位缺失时，结合文本特征对目标图像的场景进行识别，从而根据场景信息来对目标图像进行分类。由此，提升了图像分类得准确率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明所提供的任一种图像分类方法中的步骤。例如，该指令可以执行如下步骤：

基于场景信息确定目标图像的图像类别。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中提供的图像语义信息的完整性识别方面或者识别图像中人体完整性方面的各种可选实现方式中提供的方法。

由于该存储介质中所存储的指令，可以执行本发明所提供的任一种图像分类方法中的步骤，因此，可以实现本发明所提供的任一种图像分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明所提供的一种图像分类方法、装置、电子设备和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种图像分类方法，其特征在于，包括：

当检测到目标图像中对象部位缺失时，获取所述目标图像对应的目标文本；

对所述目标图像和所述目标文本进行特征提取，得到所述目标图像的图像特征和所述目标文本的文本特征；

对所述目标图像的图像特征和所述目标文本的文本特征进行特征融合，得到目标融合特征；

根据所述目标融合特征对所述目标图像的场景进行识别，得到场景信息；

基于所述场景信息确定所述目标图像的图像类别，所述图像类别表征目标图像表达的语义信息的完整性，包括：当所述场景信息为预设场景时，确定所述目标图像的图像类别属于第一类别，对所述目标图像执行推荐处理，所述第一类别表征所述目标图像表达的语义信息的完整性为完整。

2.如权利要求1所述的图像分类方法，其特征在于，所述对所述目标图像和所述目标文本进行特征提取，得到所述目标图像的图像特征和所述目标文本的文本特征，包括：

在特征提取层对所述目标图像和所述目标文本进行特征提取；

所述特征提取层包括图像子网络和文本子网络，所述在特征提取层对所述目标图像和所述目标文本进行特征提取，包括：

采用训练好的图像子网络对所述目标图像进行图像特征提取，得到所述目标图像的图像特征；

采用训练好的文本子网络对所述目标文本进行文本特征提取，得到所述目标文本的文本特征。

3.如权利要求2所述的图像分类方法，其特征在于，所述在特征提取层对所述目标图像和所述目标文本进行特征提取之前，还包括：

获取预设模型，所述预设模型包括特征提取层、全连接层和输出层；

获取训练集，所述训练集包括训练图像和所述训练图像对应的训练文本；

基于所述训练图像训练所述预设的图像子网络，得到训练好的图像子网络；

基于所述训练文本训练所述预设的文本子网络，得到训练好的文本子网络；

采用所述训练好的图像子网络和所述训练好的文本子网络，对所述训练图像和所述训练文本进行特征提取，得到所述训练图像的图像特征和所述训练文本的文本特征；

基于所述训练图像的图像特征和所述训练文本的文本特征训练预设的全连接层和输出层，得到训练好的全连接层和输出层。

4.如权利要求2所述的图像分类方法，其特征在于，所述训练好的图像子网络包括浅层特征提取层、采样层、深层特征提取层和池化层，采用训练好的图像子网络对所述目标图像进行图像特征提取，得到所述目标图像的图像特征，包括：

采用所述浅层特征提取层对所述目标图像进行浅层特征提取，得到浅层特征；

采用所述采样层对所述浅层特征进行采样，得到采样特征；

采用所述深层特征提取层对所述采样特征进行深层特征提取，得到深层特征；

采用所述池化层对所述深层特征进行池化，得到所述目标图像的图像特征。

5.如权利要求4所述的图像分类方法，其特征在于，所述采用所述采样层对所述浅层特征进行采样，得到采样特征，包括：

在所述浅层特征上移动采样区域，得到移动后采样区域，其中，所述移动后采样区域与移动前采样区域部分相交；

对所述浅层特征上的移动后采样区域进行采样操作，得到采样特征。

6.如权利要求4所述的图像分类方法，其特征在于，所述深层特征提取层包括多个子特征提取层，所述采用所述深层特征提取层对所述采样特征进行深层特征提取，得到深层特征，包括：

将所述融合特征矩阵输入下一子特征提取层进行深层特征提取；

获取最后端子特征提取层输出的特征矩阵，得到深层特征。

7.如权利要求6所述的图像分类方法，其特征在于，所述将当前子特征提取层输出的特征矩阵与前一子特征提取层输出的特征矩阵进行特征融合，包括：

8.如权利要求2所述的图像分类方法，其特征在于，所述采用所述文本子网络对所述目标文本进行文本特征提取，得到所述目标文本的文本特征，包括：

提取所述目标文本的字词向量、字词位置向量和全局向量；

对所述目标文本的字词向量、字词位置向量和全局向量进行向量融合处理，得到所述目标文本的文本特征。

9.如权利要求1所述的图像分类方法，其特征在于，所述对所述目标图像的图像特征和所述目标文本的文本特征进行特征融合，得到目标融合特征，包括：

将所述目标图像的图像特征的矩阵尾部与所述目标文本的文本特征的矩阵首部进行拼接处理，得到目标融合特征。

10.如权利要求1所述的图像分类方法，其特征在于，所述基于所述场景信息确定所述目标图像的图像类别，还包括：

当所述场景信息为无时，确定所述目标图像的图像类别属于第二类别。

11.如权利要求1所述的图像分类方法，其特征在于，所述对所述目标图像执行推荐处理，包括：

确定多媒体内容的第一推荐权重，所述多媒体内容中包括所述目标图像和所述目标文本；

根据所述第一类别与推荐池之间的映射关系，确定所述目标图像的图像类别所对应的目标推荐池；

将所述多媒体内容存入所述目标推荐池中；

确定用户的喜好标签；

当所述用户的喜好标签指向所述目标推荐池时，基于所述第一推荐权重向所述用户推荐所述多媒体内容。

12.一种图像分类装置，其特征在于，包括：

获取单元，用于当检测到目标图像中对象部位缺失时，获取所述目标图像对应的目标文本；

特征提取单元，用于对所述目标图像和所述目标文本进行特征提取，得到所述目标图像的图像特征和所述目标文本的文本特征；

融合单元，用于对所述目标图像的图像特征和所述目标文本的文本特征进行特征融合，得到目标融合特征；

识别单元，用于根据所述目标融合特征对所述目标图像的场景进行识别，得到场景信息；

分类单元，用于基于所述场景信息确定所述目标图像的图像类别，所述图像类别表征目标图像表达的语义信息的完整性，包括：当所述场景信息为预设场景时，确定所述目标图像的图像类别属于第一类别，对所述目标图像执行推荐处理，所述第一类别表征所述目标图像表达的语义信息的完整性为完整。

13.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～11任一项所述的图像分类方法中的步骤。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～11任一项所述的图像分类方法中的步骤。