CN117421497B

CN117421497B - 作品对象的处理方法、装置、可读存储介质及电子设备

Info

Publication number: CN117421497B
Application number: CN202311444711.3A
Authority: CN
Inventors: 欧阳潼舢; 郭枫; 彭良
Original assignee: Beijing Fengniao Image Electronic Commerce Co ltd
Current assignee: Beijing Fengniao Image Electronic Commerce Co ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2024-04-26
Anticipated expiration: 2043-11-02
Also published as: CN117421497A

Abstract

本申请公开一种作品对象的处理方法、装置、可读存储介质及电子设备，该作品对象的处理方法包括：获取作品对象，提取其对应的多个数据集；分别对每个数据集进行特征提取，获得每个数据集对应的模态特征；对每个模态特征进行特征融合，以生成融合特征；将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签。本申请能够自动为作品对象分配聚类标签，保证为作品对象分配标签的准确性。

Description

作品对象的处理方法、装置、可读存储介质及电子设备

技术领域

本申请涉及图像处理技术领域，具体涉及一种作品对象的处理方法、装置、可读存储介质及电子设备。

背景技术

在传统的社交网络和论坛中，用户上传的作品日益增多，对于用户而言，作品标签的作用包括：帮助用户快速搜索符合用户需求的目标作品，即：通过标签的方式，帮助用户进行作品的筛选。当前，主流的标签系统主要用于筛选作品，而不会用于作品的聚类。

用户在社交网络和论坛中搜索某个作品时，搜索结果大都会有若干重复或者相似的作品。由于作品的聚类概念不突出，因而导致对于具有同样标签的作品，不能以作品聚类的形式将作品展现给用户，导致用户迷失在不是其目标作品当中，难以准确的搜索到其需求的目标作品。

为了解决上述的问题，现有的社交网络和论坛主要通过人工或者简单算法方式为作品分配标签。然而，前述分配标签方式存在两个问题：1)人力成本巨大，耗费时间较长；2)通过人工或者简单算法聚类的作品主要局限于作品的单一模态特征，标签分配很难保证准确。

发明内容

鉴于此，本申请提供一种作品对象的处理方法、装置、可读存储介质及电子设备，能够自动为作品对象分配聚类标签，保证为作品对象分配标签的准确性。

本申请提供一种作品对象的处理方法，所述方法包括：

获取作品对象，提取其对应的多个数据集；

分别对每个数据集进行特征提取，获得每个数据集对应的模态特征；

对每个所述模态特征进行特征融合，以生成融合特征；

将所述融合特征输入至训练后的多层次作品对象处理器，得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签。

可选地，所述多个数据集包括图像数据集、文本数据集、音频数据集和评论数据集；对所述音频数据集进行特征提取，包括：对所述音频数据集的梅尔频率倒谱系数、节奏和音高中的至少一种进行特征提取，得到音频特征。

可选地，对所述评论数据集进行特征提取，包括：对所述评论数据集中的情感特征、互动特征、内容特征进行特征提取，得到评论特征。

可选地，所述得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签之后，所述方法还包括：

将与所述作品对象对应的多层次作品对象标签发送至客户端，以使得客户端采用标签列表形式对所述多层次作品对象标签进行显示；

接收用户对所述多层次作品对象标签的添加指令、删除指令或修改指令，以对所述多层次作品对象处理器进行优化。

可选地，所述多层次作品对象处理器的训练方法，包括：

获取所述作品对象的训练数据集；

对所述训练数据集进行特征数据提取，得到训练数据特征集；

对所述训练数据特征集进行归一化处理；

采用k-means聚类算法对进行归一化处理后的训练数据特征集的特征数据进行一次聚类，对一次聚类后各个分类中的特征数据进行二次聚类，直至多次聚类后形成与所述训练数据集对应的标签聚类结果，以用于生成所述多作品对象处理器。

对所述多层次作品对象标签的各个层次标签分配对应层次的虚拟地址；

建立所述虚拟地址与对应的所述作品对象所在物理地址之间的映射关系，以对所述多层次对象标签进行管理。

获取群标签数据结构，所述群标签数据结构包括所述作品对象以及与其对应的所述多层次对象作品标签；

创建共享内存区域，将所述群标签数据结构存储于所述共享内存区域之中；

当接收到与所述群标签数据结构对应的修订指令时，获取修订信息；

在所述共享内存区域进行与所述修订信息对应的修订操作，以完成对所述群标签数据结构的修订。

可选地，所述创建共享内存区域，将所述群标签数据结构存储于所述共享内存区域之中，方法还包括：

所述共享内存区域采用锁机制，以确保每次仅允许单个进程写入至所述共享内存区域。

对应地，本申请提供一种作品对象的处理装置，包括：

获取模块，用于获取作品对象，提取其对应的多个数据集；

特征提取模块，用于分别对每个数据集进行特征提取，获得每个数据集对应的模态特征；

特征融合模块，用于对每个所述模态特征进行特征融合，以生成融合特征；

特征处理模块，用于将所述融合特征输入至训练后的多层次作品对象处理器，得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签。

此外，本申请还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如上任一项所述作品对象的处理方法的步骤。

在此基础上，本申请还提供一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如上任一项所述作品对象的处理方法的步骤。

本申请提供一种作品对象的处理方法、装置、可读存储介质及电子设备，首先，获取作品对象，提取其对应的多个数据集，接着，分别对每个数据集进行特征提取，获得每个数据集对应的模态特征，然后对每个模态特征进行特征融合，以生成融合特征，最后，将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签。本申请通过获取多个模态特征作为作品对象分配标签的参考因素，相较于现有方案只用单一模态作为参考因素，本申请方案参考范围更广，分配标签更为准确，从而有利于提高标签分配准确率。同时，基于多层次作品对象处理器生成不同层次的作品对象标签，以为作品分配较为适应的标签。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的作品对象的处理方法的流程示意图；

图2为本申请实施例提供的作品对象的处理装置的结构示意图

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而非全部实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，下述各个实施例及其技术特征可以相互组合。

请参见图1，图1为本申请实施例提供的作品对象的处理方法的流程示意图。

本申请提供一种作品对象的处理方法，包括：

S1、获取作品对象，提取其对应的多个数据集。

以上作品对象指的是“摄影作品”或者“影像作品”。

可选地，在一些实施例中，所述多个数据集包括但不限于图像数据集(如作品的视频图像帧、作品封面图像等)、文本数据集(如作品的简介、字幕等)、音频数据集(如作品的配音)以及评论数据集(包含评论以及对应的转发数、点赞数、收藏数、回复数等)。

S2、分别对每个数据集进行特征提取，获得每个数据集对应的模态特征。

可选地，对图像数据集进行特征提取的步骤包括：

获取作品对象的图像，并从所述图像中提取出图像特征。

可以理解的是，图像特征指的是如作品对象的颜色特征、性状特征、纹理特征和空间关系特征等。

在本实施例中，获取图像特征时，需要先对作品对象的图像数据集进行预处理，图像数据集预处理的实施步骤包括：

采集存在噪音的图像作为原始图像数据集，原始图像数据集来源可以是公共图像库或自行生成。

采用编码器-解码器结构作为生成器网络，对抗生成网络作为判别器网络。

使用原始图像数据集训练生成器网络，能够生成逼真的图像；同时，采用生成器网络生成的图像和原始图像数据集训练判别器网络，使其能够区分出真实的图像和生成的图像，完成生成式对抗式网络模型训练。

若是作品对象的图像的质量不高，采用生成式对抗网络对图像进行预处理，以对作品对象的图像进行增强，将其转化为清晰、逼真的图像。

在本实施例中，在对图像数据集进行预处理后，采用卷积神经网络级联进行特征提取，根据卷积神经网络中卷积、池化、全连接的不同分层原理构建并训练卷积神经网络模型作为特征提取模型。在构建卷积神经网络时，需要选择适当的激活函数(如ReLU)、损失函数(如交叉熵损失)和优化器(如Adam)。

卷积神经网络是一个层次性结构，它在循环神经网络基础上加入卷积深度学习，通常由输入层-卷积层-池化层-全连接层-输出层这一系列流程加上前反馈和后反馈算法构成。

具体地，卷积神经网络由7层组成，其2、4层为卷积层，3、5层为池化层。其中卷积神经网络构建的实施步骤包括：

输入层：规定输入的图像形状为28×28×1，通道数量仅为1个。

第一卷积层：采用32个3×3的滤波器，为第一卷积层的权值矩阵。并引入ReLu激活函数为：

y_i＝max{x_i,0}

式中x_i为与前一层输出相连的第i个权值矩阵与当前层输入的内积，即卷积结果，y_i为第i个特征图的输出，20≤i≤500。

第一卷积层将大小为28×28×1的特征图转换为大小26×26×32的特征图。

第一池化层：选用2×2的最大池化方法进行池化，即将2×2的窗口在特征图上滑动，取每个窗口的最大值作为池化后的输出，将大小为26×26×32的特征图降成大小为13×13×32的特征图，减小输入特征图的尺寸，同时保留重要信息，有助于减小过拟合。

第二卷积层：选用64个3×3的滤波器，并在其后设置ReLu激活函数，将大小为13×13×32的特征图转换为大小11×11×64的特征图。

第二池化层：选用2×2的最大池化方法进行池化，将大小为11×11×64的特征图降成大小为5×5×64的特征图。

全连接层：可以包含多个全连接层，实际上就是多层感知机的隐含层部分。通常情况下后面层的神经节点都和前一层的每一个神经节点连接，同一层的神经元节点之间是没有连接的。每一层的神经元节点分别通过连接线上的权值进行前向传播，加权组合得到下一层神经元节点的输入。在本实施例中，全连接层为1个，将大小为5×5×64的特征图进行展开，展平特征图得到5×5×64＝1600个节点，选用一个512个节点的全连接层，并使用ReLU激活函数。

输出层：输出层神经节点的数目是根据具体应用任务来设定的。如果是分类任务，卷积神经网络输出层通常是一个分类器，通常是Softmax分类器。

在本实施例中，输出层10个节点，使用softmax激活函数，将输出转化为概率分布。其中，输出层与作品对象的标签数量相匹配。

可以理解的是，卷积神经网络级联指的是构建卷积神经网络模型时，将多个独立的网络结构按照一定的顺序串联在一起，形成一个更复杂的网络模型，进而通过多个子网络的串联，逐步提取特征，从而提高整体模型的性能。

在构建卷积神经网络之后，卷积神经网络训练的实施步骤包括：

损失函数：对于分类任务，交叉熵损失函数是一种常用的选择。它的工作原理是将每个预测的类别概率与其对应的真实标签进行比较，然后计算这两者之间的差异。这个差异通常会被最大化，以优化模型的分类性能。

优化算法：Adam优化器是一种流行的选择，它是一种自适应学习率的优化算法。Adam通过计算梯度的一阶矩估计和二阶矩估计来调整学习率。这种优化器在大多数情况下都能工作得很好，而且对初始学习率的选择不敏感。

前向传播：在这个阶段，输入作品对象的图像数据集通过卷积神经网络的各个层进行传递。每个层都会根据其权重和激活函数对输入进行处理，然后将结果传递给下一层。最终，输出层会生成一个概率分布，表示图像属于每个类别的可能性。

计算损失：卷积神经网络预测的概率分布与实际的标签进行比较。前述比较的结果就是损失，反映了模型的错误程度。

反向传播：损失函数计算每个权重的梯度，前述梯度会传递到优化器，然后优化器会根据这些梯度更新每个权重。该过程一直重复，直到损失函数达到一个可接受的值。

迭代：这个步骤包括多次前向传播和反向传播，直到模型收敛或达到预设的迭代数。每个迭代结束时，模型的性能会得到提升。

验证：在每个迭代结束后，使用验证集检查模型的性能，确保模型没有过拟合。若是卷积神经网络在验证集上的表现开始下滑，那么可能需要停止训练，或者采取一些防止过拟合的措施，如正则化、减小学习率等。

在完成卷积神经网络构建及训练后，采用训练后的卷积神经网络对图像数据集进行特征提取，特征提取的实施步骤包括：

将作品对象的图像数据集或增强后的图像数据集输入至训练后的卷积神经网络进行前向传播，以获得图像特征。

可选地，对文本数据集进行特征提取的步骤包括：

采用分词方式对文本数据集进行预处理，得到文本分词。

将所述文本分词输入至训练后的词嵌入模型，获得对应的文本特征。

可以理解的是，文本特征是指从图像中提取的文本信息，例如文本的形状、颜色、位置等。

在一些实施例中，采用Word2Vec提取文本数据集的文本特征的实施步骤包括：

对文本进行预处理，包括分词、去除停用词、过滤低频词、编码归一化等，以对词干进行提取或词形还原，得到分词后的文本数据集。

采用Gensim库的Word2Vec训练词嵌入模型，或者加载预训练的Word2Vec模型作为词嵌入模型。

采用训练后的词嵌入模型将分词后的文本数据集中的每个单词转换为向量形式，得到向量表示。其中，若是处理的文本数据集包括一个句子或文档，能够通过平均前述句子或文档中所有词的向量，得到向量表示。

可以理解的是，Gensim是一款强大的自然语言处理工具，它里面包括很多常见模型，例如基本的语料处理工具、LSI、LDA、HDP、DTM、DIM、TF-IDF以及word2vec、paragraph2vec等；Gensim库可用于无监督语义建模，它支持各种类型的文本语料库，例如：纯文本、带标签的数据、命名实体识别(NER)结果等。

在另一些实施例中，采用BERT提取文本数据集的文本特征的实施步骤包括：

采用BERT分词器对文本数据集进行分词处理，添加特殊的标记，例如`[CLS]`和`[SEP]`，得到分词后的文本数据集，以适应BERT模型的输入。

加载训练完成的BERT模型，例如使用Hugging Face的transformers库。

将分词后的文本数据集输入至BERT模型，得到每个单词或子词序列的隐藏状态向量。

每个单词或子词序列的隐藏状态向量可作为文本数据集的文本特征。其中，若是处理的文本数据集包括整个句子或文档，能够通过平均前述句子或文档中所有词的隐藏状态向量，或者采用`[CLS]`标记的隐藏状态向量，得到向量表示。

可选地，对音频数据集进行特征提取的步骤包括：

对所述音频数据集的梅尔频率倒谱系数、节奏和音高中的至少一种进行特征提取，得到音频特征。

在一些实施例中，获取音频数据集的梅尔频率倒谱系数的特征提取的实施步骤包括：

对音频数据集进行预加重，以平衡频谱及强调音频数据集中的高频部分。

将预加重后的音频数据集进行分帧处理，一般分割成每帧20-40ms，得到分帧后的音频。

对分帧后的音频应用窗函数，以减少帧的边界效应。其中，窗函数可以是汉明窗或汉宁窗。

在分帧后的音频应用窗函数基础上，对每帧应用快速傅里叶变换(FFT)以获取其频谱。

在快速傅里叶变换(FFT)的频谱结果上应用Mel滤波器组以获取Mel频率上的能量。

取滤波器组能量的对数，应用离散余弦变换(DCT)以获取梅尔频率倒谱系数。

在另一些实施例中，获取音频数据集的节奏的特征提取的实施步骤包括：

计算音频数据集的每一帧的短时能量和零交叉率，并在短时能量曲线上获取对应的峰值，上述峰值对应于音频数据集中的节奏。

在另一些实施例中，获取音频数据集的音高的特征提取的实施步骤包括：

对音频数据集的每帧采用自相关法以获取估计基频。

分析谐波与噪声之间的比率以进一步确定音频数据集的音高，得到音高曲线。

对音高区县进行平滑处理，以减少误差和噪声。

可选地，对评论数据集进行特征提取的步骤包括：对评论数据集中的情感特征、互动特征、内容特征进行特征提取，得到评论特征。基于情感特征和互动特征，可以获得作品对象的推荐程度。

其中，情感特征提取可以采用如下方式：使用情感分析技术，对评论数据集中的评论(可呈现为评论、弹幕、留言等形式)进行情感分析，提取评论中的情感倾向，如正面情感、负面情感或中性情感。情感分析技术可以使用经典的情感分析算法，如基于词典的情感分析或基于机器学习的情感分类模型。

互动特征提取可以采用如下方式：提取评论的点赞数、转发数、收藏数、回复数等互动指标。在提取过程中，可以计算点赞数、转发数、收藏数、回复数等的统计量，如总数、平均值等，或者使用相对比例进行归一化，以此来作为提取到的指标或数据。

内容特征提取可以采用如下方式：针对文本评论，可以使用自然语言处理技术，如文本分词和词频统计，从评论内容中提取关键词，具体可以使用先进的分词工具和文本处理库，如jieba、NLTK等，然后根据关键词的出现频次或者TF-IDF等方法筛选关键词。针对涉及图像或视频的评论，可以使用计算机视觉技术进行图像或视频内容的分析，例如，使用图像分类或对象检测算法，从评论中的图片中提取与作品内容相关的特征。在内容特征提取过程中，还可以通过主题建模技术，如Latent Dirichlet Allocation(LDA)或者非负矩阵分解(NMF)，对评论内容(包含文本评论和包含涉及图像或视频的评论的内容)进行主题提取，这能够更好地把握作品的主要内容，发现隐藏在评论中的主题或话题。

可选地，对评论数据集进行特征提取的步骤还包括：评论数据集中的用户属性特征和时间特征进行提取。例如，从用户的评论中提取用户的属性特征，如性别、年龄、地理位置等，可以使用文本挖掘和机器学习技术对用户评论进行分析和建模，提取用户属性信息。对评论或者互动数据进行时间分析，提取时间特征，如评论的发布时间、高峰访问时段等，这些特征可以揭示作品受欢迎程度的时序关系。

S3、对每个模态特征进行特征融合，以生成融合特征。

在一些实施例中，特征融合的目的是将从作品对象中提取到的不同模态特征进行融合，得到比模态特征更具鉴别能力的特征。对每个模态特征可以采用早期融合(EarlyFusion)、中期融合(Mid-level Fusion)或晚期融合(Late Fusion)的任一种方式进行特征融合。

可以理解的是，从处理时间的角度来看，特征融合可以分为早期融合、中期融合和晚期融合。早期融合为在输入层上做融合，先融合多层特征，然后在融合后的特征上训练预测器；中期融合为先将不同数据源上的特征转成中间的高维特征表达，然后再做融合并最终训练预测器；晚期融合为在预测层上做融合，在不同的特征上做预测，然后再融合这些预测的结果。

在另一些实施例中，对每个模态特征进行特征融合方式可以选用早期融合(EarlyFusion)、中期融合(Mid-level Fusion)或晚期融合(Late Fusion)中至少两种进行混合。例如，有效的早期融合和中期融合策略，以获得不同融合策略的优点。

在另一些实施例中，对每个模态特征进行特征融合方式还可以采用深度学习融合机制，深度学习融合机制的步骤包括：

采用神经网络将不同模态的特征作为输入。深度学习融合方法的核心是使用神经网络将不同模态的特征作为输入，通过不同的神经网络模型实现。例如，可以将文本和图像作为不同的模态，将它们分别输入到预训练的文本和图像模型中。

在神经网络的隐藏层中进行特征融合，以得到共同的特性向量表示。具体的融合方法有很多种，可以根据不同的任务和数据特点选择适合的方法。例如，可以使用全连接层、卷积层、池化层等隐藏层结构进行特征的融合。

采用共同的特征向量表示进行预测。具体的预测方法也有很多种，可以根据不同的任务和数据特点选择适合的方法。例如，可以使用全连接层、卷积层、池化层等结构进行预测。

在另一些实施例中，对每个模态特征进行特征融合方式还可以采用特征拼接、特征求和、特征之间对应元素相乘。

S4、将所述融合特征输入至训练后的多层次作品对象处理器，得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签。

可选地，多层次作品对象处理器采用k-means聚类算法对作品对象的标签处理的实施步骤包括：

S41、获取作品对象的训练数据集，对训练数据集进行特征数据提取，得到训练数据特征集。

S42、对训练数据特征集进行归一化处理，确保每个特征处于相同的尺度上。

S43、在归一化处理后的训练数据特征集中随机选取K个特征数据作为K类簇的数据中心，分别计算剩余特征数据到K个数据中心的距离，以分配至距离最近的簇；

S44、根据聚类结果，计算K个簇中所有特征数据的算术平均数，作为每个簇新的数据中心，将所有特征数据按照新的数据中心重新聚类；

S45、重复步骤S44，直到聚类结果不变化或达到预定的迭代次数，形成所述作品对象处理器。

S46、每个数据中心可以作为是作品对象的一个子类。可以手动为每个数据中心分配一个描述性标签，或者从每个集群中选择至少一个代表性的融合特征作为数据中心的标签。

S47、基于步骤S3的融合特征，对融合特征进行归一化处理，并计算其到所有数据中心的距离，将其分配至距离最近的数据中心，则该作品对象的标签与分配的数据中心标签相一致。

可选地，多层次作品对象处理器的训练方法还包括：

获取作品对象的训练数据集；

对训练数据集进行特征数据提取，得到训练数据特征集；

对训练数据特征集进行归一化处理，确保每个特征处于相同的尺度上；

采用k-means聚类算法对进行归一化处理后的训练数据特征集的特征数据进行一次聚类，对一次聚类后各个分类中的特征数据进行二次聚类，直至多次聚类后形成与训练数据集对应的标签聚类结果，以用于生成多作品对象处理器。

可以理解的是，k-means是一种无监督的机器学习算法，用于将数据点分组到k个集群中，算法的目标是最小化每个数据点到其分配的集群中心的距离之和，它通过迭代地调整集群中心和重新分配数据点到最近的集群来实现。

可选地，将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签的实施步骤包括：

在一些实施例中，将融合特征输入至训练后的多层次作品对象处理器，多层次作品对象处理器为每个标签预测对应的概率；若是需要选择标签数量不固定时，通过预设概率阈值，大于预设概率阈值的标签作为多层次作品对象处理器的输出标签。当需要选择标签数量固定时，根据置信度选择最高概率的标签输出。

可选地，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签之后，方法还包括：

将与作品对象对应的多层次作品对象标签发送至客户端，以使得客户端采用标签列表形式对多层次作品对象标签进行显示；

接收用户对多层次作品对象标签的添加指令、删除指令或修改指令，以实现多层次作品对象处理器进行持续学习和优化。

对多层次作品对象标签的各个层次标签分配对应层次的虚拟地址。

在一些实施例中，当在摄影论坛之中，其作品对象指的是摄影作品，摄影作品的类型可分为风景、人像和街头摄影等。若摄影作品指的是摩天大楼图像时，属于街头摄影类型，其多层次作品对象标签为大标签-城市、中标签-建筑和小标签-摩天大楼。

具体地，为上述摩天大楼图像分配虚拟地址的步骤包括：

对大标签-城市分配对应的主虚拟地址，例如，大标签-城市的主虚拟地址可以为0x1000；在大标签-城市的主虚拟地址基础上，为中标签-建筑分配对应层次的虚拟地址0x1100；在中标签-建筑的虚拟地址下，为小标签-摩天大楼分配对应层次的虚拟地址0x1110。

建立虚拟地址与对应的作品对象所在物理地址之间的映射关系，以对多层次对象标签进行管理。

在一些实施例中，将作品对象存储在物理内存或磁盘上，并记录其的物理地址；并采用页表或其他内存管理机制建立虚拟地址与对应的作品对象所在物理地址之间的映射关系。由于每个进程都有其自己的虚拟地址，一个进程无法直接访问另一个进程的物理地址，提供了一定的隔离和保护；同时，通过虚拟地址共享技术，可以统一管理和访问不同的作品对象，无需关心作品对象在实际物理地址。

在另一些实施例中，建立最底层次的虚拟地址与对应的作品对象所在物理地址之间的映射关系。其中，最底层次的虚拟地址分配给小标签-摩天大楼。

具体地，采用多级页表结构建立虚拟地址与对应的作品对象所在物理地址之间的映射关系的步骤包括：

建立大标签页表作为最高层次的页表，其中页表中每个条目均指向一个中标签页表。例如，城市摄影的大标签页表项指向一个中标签页表，其中包含建筑、人群和交通等条目。

其中，中标签页表中每个条目均指向一个小标签页表。例如，建筑的中标签页表项指向一个小标签页表，其中包含摩天大楼、公寓等。

小标签页表作为最底层的页表。其中每个条目均指向作品对象实际所在的物理地址。例如，摩天大楼的小标签页表项指向存储有关摩天大楼的作品对象所在的物理位置。

可选地，采用虚拟指针以便于对多级页表结构进行访问和管理，

当需要查找某一作品对象时，首先使用大标签页表的虚拟指针寻找中标签页表，然后使用中标签页表的虚拟指针找出小标签页表，再通过小标签页表的虚拟指针映射到该作品对象所在的物理地址上。

进一步地，当添加新的作品对象时，需要在对应的小标签页表中添加一个新条目，并更新对应的中标签页表和大标签页表。可以根据需要动态地调整虚拟到物理的映射，以满足存储和性能的需求。

进一步地，可以采用缓存方式存储最近访问的页表条目，以提高内存管理和虚拟内存系统的效率；另外，还可以定期整理和压缩多级页表结构，以减少空间占用和提高查找速度。

获取群标签数据结构，群标签数据结构包括作品对象以及与其对应的多层次对象作品标签。

采用进程间通信IPC创建共享内存区域，将群标签数据结构存储于所述共享内存区域之中。

当接收到与群标签数据结构对应的修订指令时，获取修订信息。其中修订指令包括添加、更新和删除。

在共享内存区域进行与修订信息对应的修订操作，以完成对群标签数据结构的修订。

可以理解的是，进程间通信(Inter-Process Communication，IPC)是允许进程之间共享数据和信息的一组技术和方法，因为每个进程都运行在其独立的内存地址空间，所以它们之间不能直接共享变量或内存位置；进程间通信提供了一种机制，使进程能够安全有效地共享数据、协调任务或进行同步。

可选地，创建共享内存区域，将群标签数据结构存储于共享内存区域之中，方法还包括：

共享内存区域采用锁机制，以确保每次仅允许单个进程写入至共享内存区域，以防止数据冲突或损坏。其中，锁机制包括信号量或互斥锁。

进一步地，当在共享内存区域进行与修订信息对应的修订操作过程中出现错误时，采用进程间通信(Inter-Process Communication，IPC)机制进行错误报告，并采用与错误对应的回复措施。通过利用虚拟地址共享技术对作品对象进行存储和管理，提高了作品对象的存储和检索效率。

本实施例可以更低成本、更准确地对作品对象分配标签，并对标签进行存储与管理。结合k-means聚类算法为作品对象生成不同层次的标签，使得标签既具有通用性又具有详细性，相比于现有技术，该方法可以更准确地描述作品对象的内容。

如图2所示，本申请提供一种作品对象的处理方法、装置、可读存储介质及电子设备，首先，获取作品对象，提取其对应的多个数据集，接着，分别对每个数据集进行特征提取，获得每个数据集对应的模态特征，然后对每个模态特征进行特征融合，以生成融合特征，最后，将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签。本申请通过获取多个模态特征作为作品对象分配标签的参考因素，相较于现有方案只用单一模态作为参考因素，本申请方案参考范围更广，分配标签更为准确，从而有利于提高标签分配准确率。同时，基于多层次作品对象处理器生成不同层次的作品对象标签，以为作品分配较为适应的标签。

本申请还提供一种作品对象的处理装置，包括：

获取模块101，用于获取作品对象，提取其对应的多个数据集；

特征提取模块102，用于分别对每个数据集进行特征提取，获得每个数据集对应的模态特征；

特征融合模块103，用于对每个模态特征进行特征融合，以生成融合特征；

特征处理模块104，用于将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签。

此外，本申请实施例还提供一种电子设备，如图3所示，其示出了本申请实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器301、一个或一个以上计算机可读存储介质的存储器302、电源303和输入单元304等部件。本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器301是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器301可包括一个或多个处理核心；优选的，处理器301可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器301中。

存储器302可用于存储软件程序以及模块，处理器301通过运行存储在存储器302的软件程序以及模块，从而执行各种功能应用以及图像信息通信方法。存储器302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器302还可以包括存储器控制器，以提供处理器301对存储器302的访问。

电子设备还包括给各个部件供电的电源303，优选的，电源303可以通过电源管理系统与处理器301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源303还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元304，该输入单元304可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器301会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能，如下：

获取作品对象，提取其对应的多个数据集；分别对每个数据集进行特征提取，获得每个数据集对应的模态特征；对每个模态特征进行特征融合，以生成融合特征；将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本申请提供一种电子设备，首先，获取作品对象，提取其对应的多个数据集，接着，分别对每个数据集进行特征提取，获得每个数据集对应的模态特征，然后对每个模态特征进行特征融合，以生成融合特征，最后，将融合特征输入至训练后的多层次作品对象处理器，得到多层次作品对象处理器输出的与作品对象对应的多层次作品对象标签。本申请通过获取多个模态特征作为作品对象分配标签的参考因素，相较于现有方案只用单一模态作为参考因素，本申请方案参考范围更广，分配标签更为准确，从而有利于提高标签分配准确率。同时，基于多层次作品对象处理器生成不同层次的作品对象标签，以为作品分配较为适应的标签。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请实施例所提供的任一种作品对象的处理方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本申请实施例所提供的任一种作品对象的处理方法中的步骤，因此，可以实现本申请实施例所提供的任一种作品对象的处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

尽管已经相对于一个或多个实现方式示出并描述了本申请，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本申请包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。

即，以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，例如各实施例之间技术特征的相互结合，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

另外，对于特性相同或相似的结构元件，本申请可采用相同或者不相同的标号进行标识。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本申请中，为了使本领域任何技术人员能够实现和使用本申请，本申请给出了以上描述。在以上描述中，为了解释的目的而列出了各个细节。应当明白的是，本领域普通技术人员可以认识到，在不使用这些特定细节的情况下也可以实现本申请。在其它实施例中，不会对公知的结构和过程进行详细阐述，以避免不必要的细节使本申请的描述变得晦涩。因此，本申请并非旨在限于所示的实施例，而是与符合本申请所公开的原理和特征的最广范围相一致。

Claims

1.一种作品对象的处理方法，其特征在于，所述方法包括：

获取作品对象，提取其对应的多个数据集；

对每个所述模态特征进行特征融合，以生成融合特征；

将所述融合特征输入至训练后的多层次作品对象处理器，得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签；

所述多个数据集包括图像数据集、文本数据集、音频数据集和评论数据集；

对所述图像数据集进行特征提取，包括：获取作品对象的图像，并从所述图像中提取出图像特征；

对所述文本数据集进行特征提取，包括：采用分词方式对文本数据集进行预处理，得到文本分词，将所述文本分词输入至训练后的词嵌入模型，获得对应的文本特征；

对所述音频数据集进行特征提取，包括：对所述音频数据集的梅尔频率倒谱系数、节奏和音高中的至少一种进行特征提取，得到音频特征；

对所述评论数据集进行特征提取，包括：对所述评论数据集中的情感特征、互动特征、内容特征进行特征提取，得到评论特征；

所述图像特征、所述文本特征、所述音频特征和评论特征分别为所述图像数据集、所述文本数据集、所述音频数据集和所述评论数据集对应的模态特征；

所述对每个所述模态特征进行特征融合，以生成融合特征，包括：对每个所述模态特征采取早期融合、中期融合、晚期融合中的一种或至少两种进行特征融合，或者，对每个所述模态特征采用深度学习融合机制进行特征融合，或者，对每个所述模态特征采用特征拼接、特征求和或特征之间对应元素相乘的方式进行特征融合；

所述得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签之后，所述方法还包括：

获取群标签数据结构，所述群标签数据结构包括所述作品对象以及与其对应的所述多层次作品对象标签；

2.根据权利要求1所述的作品对象的处理方法，其特征在于，所述多层次作品对象处理器的训练方法，包括：

获取所述作品对象的训练数据集；

对所述训练数据特征集进行归一化处理；

采用k-means聚类算法对进行归一化处理后的训练数据特征集的特征数据进行一次聚类，对一次聚类后各个分类中的特征数据进行二次聚类，直至多次聚类后形成与所述训练数据集对应的标签聚类结果，以用于生成所述多层次作品对象处理器。

3.根据权利要求1所述的作品对象的处理方法，其特征在于，所述得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签之后，所述方法还包括：

建立所述虚拟地址与对应的所述作品对象所在物理地址之间的映射关系，以对所述多层次作品对象标签进行管理。

4.根据权利要求1所述的作品对象的处理方法，其特征在于，所述创建共享内存区域，将所述群标签数据结构存储于所述共享内存区域之中，方法还包括：

5.一种作品对象的处理装置，其特征在于，包括：

获取模块，用于获取作品对象，提取其对应的多个数据集；

特征处理模块，用于将所述融合特征输入至训练后的多层次作品对象处理器，得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签；

所述处理装置还用于在所述得到所述多层次作品对象处理器输出的与所述作品对象对应的多层次作品对象标签之后，

6.一种电子设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1-4任一项所述作品对象的处理方法的步骤。

7.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-4任一项所述作品对象的处理方法的步骤。