CN112052356B

CN112052356B - 多媒体分类方法、装置和计算机可读存储介质

Info

Publication number: CN112052356B
Application number: CN202010815946.9A
Authority: CN
Inventors: 王子愉; 姜文浩; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2023-11-24
Anticipated expiration: 2040-08-14
Also published as: CN112052356A

Abstract

本发明实施例公开了一种多媒体分类方法、装置和计算机可读存储介质；本发明实施例可以获取多媒体样本、以及该多媒体样本对应的初始标签集，根据该初始标签集中每个标签出现的频率选取该初始标签集中的频繁标签，得到频繁标签集，计算该频繁标签集中各个标签之间的语义相似度，根据计算结果从该频繁标签集确定该多媒体样本对应的目标标签集，再计算该目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对该目标标签集进行过滤，得到多媒体分类数据集，基于该多媒体分类数据集对待分类多媒体进行分类，得到该待分类多媒体的分类标签。该方案可以有效地提高多媒体分类的效率。

Description

多媒体分类方法、装置和计算机可读存储介质

技术领域

本发明涉及通信技术领域，具体涉及一种多媒体分类方法、装置和计算机可读存储介质。

背景技术

随着互联网的快速发展，互联网上的多媒体数据包括视频、音频、文字等，由于数量不断增长而成为持续热门研究的问题之一。大量的多媒体信息造成数据堆积而无法及时处理。于是，快速、有效地浏览大量多媒体数据并将这些数据分类，对于提升用户体验，发现潜在的可利用的商业价值至关重要。

常见的视频数据中，用户常常会对视频信息进行描述、评论以及提供个性化的标签数据等等，因而形成了与在线视频相关的丰富文本信息。这些文本信息需要经过处理后得到视频分类数据集才能用于视频分类，而现有的视频分类数据集的方法都是从一堆分类标签中人工筛选出合适的标签，这样的做法耗费了大量的人力物力，且容易对标签的预测难易程度出现误判。

发明内容

本发明实施例提供一种多媒体分类方法、装置和计算机可读存储介质，可以有效地提高多媒体分类的效率。

本发明实施例提供一种多媒体分类方法，包括：

获取多媒体样本、以及所述多媒体样本对应的初始标签集；

根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集；

计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集；

计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集；

基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

相应的，本发明实施例还提供一种多媒体分类装置，包括：

获取单元，用于获取多媒体样本、以及所述多媒体样本对应的初始标签集；

选取单元，用于根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集；

第一计算单元，用于计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集；

第二计算单元，用于计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集；

分类单元，用于基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

可选的，在一些实施例中，所述第一计算单元可以包括确定子单元、第一计算子单元和合并子单元，如下：

所述确定子单元，用于从所述频繁标签集中确定具有视觉显著性的候选标签集；

所述第一计算子单元，用于计算所述候选标签集中各个标签之间的语义相似度；

所述合并子单元，用于根据计算结果将所述候选标签集中满足预设相似度阈值的标签进行合并，得到所述多媒体样本对应的目标标签集。

可选的，在一些实施例中，所述计算子单元，具体可以用于获取预设词集合；将所述频繁标签不存在所述预设词集合中的标签去除，得到去除后标签集；基于所述预设词集合计算所述去除后标签集中各个标签之间的语义相似度。

可选的，在一些实施例中，所述第二计算单元可以包括训练子单元、第二计算子单元和过滤子单元，如下：

所述训练子单元，用于将所述多媒体样本、以及多媒体样本对应的目标标签集划分为训练集和验证集；利用所述训练集对预设标签预测模型进行训练，得到训练后标签预测模型；

所述第二计算子单元，用于利用验证集对所述训练后标签预测模型进行验证，根据验证结果计算所述训练数据集中每个目标标签的预测准确率和预测召回率；

所述过滤子单元，用于基于所述预测准确率和预测召回率对所述目标标签集进行过滤，得到多媒体分类数据集。

可选的，在一些实施例中，所述过滤子单元，具体可以用于根据所述预测准确率和预测召回率计算每个目标标签的平衡分数；基于所述平衡分数对所述目标标签集进行过滤，得到分类标签集；当所述分类标签集满足预设条件时，利用所述多媒体样本和所述分类标签集构成多媒体分类数据集。

可选的，在一些实施例中，所述过滤子单元，具体还可以用于当所述分类标签集不满足预设条件时，返回执行计算所述频繁标签集中各个标签之间的语义相似度的步骤，直到所述分类标签满足预设条件，得到多媒体分类数据集。

可选的，在一些实施例中，所述选取单元可以包括统计子单元和选取子单元，如下：

所述统计子单元，用于统计所述初始标签集中每个标签出现的频率；

所述选取子单元，用于根据统计结果从所述初始标签集筛选出现频率满足预设频率阈值的标签，得到所述多媒体样本对应的频繁标签集。

可选的，在一些实施例中，所述获取单元可以包括获取子单元和分词子单元，如下：

所述获取子单元，用于获取多媒体样本的描述信息、以及至少一种类型的初始标签；

所述分词子单元，用于对所述多媒体样本的描述信息进行分词，得到信息标签；将所述信息标签和至少一种类型的初始标签进行合并，得到初始标签集。

此外，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例提供的任一种多媒体分类方法中的步骤。

此外，本申请实施例还提供一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如本申请实施例提供的任一种多媒体分类方法中的步骤。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述多媒体分类方面的各种可选实现方式中提供的方法。

本发明实施例可以获取多媒体样本、以及所述多媒体样本对应的初始标签集，然后，根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，接着，计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集，再计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，再然后，基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。该方案可以有效地提高多媒体分类的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的多媒体分类方法的场景示意图；

图1b是本发明实施例提供的多媒体分类方法的流程图；

图2a是本发明实施例提供的多媒体分类方法的另一流程图；

图2b是本发明实施例提供的多媒体分类方法的又一流程图；

图3是本发明实施例提供的多媒体分类装置的结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种多媒体分类方法、装置和计算机可读存储介质。其中，该多媒体分类可以集成在电子设备中。

本申请实施例提供的多媒体分类方法涉及人工智能领域中的计算机视觉方向，可以通过人工智能的计算机视觉技术实现多媒体分类，进而得到多媒体分类的分类结果。

其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。其中，人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指通过计算机代替人眼对目标进行识别、测量等的机器视觉，并进一步进行图像处理，使图像经过计算机处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别等技术，还包括常见的人脸识别、人体姿态识别等生物特征识别技术。

例如，参见图1a，首先，该集成了多媒体分类装置的终端可以获取多媒体样本、以及所述多媒体样本对应的初始标签集，然后，根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，接着，计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集，再计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，再然后，基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

由于该方案能够自动构造多媒体分类数据集的标签并且筛选出视觉区分性高、易于分类的标签，提高了构造多媒体分类数据集的标签的效率，节省了人力物力，并且筛选结果更加可靠，然后基于构造好的多媒体分类数据集对待分类多媒体进行分类，大大地提高了多媒体分类的效率。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优选顺序的限定。

本实施例将从多媒体分类装置的角度进行描述，该多媒体分类装置具体可以集成在终端中；其中，该终端可以包括手机、平板电脑、笔记本电脑以及个人计算机（PersonalComputer，PC）等可以实现多媒体分类的设备。

一种多媒体分类方法，包括：获取多媒体样本、以及所述多媒体样本对应的初始标签集，然后，根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，接着，计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集，再计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，再然后，基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

如图1b所示，该多媒体分类方法的具体流程可以如下：

101、获取多媒体样本、以及所述多媒体样本对应的初始标签集。

例如，可以获取多个多媒体样本、以及所述多媒体样本对应的初始标签集。其中，多媒体样本可以指的是多种媒体的综合，包括文本，声音和图像等多种媒体形式，比如，视频、图像、音频、文本等等。

其中，初始标签集可以包括至少一种类型的至少一个初始标签，比如，可以包括用户标签、编辑标签等等。比如，用户标签可以指的是浏览该多媒体的用户根据自己的理解对该多媒体进行的标注标签，编辑标签是负责该多媒体的管理人员对该多媒体进行的标注标签，都是人工标注的标签。由于浏览某个多媒体文件的用户有很多来自各种不同职业不同年龄不同性别的人，因此这些用户为该多媒体标注的标签更加多样化，而负责管理该多媒体的编辑可能是某个多媒体网站的审核人员，具有一定的多媒体方面的专业知识，给出的标签可能更加专业化，同时标签的多样性较低。

例如，具体可以获取多媒体样本的描述信息、以及至少一种类型的初始标签；对所述多媒体样本的描述信息进行分词，得到信息标签；将所述信息标签和至少一种类型的初始标签进行合并，得到初始标签集。其中，多媒体样本的描述信息可以指的是对多媒体的内容进行描述的信息，比如，多媒体的标题、多媒体的摘要等等。

其中，中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。对所述多媒体样本的描述信息进行分词的方式可以有很多种，比如，可以使用基于词典的分词方法、基于统计的分词方法等等。

其中，基于词典的分词方法首先会建立一个充分大的词典，然后依据一定的策略扫描句子，若句子中的某个子串与词典中的某个词匹配，则分词成功。

常见的扫描策略有：正向最大匹配、逆向最大匹配、双向最大匹配和最少词数分词。

（1）正向最大匹配

对输入的句子从左至右，以贪心的方式切分出当前位置上长度最大的词，组不了词的字单独划开。其分词原理是：词的颗粒度越大，所能表示的含义越精确。

（2）逆向最大匹配

原理与正向最大匹配相同，但顺序不是从首字开始，而是从末字开始，而且它使用的分词词典是逆序词典，其中每个词条都按逆序方式存放。在实际处理时，先将句子进行倒排处理，生成逆序句子，然后根据逆序词典，对逆序句子用正向最大匹配。

（3）双向最大匹配

将正向最大匹配与逆向最大匹配组合起来，对句子使用这两种方式进行扫描切分，如果两种分词方法得到的匹配结果相同，则认为分词正确，否则，按最小集处理。

（4）最少词数分词

即一句话应该分成数量最少的词串，该方法首先会查找词典中最长的词，看是不是所要分词的句子的子串，如果是则切分，然后不断迭代以上步骤，每次都会在剩余的字符串中取最长的词进行分词，最后就可以得到最少的词数。

总结：基于词典的分词方法简单、速度快，效果也还可以，但对歧义和新词的处理不是很好，对词典中未登录的词没法进行处理。

其中，基于统计的分词方法是从大量已经分词的文本中，利用统计学习方法来学习词的切分规律，从而实现对未知文本的切分。随着大规模语料库的建立，基于统计的分词方法不断受到研究和发展，渐渐成为了主流。

常用的统计学习方法有：隐马尔可夫模型(Hidden Markov Model，HMM)、条件随机场（Conditional Random Field，CRF）和基于深度学习的方法。

（1）HMM和CRF

这两种方法实质上是对序列进行标注，将分词问题转化为字的分类问题，每个字有4种词位（类别）：词首（B）、词中（M）、词尾（E）和单字成词（S）。由字构词的方法并不依赖于事先编制好的词典，只需对分好词的语料进行训练即可。当模型训练好后，就可对新句子进行预测，预测时会针对每个字生成不同的词位。其中HMM属于生成式模型，CRF属于判别式模型。

（2）基于深度学习的方法

神经网络的序列标注算法在词性标注、命名实体识别等问题上取得了优秀的进展，这些端到端的方法也可以迁移到分词问题上。与所有深度学习的方法一样，该方法需要较大的训练语料才能体现优势，代表为基于双向长短期记忆人工神经网络（Long Short-Term Memory，LSTM）+条件随机场（BiLSTM-CRF）。

总结：基于统计的分词方法能很好地处理歧义和新词问题，效果比基于词典的要好，但该方法需要有大量人工标注分好词的语料作为支撑，训练开销大，就分词速度而言不如基于词典的分词方法。

在实际应用中一般是将词典与统计学习方法结合起来，既发挥词典分词切分速度快的特点，又利用了统计分词结合上下文识别生词、自动消除歧义的优点。结巴分词正是这一类的代表，结巴（jieba）分词是国内使用人数最多的中文分词工具。

102、根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集。

其中，频繁标签集可以指的是在所有初始标签集中出现频率比较高的标签词。例如，具体可以统计所述初始标签集中每个标签出现的频率；根据统计结果从所述初始标签集筛选出现频率满足预设频率阈值的标签，得到所述多媒体样本对应的频繁标签集。

其中，预设频率阈值的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在多媒体分类装置中。此外，预设频率阈值可以内置于多媒体分类装置中，或者，也可以保存在存储器中并发送给多媒体分类装置，等等。

103、计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集。

其中，确定所述多媒体样本对应的目标标签集的方式有很多种，例如，具体可以从所述频繁标签集中确定具有视觉显著性的候选标签集；计算所述候选标签集中各个标签之间的语义相似度；根据计算结果将所述候选标签集中满足预设相似度阈值的标签进行合并，得到所述多媒体样本对应的目标标签集。

其中，视觉显著性标签可以指的是具有明显视觉区分特征的标签。从所述频繁标签集中确定具有视觉显著性的候选标签集的方式有很多种，比如，可以通过人工删除无视觉区分性的标签，剩下的词构成候选标签集的方式，也可以是利用任何可以筛选视觉区分性标签的人工智能模型，等等。

其中，计算所述候选标签集中各个标签之间的语义相似度的方式可以有很多种，比如，具体可以获取预设词集合；将所述频繁标签不存在所述预设词集合中的标签去除，得到去除后标签集；基于所述预设词集合计算所述去除后标签集中各个标签之间的语义相似度。

其中，预设词集合可以指的是预先构造好的中文词典库，等等。预设词集合的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在多媒体分类装置中。此外，预设词集合可以内置于多媒体分类装置中，或者，也可以保存在存储器中并发送给多媒体分类装置，等等。

104、计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集。

其中，计算所述目标标签集中各个标签的预测准确率和预测召回率的方式可以有很多种，比如，具体可以将所述多媒体样本、以及多媒体样本对应的目标标签集划分为训练集和验证集，利用所述训练集对预设标签预测模型进行训练，得到训练后标签预测模型，利用验证集对所述训练后标签预测模型进行验证，根据验证结果计算所述训练数据集中每个目标标签的预测准确率和预测召回率，然后，再基于所述预测准确率和预测召回率对所述目标标签集进行过滤，得到多媒体分类数据集。

其中，预设标签预测模型的模型结构在此不做限定，比如，可以使用经典的视频分类模型NetVLAD，NextVLAD等等。其中，准确率（precision）和召回率（recall）的分子都是预测正确的正类个数，区别在于分母。精准率的分母为预测为正的样本数，召回率的分母为原来样本中所有的正样本数。准确率和召回率并不一定是正相关（但也不一定是负相关）。

其中，基于所述预测准确率和预测召回率对所述目标标签集进行过滤的方式可以有很多种，比如，具体可以根据所述预测准确率和预测召回率计算每个目标标签的平衡分数；基于所述平衡分数对所述目标标签集进行过滤，得到分类标签集；当所述分类标签集满足预设条件时，利用所述多媒体样本和所述分类标签集构成多媒体分类数据集。

其中，平衡分数可以指的是F1分数（F1 Score），是统计学中用来衡量二分类模型精确度的一种指标。它同时兼顾了分类模型的精确率和召回率。F1分数可以看作是模型精确率和召回率的一种调和平均，它的最大值是1，最小值是0。

比如，对于每个多媒体，挑选预测概率前k大的标签作为预测结果。预测结果中的词语，如果同样出现在真实标签中，则认为此标签预测正确，反之预测错误。对所有数据集标签统计其预测正确的数目、在预测结果中出现的数目和在真实标签中出现的数目。

预测准确率的计算公式为：

准确率（precision）=预测正确的数目/在预测结果中出现的数目

预测召回率的计算公式为：

召回率（recall）=预测正确的数目/在真实标签中出现的数目

f1分数综合了准确率与召回率，其计算公式为：

f1=2*（准确率*召回率）/（准确率+召回率）

然后，挑选出所有f1分数低于预设分数的标签作为易错标签，将易错标签进行删除，就可以得到分类标签集。

其中，预设条件可以指的是分类标签集中包含的标签均为视觉区分性较强的标签，等等。预设条件的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在多媒体分类装置中。此外，预设条件可以内置于多媒体分类装置中，或者，也可以保存在存储器中并发送给多媒体分类装置，等等。

其中，易错标签可以指的是对分类模型预测的结果进行统计后，分类效果比较差的标签。通常用标签的分类准确率和分类召回率来刻画标签是否为易错标签，也可以用结合准确率和召回率的f1分数来进行描述。将f1分数低于某一阈值的标签认为是易错标签，即难以准确预测此类标签。

可选的，当所述分类标签集不满足预设条件时，返回执行计算所述频繁标签集中各个标签之间的语义相似度的步骤，直到所述分类标签满足预设条件，得到多媒体分类数据集。比如，当分类标签集不满足预设条件，如当分类标签集中包含的标签不均为视觉区分性较强的标签时，跳转到从所述频繁标签集中确定具有视觉显著性的候选标签集的步骤，完成一次迭代。经过多次迭代后，得到的分类标签集中包含的标签均为视觉区分性较强，易于进行预测的标签，完成分类标签集的构造。

可选的，利用所述训练集对预设标签预测模型进行训练，得到训练后标签预测模型的方式可以有很多种，比如，可以采用预设标签预测模型的分类网络对该训练集进行分类，得到该训练集的预设值，获取该训练集的真实值，并根据该训练集的真实值和预测值对该预设标签预测模型进行收敛，得到训练后标签预测模型。

为了提高预设标签预测模型的准确性，可以在预设标签预测模型的网络结构中叠加三个损失函数对预设标签预测模型进行训练，例如，具体可以采用该训练集对第一网络进行训练，得到第一预测值；根据该训练集的真实值与第一预测值，采用第一损失函数对第一网络进行收敛，得到训练后第一网络；采用该训练集对第二网络进行训练，得到第二预测值；根据该训练集的真实值与第二预测值，采用第二损失函数对第二网络进行收敛，得到训练后第二网络；采用该训练集对第三网络进行训练，得到第三预测值；根据该训练集的真实值与第三预测值，采用第三损失函数对第三网络进行收敛，得到训练后第三网络；根据该训练后第一网络、该训练后第二网络和该训练后第三网络，确定训练后标签预测模型。比如，为了提高训练效果，防止网络太深而导致欠拟合、过拟合等，第一网络可以包括多个残差模块和一个损失层。第二网络可以包括多个残差模块、一个卷积层、一个全局平均池化层、一个全卷积层和一个损失层，第三网络可以包括多个残差模块、一个卷积层、一个全局平均池化层、一个跨通道池化层和一个损失层。其中，残差网络可以为第一网络，分类网络可以包括第二网络和第三网络。

其中，标签预测模型的网络结构在此不作限定，可以是能实现多媒体标签预测的任意网络结构。

105、基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

例如，具体可以基于所述多媒体分类数据集和所述训练后标签预测模型对待分类多媒体进行分类，得到所述待分类多媒体的分类标签，或者可以基于所述多媒体分类数据集对分类模型进行训练，利用训练后分类模型对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。其中，该分类模型可以是不用于预设标签预测模型的分类模型，也可以是类似于预设标签预测模型的分类模型。

由上可知，本实施例可以获取多媒体样本、以及所述多媒体样本对应的初始标签集，然后，根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，接着，计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集，再计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，再然后，基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。由于该方案使用迭代进行“预测后删除易错标签”的做法，能够自动构造多媒体分类数据集的标签并且筛选出视觉区分性高、易于分类的标签，提高了构造多媒体分类数据集的标签的效率，节省了人力物力，并且筛选结果更加可靠，然后基于构造好的多媒体分类数据集对待分类多媒体进行分类，大大地提高了多媒体分类的效率。

根据上一个实施例所描述的方法，以下将举例作进一步详细说明。

在本实施例中，将以该多媒体分类装置具体集成在电子设备，多媒体具体为视频为例进行说明。

如图2a和2b所示，一种多媒体分类方法，具体流程可以如下：

201、电子设备获取视频样本、以及所述视频样本对应的初始标签集。

例如，电子设备具体可以获取多个视频样本、以及所述视频样本的描述信息、用户标签和编辑标签；对所述视频样本的描述信息进行分词，得到信息标签；将所述信息标签、用户标签和编辑标签进行合并，得到初始标签集。其中，视频样本的描述信息可以指的是对视频的内容进行描述的信息，比如，视频的标题、视频的摘要等等。用户标签可以指的是浏览该视频的用户根据自己的理解对该视频进行的标注标签，编辑标签是负责该视频的管理人员对该视频进行的标注标签，都是人工标注的标签。由于浏览某个视频文件的用户有很多来自各种不同职业不同年龄不同性别的人，因此这些用户为该视频标注的标签更加多样化，而负责管理该视频的编辑可能是某个视频网站的审核人员，具有一定的视频方面的专业知识，给出的标签可能更加专业化，同时标签的多样性较低。

其中，对所述视频样本的描述信息进行分词的方式有很多种，比如，在这里具体可以使用结巴（jieba）分词。结巴分词支持三种模式：1.精确模式：试图将句子最精确地切开，适合文本分析；2.全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；3.搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。结巴分词过程中主要涉及如下几种算法：1、基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图（Directed acyclicgraph， DAG）；2、采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合；3、对于未登录词，采用了基于汉字成词能力的 HMM 模型，采用维特比（Viterbi）算法进行计算；4、基于Viterbi算法做词性标注；5、基于信息检索数据挖掘的常用加权技术（termfrequency–inverse document frequency，TF-IDF）和基于图的排序算法（TextRank）模型抽取关键词。

202、电子设备根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述视频样本对应的频繁标签集。

其中，频繁标签集可以指的是在所有初始标签集中出现频率比较高的标签词。例如，电子设备具体可以统计所述初始标签集中每个标签出现的频率；根据统计结果从所述初始标签集筛选出现频率满足预设频率阈值的标签，得到所述视频样本对应的频繁标签集。

其中，预设频率阈值的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在视频分类装置中。此外，预设频率阈值可以内置于视频分类装置中，或者，也可以保存在存储器中并发送给视频分类装置，等等。

203、电子设备计算所述频繁标签集中各个标签之间的语义相似度。

例如，电子设备具体可以从所述频繁标签集中确定具有视觉显著性的候选标签集；计算所述候选标签集中各个标签之间的语义相似度。

比如，电子设备具体可以获取预设词集合；将所述频繁标签不存在所述预设词集合中的标签去除，得到去除后标签集；基于所述预设词集合计算所述去除后标签集中各个标签之间的语义相似度。比如，预设词集合可以为预先构造好的中文词典库，对于待筛选的词语集合，载入已经构造好的中文词典库，首先去除待筛选词语集合中不在中文词典库中的词语，剩下的词语两两计算相似度，两个词语的相似度在中文词典库中已经计算完毕，为一个0～1之间的分数，此分数越高表面两个词语之间的相似度越大，然后挑选所有相似度在0.8以上的词语配对构成同义词列表。

204、电子设备根据计算结果从所述频繁标签集确定所述视频样本对应的目标标签集。

比如，电子设备具体可以为候选标签中的标签两两计算词典语义相似度，挑选相似度较高的词对构成同义词对列表，合并在同义词列表中的词对，如，两个相似标签可以只保留一个，可以对标签进行排序（具体可以基于视觉显著性进行排序），选择排序后视觉显著性的相似标签，确定所述视频样本对应的目标标签集。

其中，同义词是指意义相同的一组词语，可以分为等义词和近义词两种。等义词包括同一事物的不同名称、简称与全称、同一事物的英文名称和中文名称等。近义词指意义相近但是略有区别的词语。同义词映射是将某个词语的等义词和近义词归并到同一个词语，避免为同一事物生成相同意义的不同标签。

205、电子设备计算所述目标标签集中各个标签的预测准确率和预测召回率。

例如，电子设备具体可以将所述视频样本、以及视频样本对应的目标标签集划分为训练集和验证集，利用所述训练集对预设标签预测模型进行训练，得到训练后标签预测模型，利用验证集对所述训练后标签预测模型进行验证，根据验证结果计算所述训练数据集中每个目标标签的预测准确率和预测召回率。比如，可以将得到的目标标签集中的目标标签匹配视频相关文本数据，得到数据集，数据集中的每一条视频均有一系列对应的标签，将得到的数据集划分训练集和验证集，用训练集训练标签预测模型，并在验证集上进行推断和结果统计，计算出每个标签的预测准确率和预测召回率，根据准确率和召回率计算F1分数，筛选出F1分数较低的标签作为易错标签。

其中，视频相关文本指的是视频的原始标注，视频的原始标注中包含视频的身份标识（Identity document，id）和视频的所有原始标签，用经过筛选得到的标签集合来去除视频原始标签中的不符合要求的标签，即去除那些不在经过筛选得到的标签集合中的标签，保留下来的即为该视频的正确标签，将该视频的正确标签与视频id对应，即构成一条完整的训练数据。

其中，预设标签预测模型的模型结构在此不做限定，比如，可以使用经典的视频分类模型NetVLAD，NextVLAD等等。其中，准确率（precision）和召回率（recall）的分子都是预测正确的正类个数，区别在于分母。精准率的分母为预测为正的样本数，召回率的分母为原来样本中所有的正样本数。准确率和召回率并不一定是正相关，但也不一定是负相关。

比如，可以采用预设标签预测模型的分类网络对该训练集进行分类，得到该训练集的预设值，获取该训练集的真实值，并根据该训练集的真实值和预测值对该预设标签预测模型进行收敛，得到训练后标签预测模型。

其中，标签预测模型的网络结构在此不作限定，可以是能实现视频标签预测的任意网络结构。

206、电子设备根据计算结果对所述目标标签集进行过滤，得到视频分类数据集。

比如，电子设备具体可以根据所述预测准确率和预测召回率计算每个目标标签的平衡分数；基于所述平衡分数对所述目标标签集进行过滤，得到分类标签集；当所述分类标签集满足预设条件时，利用所述视频样本和所述分类标签集构成视频分类数据集。

比如，对于每个视频，挑选预测概率前k大的标签作为预测结果。预测结果中的词语，如果同样出现在真实标签中，则认为此标签预测正确，反之预测错误。对所有数据集标签统计其预测正确的数目、在预测结果中出现的数目和在真实标签中出现的数目。

预测准确率的计算公式为：

预测召回率的计算公式为：

召回率（recall）=预测正确的数目/在真实标签中出现的数目

f1分数综合了准确率与召回率，其计算公式为：

f1=2*（准确率*召回率）/（准确率+召回率）

然后，挑选出所有f1分数低于预设分数（比如0.5）的标签作为易错标签，将易错标签进行删除，就可以得到分类标签集。

其中，预设条件可以指的是分类标签集中包含的标签均为视觉区分性较强的标签，等等。预设条件的设定方式可以有很多种，比如，可以根据实际应用的需求灵活设置，也可以预先设置好存储在视频分类装置中。此外，预设条件可以内置于视频分类装置中，或者，也可以保存在存储器中并发送给视频分类装置，等等。

可选的，当所述分类标签集不满足预设条件时，返回执行计算所述频繁标签集中各个标签之间的语义相似度的步骤，直到所述分类标签满足预设条件，得到视频分类数据集。比如，当分类标签集不满足预设条件，如当分类标签集中包含的标签不均为视觉区分性较强的标签时，可以跳转到从所述频繁标签集中确定具有视觉显著性的候选标签集的步骤，完成一次迭代。经过多次迭代后，得到的分类标签集中包含的标签均为视觉区分性较强，易于进行预测的标签，完成分类标签集的构造。

207、电子设备基于所述视频分类数据集对待分类视频进行分类，得到所述待分类视频的分类标签。

例如，电子设备具体可以基于所述视频分类数据集和所述训练后标签预测模型对待分类视频进行分类，得到所述待分类视频的分类标签，或者可以基于所述视频分类数据集对分类模型进行训练，利用训练后分类模型对待分类视频进行分类，得到所述待分类视频的分类标签。其中，该分类模型可以是不用于预设标签预测模型的分类模型，也可以是类似于预设标签预测模型的分类模型。

比如，待分类视频的视频标题是“李X的电影剪辑”，用户标签是“李X，饮食男女”，编辑标签是“电影，美食，家庭”，将这三种标签信息进行合并，生成初始标签集：电影，李X，电影剪辑，美食，饮食男女，然后基于所述视频分类数据集和所述训练后标签预测模型对生成的标签进行易错标签去除和同义词合并，得到最终的视频标签：电影，美食，饮食男女。

为了更好地实施以上方法，相应的，本发明实施例还提供一种多媒体分类装置，该多媒体分类装置具体可以集成在终端中，该终端可以包括手机、平板电脑、笔记本电脑以及个人计算机等可以实现多媒体分类的设备。

例如，如图3所示，该多媒体分类装置可以包括获取单元301、选取单元302、第一计算单元303、第二计算单元304和分类单元305，如下：

（1）获取单元301；

获取单元301，用于获取多媒体样本、以及所述多媒体样本对应的初始标签集。

可选的，在一些实施例中，所述获取单元301可以包括获取子单元和分词子单元，如下：

获取子单元，用于获取多媒体样本的描述信息、以及至少一种类型的初始标签；

分词子单元，用于对所述多媒体样本的描述信息进行分词，得到信息标签；将所述信息标签和至少一种类型的初始标签进行合并，得到初始标签集。

（2）选取单元302；

选取单元302，用于根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集。

可选的，在一些实施例中，所述选取单元302可以包括统计子单元和选取子单元，如下：

统计子单元，用于统计所述初始标签集中每个标签出现的频率；

选取子单元，用于根据统计结果从所述初始标签集筛选出现频率满足预设频率阈值的标签，得到所述多媒体样本对应的频繁标签集。

（3）第一计算单元303；

第一计算单元303，用于计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集。

可选的，在一些实施例中，所述第一计算单元303可以包括确定子单元、第一计算子单元和合并子单元，如下：

确定子单元，用于从所述频繁标签集中确定具有视觉显著性的候选标签集；

第一计算子单元，用于计算所述候选标签集中各个标签之间的语义相似度；

合并子单元，用于根据计算结果将所述候选标签集中满足预设相似度阈值的标签进行合并，得到所述多媒体样本对应的目标标签集。

（4）第二计算单元304；

第二计算单元304，用于计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集。

可选的，在一些实施例中，所述第二计算单元304可以包括训练子单元、第二计算子单元和过滤子单元，如下：

训练子单元，用于将所述多媒体样本、以及多媒体样本对应的目标标签集划分为训练集和验证集；利用所述训练集对预设标签预测模型进行训练，得到训练后标签预测模型；

第二计算子单元，用于利用验证集对所述训练后标签预测模型进行验证，根据验证结果计算所述训练数据集中每个目标标签的预测准确率和预测召回率；

过滤子单元，用于基于所述预测准确率和预测召回率对所述目标标签集进行过滤，得到多媒体分类数据集。

（5）分类单元305；

分类单元305，用于基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例中可以由获取单元301获取多媒体样本、以及所述多媒体样本对应的初始标签集，然后，由选取单元302根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，接着，由第一计算单元303计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集，再由第二计算单元304计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，再然后，由分类单元305基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。由于该方案使用迭代进行“预测后删除易错标签”的做法，能够自动构造多媒体分类数据集的标签并且筛选出视觉区分性高、易于分类的标签，提高了构造多媒体分类数据集的标签的效率，节省了人力物力，并且筛选结果更加可靠，然后基于构造好的多媒体分类数据集对待分类多媒体进行分类，大大地提高了多媒体分类的效率。

此外，本发明实施例还提供一种电子设备，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体检测。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取多张样本图像、以及该样本图像对应的图像属性信息，然后，计算该样本图像属于预设目标类别的类别概率，再基于该类别概率和该图像属性信息对该样本图像进行分类，根据分类结果从多张样本图像中确定至少一张正样本图像，接着，对该至少一张正样本图像进行聚类，得到该正样本图像的至少一个聚类结果，再然后，根据该至少一个聚类结果，从多张样本图像中筛选出的目标样本图像。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例还提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种多媒体分类方法中的步骤。例如，该指令可以执行如下步骤：

获取多媒体样本、以及所述多媒体样本对应的初始标签集，然后，根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，接着，计算所述频繁标签集中各个标签之间的语义相似度，根据计算结果从所述频繁标签集确定所述多媒体样本对应的目标标签集，再计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，再然后，基于所述多媒体分类数据集对待分类多媒体进行分类，得到所述待分类多媒体的分类标签。

其中，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本发明实施例所提供的任一种多媒体分类方法中的步骤，因此，可以实现本发明实施例所提供的任一种多媒体分类方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种多媒体分类方法、装置和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多媒体分类方法，其特征在于，包括：

获取多媒体样本、以及所述多媒体样本对应的初始标签集；

2.根据权利要求1所述的方法，其特征在于，所述计算所述目标标签集中各个标签的预测准确率和预测召回率，根据计算结果对所述目标标签集进行过滤，得到多媒体分类数据集，包括：

将所述多媒体样本、以及多媒体样本对应的目标标签集划分为训练集和验证集；

利用所述训练集对预设标签预测模型进行训练，得到训练后标签预测模型；

利用验证集对所述训练后标签预测模型进行验证，根据验证结果计算所述训练集中每个目标标签的预测准确率和预测召回率；

基于所述预测准确率和预测召回率对所述目标标签集进行过滤，得到多媒体分类数据集。

3.根据权利要求2所述的方法，其特征在于，所述基于所述预测准确率和预测召回率对所述目标标签集进行过滤，得到多媒体分类数据集，包括：

根据所述预测准确率和预测召回率计算每个目标标签的平衡分数；

基于所述平衡分数对所述目标标签集进行过滤，得到分类标签集；

当所述分类标签集满足预设条件时，利用所述多媒体样本和所述分类标签集构成多媒体分类数据集。

4.根据权利要求1所述的方法，其特征在于，所述根据所述初始标签集中每个标签出现的频率选取所述初始标签集中的频繁标签，得到所述多媒体样本对应的频繁标签集，包括：

统计所述初始标签集中每个标签出现的频率；

根据统计结果从所述初始标签集筛选出现频率满足预设频率阈值的标签，得到所述多媒体样本对应的频繁标签集。

5.根据权利要求1所述的方法，其特征在于，所述获取多媒体样本、以及所述多媒体样本的初始标签集，包括：

获取多媒体样本的描述信息、以及至少一种类型的初始标签；

对所述多媒体样本的描述信息进行分词，得到信息标签；

将所述信息标签和至少一种类型的初始标签进行合并，得到初始标签集。

6.一种多媒体分类装置，其特征在于，包括：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至5中任一项所述的多媒体分类方法中的步骤。

8.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。