CN109189950A

CN109189950A - 多媒体资源分类方法、装置、计算机设备及存储介质

Info

Publication number: CN109189950A
Application number: CN201811023323.7A
Authority: CN
Inventors: 唐永毅; 马林; 刘威; 周连强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-09-03
Filing date: 2018-09-03
Publication date: 2019-01-11
Anticipated expiration: 2038-09-03
Also published as: CN109189950B

Abstract

本发明公开了一种多媒体资源分类方法、装置、计算机设备及存储介质，属于计算机技术领域。所述方法包括：根据资源分类指令，获取待分类的多媒体资源；调用资源分类模型，所述资源分类模型包括多个资源分类模块，每个资源分类模块对应于一种多媒体资源的分类算法；将所述多媒体资源输入所述资源分类模型中，由所述资源分类模型中的每个资源分类模块分别对所述多媒体资源进行分类，得到多个第一分类结果，基于所述多个第一分类结果输出第二分类结果，所述第二分类结果为所述多媒体资源的至少一个类型。本发明通过一个模型中的多个资源分类模块进行分类，并综合结果，有效提高了多媒体资源分类的准确性。

Description

多媒体资源分类方法、装置、计算机设备及存储介质

技术领域

本发明涉及计算机技术领域，特别涉及一种多媒体资源分类方法、装置、计算机设备及存储介质。

背景技术

随着计算机技术的发展，可以通过计算机设备对多媒体资源进行分类，确定多媒体资源的类型，并根据该多媒体资源的类型为用户提供多媒体服务，例如：通过分类，用户可以快速查找到感兴趣的类型的多媒体资源，或者为用户推荐某种类型的多媒体资源，或者对多媒体资源的资源进行检测，以筛除不符合规定的多媒体资源。

目前，多媒体资源分类方法通常是将多媒体资源输入一个分类模型中，由该分类模型对该多媒体资源进行分类，得到该多媒体资源的类型。或者，通常是通过多个单独的分类模型分别对多媒体资源进行分类，在得到多个分类结果后，将多个分类结果进行融合，确定该多媒体资源的类型。

在上述方法中，考虑到单个分类模型的分类能力的有限性，由一个分类模型进行分类得到的分类结果的准确性差，而通过多个分类模型的分类结果融合的方式，独立运行多个分类模型所需的存储量和占用的计算资源较大，且多个分类模型单独训练，并没有考虑到多个分类模型的分类结果进行融合的因素，则最终得到的多媒体资源的类型的准确性差。

发明内容

本发明实施例提供了一种多媒体资源分类方法、装置、计算机设备及存储介质，可以解决相关技术中准确性差的问题。所述技术方案如下：

一方面，提供了一种多媒体资源分类方法，所述方法包括：

根据资源分类指令，获取待分类的多媒体资源；

调用资源分类模型，所述资源分类模型包括多个资源分类模块，每个资源分类模块对应于一种多媒体资源的分类算法；

将所述多媒体资源输入所述资源分类模型中，由所述资源分类模型中的每个资源分类模块分别对所述多媒体资源进行分类，得到多个第一分类结果，基于所述多个第一分类结果输出第二分类结果，所述第二分类结果为所述多媒体资源的至少一个类型。

一方面，提供了一种多媒体资源分类装置，所述装置包括：

获取模块，用于根据资源分类指令，获取待分类的多媒体资源；

调用模块，用于调用资源分类模型，所述资源分类模型包括多个资源分类模块，每个资源分类模块对应于一种多媒体资源的分类算法；

输入输出模块，用于将所述多媒体资源输入所述资源分类模型中，由所述资源分类模型中的每个资源分类模块分别对所述多媒体资源进行分类，得到多个第一分类结果，基于所述多个第一分类结果输出第二分类结果，所述第二分类结果为所述多媒体资源的至少一个类型。

一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现所述多媒体资源分类方法所执行的操作。

一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现所述多媒体资源分类方法所执行的操作。

本发明实施例通过资源分类模型中的多个资源分类模块分别对多媒体资源进行分类，再综合多个分类结果，确定该多媒体资源的至少一个类型，每个资源分类模块均对应于一种多媒体资源的分类算法，这样综合多种分类算法得到的分类结果相较于仅通过一种分类算法得到的分类结果准确性更高，且多个资源分类模块均嵌入在一个资源分类模型中，可以并行运行和集体训练，考虑到了分类结果融合的因素，有效提高了多媒体资源分类的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种多媒体资源分类方法的实施环境；

图2是本发明实施例提供的一种资源分类模型训练方法流程图；

图3是本发明实施例提供的一种多媒体资源分类方法流程图；

图4是本发明实施例提供的一种资源分类模型的框架图；

图5是本发明实施例提供的一种多媒体资源分类装置的结构示意图；

图6是本发明实施例提供的一种终端的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种多媒体资源分类方法的实施环境，参见图1，该实施环境中可以包括至少一个计算机设备，其中，该多个计算机设备可以通过有线连接方式实现数据交互，也可以通过网络连接方式实现数据交互，本发明实施例对此不作限定。

在本发明实施例中，计算机设备101可以用于对多媒体资源进行分类，获取到多媒体资源的至少一个类型。其中，该多媒体资源可以为视频资源，也可以是图像资源，也可以是音频资源，本发明实施例对此不作限定。多媒体资源的类型可以包括多种，例如，体育类、风景类、卡通类等，则本发明实施例中可以对多媒体资源进行分类，确定该多媒体资源是哪几类。计算机设备102可以用于采集多媒体资源，并将采集到的多媒体资源发送至计算机设备101，由计算机设备101提供多媒体资源分类服务。在一种可能实现方式中，该计算机设备101也可以采集多媒体资源，并对采集到的多媒体资源进行分类，本发明实施例对此不作限定。

具体地，该计算机设备101和计算机设备102均可以被提供为终端，也可以被提供为服务器，本发明实施例对此不作限定。

图2是本发明实施例提供的一种资源分类模型训练方法流程图，该资源分类模型训练方法可以应用于计算机设备，该计算机设备可以为上述计算机设备101，也可以是其它计算机设备。也即是可以在上述计算机设备101上训练得到资源分类模型，也可以在其它计算机设备上训练得到资源分类模型后，将该资源分类模型处理为配置文件，存储于计算机设备101中，当然，也可以由计算机设备101在检测到资源分类需求时，调用其它计算机设备上训练得到的资源分类模型，本发明实施例对此不作限定。参见图2，该方法可以包括以下步骤：

201、计算机设备获取多个样本多媒体资源。

其中，每个样本多媒体资源携带有该样本多媒体资源的至少一个类型。

在一种可能实现方式中，在该计算机设备中可以存储有该多个样本多媒体资源，在需要进行资源分类模型训练时，即可获取得到，当然，该多个样本多媒体资源也可以存储于其他计算机设备，该计算机设备在需要进行资源分类模型训练时，可以从其他计算机设备处获取，本发明实施例对此不作限定。例如，该样本多媒体资源可以存储于多媒体数据库中，该多媒体数据库可以用于存储多媒体资源，且每个多媒体资源还可以对应存储有至少一个类型，则计算机设备可以从多媒体数据库中获取多个样本多媒体资源以及每个样本多媒体资源的至少一个类型。

202、计算机设备调用初始模型，将该多个样本多媒体资源输入该初始模型中，对于每个样本多媒体资源，由该初始模型中的多个资源分类模块中每个资源分类模块根据模块参数，分别对该样本多媒体资源进行分类，得到多个第一分类结果，基于该多个第一分类结果输出第二分类结果。

其中，该初始模型包括多个资源分类模块。每个资源分类模块对应于一种多媒体资源的分类算法，该分类算法是指对多媒体资源进行分类，确定该多媒体资源与多个类型的符合程度的算法。每个资源分类模块对应的第一分类结果包括该样本多媒体资源与每个类型的符合程度。第二分类结果为基于模型分类得到的样本多媒体资源的至少一个类型。

在本发明实施例中，对多媒体资源进行分类的算法包括多种，通过结合多种分类算法对多媒体资源进行分类的分类结果，可以提高多媒体资源分类的准确性，在获取多媒体资源的多种类型时，得到的分类结果也更加全面。例如，该资源分类模块可以为支持向量机(Support Vector Machine，SVM)模型、深度神经网络模型、贝叶斯网络模型或隐马尔科夫模型等分类模型，也即是可以将一些单独的分类模型整合到本发明实施例提供的资源分类模型中，利用不同模型对多媒体资源的表述能力的差异，通过资源分类模型的整合将多个模型的分类输出整合为一个更准确的分类输出，可以提高资源分类模型的分类准确性，下面即对该资源分类模型基于样本多媒体资源训练得到的过程进行详细说明。

计算机设备获取多个样本多媒体资源后，可以调用初始模型，基于该多个样本多媒体资源对初始模型进行训练，得到资源分类模型，以便于后续基于该资源分类模型对获取到的多媒体资源进行准确分类。具体地，在该计算机设备中可以存储有初始模型，在需要进行资源分类模型训练时，直接调用即可，当然，该初始模型也可以存储于其他计算机设备，该计算机设备在需要进行资源分类模型训练时，可以从其他计算机设备处调用，本发明实施例对此不作限定。

需要说明的是，该初始模型中的每个资源分类模块的模块参数为初始值，计算机设备可以将该多个样本多媒体资源作为训练样本，对初始模型进行训练，也即是通过样本多媒体资源对初始模型中的模块参数进行调整，以使得多次调整后的模块参数能够在对多媒体资源进行分类时，得到的分类结果更准确。该初始值可以由相关技术人员预先设置，本发明实施例对其具体取值不作限定。

在一种可能实现方式中，该计算机设备可以根据样本多媒体资源的属性信息，获取该多个样本多媒体资源与历史处理数据中的样本多媒体资源的相似度，获取该历史处理数据中相似度最大的样本多媒体资源对应的模型的模块参数，将该模块参数作为该初始模型的初始值进行训练，这样可以有效减少迭代过程的次数，减少大量计算量，提高了上述资源分类模型训练方法的效率。

计算机设备将该多个样本多媒体资源输入初始模型中，可以由初始模型对每个样本多媒体资源进行分类，基于初始模型的分类结果和样本多媒体资源的至少一个类型，也即是样本多媒体资源的真实分类结果，确定初始模型的分类能力，而上述所示的参数调整，即是不断提高初始模型的分类能力的过程，以使得后续训练得到的资源分类模型能够准确分类。

需要说明的是，该初始模型中的每个资源分类模块独立建模，并在使用时计算机设备中每个资源分类模块可以并行对样本多媒体资源进行分类，从而可以减少分类过程所需花费的时间，提高计算效率，从而从整体上提高了多媒体资源的分类效率。

具体地，该步骤202中第一分类结果的获取过程可以为：该初始模型可以获取每个样本多媒体资源的特征，并将该特征输入每个资源分类模块中，每个资源分类模块则可以基于该特征和该资源分类模块的模块参数，分别获取该多媒体资源与每个类型的符合程度，也即获取每个资源分类模块对应的第一分类结果。其中，在计算机设备中可以预设有多个类型，上述分类过程中即可以分别获取多媒体资源与预设的多个类型中每个类型的符合程度。这样仅需要进行一步特征提取，多个资源分类模块共用提取到的特征，也即是共享特征，这样无需每个资源分类模块均进行特征提取，从而节省了计算资源，也无需占用过多的存储空间。

对于上述特征提取过程，在一种可能实现方式中，由于上述多媒体资源可能是不同种类的资源，对不同种类的多媒体资源进行特征提取时，特征提取过程也可以不同。具体地，不同种类的多媒体资源的格式可能不同，例如，视频资源的格式可以是动态影像专家组4(Moving Picture Experts Group 4，mp4)、音频视频交错(Audio Video Interleaved，avi)、mkv等，其中，mkv是一种Matroska格式的文件扩展名，其中，Matroska是一种多媒体封装格式，多媒体封装格式又称为多媒体容器(Multimedia Container)。图像资源的格式可以是联合图像专家组(Joint Photographic Experts Group，JPEG)或便携式网络图形(Portable Network Graphics，PNG)等，其中，JPEG格式的扩展名可以包括jpg、jpeg、jpe或jif等。音频资源的格式可以是动态影像专家组3(Moving Picture Experts Group AudioLayer III，MP3)、WAV(Waveform)或WMA(Windows Media Audio)等。

相应地，可以设置有目标格式，该目标格式可以是视频资源的格式，例如，上述MP4、mkv、avi等格式，则对于视频资源可以将其分为图像资源和音频资源两部分来进行特征提取，具体可以为：当该多媒体资源的格式为目标格式时，计算机设备获取该多媒体资源包括的第一资源和第二资源，该第一资源是指图像资源，该第二资源是指音频资源；计算机设备分别对该第一资源和该第二资源进行特征提取，得到第一特征和第二特征；计算机设备分别将该第一特征和该第二特征输入该每个资源分类模块中。

也即是，计算机设备可以分别获取视频资源的图像帧和音频帧，例如，采用一定的采样频率，获取到视频资源的图像帧和音频帧，并分别对图像帧和音频帧进行特征提取，获取到图像特征和音频特征，也即是第一特征和第二特征。则计算机设备可以将两种特征均输入每个资源分类模块中进行后续分类过程。

在一种可能实现方式中，计算机设备可以通过图像处理模型获取第一资源的特征，通过音频处理模型获取第二资源的特征，例如，可以通过Inception-V4模型获取第一资源的特征，通过VGGish模型获取第二资源的特征。

其中，Inception-V4模型和VGGish模型均是深度神经网络模型，Inception-V4模型是Szegedy等人提出的卷积神经网络图像分类模型。该Inception-V4模型可以根据图像数据库预先训练完成，例如，可以在ImageNet数据集上预训练好Inception-V4模型的参数。则对应第一资源，该Inception-V4模型可以获取该第一资源的深度神经网络特征，也即是第一特征，该第一特征可以根据模型的参数以及网络中的卷积和非线性激活函数获取得到并输出，在上述过程中，第一特征可以具有一定的特征维度，例如，可以为1024维，上述获取第一特征的过程中可以经过主成分分析算法，对图像资源的数据进行处理，达到上述特征维度。

VGGish模型是Hershey等人提出的基于VGG卷积神经网络的音频信号分类模型。该VGGish模型可以根据音频数据库预先训练完成，例如，可以在音频数据集(AudioSet)数据上预训练得到VGGish模型的网络参数，则后续可以基于训练得到的VGGish模型对第二资源进行特征提取。同理地，通过该VGGish模型获取第二资源的特征的过程与上述第一资源处理过程的流程相似，第二资源也可以经过多层卷积和非线性激活函数的处理，再经过主成分分析算法进行处理，获得一定特征维度的音频特征，例如，128维。

上述仅以两个具体模型为例进行说明，上述特征提取过程还可以通过其他模型实现，例如，视觉几何组(Visual Geometry Group，VGG)模型或残差卷积神经网络模型等，本发明实施例对此不作限定。

对于基于特征获取第一分类结果的过程，在一种可能实现方式中，该第一分类结果中的符合程度可以为该样本多媒体资源为每个类型的概率，则该第一分类结果包括多个目标概率，目标概率是指该样本多媒体资源为目标类型的概率。该分类过程中对于每个类型，计算机设备可以分别获取样本多媒体资源与该类型的符合程度。

具体地，每个资源分类模块对于输入的特征可以进一步进行处理后，再进行分类，则相应地，上述第一分类结果的获取过程中可以为：每个资源分类模块可以获取特征的特征描述信息，并根据特征描述信息和模块参数，分别获取样本多媒体资源与每个类型的符合程度，得到对应的第一分类结果。

在一种可能实现方式中，不同资源分类模块中得到的特征描述信息可以有不同的形式，例如，该特征描述信息可以为梯度直方图(Histogram of Gradient)，光流直方图(Histogram of Optical Flow)，视觉词袋表示(Bag of Visual Words)，费舍尔向量(Fisher Vector),局部聚集特征向量(Vector of Locally Aggregated Descriptor)和网络局部聚集特征向量(Vector of Network Locally Aggregated Descriptor)等，本发明实施例对此不作限定。

对于特征描述，不同的资源分类模块获取特征的特征描述信息的过程可能包括不同的方式，也即是可以有多种特征描述方法，下述通过四个示例进行详细说明：

示例一：如果某个资源分类模块为音视频特征词袋模型，该资源分类模块可以对音视频特征进行统计，对音视频特征出现的次数进行统计性的描述，也即是可以对上述样本多媒体资源的特征的出现次数进行统计，得到每个特征的出现次数，从而通过出现次数，或基于该出现次数得到的出现概率来表示该特征。相应地，特征描述信息可以为视觉词袋表示的形式。

示例二：如果某个资源分类模块为深度神经网络模型，且该模型通过网络局部聚集特征描述信息来描述特征，例如，上述样本多媒体资源的特征可以是特征向量的形式，则该网络局部聚集特征描述信息可以为特征向量描述子，该特征向量描述子也可以是特征向量的形式。资源分类模块可以基于音视频特征(样本多媒体资源的特征)及聚类集合的关系，对音视频特征进行描述，主要通过特征与聚类集合的距离实现特征描述，例如，通过特征与特征聚类集合的残差对音视频进行特征描述。

示例三：如果某个资源分类模块为深度神经网络模型，且该模型通过基于非局部关系改进的网络局部聚集特征描述信息来描述特征，在该示例三中，该资源分类模块在示例二中获取到的聚类集合以及特征与聚类集合之后，可以进一步分析聚类集合之间的关系，从而结合该聚类集合之间的关系，得到更准确的特征描述信息。

示例四：如果某个资源分类模块为递归神经网络模型，资源分类模块可以基于音视频时间维度上的特征按照时间顺序和递归神经网络模型进行建模，通过特征在时间维度的递进关系，对特征进行描述。

上述仅列举了四个示例，资源分类模块中对特征进行描述时，还可以采用其他特征描述方法，这样不同的资源分类模块的特征描述着重点不同，这样该多个资源分类模块对于资源分类模型的表述性能和分类性能均会有一定影响。一般地，在资源分类模块的分类性能较好的情况下，资源分类模块之间的差异性越高，组合该多个资源分类模块的资源分类模型的表述能力和分类能力则越好。需要说明的是，上述初始模型以及训练后得到的资源分类模型中的资源分类模块的数量可以基于计算资源或计算机设备的计算能力和计算需求确定，本发明实施例对此不作限定。

针对上述示例三，该示例三中计算机设备中的资源分类模块执行的步骤具体可以为：资源分类模块可以对该特征进行聚类，得到该特征的多个聚类集合，该聚类集合用于表示该特征中具有相似性的局部特征；资源分类模块基于该多个聚类集合之间的关系、该特征以及该多个聚类集合，获取该特征的特征描述信息。

具体地，资源分类模块可以采用聚类算法，获取到多个聚类集合，例如，聚类算法可以为K-means算法、均值漂移聚类、基于密度的聚类方法、用高斯混合模型的最大期望聚类、凝聚层次聚类或图团体检测等，本发明实施例对此不作限定。然后对于每个聚类集合，资源分类模块可以获取该聚类集合与该特征中的每个特征值的相关性和距离，并获取该特征中每个特征值对应的相关性和距离的乘积，将该特征对应的多个乘积的和值作为该特征描述信息中该聚类集合对应位的候选信息，资源分类模块还可以基于该候选信息，获取该聚类集合与其他聚类集合之间的关系信息，从而对该候选信息和关系信息进行加权求和，得到该特征描述信息中该聚类集合对应位的信息。

例如，以特征均为特征向量的形式，该特征中每个特征值也均为特征向量的形式为例进行说明，上述聚类算法可以采用K-means算法，得到K个D维聚类集合其中，K为聚类集合的总数量，k为聚类集合的标识，c为聚类集合的特征向量。该K是正整数，本发明实施例对该K的取值不作限定。则资源分类模块可以通过下述公式获取每个聚类集合与每个特征向量的相关性：

其中，为聚类集合c^k与特征向量xⁿ的相关性，K为聚类集合的总数量，k′为聚类集合的标识，k为聚类集合的标识，e是自然常数，为c^k与xⁿ的向量距离，为c^k′与xⁿ的向量距离，∑为累加函数。上述公式中，通过该聚类集合c^k和特征向量xⁿ的向量距离与该特征向量xⁿ和所有聚类集合的向量距离的和值的比值来表示该聚类集合c^k与特征向量xⁿ的相关性，则该的取值为[0,1],可以作为后续该聚类集合与特征向量的距离的权重。

资源分类模块可以通过下述公式获取特征描述信息中聚类集合对应位的候选信息：

其中，V_NetVLAD(d,k)为特征描述信息中聚类集合对应位的候选信息，NetVLAD是网络局部聚集特征向量描述子(Network Locally Aggregated Descriptor)的缩写，k为特征描述信息中聚类集合对应位的标识，d为特征描述信息的向量维度标识，∑为累加函数，为聚类集合c^k与特征向量xⁿ的相关性，xⁿ(d)-^k(d)为c^k与xⁿ的距离。

上述V_NetVLAD(d,k)可以看做K个独立的D维特征描述子，可以记为对于每个聚类集合，资源分类模块可以通过下述公式获取该聚类集合与其他聚类集合之间的关系信息：

其中，yⁱ为特征描述子vⁱ与其他聚类集合之间的关系信息，Z(v)为归一化函数，Z(v)可以为∑为累加函数，为数学符号“存在”，f(vⁱ,v^j)为特征描述子vⁱ与特征描述子v^j的关系信息，可以定义θ(vⁱ)^T为θ(vⁱ)的转置形式，θ和均为线性映射函数，可以定义θ(vⁱ)＝W_θvⁱ和W为特征描述子的权重，上述f(vⁱ,v^j)能够在一定程度上表示两个特征描述子vⁱ和v^j之间的关系，g(v^j)为线性映射函数，可以定义g(v^j)＝W_gv^j，其中，W_g为特征描述子v^j的映射权重。在一种可能实现方式中，上述关系信息的获取过程中还可以不对关系信息进行归一化，也即是，上述公式还可以为：

上述关系信息获取过程中是否需要进行归一化可以由相关技术人员预先设置，具体地，可以根据计算机设备的处理性能或资源分类模块的处理性能来确定，本发明实施例对此不作限定。

资源分类模块可以通过下述公式对该候选信息和关系信息进行加权求和，得到该特征描述信息中该聚类集合对应位的信息：

其中，为特征描述信息中聚类集合cⁱ对应位的信息，W为候选信息的权重，vⁱ为候选信息该聚类集合cⁱ对应位的候选信息。相应地，该特征描述信息可以表示为其中，…代表向量的拼接，的向量长度为DxK。其中，该候选信息的权重可以预先设置，也可以在本次模型训练过程中基于准确度训练得到，本发明实施例对此不作限定。

需要说明的是，上述仅以通过上述公式实现特征描述信息的获取过程，该候选信息和特征描述信息为特征向量的形式，关系信息为数值的形式为例进行说明，其中，该特征描述信息整体为一个矩阵，具体地，该获取过程中还可以采用其他公式，且该候选信息、关系信息和特征描述信息均可以是特征向量或矩阵的形式，也可以是数值的形式，本发明实施例对上述信息的具体形式不作限定，也不对获取过程采用的公式作过多限定。上述特征描述方法考虑到了聚类集合之间的关系，使得特征描述信息能够更准确地描述样本多媒体资源的特征，从而基于该特征描述信息进行分类，得到的分类结果能够更准确，从而提高了资源分类模型的表述能力和分类能力。

资源分类模块在获取到特征的特征描述信息后，可以基于该特征描述信息和模块参数进行分类，输出该第一分类结果。该初始模型可以综合每个资源分类模块输出的第一分类结果，在一种可能实现方式中，还可以为每个资源分类模块设置权重，相应地，该初始模型可以基于每个资源分类模块对应的权重和第一分类结果，得到第三分类结果，该第三分类结果中即包括该多媒体资源与每个类型的符合程度。该第三分类结果即为综合每个资源分类模块的第一分类结果后得到的更准确的分类结果。

该初始模型可以基于该第三分类结果，确定该样本多媒体资源是哪几种类型的资源，可以进一步对第三分类结果进行分析，输出多媒体资源的类型。具体地，该初始模型可以获取该第三分类结果中符合程度符合目标条件的类型，得到该多媒体资源的至少一个类型，也即是第二分类结果。

其中，该目标条件可以由相关技术人员预先设置，该目标条件不同时，该第二分类结果基于第三分类结果的获取过程也可以包括多种情况，下述仅以两种情况为例进行说明，本发明实施例对该目标条件不作限定。具体地，该初始模型可以获取该第三分类结果中符合程度大于符合程度阈值的类型，得到该多媒体资源的至少一个类型；或，该初始模型可以获取该第三分类结果中最大的目标数量的符合程度对应的类型，得到该多媒体资源的至少一个类型。

其中，该符合程度阈值可以由相关技术人员设置，也可以基于该第三分类结果确定，例如，可以取该第三分类结果的平均值，或取该第三分类结果的分位数，本发明实施例对此不作限定。

需要说明的是，该每个资源分类模块对应的权重可以相同，也可以不同，该权重可以由相关技术人员预先设置，也可以在本次模型训练过程中基于第二分类结果的准确度进行调整得到，本发明实施例对此不作限定。可以理解地，对于分类性能或分类准确度较高的资源分类模块，其对应的权重可以较大，分类性能或分类准确度较低的资源分类模块，其对应的权重可以较小，这样可以使得最终通过训练得到的资源分类模型进行分类时分类准确性高，性能较好。例如，资源分类模块1的分类性能比资源分类模块2的分类性能更优，则可以将二者的权重设置为2:1或3:2等对二者的分类结果进行加权。当然，也可以不设置每个资源分类模块对应的权重，可以采用平均的方法，获取得到第三分类结果，再进一步确定第二分类结果，本发明实施例对此不作限定。

203、计算机设备基于第二分类结果和该样本多媒体资源的至少一个类型，得到该第二分类结果的准确度。

计算机设备获取到初始模型输出的第二分类结果后，可以获取该第二分类结果和样本多媒体资源携带的至少一个类型的相似度或匹配度，也即是该第二分类结果的准确度，这样可以基于该准确度确定上述初始模型的分类能力，从而可以执行下述步骤204，并继续执行上述步骤，从而对该初始模型中每个资源分类模块的模块参数不断调整，以提高该初始模型的分类能力。

在一种可能实现方式中，该计算机设备也可以基于第二分类结果和该样本多媒体资源的至少一个类型，得到该第二分类结果的损失值，以该损失值作为第二分类结果的分类准确性的一个衡量标准，并在下述步骤204中基于损失值调整模块参数。

204、计算机设备根据该准确度，对该初始模型中每个资源分类模块的模块参数进行调整，直到符合预设条件时，得到资源分类模型。

在一种可能实现方式中，对应于步骤202所示的每个资源分类模块对应的权重可以在本次模型训练过程中训练得到，该步骤204中还可以包括以下步骤：计算机设备根据该准确度，对该初始模型中每个资源分类模块对应的权重进行调整，直到符合预设条件时，得到资源分类模型。

需要说明的是，计算机设备在执行上述步骤202时均为一次迭代过程，在每次迭代过程后，该计算机设备可以执行步骤203和步骤204，对训练的初始模型模型中的参数进行调整，直到符合预设条件时，资源分类模型训练完成。其中，该初始模型中的参数可以包括上述每个资源分类模块的模块参数，也可以包括每个资源分类模块的权重，当然，还可以包括该初始模型中的特征提取时所需的参数等，本发明实施例对此不作限定。

在一种可能实现方式中，该预设条件可以为准确度收敛，也可以为迭代次数达到目标次数，也即是上述每次迭代过程后对参数进行调整，直到某次迭代后准确度收敛，或者某次迭代后迭代次数达到目标次数时，资源分类模型训练完成。其中，该准确度收敛可以通过梯度下降算法确定，也可以通过其他方式确定，本发明实施例对此不作限定。当然，该预设条件还可以为其他预设条件，需要说明的是，该预设条件可以由相关技术人员预先设置，本发明实施例对此不作限定。

在一种可能实现方式中，多媒体资源的属性信息不同时，不同的分类算法对该多媒体资源的分类能力也不同，可能有一些分类算法对某种属性信息的多媒体资源进行分类得到的分类结果的准确性很差，则如果将这种分类算法的分类结果综合到最终分类结果中可能会影响到最终分类结果的准确性，因此还可以提供一种设置，在上述模型训练过程中，训练得到多媒体资源的属性信息与资源分类模块的对应关系，并在资源分类过程中根据属性信息，应用相应的资源分类模块进行分类。例如，该属性信息可以为格式、资源类型、资源大小等，本发明实施例对此不作限定。

具体地，对于每个样本多媒体资源，可以根据该样本多媒体资源的属性信息，由该初始模型中的至少一个目标资源分类模块对该样本多媒体资源进行分类。则除了上述步骤203和204基于第二分类结果的准确性，对模型中的参数进行调整时，还可以执行：计算机设备基于该第二分类结果和该多个第一分类结果，获取每个第一分类结果的准确性；计算机设备基于多个第一分类结果的准确性，对属性信息和资源分类模块之间的对应关系进行调整，直到符合预设条件时，得到属性信息和资源分类模块之间的对应关系。

在一个具体的可能实施例中，还可以通过测试样本对上述训练得到的资源分类模型进行测试，如果准确度符合预设条件，则可以确定训练得到的资源分类模型可以作为后续使用的成品，否则，则可以继续采集更多样的样本数据对动作获取模型进行训练，本发明实施例在此不多做赘述。

本发明实施例通过样本多媒体资源训练初始模型，训练过程中该初始模型中的每个资源分类模块均可以对样本多媒体资源进行分类得到第一分类结果，该初始模型再综合多个第一分类结果，输出第二分类结果，从而可以根据第二分类结果与样本多媒体资源携带的真实分类结果进行比较，对初始模型中每个资源分类模块的模块参数进行调整，使得多次调整后得到的资源分类模型对多媒体资源进行分类的分类能力更高，上述多个资源分类模块的模块参数可以根据模型输出结果一起进行调整，而不是单独训练多个资源分类模型，可以提高该多个资源分类模块组合进行资源分类时的准确性，也提高了模型训练效率。

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

图3是本发明实施例提供的一种多媒体资源分类方法流程图，该多媒体资源分类方法可以应用于计算机设备，该计算机设备可以为上述计算机设备101，该计算机设备可以提供资源分类服务，具体地，参见图3，该方法可以包括以下步骤：

301、计算机设备根据资源分类指令，获取待分类的多媒体资源。

该资源分类指令可以由资源分类操作触发，在计算机设备检测到资源分类操作时，可以获取该资源分类操作触发的资源分类指令，当然，该计算机设备也可以接收其他计算机设备发送的资源分类指令，该其他计算机设备可以向该计算机设备发送资源分类请求，该资源分类请求中携带有该资源分类指令，当然，该资源分类请求中还可以携带有待分类的多媒体资源，则计算机设备可以根据资源分类指令，获取待分类的多媒体资源，本发明实施例对该资源分类指令的具体获取方式和该待分类的多媒体资源的获取方式不作限定。

例如，该计算机设备可以接收其它计算机设备发送的多媒体资源，也可以从多媒体数据库中获取多媒体资源，并执行下述步骤调用资源分类模型，通过该资源分类模型自动对多媒体资源进行分类，从而实现多媒体智能化，无需人工对多媒体资源进行筛查，从而提高了多媒体资源的分类效率和准确性。当然，该多媒体资源分类方法可以应用于视频类别识别、视频内容审核、音视频自动化推荐等方面，当然，还可以应用于其他方面，例如，图像或视频资源数据库更新和维护等，本发明实施例对该多媒体资源分类方法的应用范围不作限定。

302、计算机设备调用资源分类模型。

其中，与上述步骤202中内容同理，该资源分类模型包括多个资源分类模块，每个资源分类模块对应于一种多媒体资源的分类算法，该分类算法是指对多媒体资源进行分类，确定该多媒体资源与多个类型的符合程度的算法。

该计算机设备中可以存储有预先训练好的资源分类模型，在一种可能实现方式中，该计算机设备即为图2所示的计算机设备，也即是该计算机设备上存储的资源分类模型即为在该计算机设备上训练得到的。在另一种可能实现方式中，该计算机设备不是图2所示的计算机设备，也即是可以在其他计算机设备上训练得到资源分类模型，该计算机设备可以从其他计算机设备上获取该训练好的资源分类模型。当然，该计算机设备上也可以没有存储有资源分类模型，在该计算机设备获取到待分类的多媒体资源，需要对多媒体资源进行分类时，可以实时调用资源分类模型，本发明实施例对此不作限定。

需要说明的是，上述步骤301和步骤302并没有时序上的限定，计算机设备可以先执行步骤301，再执行步骤302，也可以先执行步骤302，再执行步骤301，当然，也可以同时执行步骤301和步骤302，本发明实施例对此不作限定。

303、计算机设备将该多媒体资源输入该资源分类模型中，由该资源分类模型获取该多媒体资源的特征，将该特征输入每个资源分类模块中。

与步骤202中的内容同理，计算机设备可以将多媒体资源输入资源分类模型中，由资源分类模型对多媒体资源进行特征提取，得到该多媒体资源的特征后，可以将该特征输入每个资源分类模块中，以便于每个资源分类模块基于该特征进行分类，不同的是，该资源分类模型为训练完成的模型，而不是初始模型。具体地，该步骤303中计算机设备获取多媒体资源的特征的过程与上述步骤202中的特征提取过程同理，本发明实施例在此不作过多赘述。

与上述步骤202中的内容同理，多媒体资源的格式不同，该资源分类模型获取多媒体资源的特征的过程可以不同。在一种可能实现方式中，当该多媒体资源的格式为目标格式时，计算机设备获取该多媒体资源包括的第一资源和第二资源，该第一资源是指图像资源，该第二资源是指音频资源；计算机设备分别对该第一资源和该第二资源进行特征提取，得到第一特征和第二特征；计算机设备分别将该第一特征和该第二特征输入该每个资源分类模块中。上述特征提取过程均与步骤202中内容同理，本发明实施例在此不多做赘述。

例如，该多媒体资源为视频资源，该视频资源的格式为MP4，计算机设备检测到该视频资源的格式为目标格式，则可以分别获取该视频资源的图像帧和音频帧，然后分别通过Inception-V4模型和VGGish模型对第一资源和第二资源进行特征提取，例如，可以采用一定的采样频率获得该视频资源的图像特征和音频特征，例如，采样频率为1帧每秒，则对于N帧的视频资源，得到了N帧的图像特征和N帧的音频特征，本发明实施例对该采样频率的具体取值不作限定。

304、对于每个资源分类模块，计算机设备根据模块参数和该特征，分别获取该多媒体资源与每个类型的符合程度，得到该资源分类模块对应的第一分类结果。

其中，每个资源分类模块对应的第一分类结果包括该多媒体资源与每个类型的符合程度。该步骤304和上述步骤202中的内容同理，每个资源分类模块可以分别基于输入的特征进行分类，得到对应的第一分类结果。

在一种可能实现方式中，与上述步骤202中的内容同理地，计算机设备可以获取该特征的特征描述信息，再根据该特征描述信息和模块参数，分别获取该多媒体资源与每个类型的符合程度，得到该资源分类模块对应的第一分类结果。

不同的资源分类模块中得到的特征描述信息可以有不同的形式，与上述步骤202中的示例三同理地，在一种可能实现方式中，计算机设备获取特征描述信息的过程可以为：计算机设备对该特征进行聚类，得到该特征中的多个聚类集合，该聚类集合用于表示该特征中具有相似性的局部特征；计算机设备基于该多个聚类集合之间的关系、该特征以及该多个聚类集合，获取该特征的特征描述信息。

具体地，该计算机设备可以采用上述步骤202中示例三所示的方法，通过相应公式，获取得到该多媒体资源的特征的特征描述信息，再基于该特征描述信息，确定该多媒体资源与每个类型的符合程度，该符合程度具体可以表现为目标概率，该目标概率是指该多媒体资源为目标类型的概率。例如，共有3个类型，资源分类模块1得到的第一分类结果可以为[0.1,0.9,0.7],也即是认为该多媒体资源是第一类的概率为0.1，是第二类的概率为0.9，是第三类的概率为0.7。需要说明的是，每个资源分类模块对应的多个目标概率的和值可以不为1，也即是资源分类模块分别获取多媒体资源与每个类型的符合程度，当然，在一种可能实现方式中，该多媒体资源分类方法也可以应用于对该多媒体资源的单个类型进行分类的情况，例如，图片中的人物的某个属性：人物是否戴眼镜等，则这种情况下，每个资源分类模块对应的多个目标概率的和值也可以为1，本发明实施例对此不作限定。

该步骤303和304为将该多媒体资源输入该资源分类模型中，由该资源分类模型中的每个资源分类模块分别对该多媒体资源进行分类，得到多个第一分类结果的过程，每个资源分类模块可以独立运行，也即是每个资源分类模块可以并行处理，从而可以减少分类过程所需花费的时间，提高计算效率，从而从整体上提高了多媒体资源的分类效率。

305、计算机设备中的资源分类模型基于多个第一分类结果，获取第二分类结果。

其中，该第二分类结果为该多媒体资源的至少一个类型。该步骤305和上述步骤202中的第二分类结果的获取过程同理，该第二分类结果可以通过采用平均的方法，对多个第一分类结果进行求和平均得到。当然，也可以为每个资源分类模块设置对应的权重，则计算机设备中的资源分类模型可以基于每个资源分类模块对应的权重，对该多个第一分类结果进行加权求和，得到第三分类结果，该第三分类结果包括该多媒体资源与每个类型的符合程度，然后计算机设备获取该第三分类结果中符合程度符合目标条件的类型，得到该多媒体资源的至少一个类型，也即是第二分类结果。

与步骤202中的内容同理地，该目标条件可以由相关技术人员预先设置，该目标条件不同时，该第二分类结果基于第三分类结果的获取过程也可以包括多种情况，具体地，计算机设备获取第二分类结果的过程可以为：计算机设备获取该第三分类结果中符合程度大于符合程度阈值的类型，得到该多媒体资源的至少一个类型；或，计算机设备获取该第三分类结果中最大的目标数量的符合程度对应的类型，得到该多媒体资源的至少一个类型。本发明实施例对该目标条件不作限定。例如，计算机设备通过对多个第一分类结果进行平均求和或加权求和得到第三分类结果，该第三分类结果可以为[0.2,0.3,0.5,0.8,0.9,0.4],如果符合程度阈值为0.6，计算机设备可以获取0.8和0.9对应的类型。如果目标数量为3，计算机设备可以获取0.5、0.8和0.9对应的类型。具体地，该第二分类结果中的类型可以采用类型标识的形式体现，例如，上述示例中每个类型的标识可以为1、2、3、4、5和6。则上述两种情况中，计算机设备可以获取到4和5，或3、4和5。

306、计算机设备中的资源分类模型输出该第二分类结果。

资源分类模型输出该第二分类结果后，计算机设备还可以对该第二分类结果进行显示，或将该第二分类结果与该多媒体资源进行对应存储等，当然，在一种可能实现方式中，如果该计算机设备对第二分类结果进行显示，计算机设备还可以获取第二分类结果中的每个类型标识对应的类型名称，以便于用户理解，本发明实施例对此不作限定。

该步骤305和步骤306为基于该多个第一分类结果输出第二分类结果的过程，该第二分类结果基于资源分类模型中的每个资源分类模块对应的第一分类结果得到，相较于单个分类模型的分类方法，综合了多个资源分类模块的表述能力和分类能力，可以有效提高分类结果的准确性。相较于多个单独的分类模型的分类方法，该资源分类模型中多个资源分类模块的模块参数均在训练该资源分类模型的过程中一起训练得到，考虑到了多个资源分类模块组合之后的分类结果的准确性，从而有效提高了多媒体资源的分类准确性。进一步地，该资源分类模型中仅需进行一次特征提取过程，且多个资源分类模块可以并行运行，可以减少分类过程所需花费的时间，可以有效提高分类效率。

在一个具体的可能实施例中，该步骤306之后，如果该计算机设备对该第二分类结果进行显示，还可以提供反馈功能，用户可以反馈该第二分类结果是否准确，并进行反馈操作，则计算机设备检测到该反馈操作时，可以获取到用户反馈信息，该用户反馈信息用于表示该第二分类结果的准确度或该多媒体资源的至少一个真实类型，也即是用户可以选择该第二分类结果是否准确，还可以反馈该多媒体资源的真实类型，从而计算机设备可以基于该用户反馈信息，对该资源分类模型的参数进行调整，从而可以提高该资源分类模型的适用性，也可以满足用户的个性化需求。

在一直可能实现方式中，多媒体资源的属性信息不同时，不同的分类算法对该多媒体资源的分类能力也不同，可能有一些分类算法对某种属性信息的多媒体资源进行分类得到的分类结果的准确性很差，则如果将这种分类算法的分类结果综合到最终分类结果中可能会影响到最终分类结果的准确性，则上述步骤303和步骤304的第一分类结果获取步骤还可以为：计算机设备将该多媒体资源输入该资源分类模型中，根据该多媒体资源的属性信息，由该资源分类模型中的至少一个目标资源分类模块对该多媒体资源进行分类，得到至少一个第一分类结果，该目标资源分类模块为该属性信息对应的资源分类模块。

相应地，计算机设备中的资源分类模型在获取到该多媒体资源的特征后，可以将该特征输入各个目标资源分类模块中，而无需输入每个资源分类模块，从而可以有效提高分类效率和分类准确性。

需要说明的是，该属性信息和资源分类模块的对应关系可以在上述图2所示实施例中的模型训练过程中训练得到，本发明实施例在此不做过多赘述。这样通过适用于对这种多媒体资源的资源分类模块进行分类，提高了第一分类结果的准确性，从而可以提高综合第一分类结果的第二分类结果的准确性。

图4是本发明实施例提供的一种资源分类模型的框架图，需要说明的是，该图4所示实施例仅为一种示例说明，本发明实施例不对该资源分类模型中各步骤采用的算法进行限定。参见图4，以多媒体资源为视频资源为例，上述多媒体资源分类方法的具体流程可以为：计算机设备将获取到的视频资源输入资源分类模型中，该视频资源的格式可以MP4、avi或mkv等，该资源分类模型中可以包括特征提取部分、视频独立建模部分和多模型结果融合部分。对于输入的视频，资源分类模型可以对视频资源进行特征提取，具体地，可以对视频帧解码获取得到视频帧，该视频帧也即是指图像帧，对音轨解码获取得到音频帧，然后利用Inception-V4等神经网络进行视频帧特征提取，利用VGGish等神经网络进行音频特征提取，也即对应于上述步骤303中的内容，获取到特征后，可以将特征输入该视频独立建模部分的多个模型中，例如，该多个模型可以是模型1、模型2、…、模型N-1和模型N，该多个模型即是指资源分类模型中的多个资源分类模块，该多个模型可以对特征进行计算，并输出分类结果，也即是上述步骤304，该多个模型输出结果后，可以对多模型结果进行融合，得到多类别视频分类结果，也即是上述步骤305和步骤306，得到该多媒体资源的至少一个类型。

图5是本发明实施例提供的一种多媒体资源分类装置的结构示意图，参见图5，该装置包括：

获取模块501，用于根据资源分类指令，获取待分类的多媒体资源；

调用模块502，用于调用资源分类模型，该资源分类模型包括多个资源分类模块，每个资源分类模块对应于一种多媒体资源的分类算法；

输入输出模块503，用于将该多媒体资源输入该资源分类模型中，由该资源分类模型中的每个资源分类模块分别对该多媒体资源进行分类，得到多个第一分类结果，基于该多个第一分类结果输出第二分类结果，该第二分类结果为该多媒体资源的至少一个类型。

在一种可能实现方式中，该输入输出模块503包括：

获取单元，用于获取该多媒体资源的特征，将该特征输入每个资源分类模块中；

该获取单元，还用于对于每个资源分类模块，根据模块参数和该特征，分别获取该多媒体资源与每个类型的符合程度，得到该资源分类模块对应的第一分类结果。

在一种可能实现方式中，该获取单元用于：

当该多媒体资源的格式为目标格式时，获取该多媒体资源包括的第一资源和第二资源，该第一资源是指图像资源，该第二资源是指音频资源；

分别对该第一资源和该第二资源进行特征提取，得到第一特征和第二特征；

分别将该第一特征和该第二特征输入该每个资源分类模块中。

在一种可能实现方式中，该获取单元用于：

获取该特征的特征描述信息；

根据该特征描述信息和模块参数，分别获取该多媒体资源与每个类型的符合程度，得到该资源分类模块对应的第一分类结果。

在一种可能实现方式中，该获取单元用于：

对该特征进行聚类，得到该特征的多个聚类集合，该聚类集合用于表示该特征中具有相似性的局部特征；

基于该多个聚类集合之间的关系、该特征以及该多个聚类集合，获取该特征的特征描述信息。

在一种可能实现方式中，该输入输出模块503用于：

基于每个资源分类模块对应的权重，对该多个第一分类结果进行加权求和，得到第三分类结果，该第三分类结果包括该多媒体资源与每个类型的符合程度；

获取该第三分类结果中符合程度符合目标条件的类型，得到该多媒体资源的至少一个类型。

在一种可能实现方式中，该输入输出模块503用于：

获取该第三分类结果中符合程度大于符合程度阈值的类型，得到该多媒体资源的至少一个类型；或，

获取该第三分类结果中最大的目标数量的符合程度对应的类型，得到该多媒体资源的至少一个类型。

在一种可能实现方式中，该输入输出模块503还用于根据该多媒体资源的属性信息，由该资源分类模型中的至少一个目标资源分类模块对该多媒体资源进行分类，得到至少一个第一分类结果，该目标资源分类模块为该属性信息对应的资源分类模块。

在一种可能实现方式中，该获取模块501还用于获取用户反馈信息，该用户反馈信息用于表示该第二分类结果的准确度或该多媒体资源的至少一个真实类型；

该装置还包括：

第一调整模块，用于基于该用户反馈信息，对该资源分类模型的参数进行调整。

在一种可能实现方式中，该获取模块501还用于获取多个样本多媒体资源，每个样本多媒体资源携带有该样本多媒体资源的至少一个类型；

该输入输出模块503还用于调用初始模型，将该多个样本多媒体资源输入该初始模型中，对于每个样本多媒体资源，由该初始模型中的多个资源分类模块中每个资源分类模块根据模块参数，分别对该样本多媒体资源进行分类，得到多个第一分类结果，基于该多个第一分类结果输出第二分类结果；

该获取模块501还用于基于该第二分类结果和该样本多媒体资源的至少一个类型，得到该第二分类结果的准确度；

该装置还包括：

第二调整模块，用于根据该准确度，对该初始模型中每个资源分类模块的模块参数进行调整，直到符合预设条件时，得到资源分类模型。

在一种可能实现方式中，该获取模块501还用于基于每个资源分类模块对应的权重和第一分类结果，得到第二分类结果；

相应地，该第二调整模块还用于根根据该准确度，对该初始模型中每个资源分类模块对应的权重进行调整，直到符合预设条件时，得到资源分类模型。

在一种可能实现方式中，该输入输出模块503还用于对于每个样本多媒体资源，根据该样本多媒体资源的属性信息，由该初始模型中的至少一个目标资源分类模块对该样本多媒体资源进行分类；

相应地，该获取模块501还用于基于该第二分类结果和该多个第一分类结果，获取每个第一分类结果的准确性；

该第二调整模块还用于基于该多个第一分类结果的准确性，对属性信息和资源分类模块之间的对应关系进行调整，直到符合预设条件时，得到属性信息和资源分类模块之间的对应关系。

需要说明的是：上述实施例提供的多媒体资源分类装置在对多媒体资源进行分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将计算机设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的多媒体资源分类装置与多媒体资源分类方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述计算机设备可以被提供为下述图6所示的终端，也可以被提供为下述图7所示的服务器：

图6是本发明实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本发明中方法实施例提供的资源分类模型训练方法或多媒体资源分类方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。每个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏605用于显示UI(UserInterface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的每个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述每个方法实施例提供的资源分类模型训练方法或多媒体资源分类方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的资源分类模型训练方法或多媒体资源分类方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多媒体资源分类方法，其特征在于，所述方法包括：

根据资源分类指令，获取待分类的多媒体资源；

2.根据权利要求1所述的方法，其特征在于，所述多个第一分类结果的获取过程包括：

获取所述多媒体资源的特征，将所述特征输入每个资源分类模块中；

对于每个资源分类模块，根据模块参数和所述特征，分别获取所述多媒体资源与每个类型的符合程度，得到所述资源分类模块对应的第一分类结果。

3.根据权利要求2所述的方法，其特征在于，所述获取所述多媒体资源的特征，将所述特征输入每个资源分类模块中，包括：

当所述多媒体资源的格式为目标格式时，获取所述多媒体资源包括的第一资源和第二资源，所述第一资源是指图像资源，所述第二资源是指音频资源；

分别对所述第一资源和所述第二资源进行特征提取，得到第一特征和第二特征；

分别将所述第一特征和所述第二特征输入所述每个资源分类模块中。

4.根据权利要求2所述的方法，其特征在于，所述根据模块参数和所述特征，分别获取所述多媒体资源与每个类型的符合程度，得到所述资源分类模块对应的第一分类结果，包括：

获取所述特征的特征描述信息；

根据所述特征描述信息和模块参数，分别获取所述多媒体资源与每个类型的符合程度，得到所述资源分类模块对应的第一分类结果。

5.根据权利要求4所述的方法，其特征在于，所述获取所述特征的特征描述信息，包括：

对所述特征进行聚类，得到所述特征的多个聚类集合，所述聚类集合用于表示所述特征中具有相似性的局部特征；

基于所述多个聚类集合之间的关系、所述特征以及所述多个聚类集合，获取所述特征的特征描述信息。

6.根据权利要求1所述的方法，其特征在于，所述第二分类结果的获取过程包括：

基于每个资源分类模块对应的权重，对所述多个第一分类结果进行加权求和，得到第三分类结果，所述第三分类结果包括所述多媒体资源与每个类型的符合程度；

获取所述第三分类结果中符合程度符合目标条件的类型，得到所述多媒体资源的至少一个类型。

7.根据权利要求6所述的方法，其特征在于，所述获取所述第三分类结果中符合程度符合目标条件的类型，得到所述多媒体资源的至少一个类型，包括：

获取所述第三分类结果中符合程度大于符合程度阈值的类型，得到所述多媒体资源的至少一个类型；或，

获取所述第三分类结果中最大的目标数量的符合程度对应的类型，得到所述多媒体资源的至少一个类型。

8.根据权利要求1所述的方法，其特征在于，所述将所述多媒体资源输入所述资源分类模型中之后，所述方法还包括：

根据所述多媒体资源的属性信息，由所述资源分类模型中的至少一个目标资源分类模块对所述多媒体资源进行分类，得到至少一个第一分类结果，所述目标资源分类模块为所述属性信息对应的资源分类模块。

9.根据权利要求1所述的方法，其特征在于，所述基于所述多个第一分类结果输出第二分类结果之后，所述方法还包括：

获取用户反馈信息，所述用户反馈信息用于表示所述第二分类结果的准确度或所述多媒体资源的至少一个真实类型；

基于所述用户反馈信息，对所述资源分类模型的参数进行调整。

10.根据权利要求1所述的方法，其特征在于，所述资源分类模型的训练过程包括：

获取多个样本多媒体资源，每个样本多媒体资源携带有所述样本多媒体资源的至少一个类型；

调用初始模型，将所述多个样本多媒体资源输入所述初始模型中，对于每个样本多媒体资源，由所述初始模型中的多个资源分类模块中每个资源分类模块根据模块参数，分别对所述样本多媒体资源进行分类，得到多个第一分类结果，基于所述多个第一分类结果输出第二分类结果；

基于所述第二分类结果和所述样本多媒体资源的至少一个类型，得到所述第二分类结果的准确度；

根据所述准确度，对所述初始模型中每个资源分类模块的模块参数进行调整，直到符合预设条件时，得到资源分类模型。

11.根据权利要求10所述的方法，其特征在于，所述第二分类结果的获取过程包括：

基于每个资源分类模块对应的权重和第一分类结果，得到第二分类结果；

相应地，所述方法还包括：

根据所述准确度，对所述初始模型中每个资源分类模块对应的权重进行调整，直到符合预设条件时，得到资源分类模型。

12.根据权利要求10所述的方法，其特征在于，所述将所述多个样本多媒体资源输入所述初始模型中之后，所述方法还包括：

对于每个样本多媒体资源，根据所述样本多媒体资源的属性信息，由所述初始模型中的至少一个目标资源分类模块对所述样本多媒体资源进行分类；

相应地，所述方法还包括：

基于所述第二分类结果和所述多个第一分类结果，获取每个第一分类结果的准确性；

基于所述多个第一分类结果的准确性，对属性信息和资源分类模块之间的对应关系进行调整，直到符合预设条件时，得到属性信息和资源分类模块之间的对应关系。

13.一种多媒体资源分类装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如权利要求1至权利要求12任一项所述的多媒体资源分类方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述指令由处理器加载并执行以实现如权利要求1至权利要求12任一项所述的多媒体资源分类方法所执行的操作。