CN114254138A

CN114254138A - 多媒体资源分类方法、装置、电子设备和存储介质

Info

Publication number: CN114254138A
Application number: CN202111528642.5A
Authority: CN
Inventors: 储昭斌; 张龙; 仉乾隆; 吕昕
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-29

Abstract

本发明提供一种多媒体资源分类方法、装置、电子设备和存储介质，所述方法包括：确定待分类的多媒体资源中的图像，以及多媒体资源中的展示文本和/或语音文本；语音文本是对多媒体资源中的音频进行语音识别后得到的；基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果。本发明提供的多媒体资源分类方法、装置、电子设备和存储介质，能够进一步提高多媒体资源分类的精度。

Description

多媒体资源分类方法、装置、电子设备和存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种多媒体资源分类方法、装置、电子设备和存储介质。

背景技术

随着计算机技术的发展，可以通过计算机设备对多媒体资源进行分类，确定多媒体资源的类型，并根据该多媒体资源的类型为用户提供多媒体服务，例如：通过分类，用户可以快速查找到感兴趣的类型的多媒体资源，或者为用户推荐某种类型的多媒体资源，或者筛除不符合规定的多媒体资源。

目前，多通过将多媒体资源输入至图像识别模型，由图像识别模型对多媒体资源中的图像进行识别，得到多媒体资源的类别。然而，该方法仅适用于由单一图像格式数据构成的多媒体资源，对于由多个不同格式数据构成的多媒体资源的分类精度较低。

发明内容

本发明提供一种多媒体资源分类方法、装置、电子设备和存储介质，用以解决现有技术中多媒体资源分类精度较低的缺陷。

本发明提供一种多媒体资源分类方法，包括：

确定待分类的多媒体资源中的图像，以及所述多媒体资源中的展示文本和/或语音文本；所述语音文本是对所述多媒体资源中的音频进行语音识别后得到的；

基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果。

根据本发明提供的一种多媒体资源分类方法，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，包括：

对所述图像进行图像特征提取，得到图像特征；

对所述展示文本和/或所述语音文本进行文本特征提取，得到展示文本特征和/或语音文本特征；

对所述图像特征，以及所述展示文本特征和/或所述语音文本特征进行融合，得到融合特征，并基于所述融合特征确定所述多媒体资源的分类结果。

根据本发明提供的一种多媒体资源分类方法，所述对所述图像进行图像特征提取，得到图像特征，包括：

对字节流格式的图像进行解码，得到解码图像；

对所述解码图像进行图像特征提取，得到所述图像特征。

将所述图像，以及所述展示文本和/或所述语音文本输入至多媒体资源分类模型，得到所述多媒体资源分类模型输出的所述多媒体资源的分类结果；

其中，所述多媒体资源分类模型是基于样本多媒体资源及其对应的样本多媒体资源分类标签训练得到的；所述样本多媒体资源包括样本图像，以及样本展示文本和/或样本语音文本。

根据本发明提供的一种多媒体资源分类方法，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，之后还包括：

确定所述多媒体资源的分类结果中属于各类别的概率；

获取最高概率与次高概率之间的差值，并在所述差值小于阈值时，将所述最高概率与所述次高概率对应的类别作为模糊分类结果；

基于所述模糊分类结果的校正结果，以及所述多媒体资源，更新所述多媒体资源分类模型。

确定所述多媒体资源的分类结果中属于各类别的概率；

获取最高概率与次高概率之间的差值，并在所述差值大于等于阈值时，将最高概率对应的类别作为所述多媒体资源的类别。

基于所述待分类多媒体资源的标识信息，在分类结果数据库中进行查询；

在所述分类结果数据库中不存在所述标识信息对应的分类结果的情况下，基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，并将所述多媒体资源的分类结果存储至所述分类结果数据库。

本发明还提供一种多媒体资源分类装置，包括：

确定单元，用于确定待分类的多媒体资源中的图像，以及所述多媒体资源中的展示文本和/或语音文本；所述语音文本是对所述多媒体资源中的音频进行语音识别后得到的；

分类单元，用于基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述多媒体资源分类方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述多媒体资源分类方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述多媒体资源分类方法的步骤。

本发明提供的多媒体资源分类方法、装置、电子设备和存储介质，基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果，从而可以避免传统方法中仅依赖于图像识别模型对多媒体资源进行分类导致遗漏展示文本和/或语音文本中的信息，进而造成错误分类的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的多媒体资源分类方法的流程示意图；

图2是本发明提供的多媒体资源分类方法中步骤120的实施方式的流程示意图之一；

图3是本发明提供的多媒体资源分类方法中步骤121的实施方式的流程示意图；

图4是本发明提供的图像特征获取方法的流程示意图；

图5是本发明提供的基于多媒体资源分类模型获取分类结果的流程示意图；

图6是本发明提供的多媒体资源分类模型更新方法的流程示意图之一；

图7是本发明提供的多媒体资源分类模型更新方法的流程示意图之二；

图8是本发明提供的多媒体资源的类别确定方法的流程示意图；

图9是本发明提供的多媒体资源分类方法中步骤120的实施方式的流程示意图之二；

图10是本发明提供的广告物料数据分类方法的流程示意图；

图11是本发明提供的多媒体资源分类装置的结构示意图

图12是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

目前，在对多媒体资源进行分类时，多通过将多媒体资源输入至图像识别模型，由图像识别模型对多媒体资源中的图像进行识别，得到多媒体资源的类别。然而，该方法仅适用于由单一图像格式数据构成的多媒体资源，对于由多个不同格式数据构成的多媒体资源的分类精度较低。

例如，在对多媒体资源中的广告物料数据进行分类时，可以根据分类结果检测广告物料数据中是否存在违规内容。然而，广告物料数据中不仅包含图像格式数据，还可能包含文本格式数据和/或音频格式数据，若违规内容存在于文本格式数据和/或音频格式数据，则通过传统的图像识别模型仅能根据广告物料数据中的图像格式数据进行分类识别，但忽略了文本格式数据和/或音频格式数据中的违规内容，进而造成漏检和误检的问题。

对此，本发明提供一种多媒体资源分类方法。待分类的多媒体资源即需要进行分类的多媒体资源，多媒体资源可以理解为网络及其它传媒资源，包括视频、广告、网页等，其中，视频中可能包含图像和音频，广告中可能包含图像、展示文本和音频，网页中包含图像和展示文本。由此可见，多媒体资源中可能包含图像、文本以及音频中的一种或多种数据。

图1是本发明提供的多媒体资源分类方法的流程示意图，如图1所示，该方法可以应用于广告物料数据的分类，如基于分类结果对确定广告物料数据中是否存在违规内容，也可以应用于其它多媒体资源的分类，如对电子相册中的图像进行分类等，为便于解释说明，以下实施例以广告物料数据作为多媒体资源为例进行说明，该方法包括如下步骤：

步骤110、确定待分类的多媒体资源中的图像，以及多媒体资源中的展示文本和/或语音文本；语音文本是对多媒体资源中的音频进行语音识别后得到的。

可选地，在广告物料数据包含图像和展示文本时，可以对广告物料数据进行图像提取和文本提取，从而可以得到广告物料数据中的图像以及展示文本。

可选地，在广告物料数据包含图像和音频时，可以对广告物料数据进行图像提取和语音提取，从而可以得到广告物料数据中的图像以及音频，并对音频进行语音识别，得到语音文本。

可选地，在广告物料数据包含图像、展示文本和音频时，可以对广告物料数据进行图像提取、文本提取和语音提取，从而可以得到广告物料数据中的图像、展示文本和音频，并对音频进行语音识别，得到语音文本。

步骤120、基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果。

具体地，广告物料数据的违规内容可能存在于图像，可能存在于展示文本，也可能存在于语音文本。若按照传统方法中仅依赖于图像识别模型对广告物料数据进行分类，则只能识别图像中是否存在违规内容，而无法确定展示文本和/或语音文本中是否存在违规内容，进而容易造成漏检或误检。

因此，本发明实施例基于图像，以及展示文本和/或语音文本，对广告物料数据进行分类，分类结果可以是广告物料数据对应各类别的概率，也可以是广告物料数据是否存在违规内容，本发明实施例对此不作具体限定。

例如，在广告物料数据中包含图像和展示文本时，可以提取图像特征和展示文本特征，并基于图像特征和展示文本特征进行识别，确定分类结果。在广告物料数据中包含图像和语音文本时，可以提取图像特征和语音文本特征，并基于图像特征和语音文本特征，确定分类结果。在广告物料数据中包含图像、展示文本和语音文本时，可以提取图像特征、展示文本特征和语音文本特征，并基于图像特征、展示文本特征和语音文本特征进行识别，确定分类结果。

相较于传统方法中仅依赖于图像识别模型对多媒体资源进行分类，本发明实施例结合图像以及展示文本和/或语音文本中的信息对广告物料数据进行分类，从而可以避免传统方法中遗漏展示文本和/或语音文本中的信息，进而造成错误分类的问题。

需要说明的是，在广告物料数据中包含图像、展示文本和语音文本时，可以从广告物料数据中提取图像特征，展示文本特征和语音文本特征，并基于三者的融合特征确定广告物料数据的分类结果。也可以基于图像特征，展示文本特征和语音文本特征分别确定一个分类结果，并将最大概率对应的分类结果作为最终的分类结果，若是对广告物料数据中是否存在违规内容进行检测，则在任一分类结果为存在违规内容时，确定最终的分类结果为该广告物料数据为不合规的广告。

本发明实施例提供的多媒体资源分类方法，基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果，从而可以避免传统方法中仅依赖于图像识别模型对多媒体资源进行分类导致遗漏展示文本和/或语音文本中的信息，进而造成错误分类的问题。

基于上述任一实施例，图2是本发明提供的多媒体资源分类方法中步骤120的实施方式的流程示意图之一，如图2所示，步骤120包括：

步骤121a、对图像进行图像特征提取，得到图像特征；

步骤122a、对展示文本和/或语音文本进行文本特征提取，得到展示文本特征和/或语音文本特征；

步骤123a、对图像特征，以及展示文本特征和/或语音文本特征进行融合，得到融合特征，并基于融合特征确定多媒体资源的分类结果。

具体地，图像特征包含有广告物料数据的图像信息，用于识别广告物料数据的图像中是否存在违规内容，图像特征可以采用向量形式表示，其可以通过图像向量模型提取得到。展示文本特征包含有广告物料数据的展示文本信息，用于识别广告物料数据的展示文本中是否存在违规内容，展示文本特征可以采用向量形式表示，其可以通过语言表示模型(Bidirectional Encoder Representations from Transformers，BERT)提取得到，由于BERT模型可以在语义理解的基础上提取得到展示文本特征，从而展示文本特征中包含有展示文本的上下文信息，进而能够准确基于该上下文信息确定展示文本中是否存在违规内容。语音文本特征包含有广告物料数据的语音文本信息，用于识别广告物料数据的语音文本中是否存在违规内容，语音文本特征可以采用向量形式表示，其可以通过BERT模型提取得到，由于BERT模型可以在语义理解的基础上提取得到语音文本特征，从而语音文本特征中包含有语音文本的上下文信息，进而能够准确基于该上下文信息确定展示文本中是否存在违规内容。

可选地，在得到图像特征，以及展示文本特征后，可以对图像特征，以及展示文本特征进行融合，得到包含有图像信息和展示文本信息的融合特征，进而基于融合特征可以确定分类结果，即确定图像和展示文本中是否存在违规内容。

可选地，在得到图像特征，以及语音文本特征后，可以对图像特征，以及语音文本特征进行融合，得到包含有图像信息和语音文本信息的融合特征，进而基于融合特征可以确定分类结果，即确定图像和语音文本中是否存在违规内容。

可选地，在得到图像特征，展示文本特征以及语音文本特征后，可以对图像特征，展示文本特征以及语音文本特征进行融合，得到包含有图像信息，展示文本信息和语音文本信息的融合特征，进而基于融合特征可以确定分类结果，即确定图像，展示文本和语音文本中是否存在违规内容。

需要说明的是，在广告物料数据中不存在展示文本和/或语音文本时，若采用对图像特征，展示文本特征和语音文本特征进行融合的方案，则可以将对应的展示文本和/或语音文本进行补0操作。例如，在广告物料数据中不存在展示文本时，则可以对展示文本进行补0操作，然后得到对应的展示文本特征，并对图像特征，展示文本特征和语音文本特征进行融合，得到融合特征，从而可以基于融合特征确定分类结果。

由此可见，由于融合特征包含有图像信息，以及展示文本信息和/或语音文本信息，从而能够基于融合特征准确确定多媒体资源的分类结果，避免传统方法中遗漏展示文本信息和/或语音文本信息造成错误分类的问题。

基于上述任一实施例，图3是本发明提供的多媒体资源分类方法中步骤121的实施方式的流程示意图，如图3所示，步骤121a包括：

步骤121a-1、对字节流格式的图像进行解码，得到解码图像；

步骤121a-2、对解码图像进行图像特征提取，得到图像特征。

具体地，原始图像在进行数据传输时，传输数据量较大，从而影响传输耗时。对此，本发明实施例采用的是字节流格式的图像进行传输，从而可以避免原始图像传输数据量较大影响传输耗时的问题。

在获取字节流格式的图像后，可以对其进行解码，得到包含有原始图像信息的解码图像，然后对解码图像进行特征提取，得到图像特征。可以理解的是，在对解码图像进行图像特征提取之前，可以将解码图像裁剪为预设尺寸，如可以通过resize_with_pad方式对解码图像进行裁剪，从而可以得到统一尺寸的解码图像，便于后续进行特征提取和分类识别。

图4是本发明提供的图像特征获取方法的流程示意图，如图4所示，首先对字节流格式的图像进行解码，得到图像的RGB三通道矩阵，再基于resize_with_pad将图像的RGB三通道矩阵统一为预设尺寸，然后将调整至预设尺寸的图像输入至图像特征提取模型(如ResNet、Inception等深度学习模型)，例如，若图像特征提取模型为ResNet模型，则可以将预设尺寸的图像输入至ResNet模型，可获取到多层卷积后的特征图feature map，再通过将每一个feature map取全局均值，获取得到图像特征。其中，resize_with_pad主要根据图像最长的边等比例缩放到预定的尺寸，对于较短的边等比缩放后如果不满足预定的尺寸，对其进行补0到预定的尺寸。

基于上述任一实施例，步骤120包括：

将图像，以及展示文本和/或语音文本输入至多媒体资源分类模型，得到多媒体资源分类模型输出的多媒体资源的分类结果；

其中，多媒体资源分类模型是基于样本多媒体资源及其对应的样本多媒体资源分类标签训练得到的；样本多媒体资源包括样本图像，以及样本展示文本和/或样本语音文本。

具体地，多媒体资源分类模型可以包括特征提取层、特征融合层和资源分类层。首先，可以将图像，以及展示文本和/或语音文本输入至特征提取层，由特征提取层进行特征提取，得到对应的图像特征，以及展示文本特征和/或语音文本特征。接着，将图像特征，以及展示文本特征和/或语音文本特征输入至特征融合层，由特征融合层进行特征融合，得到包含有图像，以及展示文本和/或语音文本信息的融合特征。然后，将融合特征输入至资源分类层，由资源分类层结合融合特征中的图像，以及展示文本和/或语音文本信息得到资源分类层输出的分类结果。

此外，在将图像，以及展示文本和/或语音文本输入至多媒体资源分类模型之前，可以预先训练得到多媒体资源分类模型，具体可以通过执行如下步骤实现：首先，收集大量样本多媒体资源，通过人工标注确定其对应的样本多媒体资源分类标签。随即，基于样本多媒体资源及其对应的样本多媒体资源分类标签对初始模型进行训练，从而得到多媒体资源分类模型。

图5是本发明提供的基于多媒体资源分类模型获取分类结果的流程示意图，如图5所示，多媒体资源分类模型包括图像提取层、文本提取层、特征融合层和资源分类层。首先，将图像输入至图像提取层，得到图像特征，以及将展示文本和语音文本输入至文本提取层，分别得到展示文本特征和语音文本特征。然后，将图像特征、展示文本特征和语音文本特征输入至特征融合层，得到融合特征，并将融合特征输入至资源分类层，得到分类结果。其中，语音文本可以是将音频输入至语音识别模型(如DeepSpeech2模型)得到的。文本提取层可以是基于BERT模型，或其它具有文本特征提取能力的模型构建得到的。其中，多媒体资源分类模型可以采用半监督方法进行训练，如将未标注的样本多媒体资源添加至训练集中，以提高模型的泛化能力。此外，在对多媒体分类模型进行训练时，可以以余弦退火机制，调整模型训练学习率，经过多轮训练后，当模型不再继续拟合时停止模型训练。

图6是本发明提供的多媒体资源分类模型更新方法的流程示意图之一，如图6所示，多媒体资源分类模型是基于如下步骤进行更新的：

步骤610、在基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果之后，确定多媒体资源的分类结果中属于各类别的概率；

步骤620、获取最高概率与次高概率之间的差值，并在差值小于阈值时，将最高概率与次高概率对应的类别作为模糊分类结果；

步骤630、基于模糊分类结果的校正结果，以及多媒体资源，更新多媒体资源分类模型。

具体地，多媒体资源的分类结果为多媒体资源属于各类别的概率。由于多媒体资源是不断更新的，因此基于历史多媒体资源训练得到的多媒体资源分类模型可能无法准确识别更新后的多媒体资源的类别，即此时需要更新多媒体资源分类模型。

因此，本发明实施例在确定多媒体资源的分类结果中属于各类别的概率后，获取最高概率与次高概率之间的差值，若差值小于阈值，表明最高概率与次高概率较接近，也即多媒体资源对应的类别可能为最高概率对应的类别，也可能为次高概率对应的类别，此时可以将最高概率与次高概率对应的类别作为模糊分类结果，该模糊分类结果需要进一步进行校正，得到最终的分类结果即校正结果，然后以该校正结果作为样本标签，以对应的多媒体资源作为样本，更新多媒体资源分类模型。

图7是本发明提供的多媒体资源分类模型更新方法的流程示意图之二，如图7所示，将广告物料数据输入至多媒体资源分类模型，得到模型输出的分类结果，该分类结果为多媒体资源对应的各类别的概率，若最高概率和次高概率之间的差值小于阈值，则将最高概率和次高概率对应的分类结果作为模糊分类结果，然后通过专家审核校正，得到校正结果，并将校正结果和对应的广告物料数据存放至广告数据池，然后定期根据广告数据池中更新的数据来更新多媒体分类模型。若最高概率与次高概率之差大于等于阈值，则将最高概率对应的类别作为广告物料数据的类别，并根据广告物料数据的类别决定是否投放该广告，若是，则收集投放广告后的投诉数据，并将投诉数据和对应的广告物料数据添加至广告数据池，以使广告数据池定期更新多媒体资源分类模型，从而使得多媒体资源分类模型能够更加准确进行分类。

基于上述任一实施例，图8是本发明提供的多媒体资源的类别确定方法的流程示意图，如图8所示，多媒体资源的类别是基于如下步骤确定的：

步骤810、在基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果之后，确定多媒体资源的分类结果中属于各类别的概率；

步骤820、获取最高概率与次高概率之间的差值，并在差值大于等于阈值时，将最高概率对应的类别作为多媒体资源的类别。

具体地，多媒体资源的分类结果为多媒体资源属于各类别的概率，对应类别的概率越大，表明多媒体资源属于对应类别的可能性越大。然而，若最高概率与次高概率之间的差值较小，如小于阈值，则表明最高概率与次高概率对应的类别均有可能是多媒体资源对应的类别。因此，在最高概率与次高概率之间的差值大于等于阈值时，表明多媒体资源的类别为次高概率对应类别的概率较小，因此可以将最高概率对应的类别作为多媒体资源的类别。

由此可见，本发明实施例在最高概率与次高概率之间的差值大于等于阈值时，将最高概率对应的类别作为多媒体资源的类别，从而可以避免最高概率与次高概率差值较小时造成错误分类的问题。

图9是本发明提供的多媒体资源分类方法中步骤120的实施方式的流程示意图之二，如图9所示，步骤120包括：

步骤121b、基于待分类多媒体资源的标识信息，在分类结果数据库中进行查询；

步骤122b、在分类结果数据库中不存在标识信息对应的分类结果的情况下，基于图像，以及展示文本和/或语音文本，得到多媒体资源的分类结果，并将多媒体资源的分类结果存储至分类结果数据库。

具体地，待分类多媒体资源的标识信息是多媒体资源的唯一性标识，例如对于广告物料数据，其对应的标识信息可以为MD5(Message-Digest Algorithm)。分类结果数据库中存储有多个不同多媒体资源对应的分类结果，根据多媒体资源的标识信息以及对应分类结果之间的映射关系，可以在分类结果数据库中查询是否存在多媒体资源对应的分类结果。

若分类结果数据库中存在多媒体资源对应的分类结果，则可以从分类结果数据库中获取该分类结果，而不需要再基于多媒体资源的图像，以及展示文本和/或语音文本确定分类结果，避免重复对多媒体资源进行分类造成资源浪费的问题。若分类结果数据库中不存在多媒体资源对应的分类结果，则基于多媒体资源的图像，以及展示文本和/或语音文本确定分类结果，并将分类结果存储至分类结果数据库，以及建立该对媒体资源标识信息与该分类结果之间的映射关系，从而可以直接基于该多媒体资源的标识信息快速从分类结果数据库中查询到对应的分类结果。

图10是本发明提供的广告物料数据分类方法的流程示意图，如图10所示，获取待分类的广告物料数据，并计算广告物料数据的唯一性标识MD5，然后基于MD5在分类结果数据库中查询是否存在对应的分类结果，若否，则基于多媒体资源分类模型确定对应分类结果，并将该分类结果添加至分类结果数据库。若是，则直接输出对应的分类结果。其中，分类结果数据库可以是Redis数据库，读取速度可以高达每秒110000次。

基于上述任一实施例，本发明还提供一种多媒体资源分类方法，该方法包括：

获取多媒体资源的标识信息，并基于该标识信息在分类结果数据库中查询，确认是否存在对应的分类结果，若是，则直接输出该分类结果；若否，则分别将多媒体资源的图像输入至多媒体分类模型的图像提取层，得到图像特征，以及将多媒体资源的展示文本和语音文本输入至多媒体分类模型的文本提取层，得到展示文本特征和语音文本特征。其中，语音文本特征是对多媒体资源的音频进行语音识别后得到的。

在得到图像特征、展示文本特征以及语音文本特征后，将三者输入至多媒体资源分类模型的特征融合层，由特征融合层对三者进行融合，得到融合特征，并将融合特征输入至多媒体资源分类模型的资源分类层，得到多媒体资源对应各类别的概率。

在得到多媒体资源对应各类别的概率后，获取最高概率与次高概率之间的差值，若差值大于等于阈值，则将最高概率对应的类别作为多媒体资源的类别，并将多媒体资源的类别存储至分类结果数据库；若差值小于阈值，则将最高概率与次高概率对应的分类结果作为模糊分类结果，并通过专家对模糊分类结果进行校正，得到校正结果，并以校正结果和多媒体资源更新多媒体资源分类模型。

下面对本发明提供的多媒体资源分类装置进行描述，下文描述的多媒体资源分类装置与上文描述的多媒体资源分类方法可相互对应参照。

基于上述任一实施例，图11是本发明提供的多媒体资源分类装置的结构示意图，如图11所示，该装置包括：

确定单元1110，用于确定待分类的多媒体资源中的图像，以及所述多媒体资源中的展示文本和/或语音文本；所述语音文本是对所述多媒体资源中的音频进行语音识别后得到的；

分类单元1120，用于基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果。

基于上述任一实施例，所述分类单元1120，包括：

图像提取单元，用于对所述图像进行图像特征提取，得到图像特征；

文本提取单元，用于对所述展示文本和/或所述语音文本进行文本特征提取，得到展示文本特征和/或语音文本特征；

融合单元，用于对所述图像特征，以及所述展示文本特征和/或所述语音文本特征进行融合，得到融合特征，并基于所述融合特征确定所述多媒体资源的分类结果。

基于上述任一实施例，所述图像提取单元，包括：

解码单元，用于对字节流格式的图像进行解码，得到解码图像；

提取单元，用于对所述解码图像进行图像特征提取，得到所述图像特征。

基于上述任一实施例，所述分类单元1120，用于：

基于上述任一实施例，所述装置还包括：

第一概率确定单元，用于在基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果之后，确定所述多媒体资源的分类结果中属于各类别的概率；

模糊分类单元，用于获取最高概率与次高概率之间的差值，并在所述差值小于阈值时，将所述最高概率与所述次高概率对应的类别作为模糊分类结果；

模型更新单元，用于基于所述模糊分类结果的校正结果，以及所述多媒体资源，更新所述多媒体资源分类模型。

基于上述任一实施例，所述装置还包括：

第二概率确定单元，用于在基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果之后，确定所述多媒体资源的分类结果中属于各类别的概率；

类别确定单元，用于获取最高概率与次高概率之间的差值，并在所述差值大于等于阈值时，将最高概率对应的类别作为所述多媒体资源的类别。

基于上述任一实施例，所述分类单元1120，包括：

查询单元，用于基于所述待分类多媒体资源的标识信息，在分类结果数据库中进行查询；

结果确定单元，用于在所述分类结果数据库中不存在所述标识信息对应的分类结果的情况下，基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，并将所述多媒体资源的分类结果存储至所述分类结果数据库。

图12是本发明提供的电子设备的结构示意图，如图12所示，该电子设备可以包括：处理器(processor)1210、存储器(memory)1220、通信接口(Communications Interface)1230和通信总线1240，其中，处理器1210，存储器1220，通信接口1230通过通信总线1240完成相互间的通信。处理器1210可以调用存储器1220中的逻辑指令，以执行多媒体资源分类方法，该方法包括：确定待分类的多媒体资源中的图像，以及所述多媒体资源中的展示文本和/或语音文本；所述语音文本是对所述多媒体资源中的音频进行语音识别后得到的；基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果。

此外，上述的存储器1220中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的多媒体资源分类方法，该方法包括：确定待分类的多媒体资源中的图像，以及所述多媒体资源中的展示文本和/或语音文本；所述语音文本是对所述多媒体资源中的音频进行语音识别后得到的；基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的多媒体资源分类方法，该方法包括：确定待分类的多媒体资源中的图像，以及所述多媒体资源中的展示文本和/或语音文本；所述语音文本是对所述多媒体资源中的音频进行语音识别后得到的；基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多媒体资源分类方法，其特征在于，包括：

2.根据权利要求1所述的多媒体资源分类方法，其特征在于，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，包括：

对所述图像进行图像特征提取，得到图像特征；

3.根据权利要求2所述的多媒体资源分类方法，其特征在于，所述对所述图像进行图像特征提取，得到图像特征，包括：

对字节流格式的图像进行解码，得到解码图像；

对所述解码图像进行图像特征提取，得到所述图像特征。

4.根据权利要求1至3任一项所述的多媒体资源分类方法，其特征在于，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，包括：

5.根据权利要求4所述的多媒体资源分类方法，其特征在于，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，之后还包括：

确定所述多媒体资源的分类结果中属于各类别的概率；

6.根据权利要求1至3任一项所述的多媒体资源分类方法，其特征在于，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，之后还包括：

确定所述多媒体资源的分类结果中属于各类别的概率；

7.根据权利要求1至3任一项所述的多媒体资源分类方法，其特征在于，所述基于所述图像，以及所述展示文本和/或所述语音文本，得到所述多媒体资源的分类结果，包括：

8.一种多媒体资源分类装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述多媒体资源分类方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述多媒体资源分类方法的步骤。