CN113269279A

CN113269279A - 一种多媒体内容分类方法和相关装置

Info

Publication number: CN113269279A
Application number: CN202110803534.8A
Authority: CN
Inventors: 黄剑辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-08-17
Anticipated expiration: 2041-07-16
Also published as: CN113269279B

Abstract

本申请实施例公开了一种多媒体内容分类方法和相关装置，涉及人工智能中的自然语言处理和机器学习，获取待分类多媒体内容的、不同模态的第一模态信息和第二模态信息；将其输入分类模型的特征提取子模型，输出第一模态语义特征和第二模态语义特征；将其输入分类模型的第一特征融合子模型，特征融合输出第一融合语义特征。将其输入分类模型的第二特征融合子模型，通过卷积参数进一步对第一融合语义特征进行卷积融合，输出第二融合语义特征；引入卷积参数进行卷积融合，提高特征融合的交互复杂度，使得不同模态语义特征交互性更好；分类模型的分类子模型以第二融合语义特征确定待分类多媒体内容的类别，使得待分类多媒体内容的分类更准确。

Description

一种多媒体内容分类方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种多媒体内容分类方法和相关装置。

背景技术

随着科技的快速发展，在多媒体内容的搜索、推荐等场景中，多媒体内容的分类十分重要。其中，多媒体内容一般包括文本信息、图像信息、语音信息中至少两种模态信息。

目前，通常是以多媒体内容的不同模态信息为输入，在提取不同模态信息对应的不同模态语义特征后，采用特征拼接或哈达玛乘积等方式对不同模态语义特征进行特征融合，得到融合语义特征对多媒体内容进行分类。

但是，上述特征拼接和哈达玛乘积等方式较为简单，导致该方式得到的融合语义特征所表征的不同模态语义特征交互性较差，从而导致该融合语义特征用于分类不够准确。

发明内容

为了解决上述技术问题，本申请提供了一种多媒体内容分类方法和相关装置，能够实现不同模态语义特征的深度特征融合，以有效加强不同模态语义特征进行特征融合的交互，从而提高多媒体内容的分类准确性。

本申请实施例公开了如下技术方案：

一方面，本申请提供一种多媒体内容分类方法，所述方法包括：

获取待分类多媒体内容的第一模态信息和第二模态信息，所述第一模态信息和所述第二模态信息的模态不同；

通过分类模型的特征提取子模型，对所述第一模态信息进行特征提取获得第一模态语义特征，对所述第二模态信息进行特征提取获得第二模态语义特征；

通过所述分类模型的第一特征融合子模型，对所述第一模态语义特征和所述第二模态语义特征进行特征融合，获得第一融合语义特征；

通过所述分类模型的第二特征融合子模型中卷积参数，对所述第一融合语义特征进行卷积融合，获得第二融合语义特征；

通过所述分类模型的分类子模型，基于所述第二融合语义特征确定所述待分类多媒体内容的类别。

另一方面，本申请提供一种多媒体内容分类装置，所述装置包括：获取单元、获得单元和确定单元；

所述获取单元，用于获取待分类多媒体内容的第一模态信息和第二模态信息，所述第一模态信息和所述第二模态信息的模态不同；

所述获得单元，用于通过分类模型的特征提取子模型，对所述第一模态信息进行特征提取获得第一模态语义特征，对所述第二模态信息进行特征提取获得第二模态语义特征；

所述获得单元，还用于通过所述分类模型的第一特征融合子模型，对所述第一模态语义特征和所述第二模态语义特征进行特征融合，获得第一融合语义特征；

所述获得单元，还用于通过所述分类模型的第二特征融合子模型中卷积参数，对所述第一融合语义特征进行卷积融合，获得第二融合语义特征；

所述确定单元，用于通过所述分类模型的分类子模型，基于所述第二融合语义特征确定所述待分类多媒体内容的类别。

另一方面，本申请提供一种用于多媒体内容分类的设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。用于多媒体内容分类的设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该用于多媒体内容分类的设备执行上述方面所述的方法。

由上述技术方案可以看出，首先，获取待分类多媒体内容的、不同模态的第一模态信息和第二模态信息；将第一模态信息和第二模态信息分别输入分类模型的特征提取子模型，输出第一模态语义特征和第二模态语义特征；将第一模态语义特征和第二模态语义特征输入分类模型的第一特征融合子模型，特征融合输出第一融合语义特征。然后，将第一融合语义特征输入分类模型的第二特征融合子模型，通过卷积参数进一步对第一融合语义特征进行卷积融合，输出第二融合语义特征；引入卷积参数进行卷积融合，可以提高特征融合的交互复杂度，使得第二融合语义特征所表征的不同模态语义特征交互性更好；最后，分类模型的分类子模型以第二融合语义特征确定待分类多媒体内容的类别，使得待分类多媒体内容的分类更准确。

基于此，在对不同模态语义特征进行简单的特征融合后，进一步通过卷积参数进行卷积融合的方式，能够实现不同模态语义特征的深度特征融合，以有效加强不同模态语义特征进行特征融合的交互，从而提高多媒体内容的分类准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种多媒体内容分类的整体示意图；

图2为本申请实施例提供的一种相关技术中多媒体内容分类的具体实现示意图；

图3为本申请实施例提供的一种多媒体内容分类方法的应用场景示意图；

图4为本申请实施例提供的一种多媒体内容分类方法的流程图；

图5为本申请实施例提供的一种第二特征融合子模型的架构示意图；

图6为本申请实施例提供的另一种第二特征融合子模型的架构示意图；

图7为本申请实施例提供的一种分类模型训练方法的流程示意图；

图8为本申请实施例提供的一种训练样本的格式示意图；

图9为本申请实施例提供的一种结合本申请中分类模型进行视频分类的具体实现示意图；

图10为本申请实施例提供的一种多媒体内容分类装置的示意图；

图11为本申请实施例提供的一种服务器的结构示意图；

图12为本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

如图1所示的一种多媒体内容分类的整体示意图，待分类视频A输入分类模型，输出待分类视频A的类别为“游戏”。相关技术中，具体实现时，如图2所示的一种相关技术中多媒体内容分类的具体实现示意图，分类模型包括BERT（Bidirectional EncoderRepresentation from Transformers）模型、残差网络（Residual Network，ResNet）模型、特征融合子模型和分类子模型；将待分类视频A的视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”输入BERT模型，输出待分类视频A的文本语义特征；将待分类视频A的视频关键帧信息F_k输入ResNet模型，输出待分类视频A的图像语义特征；将文本语义特征和图像语义特征输入特征融合子模型，采用特征拼接或哈达玛乘积等方式进行特征融合，输出待分类视频A的融合语义特征，将融合语义特征输入分类子模型，确定待分类视频A的类别为“游戏”。

然而，上述融合语义特征所表征的不同模态语义特征交互性较差，从而导致该融合语义特征用于分类不够准确。

基于此，利用分类模型对多媒体内容进行分类时，为了实现不同模态语义特征的深度特征融合，有效加强不同模态语义特征进行特征融合的交互，从而提高多媒体内容的分类准确性，本申请提出一种多媒体内容分类方法和相关装置。

为了便于理解本申请的技术方案，下面结合实际应用场景，对本申请实施例提供的多媒体内容分类方法进行介绍。

参见图3，图3为本申请实施例提供的一种多媒体内容分类方法的应用场景示意图。在图1所示的应用场景中，包括第一终端设备301、服务器302和第二终端设备303，其中，第一终端设备301作为多媒体内容生产者使用的设备，服务器302作为多媒体内容分类设备，第二终端设备303作为多媒体内容消费者使用的设备。

在实际应用中，多媒体内容生产者可以利用第一终端设备301生产多媒体内容并上传给服务器302，多媒体内容消费者可以利用第二终端设备303向服务器302请求类别为X的多媒体内容，在服务器302需要搜索类别为X的多媒体内容；或者，服务器302分析得到第二终端设备303对应的多媒体内容消费者对类别为X的多媒体内容感兴趣，需要推荐类别为X的多媒体内容等情况下，服务器302需要对多媒体内容生产者通过第一终端设备301上传的多媒体内容进行分类。

即，将多媒体内容生产者通过第一终端设备301上传的多媒体内容作为待分类多媒体内容。服务器302获取待分类多媒体内容的、不同模态的第一模态信息和第二模态信息。例如，获取待分类视频A的视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”和视频关键帧信息F_k。

服务器302通过分类模型的特征提取子模型，对第一模态信息进行特征提取获得第一模态语义特征，对第二模态信息进行特征提取获得第二模态语义特征。例如，通过分类模型的特征提取子模型，对视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”进行特征提取，获得待分类视频A的文本语义特征，对视频关键帧信息F_k进行特征提取，获得待分类视频A的图像语义特征。

服务器302通过分类模型的第一特征融合子模型，对第一模态语义特征和第二模态语义特征进行特征融合，获得第一融合语义特征。例如，通过分类模型的第一特征融合子模型，对待分类视频A的文本语义特征和图像语义特征进行特征融合，获得待分类视频A的第一融合语义特征。

服务器302通过分类模型的第二特征融合子模型中卷积参数，对第一融合语义特征进行卷积融合，获得第二融合语义特征。例如，通过分类模型的第二特征融合子模型中卷积参数，对待分类视频A的第一融合语义特征进行卷积融合，获得待分类视频A的第二融合语义特征。

服务器302通过分类模型的分类子模型，基于第二融合语义特征确定待分类多媒体内容的类别。例如，通过分类模型的分类子模型，基于待分类视频A的第二融合语义特征，确定待分类视频A的类别为“游戏”。

可见，在对不同模态语义特征进行简单的特征融合后，进一步通过卷积参数进行卷积融合的方式，能够实现不同模态语义特征的深度特征融合，以有效加强不同模态语义特征进行特征融合的交互，从而提高多媒体内容的分类准确性。

本申请实施例提供的多媒体内容分类方法是基于人工智能实现的，人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等方向。例如，可以涉及自然语言处理(Nature Language processing，NLP)中的文本处理（Text Processing）、语义理解（Semantic Understanding）等技术，也可以涉及计算机视觉技术(Computer Vision，CV)中的图像处理（Image Processing）、图像语义理解（Image Semantic Understanding）、视频处理（Video Processing）、视频语义理解（Video Semantic Understanding）等技术，还可以涉及语音技术(Speech Technology，ST) 中的自动语音识别（Automatic SpeechRecognition，ASR）等技术，另可以涉及机器学习（Machine learning，ML）中的各类人工神经网络（Artificial Neural Network，ANN）等。

本申请提供的多媒体内容分类方法可以应用于具有数据处理能力的多媒体内容分类设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、计算机、个人数字助理（Personal Digital Assistant，PDA）、平板电脑等，但并不局限于此等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该多媒体内容分类设备可以具备实施自然语言处理的能力，自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中，当第一模态信息和第二模态信息包括视频文本信息时，多媒体内容分类设备可以通过自然语言处理中的文本处理、语义理解等技术，对视频文本信息进行特征提取获得语义特征。

该多媒体内容分类设备可以具备实施计算机视觉技术的能力，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建、自动驾驶、智慧交通等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。在本申请实施例中，当第一模态信息和第二模态信息包括视频图像信息时，多媒体内容分类设备可以通过计算机视觉技术中的图像处理、图像语义理解、视频处理、视频语义理解等技术，对视频图像信息进行特征提取获得语义特征。

该多媒体内容分类设备可以具备实施语音技术的能力，语音技术的关键技术有自动语音识别技术和语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。在本申请实施例中，当第一模态信息和第二模态信息包括视频语音信息时，多媒体内容分类设备可以通过语音技术中的自动语音识别等技术，结合自然语言处理中的文本处理、语义理解等技术，对视频语音信息进行特征提取获得语义特征。

该多媒体内容分类设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，多媒体内容分类方法中所采用的分类模型要涉及对人工神经网络的应用，通过人工神经网络实现多媒体内容分类。

本申请实施例所提供的多媒体内容分类方法还可以涉及区块链，其中，分类模型相关的架构、参数等数据可保存于区块链上。

下面以服务器作为多媒体内容分类设备对本申请实施例提供的多媒体内容分类方法进行具体介绍。

参见图4，该图为本申请实施例提供的一种多媒体内容分类方法的流程图。如图4所示，该多媒体内容分类方法包括以下步骤：

S401：获取待分类多媒体内容的第一模态信息和第二模态信息，第一模态信息和第二模态信息的模态不同。

在本申请实施例中，利用分类模型对待分类多媒体内容进行分类，首先需要获取待分类多媒体内容的信息，作为分类模型的输入信息。为了避免一种模态信息作为分类模型的输入信息，存在模态单一、信息损失的问题；可以获取待分类多媒体内容的不同模态信息，共同作为分类模型的输入信息。即，获取待分类多媒体内容的、不同模态的第一模态信息和第二模态信息；以便在后续对待分类多媒体内容进行分类时，可以利用待分类多媒体内容的不同模态信息，从多个维度分析待分类多媒体内容的类别。

其中，分类模型是基于待训练多媒体内容的第一模态训练信息、第二模态训练信息和类别标签，预先训练预设分类模型得到的，具体训练方式参见下述分类模型训练方法的实施例，在此先不做详细说明。

针对多媒体内容而言，其内容信息的模态可以是文本、图像和语音等。在视频搜索、推荐等场景中，可以将待分类视频作为待分类多媒体内容，则待分类视频的视频文本信息、视频图像信息和视频语音信息中任意两种组合作为第一模态信息和第二模态信息。因此，本申请提供了一种可能的实现方式，待分类多媒体内容包括待分类视频，第一模态信息和第二模态信息包括以下任意两种的组合：视频文本信息、视频图像信息和视频语音信息。

其中，待分类视频的视频文本信息可以是由待分类视频的视频标题信息和视频描述信息中任意一种或多种组合得到的；视频标题信息例如可以是对视频文本信息基于标题抽取方式获取的，视频描述信息例如可以是对视频文本信息基于描述抽取方式获取的。

待分类视频的视频图像信息可以是由待分类视频的视频关键帧信息和视频封面帧信息中任意一种或多种组合得到的；视频关键帧信息例如可以是对视频图像信息基于关键帧抽取方式获取的，视频封面帧信息例如可以是对视频图像信息基于封面帧抽取方式获取的。

待分类视频的视频语音信息可以是由待分类视频的视频关键语音信息和视频介绍语音信息中任意一种或多种组合得到的；视频关键语音信息例如可以是对视频语音信息基于关键语音抽取方式获取的，视频介绍语音信息例如可以是对视频语音信息基于介绍语音抽取方式获取的。

作为一种示例，待分类多媒体内容为待分类视频A，待分类多媒体内容的第一模态信息和第二模态信息为待分类视频A的视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”和视频关键帧信息F_k。

当然，在本申请实施例中，也可以获取待分类多媒体内容的文本信息、图像信息和语音信息这三种不同模态信息，均作为分类模型的输入信息。即，当待分类多媒体内容包括待分类视频时，获取待分类视频的视频文本信息、视频图像信息和视频语音信息，均作为分类模型的输入信息。

S402：通过分类模型的特征提取子模型，对第一模态信息进行特征提取获得第一模态语义特征，对第二模态信息进行特征提取获得第二模态语义特征。

在本申请实施例中，由S401获取待分类多媒体内容的第一模态信息和第二模态信息作为分类模型的输入信息后，分类模型首先需要得到输入信息的语义特征，由于第一模态信息和第二模态信息的模态不同，则不仅需要得到第一模态信息对应的语义特征，作为第一模态语义特征；还需要得到第二模态信息对应的语义特征，作为第二模态语义特征。

实际应用中，分类模型采用特征提取方式得到输入信息的语义特征，则分类模型需要包括特征提取子模型，用于对第一模态信息进行特征提取，获得第一模态语义特征，对第二模态信息进行特征提取，获得第二模态语义特征。

作为一种示例，在上述示例的基础上，特征提取子模型可以包括BERT模型和ResNet模型，通过BERT模型对待分类视频A的视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”进行特征提取，获得的待分类视频A的文本语义特征，比如可以是视频标题信息中各个词的词向量。通过ResNet模型对待分类视频A的视频关键帧信息F_k进行特征提取，获得的、待分类视频A的图像语义特征，比如可以是视频关键帧的语义特征向量。

其中，BERT模型的核心是双向Transformer 编码层，它是基于Transformer的深度双向语言表征模型，本质上是利用Transformer结构构造了一个多层双向的、编码层的神经网络。Transformer是基于自注意力机制（Self-attention）的深层模型，在包括多项NLP任务上效果显著，超过循环神经网络（Recurrent Neural Network，RNN），且训练速度更快。

其中，ResNet模型特点是容易优化，其结构可以极快地加速超深神经网络的训练，并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接，缓解了在深度神经网络中增加深度带来的梯度消失问题。

S403：通过分类模型的第一特征融合子模型，对第一模态语义特征和第二模态语义特征进行特征融合，获得第一融合语义特征。

在本申请实施例中，由S402获得第一模态语义特征和第二模态语义特征后，分类模型需要得到不同模态的第一模态语义特征和第二模态语义特征，进行简单交互后的语义特征，作为第一融合语义特征。

实际应用中，分类模型采用特征融合方式得到第一融合语义特征，则分类模型需要包括第一特征融合子模型，用于对第一模态语义特征和第二模态语义特征进行简单的特征融合，获得第一融合语义特征。其中，简单的特征融合的方式可以分为特征拼接或特征乘积两种实现方式，因此，本申请提供了一种可能的实现方式，S403例如可以包括：对第一模态语义特征和第二模态语义特征进行特征拼接，获得第一融合语义特征；或，对第一模态语义特征和第二模态语义特征进行特征乘积，获得第一融合语义特征。

其中，特征拼接例如可以是concat拼接，concat拼接是指在通道维度上进行拼接；即，需要对第一模态语义特征和第二模态语义特征在向量维度上进行拼接。特征乘积例如可以是哈达玛乘积等，哈达玛乘积一般需要对第一模态语义特征和第二模态语义特征进行线性映射，以对齐第一模态语义特征和第二模态语义特征的向量维度。

作为一种示例，在上述示例的基础上，通过分类模型的第一特征融合子模型，将待分类视频A的文本语义特征和图像语义特征进行concat拼接，获得待分类视频A的第一融合语义特征。比如，将待分类视频A的视频标题信息中各个词的词向量分别与视频关键帧的语义特征向量进行concat拼接，得到各个拼接语义特征向量，并将各个拼接语义特征向量拼接为语义特征矩阵。

S404：通过分类模型的第二特征融合子模型中卷积参数，对第一融合语义特征进行卷积融合，获得第二融合语义特征。

在本申请实施例中，由于第一融合语义特征是对第一模态语义特征和第二模态语义特征进行简单的特征融合所得到的，所表征的不同模态语义特征交互性较差，分类模型直接基于第一融合语义特征确定待分类多媒体内容的类别，存在多媒体内容分类不够准确的问题。因此，由S403获得第一融合语义特征后，进一步地，分类模型在第一融合语义特征的基础上，通过引入卷积参数进行卷积融合，提高特征融合的交互复杂度，得到不同模态的第一模态语义特征和第二模态语义特征，进行复杂交互后的语义特征，作为第二融合语义特征，以避免分类模型直接基于第一融合语义特征确定待分类多媒体内容的类别，存在多媒体内容分类不够准确的问题。

实际应用中，分类模型需要包括区别于第一特征融合子模型的第二特征融合子模型，该第二特征融合子模型包括卷积参数，用于对第一融合语义特征进行卷积融合；即，进一步对第一模态语义特征和第二模态语义特征进行复杂的、深度的特征融合，获得第二融合语义特征；第二融合语义特征相较于第一融合语义特征，所表征的不同模态语义特征交互性更复杂、更好。

基于此，在S401-S403的基础上，进一步通过S404能够实现不同模态的第一模态语义特征和第二模态语义特征的深度特征融合，以有效加强不同模态的第一模态语义特征和第二模态语义特征进行特征融合的交互。

具体实现时，在分类模型引入卷积参数的基础上，采用不同卷积参数进行卷积融合，所得到的语义特征表征的不同模态语义特征的交互性角度不同；则分类模型的第二特征融合子模型中是否引入不同卷积参数，使得S404中通过分类模型的第二特征融合子模型中卷积参数，对第一融合语义特征进行卷积融合，获得第二融合语义特征，可以分为以下两种可能的实现方式：

第一种S404可能的实现方式，在分类模型引入卷积参数进行卷积融合，提高特征融合的交互复杂度基础上，为了节省卷积融合的计算复杂度，并不引入不同卷积参数。则第二特征融合子模型包括一个卷积层，作为第一卷积层，该第一卷积层包括第一卷积参数，用于对第一融合语义特征进行卷积操作，提高特征融合的交互复杂度，以提取第一融合语义特征中更细致的语义信息，得到多个第一卷积语义特征，实现不同模态的第一模态语义特征和第二模态语义特征更复杂、更深度的特征融合。此外，在第一卷积层之后还需要连接一个池化层，作为第一池化层，用于对多个第一卷积语义特征进行池化操作，降低第一卷积层输出的卷积语义特征，同时防止模型出现过拟合的现象，得到第二融合语义特征。

因此，本申请提供了一种可能的实现方式，第二特征融合子模型包括第一卷积层和第一池化层，第一卷积层包括第一卷积参数，如图5所示的一种第二特征融合子模型的架构示意图；则S404例如可以包括以下S4041- S4042：

S4041：通过第一卷积层中第一卷积参数，对第一融合语义特征进行卷积操作，获得多个第一卷积语义特征。

S4042：通过第一池化层，对多个第一卷积语义特征进行池化操作，获得第二融合语义特征。

作为一种示例，在上述示例的基础上，通过第一卷积层中第一卷积参数，对待分类视频A的第一融合语义特征进行卷积操作，获得多个第一卷积语义特征；通过第一池化层，对多个第一卷积语义特征进行池化操作，获得待分类视频A的第二融合语义特征。比如，利用第一卷积参数，对待分类视频A的语义特征矩阵进行卷积操作，获得多个第一卷积语义特征向量，对多个第一卷积语义特征向量进行池化操作，获得待分类视频A的目标语义特征向量。

第二种S404可能的实现方式，在分类模型引入卷积参数进行卷积融合，提高特征融合的交互复杂度基础上，为了从不同角度实现不同模态的第一模态语义特征和第二模态语义特征的深度特征融合，以从不同角度有效加强不同模态的第一模态语义特征和第二模态语义特征进行特征融合的交互；可以引入不同卷积参数。则第二特征融合子模型包括两个卷积层，分别作为第二卷积层和第三卷积层，第二卷积层和第三卷积层包括的卷积参数不同，该第二卷积层包括第二卷积参数，用于对第一融合语义特征进行卷积操作，得到多个第二卷积语义特征，实现第一模态语义特征和第二模态语义特征在一个角度更复杂、更深度的特征融合；该第三卷积层包括第三卷积参数，用于对第一融合语义特征进行卷积操作，得到多个第三卷积语义特征，实现第一模态语义特征和第二模态语义特征在另一个角度更复杂、更深度的特征融合。

同理，在第二卷积层和第三卷积层之后还需要连接一个池化层，作为第二池化层，用于分别对多个第二卷积语义特征、多个第三卷积语义特征进行池化操作，降低第二卷积层、第三卷积层输出的卷积语义特征，同时防止模型出现过拟合的现象，得到第三融合语义特征和第四融合语义特征。

由于第三融合语义特征和第四融合语义特征，分别从不同角度表征不同模态的第一模态语义特征和第二模态语义特征的交互性，为了使得基于第三融合语义特征和第四融合语义特征所得的第二融合语义特征，能够从多角度表征不同模态的第一模态语义特征和第二模态语义特征的交互性，还需要将第三融合语义特征和第四融合语义特征进行特征拼接，得到第二融合语义特征。

因此，本申请提供了另一种可能的实现方式，第二特征融合子模型包括第二卷积层、第三卷积层和第二池化层，第二卷积层包括第二卷积参数，第三卷积层包括第三卷积参数，第二卷积参数和第三卷积参数不同，如图6所示的另一种第二特征融合子模型的架构示意图；则S404例如可以包括以下S4043- S4046：

S4043：通过第二卷积层中第二卷积参数，对第一融合语义特征进行卷积操作，获得多个第二卷积语义特征。

S4044：通过第三卷积层中第三卷积参数，对第一融合语义特征进行卷积操作，获得多个第三卷积语义特征。

S4045：通过第二池化层，对多个第二卷积语义特征进行池化操作，获得第三融合语义特征，对多个第三卷积语义特征进行池化操作，获得第四融合语义特征；

S4046：将第三融合语义特征和第四融合语义特征进行特征拼接，获得第二融合语义特征。

作为另一种示例，参考上述示例，通过第二卷积层中第二卷积参数，对待分类视频A的第一融合语义特征进行卷积操作，获得多个第二卷积语义特征；通过第三卷积层中第三卷积参数，对待分类视频A的第一融合语义特征进行卷积操作，获得多个第三卷积语义特征。通过第二池化层，对多个第二卷积语义特征进行池化操作，获得第三融合语义特征，对多个第三卷积语义特征进行池化操作，获得第四融合语义特征。将第三融合语义特征和第四融合语义特征进行特征拼接，获得待分类视频A的第二融合语义特征。

比如，利用第二卷积参数，对待分类视频A的语义特征矩阵进行卷积操作，获得多个第二卷积语义特征向量，利用第三卷积参数，对待分类视频A的语义特征矩阵进行卷积操作，获得多个第三卷积语义特征向量；对多个第二卷积语义特征向量进行池化操作，获得语义特征向量1，对多个第三卷积语义特征向量进行池化操作，获得语义特征向量2；拼接语义特征向量1和语义特征向量2，获得待分类视频A的目标语义特征向量。

其中，池化操作可以分为以下三种池化操作：第一种池化操作为最大池化操作，是指取局部接受域中值最大的点，更多的保留纹理信息，更加关注卷积操作所得到的多个卷积语义特征中重要局部语义信息；第二种池化操作为均值池化操作，是指对局部接受域中的所有值求均值，更多的保留背景信息，更加关注卷积操作所得到的多个卷积语义特征中全局语义信息；第三种池化操作为随机池化操作，对局部接受域采样点按照其值大小赋予概率值，再根据概率值大小随机选择，介于最大池化操作和均值池化操作两者之间，在平均意义上，与均值池化操作近似，在局部意义上，则服从最大池化操作的准则。因此，本申请提供了另一种可能的实现方式，池化操作包括最大池化操作、均值池化操作或随机池化操作。

S405：通过分类模型的分类子模型，基于第二融合语义特征确定待分类多媒体内容的类别。

在本申请实施例中，由S404获得第二融合语义特征后，由于第二融合语义特征相较于第一融合语义特征，所表征的不同模态语义特征交互性更复杂、更好；在分类模型包括分类子模型的基础上，通过分类子模型基于第二融合语义特征确定待分类多媒体内容的类别更准确，能够提高多媒体内容分类的准确性。

作为一种示例，在上述示例的基础上，通过分类模型的分类子模型，基于第二融合语义特征确定待分类视频A的类别；比如，将待分类视频A的目标语义特征向量，输入分类模型的分类子模型，确定待分类视频A的类别为“游戏”。

上述实施例提供的多媒体内容分类方法，首先，获取待分类多媒体内容的、不同模态的第一模态信息和第二模态信息；将第一模态信息和第二模态信息分别输入分类模型的特征提取子模型，输出第一模态语义特征和第二模态语义特征；将第一模态语义特征和第二模态语义特征输入分类模型的第一特征融合子模型，特征融合输出第一融合语义特征。然后，将第一融合语义特征输入分类模型的第二特征融合子模型，通过卷积参数进一步对第一融合语义特征进行卷积融合，输出第二融合语义特征；引入卷积参数进行卷积融合，可以提高特征融合的交互复杂度，使得第二融合语义特征所表征的不同模态语义特征交互性更好；最后，分类模型的分类子模型以第二融合语义特征确定待分类多媒体内容的类别，使得待分类多媒体内容的分类更准确。

针对上述多媒体内容分类方法实施例提供的分类模型，下面结合附图，对分类模型的训练方法进行介绍。

参见图7，图7为本申请实施例提供的一种分类模型训练方法的流程示意图。如图7所示，该训练方法包括以下步骤：

S701：获取待训练多媒体内容的第一模态训练信息、第二模态训练信息和类别标签作为训练样本，第一模态训练信息和第二模态训练信息的模态不同，类别标签用于标识待训练多媒体内容的类别。

在本申请实施例中，首先需要获取用于训练得到分类模型的训练样本。具体实现时，可以将任意一个已确定类别的多媒体内容作为待训练多媒体内容，需要获取该待训练多媒体内容的文本信息、图像信息和语音信息中任意两种组合，形成第一模态训练信息和第二模态训练信息，并获取该待训练多媒体内容的用于标识其类别的类别标签，共同作为训练样本。训练样本的格式例如可以参考如图8所示的一种训练样本的格式示意图。

S702、根据训练样本对预设分类模型进行训练，获得分类模型；其中，预设分类模型包括特征提取子模型、第一特征融合子模型、第二特征融合子模型和分类子模型。

在本申请实施例中，由S701获得用于训练得到分类模型的训练样本后，对一个对预先构建好的、与上述实施例中分类模型的模型结构相同的预设分类模型进行训练，训练好的预设分类模型即可作为分类模型。

具体训练过程为：首先，将第一模态训练信息和第二模态训练信息输入特征提取子模型，输出第一模态训练语义特征和第二模态训练语义特征；将第一模态训练语义特征和第二模态训练语义特征输入第一特征融合子模型，通过简单的特征融合，输出第一融合训练语义特征。其次，将第一融合训练语义特征输入第二特征融合子模型，进一步通过卷积融合，输出第二融合训练语义特征。然后，将第二融合训练语义特征输入分类子模型，通过分类以确定训练多媒体内容的预测类别。最后，判断训练多媒体内容的预测类别与训练多媒体内容的类别标签是否一致，若不一致，则需要对预设分类模型的模型参数进行调整；基于此，调整好的预设分类模型即可作为分类模型。因此，本申请提供了一种可能的实现方式，S702例如可以包括以下S7021- S7025：

S7021：通过特征提取子模型，对第一模态训练信息进行特征提取，获得第一模态训练语义特征，对第二模态训练信息进行特征提取，获得第二模态训练语义特征。

S7022：通过第一特征融合子模型，对第一模态训练语义特征和第二模态训练语义特征进行特征融合，获得第一融合训练语义特征。

S7023：通过第二特征融合子模型中卷积参数，对第一融合语义训练特征进行卷积融合，获得第二融合训练语义特征。

S7024：通过分类子模型，基于第二融合训练语义特征确定训练多媒体内容的预测类别。

S7025：若预测类别与类别标签不一致，调整预设分类模型的模型参数，将调整好的预设分类模型作为分类模型。

其中，调整预设分类模型的模型参数实际上是将预测类别和类别标签代入预设分类模型的损失函数，度量预设分类模型的损失，利用反向传播算法调整预设分类模型的模型参数，该预设分类模型例如可以是负对数似然损失函数。因此，本申请提供了一种可能的实现方式，S7025例如可以包括：根据预测类别、类别标签和预设分类模型的损失函数，调整预设分类模型的模型参数，将调整好的预设分类模型作为分类模型，损失函数包括负对数似然损失函数。

上述负对数似然损失函数的公式如下所示：

其中，

表示训练样本的总数量，即，待训练多媒体内容的总数量，

对应第

训练样本中待训练多媒体内容的类别标签，

对应第

训练样本中待训练多媒体内容的预测标签。

通过上述分类模型的训练过程，使得分类模型具备将不同模态语义特征进行更复杂、更深度的特征融合以及分类的能力；基于此，可以利用训练得到的分类模型，执行上述实施例中多媒体内容分类方法，以有效加强不同模态语义特征进行特征融合的交互，提高多媒体内容的分类准确性。

例如，如图9所示的一种结合本申请中分类模型进行视频分类的具体实现示意图。其中，分类模型包括特征提取子模型、第一特征融合子模型、第二特征融合子模型和分类子模型；该特征提取子模型包括BERT模型和ResNet模型，该第一特征融合子模型包括concat层，该第二特征融合子模型包括卷积层1、卷积层2和池化层，卷积层1和卷积层2包括的卷积参数不同，该分类子模型包括SoftMax多分类器。

首先，获取待分类视频A的视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”和视频关键帧信息F_k。

其次，将待分类视频A的视频标题信息“这角色A没救了，经济被压制，完全起不来，手机给你来玩！”输入BERT模型，特征提取得到待分类视频A的文本语义特征，即，视频标题信息中各个词的词向量；将待分类视频A的视频关键帧信息F_k输入ResNet模型，特征提取得到待分类视频A的图像语义特征，即，视频关键帧的语义特征向量。

接着，将待分类视频A的文本语义特征和图像语义特征输入concat层，进行concat拼接得到待分类视频A的融合语义特征，即，将视频标题信息中各个词的词向量分别与视频关键帧的语义特征向量进行concat拼接，得到各个拼接语义特征向量，并将各个拼接语义特征向量拼接为语义特征矩阵。

然后，将待分类视频A的语义特征矩阵输入卷积层1，进行卷积操作得到多个卷积语义特征1，将待分类视频A的语义特征矩阵输入卷积层2，进行卷积操作得到多个卷积语义特征2；将多个卷积语义特征1输入池化层，进行池化操作，获得语义特征向量1，将多个卷积语义特征2输入池化层，进行池化操作获得语义特征向量2；拼接语义特征向量1和语义特征向量2，获得待分类视频A的目标语义特征向量。

最后，将待分类视频A的目标语义特征向量输入SoftMax多分类器，确定待分类视频A的类别为“游戏”。

针对上述实施例提供的多媒体内容分类方法，本申请实施例还提供了一种多媒体内容分类装置。

参见图10，图10为本申请实施例提供的一种多媒体内容分类装置的示意图。如图10所示，该多媒体内容分类装置1000，包括获取单元1001、获得单元1002和确定单元1004；

获取单元1001，用于获取待分类多媒体内容的第一模态信息和第二模态信息，第一模态信息和第二模态信息的模态不同；

获得单元1002，用于通过分类模型的特征提取子模型，对第一模态信息进行特征提取获得第一模态语义特征，对第二模态信息进行特征提取获得第二模态语义特征；

获得单元1002，还用于通过分类模型的第一特征融合子模型，对第一模态语义特征和第二模态语义特征进行特征融合，获得第一融合语义特征；

获得单元1002，还用于通过分类模型的第二特征融合子模型中卷积参数，对第一融合语义特征进行卷积融合，获得第二融合语义特征；

确定单元1003，用于通过分类模型的分类子模型，基于第二融合语义特征确定待分类多媒体内容的类别。

作为一种可能的实现方式，所述第二特征融合子模型包括第一卷积层和第一池化层，所述第一卷积层包括第一卷积参数；所述获得单元1002，用于：

通过所述第一卷积层中第一卷积参数，对所述第一融合语义特征进行卷积操作，获得多个第一卷积语义特征；

通过所述第一池化层，对所述多个第一卷积语义特征进行池化操作，获得所述第二融合语义特征。

作为一种可能的实现方式，所述第二特征融合子模型包括第二卷积层、第三卷积层和第二池化层，所述第二卷积层包括第二卷积参数，所述第三卷积层包括第三卷积参数，所述第二卷积参数和所述第三卷积参数不同；所述获得单元1002，还用于：

通过所述第二卷积层中第二卷积参数，对所述第一融合语义特征进行卷积操作，获得多个第二卷积语义特征；

通过所述第三卷积层中第三卷积参数，对所述第一融合语义特征进行卷积操作，获得多个第三卷积语义特征；

通过所述第二池化层，对所述多个第二卷积语义特征进行池化操作，获得第三融合语义特征，对所述多个第三卷积语义特征进行池化操作，获得第四融合语义特征；

将所述第三融合语义特征和所述第四融合语义特征进行特征拼接，获得所述第二融合语义特征。

作为一种可能的实现方式，所述池化操作包括最大池化操作、均值池化操作或随机池化操作。

作为一种可能的实现方式，所述获取单元1001，还用于：

获取待训练多媒体内容的第一模态训练信息、第二模态训练信息和类别标签作为训练样本，所述第一模态训练信息和所述第二模态训练信息的模态不同，所述类别标签用于标识所述待训练多媒体内容的类别；

所述获得单元1002，还用于：

根据所述训练样本对预设分类模型进行训练，获得所述分类模型；

其中，所述预设分类模型包括所述特征提取子模型、所述第一特征融合子模型、所述第二特征融合子模型和所述分类子模型。

作为一种可能的实现方式，所述获得单元1002，还用于：

通过所述特征提取子模型，对所述第一模态训练信息进行特征提取，获得第一模态训练语义特征，对所述第二模态训练信息进行特征提取，获得第二模态训练语义特征；

通过所述第一特征融合子模型，对所述第一模态训练语义特征和所述第二模态训练语义特征进行特征融合，获得第一融合训练语义特征；

通过所述第二特征融合子模型中卷积参数，对所述第一融合语义训练特征进行卷积融合，获得第二融合训练语义特征；

通过所述分类子模型，基于所述第二融合训练语义特征确定所述训练多媒体内容的预测类别；

若所述预测类别与所述类别标签不一致，调整所述预设分类模型的模型参数，将调整好的预设分类模型作为所述分类模型。

作为一种可能的实现方式，所述获得单元1002，还用于：

根据所述预测类别、所述类别标签和所述预设分类模型的损失函数，调整所述预设分类模型的模型参数，将调整好的预设分类模型作为所述分类模型，所述损失函数包括负对数似然损失函数。

作为一种可能的实现方式，所述待分类多媒体内容包括待分类视频，所述第一模态信息和所述第二模态信息包括以下任意两种的组合：

视频文本信息、视频图像信息和视频语音信息；

其中，所述视频文本信息包括视频标题信息和视频描述信息中任意一种或多种，所述视频图像信息包括视频关键帧信息和视频封面帧信息中任意一种或多种，所述视频语音信息包括视频关键语音信息和视频介绍语音信息中任意一种或多种。

作为一种可能的实现方式，所述获得单元1002，还用于：

对所述第一模态语义特征和所述第二模态语义特征进行特征拼接，获得所述第一融合语义特征；或，

对所述第一模态语义特征和所述第二模态语义特征进行特征乘积，获得所述第一融合语义特征。

上述实施例提供的多媒体内容分类装置，首先，获取待分类多媒体内容的、不同模态的第一模态信息和第二模态信息；将第一模态信息和第二模态信息分别输入分类模型的特征提取子模型，输出第一模态语义特征和第二模态语义特征；将第一模态语义特征和第二模态语义特征输入分类模型的第一特征融合子模型，特征融合输出第一融合语义特征。然后，将第一融合语义特征输入分类模型的第二特征融合子模型，通过卷积参数进一步对第一融合语义特征进行卷积融合，输出第二融合语义特征；引入卷积参数进行卷积融合，可以提高特征融合的交互复杂度，使得第二融合语义特征所表征的不同模态语义特征交互性更好；最后，分类模型的分类子模型以第二融合语义特征确定待分类多媒体内容的类别，使得待分类多媒体内容的分类更准确。

本申请实施例还提供了一种用于多媒体内容分类的设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。

参见图11，图11是本申请实施例提供的一种服务器结构示意图，该服务器1100可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器（CentralProcessing Units，CPU）1122（例如，一个或一个以上处理器）和存储器1132，一个或一个以上存储应用程序1142或数据1144的存储介质1130（例如一个或一个以上海量存储设备）。其中，存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1122可以设置为与存储介质1130通信，在服务器1100上执行存储介质1130中的一系列指令操作。

服务器1100还可以包括一个或一个以上电源1126，一个或一个以上有线或无线网络接口1150，一个或一个以上输入输出接口1158，和/或，一个或一个以上操作系统1141，例如Windows Server^TM，Mac OS X^TM，Unix^TM， Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

其中，CPU 1122用于执行如下步骤：

可选的，CPU 1122还可以执行本申请实施例中多媒体内容分类方法任一具体实现方式的方法步骤。

针对上文描述的多媒体内容分类方法，本申请实施例还提供了一种用于多媒体内容分类的终端设备，以使上述多媒体内容分类方法在实际中实现以及应用。

参见图12，图12为本申请实施例提供的一种终端设备的结构示意图。为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、PDA等任意终端设备，以终端设备为手机为例：

图12示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图12，该手机包括：射频（Radio Frequency，简称RF）电路1210、存储器1220、输入单元1230、显示单元1240、传感器1250、音频电路1260、无线保真（Wireless Fidelity，简称WiFi）模块1270、处理器1280、以及电源1290等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路1210可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1280处理；另外，将设计上行的数据发送给基站。通常，RF电路1210包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器（Low NoiseAmplifier，简称LNA）、双工器等。此外，RF电路1210还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（Global System of Mobile communication，简称GSM）、通用分组无线服务（GeneralPacket Radio Service，简称GPRS）、码分多址（Code Division Multiple Access，简称CDMA）、宽带码分多址（Wideband Code Division Multiple Access，简称WCDMA）、长期演进（Long Term Evolution，简称LTE）、电子邮件、短消息服务（Short Messaging Service，简称SMS）等。

存储器1220可用于存储软件程序以及模块，处理器1280通过运行存储在存储器1220的软件程序以及模块，从而实现手机的各种功能应用以及数据处理。存储器1220可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等）等；存储数据区可存储根据手机的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器1220可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1230可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1230可包括触控面板1231以及其他输入设备1232。触控面板1231，也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板1231上或在触控面板1231附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1231可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1280，并能接收处理器1280发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1231。除了触控面板1231，输入单元1230还可以包括其他输入设备1232。具体地，其他输入设备1232可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1240可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1240可包括显示面板1241，可选的，可以采用液晶显示器（LiquidCrystal Display，简称LCD）、有机发光二极管（Organic Light-Emitting Diode，简称OLED）等形式来配置显示面板1241。进一步的，触控面板1231可覆盖显示面板1241，当触控面板1231检测到在其上或附近的触摸操作后，传送给处理器1280以确定触摸事件的类型，随后处理器1280根据触摸事件的类型在显示面板1241上提供相应的视觉输出。虽然在图10中，触控面板1231与显示面板1241是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1231与显示面板1241集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1250，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1241的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1241和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1260、扬声器1261，传声器1262可提供用户与手机之间的音频接口。音频电路1260可将接收到的音频数据转换后的电信号，传输到扬声器1261，由扬声器1261转换为声音信号输出；另一方面，传声器1262将收集的声音信号转换为电信号，由音频电路1260接收后转换为音频数据，再将音频数据输出处理器1280处理后，经RF电路1210以发送给比如另一手机，或者将音频数据输出至存储器1220以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1270可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1270，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1280是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1220内的软件程序和/或模块，以及调用存储在存储器1220内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1280可包括一个或多个处理单元；优选的，处理器1280可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1280中。

手机还包括给各个部件供电的电源1290（比如电池），优选的，电源可以通过电源管理系统与处理器1280逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该手机所包括的存储器1220可以存储程序代码，并将所述程序代码传输给所述处理器。

该手机所包括的处理器1280可以根据所述程序代码中的指令执行上述实施例提供的多媒体内容分类方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的多媒体内容分类方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。用于多媒体内容分类的设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该用于多媒体内容分类的设备执行上述方面的各种可选实现方式中提供的多媒体内容分类方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器（英文：Read-Only Memory，缩写：ROM）、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多媒体内容分类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第二特征融合子模型包括第一卷积层和第一池化层，所述第一卷积层包括第一卷积参数；所述通过所述分类模型的第二特征融合子模型中卷积参数，对所述第一融合语义特征进行卷积融合，获得第二融合语义特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述第二特征融合子模型包括第二卷积层、第三卷积层和第二池化层，所述第二卷积层包括第二卷积参数，所述第三卷积层包括第三卷积参数，所述第二卷积参数和所述第三卷积参数不同；所述通过所述分类模型的第二特征融合子模型中卷积参数，对所述第一融合语义特征进行卷积融合，获得第二融合语义特征，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述池化操作包括最大池化操作、均值池化操作或随机池化操作。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述训练样本对预设分类模型进行训练，获得所述分类模型，包括：

7.根据权利要求6所述的方法，其特征在于，所述调整所述预设分类模型的模型参数，将调整好的预设分类模型作为所述分类模型，包括：

8.根据权利要求1所述的方法，其特征在于，所述待分类多媒体内容包括待分类视频，所述第一模态信息和所述第二模态信息包括以下任意两种的组合：

视频文本信息、视频图像信息和视频语音信息；

9.根据权利要求1所述的方法，其特征在于，所述对所述第一模态语义特征和所述第二模态语义特征进行特征融合，获得第一融合语义特征，包括：

10.一种多媒体内容分类装置，其特征在于，所述装置包括：获取单元、获得单元和确定单元；

11.根据权利要求10所述的装置，其特征在于，所述第二特征融合子模型包括第一卷积层和第一池化层，所述第一卷积层包括第一卷积参数；所述获得单元，用于：

12.根据权利要求10所述的装置，其特征在于，所述第二特征融合子模型包括第二卷积层、第三卷积层和第二池化层，所述第二卷积层包括第二卷积参数，所述第三卷积层包括第三卷积参数，所述第二卷积参数和所述第三卷积参数不同；所述获得单元，用于：

13.根据权利要求10所述的装置，其特征在于，所述获取单元，还用于：

所述获得单元，还用于：

14.一种用于多媒体内容分类的设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-9任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-9任意一项所述的方法。