CN111259215A

CN111259215A - 基于多模态的主题分类方法、装置、设备、以及存储介质

Info

Publication number: CN111259215A
Application number: CN202010093770.0A
Authority: CN
Inventors: 汪琦; 冯知凡; 刘志洁; 柴春光; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2020-06-09
Anticipated expiration: 2040-02-14
Also published as: JP7142737B2; KR20210104571A; US11995117B2; JP2021128774A; CN111259215B; KR102455616B1; EP3866026A1; US20210256051A1

Abstract

本公开的实施例涉及一种基于多模态的主题分类方法、装置、设备、以及存储介质，其涉及知识图谱领域。方法包括获得对象的文本信息和非文本信息，其中非文本信息包括视觉信息和音频信息中的至少一项。方法还包括基于预先构建的知识库来确定文本信息中的实体集合，然后基于文本信息和实体集合来提取对象的文本特征。方法还包括基于对象的文本特征和非文本特征来确定对象的主题分类。本公开的实施例在基于多模态信息的对象主题分类过程中，引入了基于知识库的实体链接，并在文本特征提取时考虑所链接的实体。因此，本公开的实施例能够更好地理解待分类的对象的内容，从而获得更准确的主题分类结果。

Description

基于多模态的主题分类方法、装置、设备、以及存储介质

技术领域

本公开的实施例总体上涉及计算机领域，并且更具体地涉及知识图谱领域。

背景技术

随着移动互联网的不断发展，网络资源(例如视频、语音、图像等)变得越来越流行。例如，视频按照时间的长短，可以被划分为长视频、短视频以及小视频等。长视频是指时长较长、以影视节目为主的视频，其通常由专业影视公司拍摄。短视频是指时长较短、题材更加丰富的视频，其通常不是由影视公司专业的职业或者半职业团队拍摄。而小视频是指时长通常在1分钟以内(例如15秒)，以个人用户生产为主，通常是和用户日常生活相关的视频。

对于拥有大型多媒体资料库(例如视频)的组织来说，通常需要对视频进行主题分类。主题分类能够让用户更容易地搜索到所需内容，同时也方便视频分发和用户个性化推荐。一般来说，可以基于视频的标题和文本介绍来对视频进行分类，也可以基于视频的具体内容对视频进行分类。

发明内容

根据本公开的示例实施例，提供了一种基于多模态的主题分类方法、装置、设备、以及存储介质。

在本公开的第一方面中，提供了一种基于多模态的主题分类方法。该方法包括：获得对象的文本信息和非文本信息，其中非文本信息包括视觉信息和音频信息中的至少一项；基于预先构建的知识库，确定文本信息中的实体集合；基于文本信息和实体集合，提取对象的文本特征；以及基于对象的文本特征和非文本特征，确定对象的主题分类，其中非文本特征基于非文本信息而被提取。

在本公开的第二方面中，提供了一种基于多模态的主题分类装置。该装置包括：多模态信息获得模块，被配置为获得对象的文本信息和非文本信息，其中非文本信息包括视觉信息和音频信息中的至少一项；实体提取模块，被配置为基于预先构建的知识库，确定文本信息中的实体集合；文本特征提取模块，被配置为基于文本信息和实体集合，提取对象的文本特征；以及主题分类确定模块，被配置为基于对象的文本特征和非文本特征，确定对象的主题分类，其中非文本特征基于非文本信息而被提取。

在本公开的第三方面中，提供了一种电子设备，其包括一个或多个处理器以及存储装置，存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行，使得电子设备实现根据本公开的实施例的方法或过程。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的实施例的方法或过程。

应当理解，本发明内容部分中所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了根据本公开的实施例的用于确定对象的主题的示例环境；

图2示出了根据本公开的实施例的基于多模态的主题分类方法的流程图；

图3示出了根据本公开的实施例的用于获得视频的文本信息的过程的示意图；

图4示出了根据本公开的实施例的用于确定视频的多级主题分类结果的过程的示意图；

图5示出了根据本公开的实施例的用于使用核心实体及其对应的主题类型对融合特征进行注意力处理的示意图；

图6示出了根据本公开的实施例的用于训练实体向量生成模型的示意图；

图7示出了根据本公开的实施例的基于多模态的主题分类装置的框图；以及

图8示出了能够实施本公开的多个实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。下文还可能包括其他明确的和隐含的定义。

虽然本公开的一些实施例以视频作为对象的示例来描述本公开的基于多模态的主题分类方法，然而，语音、图像等对象也可以与本公开的主题分类方法结合使用。

例如，为了方便管理、搜索或推荐视频，通常需要对视频进行分类。传统的视频分类方法主要有以下两种。第一种是人工标注的方式，然而，人工标注的方式不但成本较高、耗时较长、容易出错、需要定期维护，而且无法大规模开展。另一种通过机器学习的方式，例如，机器学习模型基于视频的文本信息或者视觉信息进行分类，然而单模态的信息通常信息量较少，分类结果不太准确，也难以满足复杂场景下的应用需求。一些改进技术尝试使用多模态信息进行视频的主题分类，然而，本申请的发明人发现仅仅使用多模态信息也不能获得很好的分类结果。

为此，本公开的实施例提出了一种基于知识库的多模态主题分类方法，其将知识库中的知识和多模态信息相结合，进行多模态主题分类。根据本公开的实施例，在特征提取时引入了基于知识库的文本实体链接，并在文本特征提取时考虑所链接的实体。因此，本公开的实施例能够更好地理解待分类的对象的内容，从而获得更准确的主题分类结果。多模态的主题分类能够更好地利用多模态信息，同时，通过知识库的实体链接能够为主题分类带来更多的参考信息，由此获得更好的主题分类效果。

本公开的实施例可以应用于对象的主题分类或标签生成，促进对对象的理解和搜索。此外，本公开的实施例还可以用于对象分发和推荐，由此适用于对象推荐冷启动的场景。以下将参考附图1-8详细描述本公开的一些示例实施例。

图1示出了本公开的实施例的确定对象的主题的示例环境100，其中对象以视频为示例，但是对象也可以为语音和图像等。如图1所示，将视频110输入到多模态主题理解系统120，可以获得视频110对应的主题输出130，其中多模态主题理解系统120可以包括主题分类模型121和主题推断模型122。视频110可以为各种类型的视频，例如长视频、短视频、小视频等。虽然图1中同时示出了主题分类模型121和主题推断模型122，然而，在一些实施例中，多模态主题理解系统120也可以不包括主题推断模型122。

主题分类模型121利用视频110的多模态信息(例如视觉信息、音频信息、文本信息等)，可以进行封闭主题的分类，封闭主题可以由人工整理，也可以由计算机自动提取和生成。主题推断模型122可以基于视频110的文本信息，确定视频的主题推断。主题推断可以使用更细粒度并且开放式的主题，从而可以生成视频标签。因此，通过融合主题分类结果和主题推断结果，能够获得融合的主题输出130。因此，本公开的实施例的多模态主题理解系统120可以非常完整，既适用于封闭主题分类，也适用于开放主题的标注。

主题分类模型121和主题推断模型122可以利用知识库125中的知识来实现各自的主题分类或推断。知识库125中可以存储与视频相关的一些实体以及对应的主题类型。

图2示出了根据本公开的实施例的基于多模态的主题分类方法200的流程图，方法200可以由参考图1所描述的主题分类模型121来执行。

在框202，获得对象的文本信息和非文本信息，其中非文本信息包括视觉信息和音频信息中的至少一项。对于视频而言，非文本信息包括视觉信息和音频信息；对于音频而言，非文本信息包括音频信息；对于图像而言，非文本信息包括视觉信息。例如，主题分类模型121对于输入的视频110，可以提取视频110的多模态信息，诸如视觉信息、音频信息以及文本信息，其中视觉信息可以包括视频信息和图像帧，文本信息可以包括文字部分以及从图像和语音识别的文本。每一种信息的来源或者形式，都可以称为一种模态。信息的媒介，有语音、视觉、文字等，以上的每一种都可以称为一种模态。多模态主题理解能够通过机器学习的方法实现处理和理解多模态信息的能力。

在框204，基于预先构建的知识库，确定文本信息中的实体集合。例如，主题分类模型121根据针对视频预先构建的知识库125，可以链接文本中所涉及的一个或多个实体。通过对文本信息进行实体链接，能够提取出文本中所涉及的一些视频相关信息。

在框206，基于文本信息和实体集合，提取对象的文本特征。主题分类模型121在提取视频的文本特征时，同时考虑视频的文本信息以及从文本信息中提取的实体集合，由此获得更准确的文本信息。

在框208，基于对象的文本特征和非文本特征，确定对象的主题分类，其中非文本特征可以包括视觉特征和音频特征中的至少一项，视觉特征基于视觉信息而被提取，并且音频特征基于音频信息而被提取。主题分类模型121基于多模态信息的多个特征，确定视频的分类主题。

因此，本公开的实施例的方法200在基于多模态信息的对象主题分类过程中，在特征提取时引入了基于知识库的文本实体链接，并在文本特征提取过程中考虑了所链接的实体。因此，本公开的实施例能够更好地理解待分类的对象的内容，从而获得更准确的主题分类结果。

本公开的实施例通过自动的方式对对象进行主题分类，过程高效并且成本较低。此外，本公开的实施例充分利用了多模态的信息，能够将不同模态的信息进行融合，结合了不同模态的特点，同时可以用不同模态的信息进行校验和对齐。同时，结合知识库能够更好地理解多模态信息，从而更全面且更深入地进行多模态的主题理解。

图3示出了根据本公开的实施例的用于获得视频的文本信息的过程300的示意图。如图3所示，提取所输入的视频110的多模态信息，包括视觉信息310(其可以包括视频信息和图像帧，例如视频的封面帧等)、音频信息320以及文字信息330，其中文字信息330可以包括视频110的标题、相关描述或摘要、用户评论、弹幕等。

在框311，可以对视频信息310执行光学字符识别(OCR)，以提取其中的图像文本312。在框321，可以对音频信息320执行自动语音识别(ASR)，以提取其中的语音文本322。根据文字信息330可以获得文字文本332。然后，可以融合这些不同渠道获得的图像文本312、语音文本322、文字文本332，从而获得视频的文本信息333。通过这种方式，能够获得更丰富的视频文本信息，进而提高主题分类的准确性。

图4示出了根据本公开的实施例的用于确定视频的多级主题分类结果的过程400的示意图。应当理解，图4的过程400可以为图1中的主题分类模型121的一个示例实现过程。如图4所示，可以通过注意力长短期记忆(LSTM)模型405和卷积神经网络(CNN)模型415(例如，RCNN模型)来分别提取视觉特征410、音频特征420以及文本特征430。

注意力LSTM模型405可以为基于注意力机制的LSTM，其执行卷积特征计算、特征聚合等操作。注意力LSTM模型405通过OCR识别和人脸识别、特征提取，生成视觉信息310的视觉特征410，通过ASR识别和特征提取，生成音频信息320的音频特征420。

CNN模型415可以通过预训练语言模型提取词嵌入向量、字符嵌入向量、还可以对文本进行实体链接，链接出文本中的实体，并通过预训练的实体的向量生成模型得到实体嵌入向量，然后将上述嵌入向量进行融合。此外，CNN模型415还可以涉及位置嵌入、预训练的实体嵌入等过程，并通过深度神经网络进行低纬语义特征的提取得到对应的文本特征430。例如，可以基于知识库125，从文本信息333提前实体集合408，然后，CNN模型415根据文本信息333和实体集合408，提取到对应的文本特征430。通过在特征提取时引入了基于知识库的文本实体链接，并在文本特征提取时考虑了所链接的实体，本公开的实施例能够更好地理解待分类的视频内容，从而获得更准确的主题分类结果。

接下来，在425，通过融合视觉特征410、音频特征420以及文本特征430，来获得视频的融合特征435。例如，特征融合过程可以联合多个模态的信息，判断模态间的相关性、以及对多模态的特征信息进行降维和处理等。

继续参考图4，可以从实体集合408中提取一个最核心的核心实体445，然后根据知识库125确定核心实体445对应的主题类型。例如，可以通过实体链接来得到核心实体445，然后根据视频知识图谱得到所属的主题类型。例如，针对文本“《无间道》经典片段，估计韩琛做梦都想不到会死在他手里”，所提取的核心实体445可以为“无间道”，核心实体所属的主题类型为“电影”。

然后，在框465，可以使用核心实体445的嵌入向量以及对应的主题类型的嵌入向量来对融合特征435(例如融合表示h)进行注意力处理，进而获得第一特征V1和第二特征V2，并且对V1和V2进行合并或者融合，如475所示。根据所获得的第一特征V1和第二特征V2，运用层级分类技术可以得到多级主题分类结果485(例如一级主题分类结果、二级主题分类结果等)，其可以通过有限标签的分类方式。

图5示出了根据本公开的实施例的用于使用核心实体及其对应的主题类型对融合特征进行注意力处理的图示500。其中h1、h2…hn表示融合特征的向量的各个部分，CE_emb表示核心实体的向量，EC_emb表示核心实体所属的主题类型的向量。510示出通过核心实体的向量CE_emb对融合特征h进行注意力处理，生成对应的第一特征V1。520示出通过核心实体所属的主题类型的向量EC_emb对融合特征h进行注意力处理，生成对应的第二特征V2，然后在530，执行层级分类以获得对应的层级主题分类结果。以下公式(1)-(3)示出了注意力处理的计算公式。

α_ij＝softmax(h_jEmb_i),i∈[0,1],j∈[1,n] (1)

Emb₀＝CE_emb,Emb₁＝EC_emb (2)

其中α_ij表示核心实体或者主题类型对于融合特征各个部分的权重，i＝0时表示核心实体的权重，i＝1时表示核心实体的主题类型的权重，j表示融合特征h中的第j个部分。

因此，通过使用核心实体及其主题类型对融合特征进行注意力处理，能够进一步提高主题分类的准确性。

图6示出了根据本公开的实施例的用于训练实体向量生成模型的图示600。如图6所示，可以针对每个实体，分别建立一个单独的模型，正例和负例的比例可以预设定，例如1:10。

610示出了实体的正例的构建过程，从知识库125获得实体的文本描述611(例如文本摘要和描述信息等)以及实体的相关视频612。然后，通过word2vec获得文本向量613，通过video2vec获得视频向量614，将文本向量613和视频向量614进行融合，得到正例向量615。

620示出了实体的负例的构建过程，统计知识库125中所有实体的文本摘要信息和描述的词频信息，通过带频随机采样得到负例的词汇序列621，从知识库125中随机采样视频622。然后，通过word2vec获得文本向量623，通过video2vec获得视频向量624，将文本向量623和视频向量624进行融合，得到负例向量625。

然后，可以通过神经网络对向量进行处理(如降维等)，输入到sigmod，将最终的参数确定为实体向量。通过这种方式，可以通过正例5和负例来训练实体的向量生成模型。所生成的实体的向量生成模型在使用时可以为实体生成对应的实体向量，从而进一步提高主题分类的准确性。

图7示出了根据本公开的实施例的基于多模态的主题分类装置700的框图。如图7所示，装置700包括多模态信息获得模块710、实体链接模块720、文本特征提取模块730、以及主题分类确定模块740。多模态信息获得模块710被配置为获得对象的文本信息和非文本信息，其中非文本信息包括视觉信息和音频信息中的至少一项。实体链接模块720被配置为基于预先构建的知识库，确定文本信息中的实体集合。文本特征提取模块730被配置为基于文本信息和实体集合，提取对象的文本特征。主题分类确定模块740，被配置为基于对象的文本特征和非文本特征，确定对象的主题分类，其中非文本特征基于非文本信息而被提取。

在一些实施例中，其中多模态信息获得模块710包括：图像文本获得模块，被配置为基于对视觉信息的光学字符识别，获得图像文本；语音文本获得模块，被配置为基于对音频信息的自动语音识别，获得语音文本；文字文本获得模块，被配置为基于对象的标题和弹幕，获得文字文本；以及文本融合模块，被配置为通过融合图像文本、语音文本以及文字文本，来获得文本信息。

在一些实施例中，其中主题分类确定模块740包括：特征提取模块，被配置为基于视觉信息和音频信息，通过基于注意力的长短期记忆网络提取视觉特征和音频特征；融合特征获得模块，被配置为通过融合视觉特征、音频特征以及文本特征，来获得对象的融合特征；以及多级主题分类确定模块，被配置为基于融合特征，确定对象的多级主题分类。

在一些实施例中，其中多级主题分类确定模块包括：核心实体确定模块，被配置为确定实体集合中的核心实体；以及主题类型确定模块，被配置为基于知识库，确定与核心实体相对应的主题类型。

在一些实施例中，其中多级主题分类确定模块还包括：第一特征获得模块，被配置为通过使用核心实体的向量对融合特征进行加权处理，来获得第一特征；第二特征获得模块，被配置为通过使用主题类型的向量对融合特征进行加权处理，来获得第二特征；以及多级主题分类获得模块，被配置为基于第一特征和第二特征，获得对象的多级主题分类。

在一些实施例中，装置700还包括训练模块，被配置为针对每个实体：基于知识库中的实体的文本描述和与实体相关的对象，获得正例向量；基于随机采样的文本和随机采样的对象，获得负例向量；以及基于预定比例的正例向量和负例向量，训练实体的向量生成模型。

在一些实施例中，其中训练模块包括：统计模块，被配置为统计知识库中的所有实体的文本描述中的词语的词频；以及随机选择模块，被配置为基于每个词语的词频，随机选择用作负例的词语序列。

在一些实施例中，装置700还包括：主题推断模块，被配置为基于文本信息，确定对象的主题推断；以及融合主题确定模块，被配置为基于对象的主题分类和主题推断，确定对象的融合主题。

图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。如图所示，设备800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元801执行上文所描述的各个方法和过程。例如，在一些实施例中，这些方法和过程可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU 801执行时，可以执行上文描述的方的一个或多个动作或步骤。备选地，在其他实施例中，CPU 801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行本公开的实施例的各种方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)，等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

此外，虽然采用特定次序描绘了各动作或步骤，但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行，或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种基于多模态的主题分类方法，包括：

获得对象的文本信息和非文本信息，所述非文本信息包括视觉信息和音频信息中的至少一项；

基于预先构建的知识库，确定所述文本信息中的实体集合；

基于所述文本信息和所述实体集合，提取所述对象的文本特征；以及

基于所述对象的所述文本特征和非文本特征，确定所述对象的主题分类，所述非文本特征基于所述非文本信息而被提取。

2.根据权利要求1所述的方法，其中获得所述对象的所述文本信息包括：

基于对所述视觉信息的光学字符识别，获得图像文本；

基于对所述音频信息的自动语音识别，获得语音文本；

基于所述对象的标题和弹幕，获得文字文本；以及

通过融合所述图像文本、所述语音文本以及所述文字文本，来获得所述文本信息。

3.根据权利要求1所述的方法，其中确定所述对象的主题分类包括：

基于所述视觉信息和所述音频信息，通过基于注意力的长短期记忆网络提取视觉特征和音频特征；

通过融合所述视觉特征、所述音频特征以及所述文本特征，来获得所述对象的融合特征；以及

基于所述融合特征，确定所述对象的多级主题分类。

4.根据权利要求3所述的方法，其中确定所述对象的多级主题分类包括：

确定所述实体集合中的核心实体；以及

基于所述知识库，确定与所述核心实体相对应的主题类型。

5.根据权利要求4所述的方法，其中确定所述对象的多级主题分类还包括：

通过使用所述核心实体的向量对所述融合特征进行加权处理，来获得第一特征；

通过使用所述主题类型的向量对所述融合特征进行加权处理，来获得第二特征；以及

基于所述第一特征和所述第二特征，确定所述对象的所述多级主题分类。

6.根据权利要求1所述的方法，还包括针对每个实体：

基于所述知识库中的所述实体的文本描述和与所述实体相关的对象，获得正例向量；

基于随机采样的文本和随机采样的对象，获得负例向量；以及

基于预定比例的所述正例向量和所述负例向量，训练所述实体的向量生成模型。

7.根据权利要求6所述的方法，其中获得所述负例向量包括：

统计所述知识库中的所有实体的文本描述中的词语的词频；以及

基于每个词语的词频，随机选择用作负例的词语序列。

8.根据权利要求1所述的方法，还包括：

基于所述文本信息，确定所述对象的主题推断；以及

基于所述对象的所述主题分类和所述主题推断，确定所述对象的融合主题。

9.一种基于多模态的主题分类装置，包括：

多模态信息获得模块，被配置为获得对象的文本信息和非文本信息，所述非文本信息包括视觉信息和音频信息中的至少一项；

实体链接模块，被配置为基于预先构建的知识库，确定所述文本信息中的实体集合；

文本特征提取模块，被配置为基于所述文本信息和所述实体集合，提取所述对象的文本特征；以及

主题分类确定模块，被配置为基于所述对象的所述文本特征和非文本特征，确定所述对象的主题分类，所述非文本特征基于所述非文本信息而被提取。

10.根据权利要求9所述的装置，其中所述多模态信息获得模块包括：

图像文本获得模块，被配置为基于对所述视觉信息的光学字符识别，获得图像文本；

语音文本获得模块，被配置为基于对所述音频信息的自动语音识别，获得语音文本；

文字文本获得模块，被配置为基于所述对象的标题和弹幕，获得文字文本；以及

文本融合模块，被配置为通过融合所述图像文本、所述语音文本以及所述文字文本，来获得所述文本信息。

11.根据权利要求9所述的装置，其中所述主题分类确定模块包括：

特征提取模块，被配置为基于所述视觉信息和所述音频信息，通过基于注意力的长短期记忆网络提取视觉特征和音频特征；

融合特征获得模块，被配置为通过融合所述视觉特征、所述音频特征以及所述文本特征，来获得所述对象的融合特征；以及

多级主题分类确定模块，被配置为基于所述融合特征，确定所述对象的多级主题分类。

12.根据权利要求11所述的装置，其中所述多级主题分类确定模块包括：

核心实体确定模块，被配置为确定所述实体集合中的核心实体；以及

主题类型确定模块，被配置为基于所述知识库，确定与所述核心实体相对应的主题类型。

13.根据权利要求12所述的装置，其中所述多级主题分类确定模块还包括：

第一特征获得模块，被配置为通过使用所述核心实体的向量对所述融合特征进行加权处理，来获得第一特征；

第二特征获得模块，被配置为通过使用所述主题类型的向量对所述融合特征进行加权处理，来获得第二特征；以及

多级主题分类获得模块，被配置为基于所述第一特征和所述第二特征，获得所述对象的所述多级主题分类。

14.根据权利要求9所述的装置，还包括训练模块，被配置为针对每个实体：

15.根据权利要求14所述的装置，其中所述训练模块包括：

统计模块，被配置为统计所述知识库中的所有实体的文本描述中的词语的词频；以及

随机选择模块，被配置为基于每个词语的词频，随机选择用作负例的词语序列。

16.根据权利要求9所述的装置，还包括：

主题推断模块，被配置为基于所述文本信息，确定所述对象的主题推断；以及

融合主题确定模块，被配置为基于所述对象的所述主题分类和所述主题推断，确定所述对象的融合主题。

17.一种电子设备，所述电子设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，所述一个或多个程序当被所述一个或多个处理器执行，使得所述电子设备实现根据权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-8中任一项所述的方法。