CN113408282A

CN113408282A - 主题模型训练和主题预测方法、装置、设备及存储介质

Info

Publication number: CN113408282A
Application number: CN202110901920.0A
Authority: CN
Inventors: 邓文超
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Shenzhen Yayue Technology Co ltd
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2021-09-17
Anticipated expiration: 2041-08-06
Also published as: CN113408282B

Abstract

本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质，涉及人工智能技术领域，在该方法中，采用综合模态特征提取器对综合模态参考数据进行特征提取，获得综合模态参考数据的综合模态特征，实现对综合模态参考数据中各个单模态参考数据的数据特征融合，故基于获得的各个综合模态特征进行聚类，获得目标主题模型时，每个聚类获得的主题特征可以更加准确地表征各个主题，从而提高主题模型的预测性能。进一步地，采用综合模态特征提取器，对目标综合模态数据的目标综合模态数据进行特征提取，获得目标综合模态特征，然后基于目标综合模态特征从目标主题模型中匹配目标综合模态数据的目标主题，从而提高主题预测的准确性。

Description

主题模型训练和主题预测方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种主题模型训练和主题预测方法、装置、设备及存储介质。

背景技术

在个性化的信息流推荐中，文章主题与文章分类、文章标签类似，是一种非常重要的用于刻画文章的特征，通常情况下，每一个主题下的文章的语义信息都比较类似。

相关技术采用离线构建的主题模型来获得文章的主题，目前主流的主题模型构建方法是先对文章的文本内容进行分词、去停用词的处理，然后使用吉布斯采样算法得到文章-主题的表示和主题-词的表示。

然而，上述方法在构建主题模型时只使用了文章的文本信息。随着文章内容的丰富，文章中不再仅仅包括文本信息，还包括其他信息。相关技术仅使用文本信息构建主题模型，容易导致获得的主题模型的预测准确性较低，进而导致主题预测的准确性较低。

发明内容

本申请实施例提供了一种主题模型训练和主题预测方法、装置、设备及存储介质，用于提高主题模型的预测准确性以及主题预测的准确性。

一方面，本申请实施例提供了一种主题模型训练方法，该方法包括：

获取综合模态参考数据集合，所述综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据；

采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征，所述已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的；

对获得的各个综合模态特征进行聚类，获得多个主题特征；

基于所述多个主题特征以及所述多个主题特征分别对应的主题，构建目标主题模型。

一方面，本申请实施例提供了一种主题预测方法，该方法包括：

获取目标综合模态数据；

采用已训练的综合模态特征提取器，对所述目标综合模态数据进行特征提取，获得目标综合模态特征；

将所述目标综合模态特征输入目标主题模型，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布，所述目标主题模型是采用上述主题模型训练方法获得的；

基于所述主题概率分布，确定与所述目标综合模态数据匹配的目标主题。

一方面，本申请实施例提供了一种主题模型训练装置，该装置包括：

第一获取模块，用于获取综合模态参考数据集合，所述综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据；

第一特征提取模块，用于采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征，所述已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的；

聚类模块，用于对获得的各个综合模态特征进行聚类，获得多个主题特征；

模型构建模块，用于基于所述多个主题特征以及所述多个主题特征分别对应的主题，构建目标主题模型。

可选地，还包括模型训练模块；

所述模型训练模型具体用于：

采用综合模态样本数据集合对待训练的综合模态特征提取器进行迭代训练，获得已训练的综合模态特征提取器，所述综合模态样本数据集合中的每个综合模态样本数据包括至少两个单模态样本数据；

其中，在每次迭代过程中，执行以下操作：

采用待训练的综合模态特征提取器，对综合模态样本数据中的各个单模态样本数据分别进行特征提取，获得综合模态样本特征；

基于所述综合模态样本特征，确定至少一个单模态预测数据以及所述各个单模态样本数据之间的关联关系；

基于所述至少一个单模态预测数据以及所述各个单模态样本数据之间的关联关系，对所述待训练的综合模态特征提取器进行参数调整。

可选地，所述聚类模块具体用于：

对获得的各个综合模态特征进行聚类，获得多个特征集合；

针对所述多个特征集合，分别执行以下操作：

对一个特征集合中的各个综合模态特征进行加权平均操作，获得所述一个特征集合对应的主题的主题特征。

可选地，所述聚类模块具体用于：

对一个特征集合中的各个综合模态特征进行加权平均操作，获得所述一个特征集合对应的主题特征；

基于所述一个特征集合对应的主题特征，生成所述一个特征集合对应的主题。

可选地，所述至少两个不同模态的单模态参考数据包括文本模态参考数据和图像模态参考数据。

一方面，本申请实施例提供了一种主题预测装置，该装置包括：

第二获取模块，用于获取目标综合模态数据；

第二特征提取模块，用于采用已训练的综合模态特征提取器，对所述目标综合模态数据进行特征提取，获得目标综合模态特征；

匹配模块，用于将所述目标综合模态特征输入目标主题模型，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布，并基于所述主题概率分布，确定与所述目标综合模态数据匹配的目标主题，所述目标主题模型是采用上述主题模型训练装置获得的。

可选地，所述匹配模块具体用于：

确定所述目标综合模态特征，分别与所述目标主题模型中各个主题特征的特征相似度；

将获得的各个特征相似度进行归一化处理，获得所述各个特征相似度分别对应的主题概率；

基于所述各个特征相似度分别对应的主题概率，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布。

可选地，所述匹配模块具体用于：

从所述主题概率分布中，获取最大主题概率；

从所述目标主题模型中获取所述最大主题概率对应的主题，作为与所述目标综合模态数据匹配的目标主题。

可选地，还包括标签提取模块；

所述标签提取模块具体用于：

对所述目标主题进行分词，获得所述目标主题对应的分词序列；

从所述目标主题对应的分词序列中，选取至少一个目标分词作为所述目标综合模态数据的特征标签。

一方面，本申请实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述主题模型训练方法或主题预测方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述主题模型训练方法或主题预测方法的步骤。

本申请实施例中，采用综合模态特征提取器，对综合模态参考数据进行特征提取，获得综合模态参考数据的综合模态特征，实现了对综合模态参考数据中各个单模态参考数据的数据特征融合，故基于获得的各个综合模态特征进行聚类，获得目标主题模型时，每个聚类获得的主题特征可以更加准确地表征各个主题，从而提高了主题模型的预测性能，进而提高基于主题模型进行主题预测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种文章界面示意图；

图2为本申请实施例提供的一种系统架构的结构示意图；

图3为本申请实施例提供的一种主题模型训练方法的流程示意图；

图4为本申请实施例提供的一种文章界面示意图；

图5为本申请实施例提供的一种文章界面示意图；

图6为本申请实施例提供的一种主题模型训练方法的流程示意图；

图7为本申请实施例提供的一种训练综合模态特征提取器的方法的流程示意图；

图8为本申请实施例提供的一种模型预测方法的流程示意图；

图9为本申请实施例提供的一种模型预测方法的流程示意图；

图10为本申请实施例提供的一种主题模型训练装置的结构示意图；

图11为本申请实施例提供的一种模型预测装置的结构示意图；

图12为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本发明实施例中涉及的名词进行解释。

人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例中操自然语言处理技术构建主题模型，然后采用主题模型预测文章的主题。

主题模型（topic model）：是以非监督学习的方式对文集的隐含语义结构（latentsemantic structure）进行聚类（clustering）的统计模型。

模态：信息的来源与形态具有多样性，每种数据形态都称为一种模态，比如文本模态、图像模态、语音模态等。

单模态数据：具备单一模态的数据称之为单模态数据。举例来说，单模态数据可以是文本模态数据、图像模态数据、语音模态数据等。

综合模态数据：具备多种模态的数据称之为综合模态数据，综合模态数据也可以称之为多模态数据。举例来说，综合模态数据可以是包含文本模态和图像模态的综合模态数据、包含文本模态和语音模态的综合模态数据、包含图像模态和语音模态的综合模态数据、包含文本模态、语音模态和图像模态的综合模态数据等。

下面对本申请实施例的设计思想进行介绍。

在个性化的信息流推荐中，文章主题与文章分类、文章标签类似，是一种非常重要的用于刻画文章的特征。在推荐场景下，可以将文章的主题作为文章的一个特征，然后基于文章的特征向用户推荐相关的内容。通常情况下，每一个主题下的文章的语义信息都比较类似，比如“体育赛事”主题下的文章均与体育赛事相关，故用户在选择一个主题的文章时，可以同时获得与该主题相关多个文章。

相关技术采用离线构建的主题模型来预测文章的主题，目前主流的主题模型构建方法是先对文章的文本内容进行分词、去停用词的处理，然后使用吉布斯采样算法得到文章-主题的表示和主题-词的表示。

然而，上述方法在构建主题模型时只使用了文章的文本信息。随着文章内容的丰富，文章中不再仅仅包括文本信息，还包括其他信息，比如还包括图像信息、语音信息、视频信息等。举例来说，如图1所示，某篇介绍足球比赛的解说文章中包括解说文本101和足球比赛图像102，其中，足球比赛图像102为足球比赛现场拍摄的照片。

当仅使用文章的文本信息构建主题模型时，容易忽略掉文章中的图像或视频等其他信息。而且对于文本信息较少的文章来说，比如壁纸类的文章，采用少量的文本信息难以准确表征文章的主题，从而导致构建的主题模型的预测性能较差，进而导致主题预测的准确性较低。

鉴于此，本申请实施例提出一种基于综合模态数据训练主题模型的方法，在该方法中，先获取综合模态参考数据集合，其中，综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据。然后采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征，其中，已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的。再对获得的各个综合模态特征进行聚类，获得多个主题特征，并基于多个主题特征以及多个主题特征分别对应的主题，构建目标主题模型。

在一种可能的实施方式中，在获得目标主题模型之后，可以采用目标主题模型预测任意一个综合模态数据的主题。具体地，先获取目标综合模态数据。然后采用已训练的综合模态特征提取器，对目标综合模态数据进行特征提取，获得目标综合模态特征。之后再将目标综合模态特征输入目标主题模型，获得目标综合模态数据在目标主题模型下的主题概率分布，并基于主题概率分布，确定与目标综合模态数据匹配的目标主题。

本申请实施例中，采用综合模态特征提取器，对目标综合模态数据进行特征提取，获得目标综合模态特征，该目标综合模态特征是融合了多个单模态数据特征的综合模态特征，故相较于从单模态数据中提取的单模态数据特征来说，综合模态特征能更加准确地表征目标综合模态数据。而且，采用综合模态参考数据集合训练获得目标主题模型，故目标主题模型中的各个主题特征可以更加准确地表征各个主题，因此基于目标综合模态特征从目标主题模型中匹配目标综合模态数据的目标主题时，可以有效提高主题预测的准确性。

参考图2，其为本申请实施例提供的主题模型训练方法以及主题预测方法所适用的系统架构图，该架构至少包括终端设备201以及服务器202。

终端设备201中可以安装具备主题模型训练功能和/或主题预测功能的目标应用，其中，目标应用可以是客户端应用、网页版应用、小程序应用等。终端设备201可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

服务器202可以是目标应用的后台服务器，为目标应用提供相应的服务，服务器202可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content Delivery Network，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备201与服务器202可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

本申请实施例中的主题模型训练方法和主题预测方法可以都由终端设备201执行，也可以是都由服务器202执行，也可以是主题模型训练方法由终端设备201执行，主题预测方法由服务器202执行，还可以是主题模型训练方法由服务器202执行，主题预测方法由终端设备201执行。

实施方式一，主题模型训练方法和主题预测方法均由终端设备201执行。

用户在终端设备201上提交综合模态参考数据集合，其中，综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据。终端设备201采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征，其中，已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的。然后对获得的各个综合模态特征进行聚类，获得多个主题特征，并基于多个主题特征以及多个主题特征分别对应的主题，构建目标主题模型。在获得目标主题模型之后，将目标主题模型保存在终端设备201中。

用户在终端设备201上提交目标综合模态数据。终端设备201采用已训练的综合模态特征提取器，对目标综合模态数据进行特征提取，获得目标综合模态特征。然后将目标综合模态特征输入目标主题模型，获得目标综合模态数据在目标主题模型下的主题概率分布，并基于主题概率分布，确定与目标综合模态数据匹配的目标主题。终端设备201可以在显示界面中展示目标主题。

实施方式二，主题模型训练方法和主题预测方法均由服务器202执行。

用户在终端设备201上提交综合模态参考数据集合，其中，综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据。终端设备201将综合模态参考数据集合发送给服务器202。服务器202采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征，其中，已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的。然后对获得的各个综合模态特征进行聚类，获得多个主题特征，并基于多个主题特征以及多个主题特征分别对应的主题，构建目标主题模型。在获得目标主题模型之后，将目标主题模型保存在服务器202中。

用户在终端设备201上提交目标综合模态数据。终端设备201将目标综合模态数据发送给服务器202。服务器202采用已训练的综合模态特征提取器，对目标综合模态数据进行特征提取，获得目标综合模态特征。之后再将目标综合模态特征输入目标主题模型，获得目标综合模态数据在目标主题模型下的主题概率分布，并基于主题概率分布，确定与目标综合模态数据匹配的目标主题。服务器202将目标主题发送给终端设备201，终端设备201可以在显示界面中展示目标主题。

基于图2所示的系统架构图，本申请实施例提供了一种主题模型训练方法的流程，如图3所示，该方法的流程可以由图2所示的终端设备201或服务器202执行，包括以下步骤：

步骤S301，获取综合模态参考数据集合。

其中，综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据，其中，单模态参考数据可以文本模态参考数据、图像模态参考数据、语音模态参考数据等。

综合模态参考数据可以是包含文本模态参考数据和图像模态参考数据的综合模态参考数据，也可以是包含文本模态参考数据和语音模态参考数据的综合模态参考数据，也可以是包含图像模态参考数据和语音模态参考数据的综合模态参考数据，还可以是包含文本模态参考数据、图像模态参考数据和语音模态参考数据的综合模态参考数据等。

举例来说，如图4所示，某篇介绍游戏角色M的文章中包括文本模态参考数据和图像模态参考数据，其中，文本模态参考数据为游戏角色M的属性介绍文本401，图像模态参考数据为游戏角色M的人物图像402。

举例来说，如图5所示，某篇介绍商品A的文章中包括文本模态参考数据、语音模态参考数据和图像模态参考数据，其中，文本模态参考数据为商品的功能介绍文本501以及商品的使用说明视频502中的字幕，语音模态参考数据为使用说明视频502中的语音，图像模态参考数据为使用说明视频502中的视频帧。

步骤S302，采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征。

其中，已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的，综合模态特征提取器可以是Transformer模型、BERT（Bidirectional EncoderRepresentations from Transformers）模型等。综合模态样本数据集合中的每个综合模态样本数据中包括至少两个单模态样本数据。

综合模态特征提取器的输入包括多个部分，每个部分对应一个模态的单模态参考数据。针对一个综合模态参考数据，综合模态特征提取器分别对综合模态参考数据中的各个单模态参考数据进行特征提取，获得多个单模态特征，然后将多个单模态特征融合，获得综合模态参考数据对应的综合模态特征。

举例来说，设定综合模态参考数据包括文本模态参考数据和图像模态参考数据，综合模态特征提取器的输入包括两个部分，分别为文本模态参考数据的输入和图像模态参考数据的输入。综合模态特征提取器对文本模态参考数据和图像模态参考数据进行特征提取并融合，获得综合模态参考数据的综合模态特征。

步骤S303，对获得的各个综合模态特征进行聚类，获得多个主题特征。

具体地，对获得的各个综合模态特征进行聚类的聚类算法包括但不限于：K-means（K均值）聚类算法、均值漂移聚类、基于密度的聚类算法、用高斯混合模型的最大期望聚类算法、凝聚层次聚类算法等。

对获得的各个综合模态特征进行聚类后，可以获得多个特征集合，然后基于每个特征集合中的综合模态特征，获得一个主题特征。

具体实施中，针对多个特征集合，分别执行以下操作：可以对一个特征集合中的各个综合模态特征进行加权平均操作，获得该特征集合对应的主题的主题特征；也可以将一个特征集合中类中心对应的综合模态特征，作为该特征集合对应的主题的主题特征；还可以从一个特征集合中随机选取一个综合模态特征作为该特征集合对应的主题的主题特征等。

步骤S304，基于多个主题特征以及多个主题特征分别对应的主题，构建目标主题模型。

具体地，在获得多个主题特征后，可以采用人工标注的方式获得每个主题特征对应的主题。也可以基于主题特征，生成主题特征对应的主题，具体地，对一个特征集合中的各个综合模态特征进行加权平均操作，获得一个特征集合对应的主题特征，然后基于一个特征集合对应的主题特征，生成一个特征集合对应的主题。主题可以是一个词或者一句话，比如，主题可以是“足球比赛”，也可以是“足球比赛中的精彩集锦”等。

可选地，本申请实施例中，训练获得的综合模态特征提取器和目标主题模型可保存于区块链上。

举例来说，如图6所示，采用大规模信息流文章作为训练样本训练获得综合模态特征提取器，其中，信息流文章中包括文本模态数据和图像模态数据。获取用于训练主题模型的主题模型训练语料，每一篇语料文章包括文本模态数据和图像模态数据。

预先设置主题模型中包括的主题数量为10000个。采用已训练的综合模态特征提取器对每一篇语料文章进行特征提取，获得每一篇语料文章对应的综合模态特征向量，综合模态特征向量为768维。然后采用K均值聚类算法，对获得的各个综合模态特征向量进行聚类，获得10000个特征向量集合。然后对每个特征向量集合进行加权平均操作，获得每个特征向量集合对应的主题特征。再基于每个主题特征生成每个主题特征对应的主题。基于10000个主题特征以及10000个主题特征分别对应的主题，获得目标主题模型。

可选地，针对上述步骤S302描述的已训练的综合模态特征提取器，本申请实施例至少提供以下两种训练方式：

在一种可能的实施方式中，采用综合模态样本数据集合对待训练的综合模态特征提取器进行迭代训练，获得已训练的综合模态特征提取器，其中，综合模态样本数据集合中的每个综合模态样本数据包括至少两个单模态样本数据。

在每次迭代过程中，执行以下操作：采用待训练的综合模态特征提取器，对综合模态样本数据中的各个单模态样本数据分别进行特征提取，获得综合模态样本特征。然后基于综合模态样本特征，确定至少一个单模态预测数据以及各个单模态样本数据之间的关联关系。然后基于至少一个单模态预测数据以及各个单模态样本数据之间的关联关系，对待训练的综合模态特征提取器进行参数调整。

具体地，可以采用综合模态特征提取器中不同的特征提取模块，分别对综合模态样本数据中不同模态的单模态样本数据进行特征提取，获得多个单模态样本特征。然后将多个单模态样本特征融合，获得综合模态样本特征。基于综合模态样本特征，预测获得至少一个单模态预测数据以及不同模态的单模态样本数据之间的关联关系，其中，关联关系包括正向关联关系和负向关联关系，其中，正向关联关系表示多个单模态样本数据来自于一个文章，负向关联关系表示多个单模态样本数据来自于不同的文章。

通过将综合模态样本数据中的单模态样本数据与预测获得的单模态预测数据进行比对，以及将综合模态样本数据中预先标记的多个单模态样本数据之间的关联关系，与预测获得的多个单模态样本数据之间的关联关系进行比对，获得待训练的综合模态特征提取器的损失函数。然后基于获得损失函数进行反向传播训练，对待训练的综合模态特征提取器进行参数调整。

当损失函数满足预设条件，或者迭代训练的次数达到预设阈值时，结束训练，获得已训练的综合模态特征提取器。

举例来说，设定综合模态样本数据集中包括大量的信息流文章，其中，每个综合模态样本数据集中包括文本模态样本数据和图像模态样本数据。综合模态特征提取器包括图片特征提取模块、综合模态特征提取模块，其中，图片特征提取模块可以是Inception-ResNet-V2、卷积神经网络（Convolutional Neural Networks，简称CNN）、深度神经网络（Deep Neural Networks，简称DNN）等计算机视觉领域中的图片特征提取模型。综合模态特征提取模块可以是12个Transformer特征提取层。

综合模态特征提取器的训练任务包括两个，分别为：

任务一、对文本模态样本数据中的设定分词进行屏蔽（MASK）后输入综合模态特征提取器，综合模态特征提取器的输出还原屏蔽的分词。

举例来说，文本模态样本数据中包括“牛”、“仔”、“裤”三个分词，将分词“仔”屏蔽后，获得“牛”、“MASK”、“裤”三个分词，然后将“牛”、“MASK”、“裤”三个分词输入综合模态特征提取器，综合模态特征提取器输出分词“仔”。

任务二、判断文本模态样本数据和图像模态样本数据是否匹配的任务，其中，文本-图像匹配的正例为：文本模态样本数据和图像模态样本数据来自于同一篇文章，文本-图像匹配的负例为：文本模态样本数据和图像模态样本数据来自于不同文章，其中，正例可以用1表示，负例可以用0表示。

下面对训练过程中的一次迭代训练过程进行说明，如图7所示，设定综合模态样本数据为用户上传的一篇商品评价文章，其中，文本模态样本数据为评论文本 “牛仔裤很漂亮”，图像模态样本数据为三张评价图像，具体为评价图像A、评价图像B和评价图像C。

将评论文本 “牛仔裤很漂亮”划分为“牛”、“仔”、“裤”、很”、“漂”、“亮”六个分词，然后将“牛”、“仔”、“裤”、很”、“漂”、“亮”六个分词中的分词“仔”和“漂”屏蔽，获得“牛”、“MASK”、“裤”、很”、“MASK”、“亮”六个分词。采用图片特征提取模块分别提取评价图像A、评价图像B和评价图像C的图像特征，获得图像特征a、图像特征b和图像特征c。

然后将“牛”、“MASK”、“裤”、很”、“MASK”、“亮”六个分词以及图像特征a、图像特征b和图像特征c三个图像特征输入综合模态特征提取模块。综合模态特征提取模块输出任务一和任务二分别对应的处理结果。

假设任务一对应的处理结果为：输出分词“仔”和“漂”。任务二对应的处理结果为：输出1，表示评论文本和评论图像来自于一篇文章。

将任务一对应的处理结果与输入的评论文本进行比对，可以得出综合模态特征提取器成功还原了屏蔽的分词“仔”和“漂”。任务二对应的处理结果表征评论文本和评论图像来自于一篇文章，而输入综合模态特征提取器的评论文本和评论图像确实来自于一篇文章，可以得出综合模态特征提取器成功预测了评论文本与评论图像之间的关联关系。再基于比对的结果，确定综合模态特征提取器的损失函数，基于获得损失函数进行反向传播训练，对待训练的综合模态特征提取器进行参数调整。迭代训练10次后结束训练，获得已训练的综合模态特征提取器。

本申请实施例中，采用多模态数据为训练样本，训练综合模态特征提取器，并且在训练过程中以多个单模态数据之间的关联关系作为训练任务，使综合模态特征提取器能可以更好地学习融合单模态数据特征的方式，进而提高综合模态特征提取器的性能。

在另一种可能的实施方式中，除了上述描述的单独训练综合模态特征提取器之外，还可以结合主题模型对综合模态特征提取器进行训练。

具体地，采用上述方法对综合模态特征提取器进行一次迭代训练之后，采用本次迭代训练获得的综合模态特征提取器，分别对各个综合模态样本数据（也可以采用与综合模态样本数据不同的其他综合模态数据）进行特征提取，获得各个综合模态样本数据各自对应的综合模态预测特征。然后对各个综合模态预测特征进行聚类，获得多个预测主题特征，再基于多个预测主题特征以及多个预测主题特征分别对应的主题，构建预测主题模型，之后对预测主题模型进行性能评估，获得评价指标数据。

将预测主题模型的评价指标数据添加至综合模态特征提取器的损失函数中，然后基于获得的新损失函数进行反向传播训练，对待训练的综合模态特征提取器进行参数调整。

本申请实施例中，结合主题模型对综合模态特征提取器进行训练，使综合模态特征提取器可以提取到更加全面的特征信息，从而提高综合模态特征提取器的性能，进而提高主题模型的预测性能。

基于图2所示的系统架构图，本申请实施例提供了一种主题预测方法的流程，如图8所示，该方法的流程可以由图2所示的终端设备201或服务器202执行，包括以下步骤：

步骤S801，获取目标综合模态数据。

具体地，目标综合模态数据可以是任意信息流文章，包括至少两个不同的单模态数据，单模态数据可以是文本模态数据、图像模态数据、语音模态数据等。

步骤S802，采用已训练的综合模态特征提取器，对目标综合模态数据进行特征提取，获得目标综合模态特征。

综合模态特征提取器的训练过程在前文已有介绍，此处不再赘述。采用已训练的综合模态特征提取器，分别对目标综合模态数据中的各个单模态数据进行特征提取，获得多个单模态特征，然后将多个单模态特征融合，获得目标综合模态特征。

目标综合模态特征的维度与主题特征的维度相同，比如，目标主题模型中每个主题特征向量为768维，则目标综合模态特征的维度也是768维。

步骤S803，将目标综合模态特征输入目标主题模型，获得目标综合模态数据在目标主题模型下的主题概率分布。

训练目标主题模型的方法在前文已有介绍，此处不再赘述。

在一种可能的实施方式中，通过计算欧氏距离、余弦相似度等方式确定目标综合模态特征，分别与目标主题模型中各个主题特征的特征相似度。然后对获得的各个特征相似度进行归一化处理，获得各个特征相似度分别对应的主题概率。基于各个特征相似度分别对应的主题概率，获得目标综合模态数据在目标主题模型下的主题概率分布。

需要说明的是，本申请实施例中也可以不对各个特征相似度进行归一化处理，直接将获得的各个特征相似度作为目标综合模态数据在目标主题模型下的主题概率分布。

步骤S804，基于主题概率分布，确定与目标综合模态数据匹配的目标主题。

在一种可能的实施方式中，从主题概率分布中，获取最大主题概率。然后从目标主题模型中获取最大主题概率对应的主题，作为与目标综合模态数据匹配的目标主题。

具体地，对获得的各个特征相似度进行归一化处理，获得目标综合模态数据在目标主题模型下的主题概率分布。按照主题概率从大到小的顺序，对获得的各个主题概率进行排序，获得主题概率排序结果。将主题概率排序结果中，排在第一位的主题概率对应的主题，作为与目标综合模态数据匹配的目标主题。也可以将主题概率排序结果中，排在前N位的主题概率对应的主题，作为与目标综合模态数据匹配的目标主题，其中，N>1。

在另一种可能的实施方式中，从主题概率分布中，获取大于预设阈值的目标主题概率。然后从目标主题模型中获取目标主题概率对应的主题，作为与目标综合模态数据匹配的目标主题。

以文章加工流程举例来说，如图9所示，在获得目标主题模型之后，将已训练的综合模态特征提取器和目标主题模型保存在主题模型系统中。将文章1、文章2和文章3输入主题模型系统。

针对文章1，主题模型系统先采用已训练的综合模态特征提取器对文章1进行特征提取，获得一个768维的文章特征向量A。然后计算文章特征向量A分别与目标主题模型中各个主题特征向量的特征相似度，其中，主题特征向量也是768维的特征向量。对获得的各个特征相似度进行归一化处理，获得文章1在目标主题模型下的主题概率分布1。将主题概率分布1中最大主题概率对应的主题，作为文章1的目标主题。

针对文章2，主题模型系统先采用已训练的综合模态特征提取器对文章2进行特征提取，获得一个768维的文章特征向量B。然后计算文章特征向量B分别与目标主题模型中各个主题特征向量的特征相似度。对获得的各个特征相似度进行归一化处理，获得文章2在目标主题模型下的主题概率分布2。将主题概率分布2中最大主题概率对应的主题，作为文章2的目标主题。

针对文章3，主题模型系统先采用已训练的综合模态特征提取器对文章3进行特征提取，获得一个768维的文章特征向量C。然后计算文章特征向量C分别与目标主题模型中各个主题特征向量的特征相似度。对获得的各个特征相似度进行归一化处理，获得文章3在目标主题模型下的主题概率分布3。将主题概率分布3中最大主题概率对应的主题，作为文章3的目标主题。

可选地，在获得目标综合模态数据的目标主题之后，可以基于目标主题对目标综合模态数据进一步加工处理。

在一种可能的实施方式中，对目标综合模态数据的目标主题进行分词，获得目标主题对应的分词序列，然后从目标主题对应的分词序列中，选取至少一个目标分词作为目标综合模态数据的特征标签。

举例来说，设定文章的目标主题为“足球比赛的精彩集锦”，将目标主题进行分词，获得分词序列：“足球”、“比赛”、“的”、“精彩”、“集锦”。从分词序列中选取“足球”、“比赛”、“集锦”作为文章的特征标签。

目标主题除了用于确定文章的特征标签之外，还可以用于对文章进行分类，或者将目标主题作为文章的特征，输入到召回模型或推荐模型中，用于文章的召回或推荐，从而提高文章推荐的效果。

基于相同的技术构思，本申请实施例提供了一种主题模型训练装置，如图10所示，该装置1000包括：

第一获取模块1001，用于获取综合模态参考数据集合，所述综合模态参考数据集合中的每个综合模态参考数据包括至少两个不同模态的单模态参考数据；

第一特征提取模块1002，用于采用已训练的综合模态特征提取器，分别对各个综合模态参考数据进行特征提取，获得各个综合模态参考数据各自对应的综合模态特征，所述已训练的综合模态特征提取器是采用综合模态样本数据集合迭代训练获得的；

聚类模块1003，用于对获得的各个综合模态特征进行聚类，获得多个主题特征；

模型构建模块1004，用于基于所述多个主题特征以及所述多个主题特征分别对应的主题，构建目标主题模型。

可选地，还包括模型训练模块1005；

所述模型训练模型1005具体用于：

其中，在每次迭代过程中，执行以下操作：

可选地，所述聚类模块1003具体用于：

对获得的各个综合模态特征进行聚类，获得多个特征集合；

针对所述多个特征集合，分别执行以下操作：

可选地，所述聚类模块1003具体用于：

基于相同的技术构思，本申请实施例提供了一种主题预测装置，如图11所示，该装置1100包括：

第二获取模块1101，用于获取目标综合模态数据；

第二特征提取模块1102，用于采用已训练的综合模态特征提取器，对所述目标综合模态数据进行特征提取，获得目标综合模态特征；

匹配模块1103，用于将所述目标综合模态特征输入目标主题模型，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布，基于所述主题概率分布，确定与所述目标综合模态数据匹配的目标主题，所述目标主题模型是采用上述主题模型训练装置获得的。

可选地，所述匹配模块1103具体用于：

从所述主题概率分布中，获取最大主题概率；

可选地，还包括标签提取模块1104；

所述标签提取模块1104具体用于：

基于相同的技术构思，本申请实施例提供了一种计算机设备，计算机设备可以是终端或服务器，如图12所示，包括至少一个处理器1201，以及与至少一个处理器连接的存储器1202，本申请实施例中不限定处理器1201与存储器1202之间的具体连接介质，图12中处理器1201和存储器1202之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器1202存储有可被至少一个处理器1201执行的指令，至少一个处理器1201通过执行存储器1202存储的指令，可以执行上述主题模型训练方法或主题预测方法的步骤。

其中，处理器1201是计算机设备的控制中心，可以利用各种接口和线路连接计算机设备的各个部分，通过运行或执行存储在存储器1202内的指令以及调用存储在存储器1202内的数据，从而训练主题模型或者进行主题预测。可选的，处理器1201可包括一个或多个处理单元，处理器1201可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1201中。在一些实施例中，处理器1201和存储器1202可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器1201可以是通用处理器，例如中央处理器（CPU）、数字信号处理器、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器1202作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器1202可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器（Random AccessMemory，RAM）、静态随机访问存储器（Static Random Access Memory，SRAM）、可编程只读存储器（Programmable Read Only Memory，PROM）、只读存储器（Read Only Memory，ROM）、带电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，EEPROM）、磁性存储器、磁盘、光盘等等。存储器1202是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器1202还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当程序在计算机设备上运行时，使得计算机设备执行上述主题模型训练方法或主题预测方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种主题模型训练方法，其特征在于，包括：

对获得的各个综合模态特征进行聚类，获得多个主题特征；

2.如权利要求1所述的方法，其特征在于，所述已训练的综合模态特征提取器是采用以下方式训练获得的：

其中，在每次迭代过程中，执行以下操作：

3.如权利要求1所述的方法，其特征在于，所述对获得的各个综合模态特征进行聚类，获得多个主题特征，包括：

对获得的各个综合模态特征进行聚类，获得多个特征集合；

针对所述多个特征集合，分别执行以下操作：

4.如权利要求3所述的方法，其特征在于，所述对一个特征集合中的各个综合模态特征进行加权平均操作，获得所述一个特征集合对应的主题的主题特征，包括：

5.如权利要求1至4任一所述的方法，其特征在于，所述至少两个不同模态的单模态参考数据包括文本模态参考数据和图像模态参考数据。

6.一种主题预测方法，其特征在于，包括：

获取目标综合模态数据；

将所述目标综合模态特征输入目标主题模型，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布，所述目标主题模型是采用权利要求1至5任一所述的方法获得的；

7.如权利要求6所述的方法，其特征在于，所述将所述目标综合模态特征输入目标主题模型，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布，包括：

8.如权利要求7所述的方法，其特征在于，所述基于所述主题概率分布，确定与所述目标综合模态数据匹配的目标主题，包括：

从所述主题概率分布中，获取最大主题概率；

9.如权利要求6所述的方法，其特征在于，所述基于所述主题概率分布，确定与所述目标综合模态数据匹配的目标主题之后，还包括：

10.一种主题模型训练装置，其特征在于，包括：

11.一种主题预测装置，其特征在于，包括：

第二获取模块，用于获取目标综合模态数据；

匹配模块，用于将所述目标综合模态特征输入目标主题模型，获得所述目标综合模态数据在所述目标主题模型下的主题概率分布，并基于所述主题概率分布，确定与所述目标综合模态数据匹配的目标主题，所述目标主题模型是采用权利要求10所述的装置获得的。

12.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1~9任一权利要求所述方法的步骤。

13.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1~9任一所述方法的步骤。