CN116383521B

CN116383521B - 主题词挖掘方法及装置、计算机设备及存储介质

Info

Publication number: CN116383521B
Application number: CN202310567112.4A
Authority: CN
Inventors: 刘陆阳; 林群阳; 张闯
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2023-05-19
Filing date: 2023-05-19
Publication date: 2023-08-29
Anticipated expiration: 2043-05-19
Also published as: CN116383521A

Abstract

本发明涉及数据挖掘技术领域，公开了主题词挖掘方法及装置、计算机设备及存储介质。主题词挖掘方法，包括：获取互联网服务的用户在预设时间内的社交网络数据；解析社交网络数据，得到用户的用户标识；将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量；通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵；基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。能够结合用户兴趣对用户感兴趣的主题词进行针对性挖掘，有助于保障挖掘的精确性和有效性。

Description

主题词挖掘方法及装置、计算机设备及存储介质

技术领域

本发明涉及数据挖掘技术领域，具体涉及主题词挖掘方法及装置、计算机设备及存储介质。

背景技术

随着互联网服务和新媒体的不断迭代发展，社交网络已经成为现代信息化社会中人们记录、分享自己日常生活和表达自己观点的主要方式。然而随着用户规模和用户使用时间的不断增长，累积的用户生成内容（User Generated Content，UGC）数据量也不断增长，因此如何高效地分析、挖掘这些海量数据逐渐成为提高用户体验所面临的重要挑战。

相关技术中，是基于得到的文本进行主题挖掘，得到的主题与用户无关，进而影响后续对用户进行主题推送的有效性。

发明内容

有鉴于此，本发明提供了一种主题词挖掘方法及装置、计算机设备及存储介质，以解决得到的用户主题与用户之间不具有关联关系的问题。

第一方面，本发明提供了一种主题词挖掘方法，方法包括：

获取互联网服务的用户在预设时间内的社交网络数据；

解析社交网络数据，得到用户的用户标识；

将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量；

通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵；

基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。

在该方式中，通过预先训练好的用户主题挖掘模型，使在对互联网服务的用户进行主题词挖掘时，仅需获取用户的用户标识即可，进而有助于提高挖掘效率。并且，在挖掘的过程中，通过该用户主题挖掘模型中用户网络模型，可以获取用户的用户兴趣分布向量，进而结合从内置于用户主题挖掘模型的解码器网络模型中获得的全局主题词分布向量矩阵进行主题词挖掘，能够结合用户兴趣进行针对性的挖掘，使得到的用户主题词更贴合用户的兴趣，更有助于保障主题词挖掘的精确性和有效性，从而后续可以作为先验知识来增强诸如搜索、推荐、用户画像等任务，以满足多种业务需求。

在一种可选的实施方式中，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量，包括：

通过内置于用户网络模型的用户向量库，对用户标识进行向量转换，得到用户的用户向量；

通过用户网络模型内的多层感知机，根据用户向量对用户的用户兴趣进行预测，得到用户的用户兴趣分布向量。

在该方式中，可以在用户网络模型中，根据输入的用户标识对用户感兴趣的主题进行针对性预测，以得到用户的用户兴趣分布向量，进而对用户感兴趣的主题词进行挖掘时，能够更贴合用户的选择，从而有助于提高挖掘的准确性，使得到的用户感兴趣的多个用户主题词更精确，能够保障后续执行相关用户挖掘任务的，该多个主题词成为先验知识的有效性。

在一种可选的实施方式中，用户包括多个子用户，通过内置于用户网络模型的用户向量库，对用户标识进行向量转换，得到用户的用户向量，包括：

通过内置于用户网络模型的用户向量库，分别对每一个子用户的用户标识进行向量转换，得到各子用户的子用户向量；

根据每一个子用户的用户标识，获取多个子用户之间的用户关系以及每一个子用户的属性信息；

基于各子用户的子用户向量和用户关系，得到多个子用户的用户关系向量；

基于各属性信息，得到对应子用户的用户属性向量；

通过用户关系向量和各用户属性向量，得到用户向量。

在一种可选的实施方式中，基于各子用户的子用户向量和用户关系，得到多个子用户的用户关系向量，包括：

根据用户关系，构建多个子用户的用户关系图谱，得到用户关系图谱的邻接矩阵；

将邻接矩阵和各子用户的子用户向量输入用户网络模型内的图卷积网络模型中，得到多个子用户的用户关系向量。

在一种可选的实施方式中，基于各属性信息，得到对应子用户的用户属性向量，包括：

对属性信息进行特征编码处理，得到属性信息的词项编号序列；

将词项编号序列输入至转换模型进行向量转换，得到属性信息对应子用户的用户属性向量，转换模型内置于用户网络模型内。

在一种可选的实施方式中，通过用户网络模型内的多层感知机，根据用户向量对用户的用户兴趣进行预测，得到用户的用户兴趣分布向量，包括：

将用户向量输入用户网络模型内的多层感知机，以将用户向量映射到狄克拉德尔塔多项式分布上，对用户的用户兴趣进行预测，得到映射结果；

通过内置的归一化层对映射结果进行归一化处理，得到用户的用户兴趣分布向量。

在一种可选的实施方式中，基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词，包括：

基于用户兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，以分别确定用户每一个感兴趣的主题在全局主题词分布上的分布概率，得到并输出用户感兴趣的多个用户主题词；

用户感兴趣的主题基于用户兴趣分布向量确定，全局主题词分布基于全局主题词分布向量矩阵确定。

在一种可选的实施方式中，在获取全局主题词分布向量矩阵之前，方法还包括：

获取多个用户样本的主题向量，多个用户样本包括用户；

根据各用户样本的主题向量，构建主题向量矩阵；

在解码器网络模型的映射层内，将预置的外部预训练的词向量矩阵与主题向量矩阵相乘，得到全局主题词分布向量矩阵。

在一种可选的实施方式中，方法还包括：

根据每一个用户主题词的分布概率，按照从大到小的排序方式对各用户主题词进行排序，得到排序结果；

根据排序结果，筛选出预设数量的用户主题词，并将预设数量的用户主题词确定为目标主题词，预设数量的用户主题词的分布概率大于未被筛选出的主题词的分布概率；

导出目标主题词。

在一种可选的实施方式中，方法还包括：

导出用户兴趣分布向量和全局主题词分布向量；

根据用户兴趣分布向量和全局主题词分布向量，生成用户的用户画像。

在一种可选的实施方式中，方法还包括：

获取多个用户样本的用户标识以及对应的社交文档；

对多个用户样本的用户标识进行标识处理，得到多个用户样本的用户兴趣分布向量；

基于多个用户样本的用户兴趣分布向量以及每一个社交文档语义信息随机变量，得到多个用户样本的文档主题成分分布向量；

基于多个用户样本的用户兴趣分布向量以及多个用户样本的文档主题成分分布向量，通过预置的目标函数进行模型训练，得到用户主题挖掘模型。

在一种可选的实施方式中，基于多个用户样本的用户兴趣分布向量以及每一个社交文档，得到多个用户样本的文档主题成分分布向量，包括：

通过预置的文档语义编码网络模型，分别对各社交文档进行语义提取处理，得到各社交文档的语义向量，语义向量包括对应社交文档的文档语义信息；

在文档语义编码网络模型的适配层中，将各社交文档的文档语义信息映射至预置的文档主题分布内，得到文档语义信息随机变量，文档主题分布服从对数正态分布；

基于多个用户样本的用户兴趣分布向量和文档语义信息随机变量，得到社交文档的文档主题成分分布向量。

在一种可选的实施方式中，适配层包括第一全连接层和第二全连接层；

在文档语义编码网络模型的适配层中，将各社交文档的文档语义信息映射至预置的文档主题分布内，得到文档语义信息随机变量，包括：

通过第一全连接层对各社交文档的文档语义信息进行第一采样处理，得到第一处理结果；

通过第二全连接层对各社交文档的文档语义信息进行第二采样处理，得到第二处理结果；

将第一处理结果和第二处理结果映射至文档主题分布，得到社交文档的文档语义信息随机变量。

在一种可选的实施方式中，基于多个用户样本的用户兴趣分布向量和文档语义信息随机变量，得到社交文档的文档主题成分分布向量，包括：

对文档语义信息随机变量进行采样处理，得到采样结果；

对多个用户样本的用户兴趣分布向量和采样结果进行加权处理，得到加权结果；

对加权结果进行归一化处理，得到文档主题分布向量。

在一种可选的实施方式中，方法还包括：

根据指定周期，更新用户主题挖掘模型。

在一种可选的实施方式中，根据指定周期，更新用户主题挖掘模型，包括：

按照第一预设周期更新用户网络模型的配置参数；

按照第二预设周期交替更新文档语义编码网络模型和解码器网络模型配置参数；

第二预设周期与第一预设周期之间的比值为指定比率。

在一种可选的实施方式中，用户主题挖掘模型部署在服务器的指定端口上。

第二方面，本发明提供了一种主题词挖掘装置，装置包括：

第一获取模块，用于获取互联网服务的用户在预设时间内的社交网络数据；

解析模块，用于解析社交网络数据，得到用户的用户标识；

标识处理模块，用于将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量；

第二获取模块，用于通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵；

挖掘模块，用于基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。

第三方面，本发明提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的主题词挖掘方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的主题词挖掘方法。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的主题词挖掘方法的流程图；

图2是根据本发明实施例的另一主题词挖掘方法的流程图；

图3是根据本发明实施例的又一主题词挖掘方法的流程图；

图4是根据本发明实施例的用户兴趣词云示意图；

图5是根据本发明实施例的再一主题词挖掘方法的流程图；

图6是根据本发明实施例的训练系统结构框架示意图；

图7是根据本发明实施例的用户主题挖掘模型训练方法的流程图；

图8是根据本发明实施例的主题词挖掘装置的结构框图；

图9是根据本发明实施例的另一主题词挖掘装置的结构框图；

图10是本发明实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

用户生成内容数据往往都蕴含着丰富的主题信息以及用户兴趣相关的知识，因此，对社交网络媒体上用户生成内容数据进行主题挖掘和分析，并对用户兴趣建模具有重要的理论和实践意义。

在本发明提供的主题词挖掘方法，包括：获取用户在预设时间内的社交网络数据；解析社交网络数据，得到用户的用户标识；将用户标识输入预先训练好的用户主题挖掘模型，基于用户标识和内置于用户主题挖掘模型的全局主题词分布向量矩阵进行主题词挖掘，得到用户感兴趣的多个用户主题词。本发明提供的主题词挖掘方法，在挖掘主题词的过程中，能够基于得到用户标识进行针对性的挖掘，使得到的用户主题词更贴合用户的兴趣，进而有助于保障主题词挖掘的精确性和有效性，从而后续可以作为先验知识来增强诸如搜索、推荐、用户画像等任务。

根据本发明实施例，提供了一种主题词挖掘方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种主题词挖掘方法，可用于上述的终端，如平板、电脑等，图1是根据本发明实施例的主题词挖掘方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取互联网服务的用户在预设时间内的社交网络数据。

在本发明实施例中，社交网络数据可以是用户基于互联网提供的服务所产生的数据。例如：社交网络数据不限于以下任意一种数据：社交文字、音频、视频、已发表的原创内容。为保障社交网络数据的有效性，则获取互联网服务的用户在预设时间内的社交网络数据，进而提高用户主题挖掘的有效性。

在一些实施场景中，可以通过与社交网络平台的API接口获取多个用户在预设时间内的社交网络数据。在另一实施场景中，为便于后续处理，则将得到的社交网络数据采用JSON格式存储。

在另一些实施场景中，为降低噪声，则可以基于SpaCy库（一种文本预处理数据库）的文本过滤与清洗算法，对社交网络数据进行过滤和清洗，以清除噪声和低信噪比的数据。例如：过滤一些乱码字符、纯URL、纯表情回复以及过短的文本等噪声数据。最后对过滤后的用户数据进行数值化处理，并转换为模型训练时易于读取的二进制数据格式存储，进而完成数据清洗，从而后续对社交网路数据进行解析时，能够提高解析效率，节省时间成本。

步骤S102，解析社交网络数据，得到用户的用户标识。

在本发明实施例中，通过解析社交网络数据，提取所需的字段，进而得到用户的用户标识。

步骤S103，将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量。

在本发明实施例中，用户主题挖掘模型可以理解为预先训练好的，用于充分挖掘用户感兴趣的主题与主题词之间的关联关系的神经网络模型。在一例中，用户主题挖掘模型可以是基于变分自编码器模型框架训练得到的。

该用户主题挖掘模型是由多个子模型构成。多个子模型中包括用户网络模型。当用户标识被输入到用户主题挖掘模型后，由用户网络模型对其进行处理。通过用户标识，可以明确当前用户标识对应的用户，进而由用户网络模型对用户标识进行标识处理，能够充分挖掘该用户的兴趣分布情况，从而得到用户的用户兴趣分布向量。

步骤S104，通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵。

在本发明实施例中，解码器网络模型是多个子模型之一。通过该全局主题词分布向量矩阵可以得到全局主题词的分布概率，进而后续结合得到的用户兴趣分布向量，可以进行针对性挖掘，从而使得到的多个用户主题词更贴合用户的兴趣，更有助于增强挖掘精确性和准确性。其中，全局主题词表为所有用户样本共享的对某些抽象概念或事物描述词在全局语料库上的集合。

步骤S105，基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。

在本发明实施例中，为便于快速确定用户感兴的多个用户主题词，则基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，以结合用户兴趣从全局主题词中挖掘用户感兴趣的主题词，进而得到多个用户主题词。其中，用户主题词即为用户感兴趣的主题词。

本实施例提供的主题词挖掘方法，通过预先训练好的用户主题挖掘模型，使在对互联网服务的用户进行主题词挖掘时，仅需获取用户的用户标识即可，进而有助于提高挖掘效率。并且，在挖掘的过程中，通过该用户主题挖掘模型中用户网络模型，可以获取用户的用户兴趣分布向量，进而结合从内置于用户主题挖掘模型的解码器网络模型中获得的全局主题词分布向量矩阵进行主题词挖掘，能够结合用户兴趣进行针对性的挖掘，使得到的用户主题词更贴合用户的兴趣，更有助于保障主题词挖掘的精确性和有效性，从而后续可以作为先验知识来增强诸如搜索、推荐、用户画像等任务，以满足多种业务需求。

在一些可选的实施方式中，图2是根据本发明实施例的另一主题词挖掘方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取互联网服务的用户在预设时间内的社交网络数据。详细请参见图1所示实施例的步骤S101，在此不再赘述。

步骤S202，解析社交网络数据，得到用户的用户标识。详细请参见图1所示实施例的步骤S102，在此不再赘述。

步骤S203，将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量。

在一些可选的实施方式中，上述步骤S203包括：

步骤2031，通过内置于用户网络模型的用户向量库，对用户标识进行向量转换，得到用户的用户向量。

在本发明实施例中，用户标识可以是用户标识符（user id，uid）。在用户网络模型的用户向量库中，包括嵌入（Embedding）层。嵌入（Embedding）层中每一行表示一个用户，可以将得到的用户标识符射到稠密的低维向量中，进而对应的用户向量。因此，将用户标识输入到用户网络模型后，通过该用户网络模型内的用户向量库，可以直接得到便于后需进行运算的用户向量。其中，，/>为用户向量的维度，可自行配置的。例如：用户向量/>表达式如下：

。

步骤2032，通过用户网络模型内的多层感知机，根据用户向量对用户的用户兴趣进行预测，得到用户的用户兴趣分布向量。

在本发明实施例中，为充分挖掘用户的兴趣分布情况，则利用多层感知机，根据用户向量对用户的用户兴趣进行预测，进而得到用户的用户兴趣分布向量。

步骤S204，通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵。详细请参见图1所示实施例的步骤S104，在此不再赘述。

步骤S205，基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。详细请参见图1所示实施例的步骤S105，在此不再赘述。

通过本实施例提供的主题词挖掘方法，可以在用户网络模型中，根据输入的用户标识对用户感兴趣的主题进行针对性预测，以得到用户的用户兴趣分布向量，进而对用户感兴趣的主题词进行挖掘时，能够更贴合用户的选择，从而有助于提高挖掘的准确性，使得到的用户感兴趣的多个用户主题词更精确，能够保障后续执行相关用户挖掘任务的，该多个主题词成为先验知识的有效性。

在一些可选的实施方式中，若用户包括多个子用户，则上述步骤2031包括：

步骤a11，通过内置于用户网络模型的用户向量库，分别对每一个子用户的用户标识进行向量转换，得到各子用户的子用户向量。该实施过程与确定单个用户的用户向量实施过程相同，在此不在进行赘述。

步骤a12，根据每一个子用户的用户标识，获取多个子用户之间的用户关系以及每一个子用户的属性信息。

在该方式中，为便于充分挖掘每一个子用户的兴趣分布情况，彼此之间是否含有显性关系，则分别获取每个子用户的属性信息以及多个子用户之间的用户关系。

步骤a13，基于各子用户的子用户向量和用户关系，得到多个子用户的用户关系向量。

在该方式中，通过用户关系，可以确定各子用户之间的显性关系和隐形关系，进而生成多个子用户的用户关系向量，以便作为先验知识辅助主题挖掘。

在一些可选的实施方式中，上述步骤a13包括：

步骤a131，根据用户关系，构建多个子用户的用户关系图谱，得到用户关系图谱的邻接矩阵。

在该方式中，根据用户关系，构建用户关系图谱，以确定各用户样本之间交互情况。将用户关系图谱进行数字化处理，生成用户关系图谱的邻接矩阵D。

步骤a132，将邻接矩阵和各子用户的子用户向量输入用户网络模型内的图卷积网络模型中，得到多个子用户的用户关系向量。

在该方式中，将邻接矩阵和各子用户的子用户向量/>输入用户网络模型内的图卷积网络（Graph Convolution Network，GCN）中，进而得到用户关系向量/>。其中，用户关系向量/>表达式如下：

。

在一示例中，可以基于得到的用户关系向量训练图卷积网络的参数/>。

步骤a14，基于各属性信息，得到对应子用户的用户属性向量。

在该方式中，不同子用户之间的属性信息相互独立。因此，为确定各子用户的偏好，可以通过各子用户的属性信息，生成对应的用户属性向量，以将其作为偏好先验知识。

在一些可选的实施方式中，上述步骤a14包括：

步骤a141，对属性信息进行特征编码处理，得到属性信息的词项编号序列；

步骤a142，将词项编号序列输入至转换模型进行向量转换，得到属性信息对应子用户的用户属性向量，转换模型内置于用户网络模型内。

具体地，由于属性信息属于文本信息，因此，可以通过目标令牌对属性信息进行词项转换，进而得到各属性信息对应的词项编号序列。其中，词项编号序列可以采用下述表达式进行表示：

，

表示任意一个子用户的属性特征信息。

进而将该词项编号序列输入预置的转换模型（Transformer模型），并对输出的张量进行平均池化（Meanpooling）处理，以对其编码至固定维度的向量中，进而得到属性信息对应的用户属性向量。

其中，用户属性向量可以采用下述表达式进行表示：

。

步骤a15，通过用户关系向量和各用户属性向量，得到用户向量。

具体地，将用户关系向量与所有用户属性向量融合，得到能够用于表达多个用户样本的用户向量。

例如：分别将各用户属性向量采用进行表示。将用户关系向量与各用户属性向量连接，并通过用户网络模型的多层感知机（Multilayer Perceptron，MLP）进行融合处理，进而得到可以采用下述表达式进行表示的用户向量/>：

。

通过上述方式得到用户向量，能够充分挖掘各用户样本之间的交互关系和各用户样本的偏好，进而后续有助于保障得到的用户兴趣分布向量的有效性。

在另一些可选的实施方式中，上述步骤a2包括：

步骤a21，将用户向量输入用户网络模型内的多层感知机，以将用户向量映射到狄克拉德尔塔多项式分布上，对用户的用户兴趣进行预测，得到映射结果；

步骤a22，通过内置的归一化层对映射结果进行归一化处理，得到用户的用户兴趣分布向量。

具体地，采用狄拉克德尔塔多项式分布先验参数作为挖掘用户兴趣的先验参数，有助于保障得到的用户兴趣分布向量相对稳定，不会产生随机分布的情况，进而有助于保障训练的稳定性，且便于后续处理。因此，在多层感知机内部署狄拉克德尔塔多项式分布先验参数，进而将用户向量映射到狄克拉德尔塔多项式分布上，以预测用户的兴趣分布情况，从而得到映射结果。

通过内置的归一化层（Softmax Linear）对映射结果进行归一化处理，得到用户兴趣分布向量。其中，用户兴趣分布向量/>可以采用下述表达式进行表示：

，

其中，为狄拉克德尔塔多项式分布先验参数，/>为指定偏值。其中，/>可根据实际情况进行设定，在本发明中不进行限定。

在本实施例中提供了又一种主题词挖掘方法，可用于上述的终端，如平板、电脑等，图3是根据本发明实施例的主题词挖掘方法的流程图，如图3所示，该流程包括如下步骤：

步骤S301，获取互联网服务的用户在预设时间内的社交网络数据。详细说明参见上述实施例对应步骤的相关描述，此处不再赘述。

步骤S302，解析社交网络数据，得到用户的用户标识。详细说明参见上述实施例对应步骤的相关描述，此处不再赘述。

步骤S303，将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量。详细说明参见上述实施例对应步骤的相关描述，此处不再赘述

步骤S304，通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵。详细说明参见上述实施例对应步骤的相关描述，此处不再赘述。

在一些可选的实施方式中，解码器网络模型内的全局主题词分布向量矩阵采用下述方式得到：获取多个用户样本的主题向量，多个用户样本包括用户；根据各用户样本的主题向量，构建主题向量矩阵；在解码器网络模型的映射层内，将预置的外部预训练的词向量矩阵与主题向量矩阵相乘，得到全局主题词分布向量矩阵。

具体地，分别获取每一用户样本的主题向量。其中，主题向量可以是用户样本共享的对某些抽象概念或事物描述词。根据各用户样本的主题向量，构建主题向量矩阵，进而可以所有用户样本共享的对某些抽象概念或事物描述词在全局语料库上的集合。其中，得到主题向量矩阵可以表示为，/>为全局主题词表的词数量。/>为全局主题向量矩阵的向量维度。为确定各主题词在全局主题词的分布情况，则在解码器网络模型的映射层内，预置外部预训练的词向量矩阵/>，并将词向量矩阵/>与全局主题向量矩阵/>相乘，将得到的积作为全局主题词分布向量矩阵。即，全局主题词分布矩阵/>。其中，/>为词向量矩阵内的词数量。/>为词向量矩阵的向量维度。

步骤S305，基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。

在一些可选的实施方式中，上述步骤S305包括：

步骤b1，基于用户兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，以分别确定用户每一个感兴趣的主题在全局主题词分布上的分布概率，得到并输出用户感兴趣的多个用户主题词。

在该实施例中，用户感兴趣的主题基于用户兴趣分布向量确定，全局主题词分布基于全局主题词分布向量矩阵确定。即，通过用户兴趣分布向量，可以确定用户感兴趣的主题的分布情况。在解码器网络模型中，根据得到的用户兴趣分布向量和全局主题词分布向量矩阵，可以基于用户感兴趣的主题分布情况，以及各主题在全局主题词中的分布情况，充分挖掘用户兴趣与主题词之间的关系，进而确定用户感兴趣的主题在全局主题词分布上的分布概率，从而得到用户感兴趣的多个用户主题词。

步骤S306，根据每一个用户主题词的分布概率，按照从大到小的排序方式对各用户主题词进行排序，得到排序结果。

在本发明实施例中，用户主题挖掘模型根据输入的用户标识，可以输出与该用户标识对应的多个用户主题词以及每一个用户主题词的分布概率。为使输出的用户主题词更具有解释性，则根据每一个用户主题词的分布概率，按照从大到小的排序方式对各用户主题词进行排序，得到排序结果，以根据排序结果从多个用户主题词中确定与用户更为相关的目标主题词。

步骤S307，根据排序结果，筛选出预设数量的用户主题词，并将预设数量的用户主题词确定为目标主题词。

在本发明实施例中，预设数量的用户主题词的分布概率大于未被筛选出的主题词的分布概率。目标主题词可以理解为是多个用户主题词中与用户兴趣更为贴合的用户主题词。预设数量可以根据实际需求进行确定。例如：预设数量可以取值为10。

步骤S308，导出目标主题词。

在本发明实施例中，将确定的目标主题词导出，以便后续相关人员可以根据得到的目标主题词对用户挖掘模型进行调试，或者确定用户的属性信息，从而满足需要获取目标主题词的任务需求。例如：导出的目标主题词可以如图4所示。

本实施例提供的主题词挖掘方法，能够充分挖掘用户兴趣与主题之间的关联关系，使输出的用户主题更具有解释性。

在一些可选的实施例中，按照本发明提供的主题词挖掘方法进行用户主题挖掘之后，还可以导出用户兴趣分布向量和全局主题词分布向量，进而根据用户兴趣分布向量和全局主题词分布向量，生成用户的用户画像，以便于后续根据用户画像为用户提供针对性的服务。

在本实施例中提供了又一种主题词挖掘方法，可用于上述的终端，如平板、电脑等，图5是根据本发明实施例的主题词挖掘方法的流程图，如图5所示，该流程包括如下步骤：

步骤S501，获取多个用户样本的用户标识以及对应的社交文档。

在本发明实施例中，通过社交文档，可以得到对应用户样本在社交网络上与他人进行交互时的交互内容，进而有助于明确对应用户样本感兴趣的主题。因此，为便于后续进行挖掘时能够进行针对性挖掘，则分别获取每一个用户样本的用户标识以及对应的社交文档。

步骤S502，对多个用户样本的用户标识进行标识处理，得到多个用户样本的用户兴趣分布向量。

在本发明实施例中，分别对每一个用户样本的用户标识进行标识处理，得到每一个用户样本的用户兴趣分布向量。其中，具体获取过程与前述得到用户的用户兴趣分布向量的实施过程相同，在此不在进行赘述。

步骤S503，基于多个用户样本的用户兴趣分布向量以及每一个社交文档，得到多个用户样本的文档主题成分分布向量。

在本发明实施例中，基于多个用户样本的用户兴趣分布向量和各社交文档，可以分别确定各用户样本针对各主题的感兴趣程度，从而得到多个用户样本的文档主题成分分布向量。

在一些可选的实施方式中，上述步骤S503包括：

步骤c1，通过预置的文档语义编码网络模型，分别对各社交文档进行语义提取处理，得到各社交文档的语义向量。

在本发明实施例中，语义向量包括对应社交文档的文档语义信息。为避免社交文档内的有效信息较少，则先将社交文档中的各文本序列转换成对应的词项编号序列，进而采用文档语义编码网络模型中的编码器网络模型对词项编号序列进行语义提取处理，得到语义向量。其中，编码器网络模型可以是任意一种预先训练好的语义编码器网络模型，该训练过程已有成熟的训练技术，在此不在进行赘述。在一些实施场景中，可以采用SBERT模型作为编码器网络模型，进而得到的语义向量，/>为SBERT模型的输出向量的维度。

步骤c2，在文档语义编码网络模型的适配层中，将各社交文档的文档语义信息映射至预置的文档主题分布内，得到文档语义信息随机变量。

在本发明实施例中，文档主题分布服从对数正态分布。为确定社交文档的分布情况，则在文档语义编码网络模型的适配层中，将多个文档语义信息映射至预置的文档主题分布，确定文档语义信息的随机变量情况，进而得到社交文档的文档语义信息随机变量。

在一些可选的实施方式中，适配层包括第一全连接层和第二全连接层，上述步骤c2包括：

步骤c21，通过第一全连接层对各社交文档的文档语义信息进行第一采样处理，得到第一处理结果；

步骤c22，通过第二全连接层对各社交文档的文档语义信息进行第二采样处理，得到第二处理结果；

步骤c23，将第一处理结果和第二处理结果映射至文档主题分布，得到社交文档的文档语义信息随机变量。

具体地，为充分分析社交文档所表达的文档语义信息，则对其进行多重全连接处理，以确定语义向量的随机分布情况。

将得到的第一处理结果和第二处理结果映射至文档主题分布，以使最终得到的文档语义信息随机变量服从对数正态分布。其中，文档语义信息随机变量/>服从对数正态分布的分布情况可以采用下述公式进行表示：

其中，表示第一处理结果，/>为第一全连接层中的权重，/>为第一全连接层中的偏置。/>表示第二处理结果，/>为第二全连接层中的权重，/>为第二全连接层中的偏置。/>为对数正态分布中的第一参数，/>为对数正态分布中的第二参数，/>为指定损失函数，可根据实际需求进行确定，在本发明中不进行限定。

最终得到的文档语义信息随机变量可以采用下述公式进行表示：

，/>。

步骤c3，基于多个用户样本的用户兴趣分布向量和文档语义信息随机变量，得到社交文档的文档主题成分分布向量。

在一些可选的实施方式中，上述步骤c3包括：

步骤c31，对文档语义信息随机变量进行采样处理，得到采样结果；

步骤c32，对多个用户样本的用户兴趣分布向量和采样结果进行加权处理，得到加权结果；

步骤c33，对加权结果进行归一化处理，得到文档主题分布向量。

具体地，由于文档语义信息随机变量数量较多，便于提高挖掘效率，降低计算成本，则对文档语义信息随机变量进行采样处理，得到采样结果。为建立各用户样本的用户兴趣与对应文档语义信息之间的关系，则分别对各用户兴趣分布向量和采样结果进行加权处理，进而将处理结果进行归一化处理，得到文档主题成分分布向量，从而使得到的文档主题成分分布向量更有效，与用户兴趣更贴合。

其中，经过归一化处理后的文档主题成分分布向量可以采用下述公式表示：

，

其中，为文档语义信息随机变量，/>为用户兴趣分布向量。

步骤S504，基于多个用户样本的用户兴趣分布向量以及多个用户样本的文档主题成分分布向量，通过预置的目标函数进行模型训练，得到用户主题挖掘模型。

在该方式中，目标函数是由变分自编码器框架初始的函数推导而成的。通过用户样本的用户兴趣分布向量，可以确定对应用户样本感兴趣的主题词的分布情况。通过文档主题成分分布向量，可以确定对应用户样本的社交文档所涉及的主题词的分布情况，进而确定全局主题词表。通过将多个用户样本的用户兴趣分布向量以及多个用户样本的文档主题成分分布向量输入目标函数，能够充分挖掘用户感兴趣的主题与各主题词在全局主题词表中的分布之间的关联关系，从而得到用户主题挖掘模型。

在一些可选的实施方式中，目标函数可以根据待对用户主题挖掘模型进行训练的模式进行构建。其中，训练模式包括无监督训练模式、有监督训练模式或半监督训练模式。

例如：若对用户主题挖掘模型采用无监督训练模式进行训练，则构建无监督目标函数。构建得到的目标函数可以采用下述公式进行表示：

其中，为第一后验分布参数，/>为第一后验分布参数/>为先验标准，/>为主题/>在全局词表上的多项式分布，为变分后验和先验的KL散度。/>为交叉熵损失函数。/>可以使用蒙特卡洛马尔科夫方法从编码分布中采样获得。

若对用户主题挖掘模型采用有监督训练模式进行训练，则构建有监督目标函数。由于在训练的过程中，需额外输入所有用户样本的兴趣向量作为训练标签计算用户兴趣与标签的交叉熵损失，进而构建得到的目标函数可以采用下述公式进行表示：

，/>，

其中，L为上述基于无监督训练模式构建的初始函数，为带有监督信息输入的正则项，/>为可自行设置的权重。

若对用户主题挖掘模型采用少量监督训练模式进行训练，则构建少量监督目标函数。在训练的过程中，可以输入少量用户的先验知识信息到用户向量库最后计算交叉熵损失，对于未输入先验知识信息用户的向量则设置为可训练的参数，进而实现少量监督学习。

在训练的过程中，为使目标函数能够收敛，则对目标函数进行金森不等式变换处理，以确定目标函数呈似然函数的变分下界。例如：以无监督目标函数为例，目标函数的表达式可以如下：

。

在一些可选的实施方式中，用户主题挖掘模型部署在服务器的指定端口上。该指定端口可以是web访问接口，以便相关人员通过该web访问接口进行访问以及获取各用户感兴趣的主题词。

步骤S505，获取互联网服务的用户在预设时间内的社交网络数据。

步骤S506，解析社交网络数据，得到用户的用户标识。

步骤S507，将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量。

步骤S508，通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵。

步骤S509，基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。

本实施例提供的主题词挖掘方法，能够充分挖掘各用户样本之间的关联关系，以保障用户兴趣分布向量的有效性，从而有助于提高确定用户感兴趣的多个向量词的准确性，从而使得到的用户画像更准确，更有效。

在一些可选的实施方式中，为提高用户主题挖掘模型的准确性，在用户主题挖掘模型训练完成后，还包括根据指定周期，更新用户主题挖掘模型。

在一些可选的实施方式中，本发明提供的主题词挖掘方法还包括：根据指定周期，更新用户主题挖掘模型，以保障主题词挖掘的有效性和准确性，避免无效挖掘。

在另一些可选的实施方式中，由于主题词的分布情况是相对稳定的特征信息，因此，在对用户主题挖掘模型进行更新时，则可以按照第一预设周期更新用户网络模型的配置参数；按照第二预设周期交替更新文档语义编码网络模型和解码器网络模型配置参数。第二预设周期与第一预设周期之间的比值为指定比率。例如：若指定比率为1/m，则用户网络模型的配置参数每更新m次，文档语义编码网络模型和解码器网络模型配置参数交替更新一次。

在又一些可选的实施方式，训练用户主题挖掘模型的训练系统可以如图6所示，训练系统包括：用户网络模型、文档语义编码网络模型和解码器网络模型。用户网络模型，用于生成用户兴趣分布向量。文档语义编码网络，用于生成文档语义信息随机变量/>，以指导用户主题挖掘模型进行主题词挖掘。解码器网络模型，用于基于用户兴趣分布向量/>、文档语义信息随机变量/>以及全局主题词分布矩阵/>进行主题挖掘，进而得到用户感兴趣的多个主题词d’。

针对该用户主题挖掘模型进行更新时，则可以按照第一预设周期更新用户网络模型的配置参数，按照第二预设周期交替更新文档语义编码网络模型和解码器网络模型配置参数。第二预设周期与第一预设周期之间的比值为指定比率。

基于相同发明构思，结合图6的训练系统，本发明还提供一种用户主题挖掘模型训练方法。如图7所示的训练方法，当模型参数初始化完成后，输入多个用户样本的用户标识（uid）以及对应的社交文档（d），进而得到用户兴趣分布向量和文档主题成分分布向量。计算全局主题词分布矩阵。根据训练类型确定目标函数。在训练的过程中更新用户主题挖掘模型。判断用户主题挖掘模型是否收敛，若收敛，则得到用户主题挖掘模型，完成训练。若未收敛，则重新训练。

在一些可选的实施方式中，在模型训练收敛后，将所有用户向量导出为，堆叠后得到所有用户向量矩阵/>，带入用户兴趣分布向量/>计算过程中，可以得到所有用户兴趣分布矩阵/>。然后将所有用户兴趣分布矩阵/>与全局主题词分布矩阵/>，得到用户兴趣在词表上的分布矩阵。矩阵/>的每一行代表一个用户在词表上的分布。

在另一些实施场景中，针对某社交网络平台上得到的社交网络数据，采用本发明提供的主题词挖掘方法，得到的用户感兴趣的主题可以如下表1所示：

表1

在一些实施场景中，基于相同发明构思，本发明提供一种与该主题词挖掘方法对应的装置。如图8所示，主题词挖掘装置包括：数据获取模块、数据处理与存储模块、用户主题挖掘模型、web访问接口。

数据获取模块，用于获取多个用户在预设时间内的社交网络数据。

数据处理与存储模块，用于解析社交网络数据。

用户主题挖掘模型，用于挖掘用户感兴趣的多个主题词。

web访问接口，用于用户访问以及使用挖掘到的用户主题，或者使用挖掘到的用户兴趣和主题，基于suds库将用户主题挖掘模型中的用户兴趣信息、主题词分布信息获取方法和文档主题推理方法封装，然后基于Web服务描述语言（Web Services DescriptionLanguage）实现部属为Web服务。具体实施中，我们将模型导出指定用户兴趣功能的函数Get_user_interests(uid)、导出指定用户兴趣在词表上分布功能的函数User_topic_word_export(uid)以及获取全局主题词分布功能的函数Get_topicword_txt_matrices(topic_id)映射到服务器的指定端口，方便用户和开发人员通过GET或者POST方法访问。

在本实施例中还提供了一种主题词挖掘装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种主题词挖掘装置，如图9所示，主题词挖掘装置包括：第一获取模块901、解析模块902、标识处理模块903、第二获取模块904和挖掘模块905。

第一获取模块901，用于获取互联网服务的用户在预设时间内的社交网络数据；

解析模块902，用于解析社交网络数据，得到用户的用户标识；

标识处理模块903，用于将用户标识输入预先训练好的用户主题挖掘模型，通过内置于用户主题挖掘模型的用户网络模型对用户标识进行标识处理，得到用户的用户兴趣分布向量；

第二获取模块904，用于通过内置于用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵；

挖掘模块905，用于基于用户的兴趣分布向量和全局主题词分布向量矩阵，在用户网络模型中进行主题词挖掘处理，得到并输出用户感兴趣的多个用户主题词。

在一些可选的实施方式中，标识处理模块903，包括：

第一转换单元，用于通过内置于用户网络模型的用户向量库，对用户标识进行向量转换，得到用户的用户向量；

第一处理单元，用于通过用户网络模型内的多层感知机，根据用户向量对用户的用户兴趣进行预测，得到用户的用户兴趣分布向量。

在一些可选的实施方式中，第一转换单元，包括：

向量转换单元，用于通过内置于用户网络模型的用户向量库，分别对每一个子用户的用户标识进行向量转换，得到各子用户的子用户向量；

信息获取单元，用于根据每一个子用户的用户标识，获取多个子用户之间的用户关系以及每一个子用户的属性信息；

第一向量生成单元，用于基于各子用户的子用户向量和用户关系，得到多个子用户的用户关系向量；

第二向量生成单元，用于基于各属性信息，得到对应子用户的用户属性向量；

第一执行单元，用于通过用户关系向量和各用户属性向量，得到用户向量。

在一些可选的实施方式中，第一向量生成单元，包括：

第一构建单元，用于根据用户关系，构建多个子用户的用户关系图谱，得到用户关系图谱的邻接矩阵；

第二执行单元，用于将邻接矩阵和各子用户的子用户向量输入用户网络模型内的图卷积网络模型中，得到多个子用户的用户关系向量。

在一些可选的实施方式中，第二向量生成单元，包括：

编码处理单元，用于对属性信息进行特征编码处理，得到属性信息的词项编号序列；

第三执行单元，用于将词项编号序列输入至转换模型进行向量转换，得到属性信息对应子用户的用户属性向量，转换模型内置于用户网络模型内。

在一些可选的实施方式中，第一处理单元，包括：

预测单元，用于将用户向量输入用户网络模型内的多层感知机，以将用户向量映射到狄克拉德尔塔多项式分布上，对用户的用户兴趣进行预测，得到映射结果；

第四执行单元，用于通过内置的归一化层对映射结果进行归一化处理，得到用户的用户兴趣分布向量。

在一些可选的实施方式中，挖掘模块905，包括：

第二处理单元，用于基于用户兴趣分布向量和全局主题词分布向量矩阵，通过解码器网络模型，分别确定用户每一个感兴趣的主题在全局主题词分布上的分布概率，得到用户感兴趣的多个用户主题词；

在一些可选的实施方式中，装置还包括：

向量获取模块，用于获取多个用户样本的主题向量，多个用户样本包括用户；

第一矩阵构建模块，用于根据各用户样本的主题向量，构建主题向量矩阵；

第二矩阵构建模块，用于在解码器网络模型的映射层内，将预置的外部预训练的词向量矩阵与主题向量矩阵相乘，得到全局主题词分布向量矩阵。

在一些可选的实施方式中，装置还包括：

排序模块，用于根据每一个用户主题词的分布概率，按照从大到小的排序方式对各用户主题词进行排序，得到排序结果；

筛选模块，用于根据排序结果，筛选出预设数量的用户主题词，并将预设数量的用户主题词确定为目标主题词，预设数量的用户主题词的分布概率大于未被筛选出的主题词的分布概率；

第一导出模块，用于导出目标主题词。

在一些可选的实施方式中，装置还包括：

第二导出模块，用于导出用户兴趣分布向量和全局主题词分布向量；

画像生成单元，用于根据用户兴趣分布向量和全局主题词分布向量，生成用户的用户画像。

在一些可选的实施方式中，装置还包括：

样本获取模块，用于获取多个用户样本的用户标识以及对应的社交文档；

第一处理模块，用于对多个用户样本的用户标识进行标识处理，得到多个用户样本的用户兴趣分布向量；

第二处理模块，用于基于多个用户样本的用户兴趣分布向量以及每一个社交文档，得到多个用户样本的文档主题成分分布向量；

训练模块，用于基于多个用户样本的用户兴趣分布向量以及多个用户样本的文档主题成分分布向量，通过预置的目标函数进行模型训练，得到用户主题挖掘模型。

在一些可选的实施方式中，第二处理模块，包括：

提取单元，用于通过预置的文档语义编码网络模型，分别对各社交文档进行语义提取处理，得到各社交文档的语义向量，语义向量包括对应社交文档的文档语义信息；

适配处理单元，用于在文档语义编码网络模型的适配层中，将各社交文档的文档语义信息映射至预置的文档主题分布内，得到文档语义信息随机变量，文档主题分布服从对数正态分布；

第三向量生成单元，用于基于多个用户样本的用户兴趣分布向量和文档语义信息随机变量，得到社交文档的文档主题成分分布向量。

在一些可选的实施方式中，适配层包括第一全连接层和第二全连接层；

适配处理单元，包括：

第一适配处理子单元，用于通过第一全连接层对各社交文档的文档语义信息进行第一采样处理，得到第一处理结果；

第二适配处理子单元，用于通过第二全连接层对各社交文档的文档语义信息进行第二采样处理，得到第二处理结果；

第五执行单元，用于将第一处理结果和第二处理结果映射至文档主题分布，得到社交文档的文档语义信息随机变量。

在一些可选的实施方式中，第三向量生成单元，包括：

采样单元，用于对文档语义信息随机变量进行采样处理，得到采样结果；

加权处理单元，用于对多个用户样本的用户兴趣分布向量和采样结果进行加权处理，得到加权结果；

第六执行单元，用于对加权结果进行归一化处理，得到文档主题分布向量。

在一些可选的实施方式中，装置还包括：

更新模块，用于根据指定周期，更新用户主题挖掘模型。

在一些可选的实施方式中，更新模块，包括：

第一更新单元，用于按照第一预设周期更新用户网络模型的配置参数；

第二更新单元，用于按照第二预设周期交替更新文档语义编码网络模型和解码器网络模型配置参数；

第二预设周期与第一预设周期之间的比值为指定比率。

在一些可选的实施方式中，用户主题挖掘模型部署在服务器的指定端口上。

本实施例中的主题词挖掘装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

请参阅图10，图10是本发明可选实施例提供的一种计算机设备的结构示意图，如图10所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，所述存储器20存储有可由至少一个处理器10执行的指令，以使所述至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括输入装置30和输出装置40。处理器10、存储器20、输入装置30和输出装置40可以通过总线或者其他方式连接，图10中以通过总线连接为例。

输入装置30可接收输入的数字或字符信息，以及产生与该计算机设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等。输出装置40可以包括显示设备、辅助照明装置（例如，LED）和触觉反馈装置（例如，振动电机）等。上述显示设备包括但不限于液晶显示器，发光二极管，显示器和等离子体显示器。在一些可选的实施方式中，显示设备可以是触摸屏。

本发明实施例还提供了一种计算机可读存储介质，上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种主题词挖掘方法，其特征在于，所述方法包括：

获取互联网服务的用户在预设时间内的社交网络数据；

解析所述社交网络数据，得到所述用户的用户标识；

将所述用户标识输入预先训练好的用户主题挖掘模型，通过内置于所述用户主题挖掘模型的用户网络模型，采用狄拉克德尔塔多项式分布先验参数作为挖掘所述用户兴趣的先验参数，对所述用户标识进行标识处理，得到所述用户的用户兴趣分布向量，其中，所述用户主题挖掘模型是基于变分自编码器模型框架训练得到的神经网络模型，所述用户兴趣分布向量用于确定所述用户感兴趣的主题的分布情况；

通过内置于所述用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵，所述全局主题词分布向量矩阵用于确定各主题词在全局主题词的分布情况；

基于所述用户的兴趣分布向量和所述全局主题词分布向量矩阵，在所述用户网络模型中进行主题词挖掘处理，得到并输出所述用户感兴趣的多个用户主题词；

其中，所述通过内置于所述用户主题挖掘模型的用户网络模型对所述用户标识进行标识处理，得到所述用户的用户兴趣分布向量，包括：通过内置于所述用户网络模型的用户向量库，对所述用户标识进行向量转换，得到所述用户的用户向量；通过所述用户网络模型内的多层感知机，根据所述用户向量对所述用户的用户兴趣进行预测，得到所述用户的用户兴趣分布向量；

所述用户包括多个子用户，所述通过内置于所述用户网络模型的用户向量库，对所述用户标识进行向量转换，得到所述用户的用户向量，包括：通过内置于所述用户网络模型的用户向量库，分别对每一个子用户的用户标识进行向量转换，得到各所述子用户的子用户向量；根据每一个子用户的用户标识，获取所述多个子用户之间的用户关系以及每一个子用户的属性信息；基于各所述子用户的子用户向量和所述用户关系，得到所述多个子用户的用户关系向量；基于各所述属性信息，得到对应子用户的用户属性向量；通过所述用户关系向量和各所述用户属性向量，得到所述用户向量。

2.根据权利要求1所述的方法，其特征在于，所述基于各所述子用户的子用户向量和所述用户关系，得到所述多个子用户的用户关系向量，包括：

根据所述用户关系，构建所述多个子用户的用户关系图谱，得到所述用户关系图谱的邻接矩阵；

将所述邻接矩阵和各所述子用户的子用户向量输入所述用户网络模型内的图卷积网络模型中，得到所述多个子用户的用户关系向量。

3.根据权利要求1或2所述的方法，其特征在于，所述基于各所述属性信息，得到对应子用户的用户属性向量，包括：

对所述属性信息进行特征编码处理，得到所述属性信息的词项编号序列；

将所述词项编号序列输入至转换模型进行向量转换，得到所述属性信息对应子用户的用户属性向量，所述转换模型内置于所述用户网络模型内。

4.根据权利要求3所述的方法，其特征在于，所述通过所述用户网络模型内的多层感知机，根据所述用户向量对所述用户的用户兴趣进行预测，得到所述用户的用户兴趣分布向量，包括：

将所述用户向量输入所述用户网络模型内的多层感知机，以将所述用户向量映射到狄克拉德尔塔多项式分布上，对所述用户的用户兴趣进行预测，得到映射结果；

通过内置的归一化层对所述映射结果进行归一化处理，得到所述用户的用户兴趣分布向量。

5.根据权利要求1所述的方法，其特征在于，所述基于所述用户的兴趣分布向量和所述全局主题词分布向量矩阵，在所述用户网络模型中进行主题词挖掘处理，得到并输出所述用户感兴趣的多个用户主题词，包括：

基于所述用户兴趣分布向量和所述全局主题词分布向量矩阵，在所述用户网络模型中进行主题词挖掘处理，以分别确定所述用户每一个感兴趣的主题在全局主题词分布上的分布概率，得到并输出所述用户感兴趣的多个用户主题词；

所述用户感兴趣的主题基于所述用户兴趣分布向量确定，所述全局主题词分布基于所述全局主题词分布向量矩阵确定。

6.根据权利要求5所述的方法，其特征在于，在获取全局主题词分布向量矩阵之前，所述方法还包括：

获取多个用户样本的主题向量，所述多个用户样本包括所述用户；

根据各所述用户样本的主题向量，构建主题向量矩阵；

在所述解码器网络模型的映射层内，将预置的外部预训练的词向量矩阵与所述主题向量矩阵相乘，得到所述全局主题词分布向量矩阵。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

根据每一个用户主题词的分布概率，按照从大到小的排序方式对各所述用户主题词进行排序，得到排序结果；

根据所述排序结果，筛选出预设数量的用户主题词，并将所述预设数量的用户主题词确定为目标主题词，所述预设数量的用户主题词的分布概率大于未被筛选出的主题词的分布概率；

导出所述目标主题词。

8.根据权利要求1或7所述的方法，其特征在于，所述方法还包括：

导出所述用户兴趣分布向量和所述全局主题词分布向量；

根据所述用户兴趣分布向量和所述全局主题词分布向量，生成所述用户的用户画像。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个用户样本的用户标识以及对应的社交文档；

对所述多个用户样本的用户标识进行标识处理，得到所述多个用户样本的用户兴趣分布向量；

基于所述多个用户样本的用户兴趣分布向量以及每一个所述社交文档，得到所述多个用户样本的文档主题成分分布向量；

基于所述多个用户样本的用户兴趣分布向量以及多个用户样本的文档主题成分分布向量，通过预置的目标函数进行模型训练，得到所述用户主题挖掘模型。

10.根据权利要求9所述的方法，其特征在于，所述基于所述多个用户样本的用户兴趣分布向量以及每一个所述社交文档，得到所述多个用户样本的文档主题成分分布向量，包括：

通过预置的文档语义编码网络模型，分别对各所述社交文档进行语义提取处理，得到各所述社交文档的语义向量，所述语义向量包括对应社交文档的文档语义信息；

在所述文档语义编码网络模型的适配层中，将各所述社交文档的文档语义信息映射至预置的文档主题分布内，得到文档语义信息随机变量，所述文档主题分布服从对数正态分布；

基于所述多个用户样本的用户兴趣分布向量和所述文档语义信息随机变量，得到所述社交文档的文档主题成分分布向量。

11.根据权利要求10所述的方法，其特征在于，

所述适配层包括第一全连接层和第二全连接层；

所述在所述文档语义编码网络模型的适配层中，将各所述社交文档的文档语义信息映射至预置的文档主题分布内，得到文档语义信息随机变量，包括：

通过所述第一全连接层对各所述社交文档的文档语义信息进行第一采样处理，得到第一处理结果；

通过所述第二全连接层对各所述社交文档的文档语义信息进行第二采样处理，得到第二处理结果；

将所述第一处理结果和所述第二处理结果映射至所述文档主题分布，得到所述社交文档的文档语义信息随机变量。

12.根据权利要求11所述的方法，其特征在于，所述基于所述多个用户样本的用户兴趣分布向量和所述文档语义信息随机变量，得到所述社交文档的文档主题成分分布向量，包括：

对所述文档语义信息随机变量进行采样处理，得到采样结果；

对所述多个用户样本的用户兴趣分布向量和所述采样结果进行加权处理，得到加权结果；

对所述加权结果进行归一化处理，得到所述文档主题分布向量。

13.根据权利要求12所述的方法，其特征在于，所述方法还包括：

根据指定周期，更新所述用户主题挖掘模型。

14.根据权利要求13所述的方法，其特征在于，所述根据指定周期，更新所述用户主题挖掘模型，包括：

按照第一预设周期更新所述用户网络模型的配置参数；

按照第二预设周期交替更新所述文档语义编码网络模型和所述解码器网络模型配置参数；

所述第二预设周期与所述第一预设周期之间的比值为指定比率。

15.根据权利要求1所述的方法，其特征在于，所述用户主题挖掘模型部署在服务器的指定端口上。

16.一种主题词挖掘装置，其特征在于，所述装置包括：

解析模块，用于解析所述社交网络数据，得到所述用户的用户标识；

标识处理模块，用于将所述用户标识输入预先训练好的用户主题挖掘模型，通过内置于所述用户主题挖掘模型的用户网络模型，采用狄拉克德尔塔多项式分布先验参数作为挖掘所述用户兴趣的先验参数，对所述用户标识进行标识处理，得到所述用户的用户兴趣分布向量，其中，所述用户主题挖掘模型是基于变分自编码器模型框架训练得到的神经网络模型，所述用户兴趣分布向量用于确定所述用户感兴趣的主题的分布情况；

第二获取模块，用于通过内置于所述用户主题挖掘模型的解码器网络模型，获取全局主题词分布向量矩阵，所述全局主题词分布向量矩阵用于确定各主题词在全局主题词的分布情况；

挖掘模块，用于基于所述用户的兴趣分布向量和所述全局主题词分布向量矩阵，在所述用户网络模型中进行主题词挖掘处理，得到并输出所述用户感兴趣的多个用户主题词；

其中，所述标识处理模块，包括：第一转换单元，用于通过内置于所述用户网络模型的用户向量库，对所述用户标识进行向量转换，得到所述用户的用户向量；第一处理单元，用于通过所述用户网络模型内的多层感知机，根据所述用户向量对所述用户的用户兴趣进行预测，得到所述用户的用户兴趣分布向量；

所述用户包括多个子用户，所述第一转换单元，包括：向量转换单元，用于通过内置于所述用户网络模型的用户向量库，分别对每一个子用户的用户标识进行向量转换，得到各所述子用户的子用户向量；信息获取单元，用于根据每一个子用户的用户标识，获取所述多个子用户之间的用户关系以及每一个子用户的属性信息；第一向量生成单元，用于基于各所述子用户的子用户向量和所述用户关系，得到所述多个子用户的用户关系向量；第二向量生成单元，用于基于各所述属性信息，得到对应子用户的用户属性向量；第一执行单元，用于通过所述用户关系向量和各所述用户属性向量，得到所述用户向量。

17.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至15中任一项所述的主题词挖掘方法。

18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至15中任一项所述的主题词挖掘方法。