CN111125445B

CN111125445B - 社区主题生成方法、装置、电子设备及存储介质

Info

Publication number: CN111125445B
Application number: CN201911300985.9A
Authority: CN
Inventors: 石逸轩; 戴明洋; 潘剑飞; 周俊; 罗程亮; 许金泉; 姚远
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-08-15
Anticipated expiration: 2039-12-17
Also published as: CN111125445A

Abstract

本申请公开了一种社区主题生成方法、装置、电子设备及存储介质，涉及大数据技术领域。具体实现方案为：对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络；利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征和各连接边特征；利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定所述社区网络对应的社区主题。本申请的方案能够在生成社区主题时兼顾用户的行为文本和社区网络构成，提高社区主题生成的准确性和可靠性，解决现有技术中仅从文本处理的角度确定社区主题，准确性较差的技术问题。

Description

社区主题生成方法、装置、电子设备及存储介质

技术领域

本申请涉及互联网和大数据技术领域，尤其涉及一种社区主题生成方法、装置、电子设备及存储介质。

背景技术

目前，社区主题发现主要通过处理社区文本得到主题信息，将社区主题发现任务转换成自然语言处理任务，通过关键词提取或主题分类的方式，来确定社区主题。

然而，上述采用转换法把任务转换成自然语言处理任务进行分析的社区主题发现方法，仅从文本处理的角度确定社区主题，与社区网络构成无关，准确性较差。

发明内容

本申请提出了一种社区主题生成方法、装置、电子设备及存储介质，用于解决现有技术中仅从文本处理的角度确定社区主题，准确性较差的技术问题。

本申请第一方面实施例提出了一种社区主题生成方法，包括：

对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，其中，所述社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联；

利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征和各连接边特征；

利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定所述社区网络对应的社区主题。

本申请实施例的社区主题生成方法，通过对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联，利用预设的自然语言处理模型，对社区网络中的每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征，进而利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定社区网络对应的社区主题。由此，通过对各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，再对社区网络中每个用户的网络行为数据进行处理得到每个用户的特征和各连接边特征，进而利用图注意力网络进行学习得到社区网络对应的社区主题，从而，在生成社区主题时不仅考虑了用户的行为文本，还考虑了社区网络构成，提高了社区主题生成的准确性和可靠性，有利于更好地了解用户的社交行为。

在本申请实施例一种可能的实现方式中，所述利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征，包括：

将每个用户的每条网络行为数据，输入文本分类模型中，确定每条网络行为数据对应的类别标签；

将每个用户的每条网络行为数据分别对应的类别标签进行融合处理，确定每个用户的特征。

由此，通过利用文本分类模型，根据用户的网络行为数据确定对应的类别标签，将每个用户的每条网络行为数据对应的类别标签进行融合处理得到每个用户的特征，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

在本申请实施例一种可能的实现方式中，所述将每个用户的每条网络行为数据，输入文本分类模型之后，还包括：

确定所述每条网络行为数据对应的行为向量；

所述确定每个用户的特征，包括：

将每个用户的每条网络行为数据对应的行为向量及类别标签进行融合处理，生成每个用户的特征。

由此，通过利用文本分类模型，根据用户的每条网络行为数据确定对应的行为向量及类别标签，再将行为向量及类别标签进行融合得到每个用户的特征，使得确定的用户的特征更加准确、全面，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

在本申请实施例一种可能的实现方式中，所述利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征和各连接边特征，包括：

利用预设的自然语言处理模型，对所述社区网络中第一用户的网络行为数据进行处理，确定所述第一用户与关联的第二用户间的互动次数和互动内容；

根据第一用户标识、第二用户标识，及所述第一用户与第二用户间的互动次数和互动内容，确定所述第一用户与所述第二用户间的连接边特征。

由此，通过利用预设的自然语言处理模型，对社区网络中第一用户的网络行为数据进行处理，确定第一用户与关联的第二用户间的互动次数和互动内容，再根据第一用户标识、第二用户标识以及第一用户与第二用户间的互动次数和互动内容，确定第一用户与第二用户间的连接边特征，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

在本申请实施例一种可能的实现方式中，所述确定所述社区网络对应的社区主题，包括：

利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，确定所述社区网络对应的嵌入表示；

将所述社区网络对应的嵌入表示进行解码处理，生成所述社区网络对应的社区主题。

由此，利用预设的图注意力网络，对社区网络中每个用户的特征及每个连接边的特征进行学习，确定社区网络对应的嵌入表示，再将社区网络对应的嵌入表示进行解码处理，生成社区网络对应的社区主题，能够准确地确定社区网络对应的社区主题。

本申请第二方面实施例提出了一种社区主题生成装置，包括：

第一确定模块，用于对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，其中，所述社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联；

第二确定模块，用于利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征和各连接边特征；

主题生成模块，用于利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定所述社区网络对应的社区主题。

本申请实施例的社区主题生成装置，通过对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联，利用预设的自然语言处理模型，对社区网络中的每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征，进而利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定社区网络对应的社区主题。由此，通过对各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，再对社区网络中每个用户的网络行为数据进行处理得到每个用户的特征和各连接边特征，进而利用图注意力网络进行学习得到社区网络对应的社区主题，从而，在生成社区主题时不仅考虑了用户的行为文本，还考虑了社区网络构成，提高了社区主题生成的准确性和可靠性，有利于更好地了解用户的社交行为。

在本申请实施例一种可能的实现方式中，所述第二确定模块，具体用于：

将每个用户的每条行为数据，输入文本分类模型中，确定每条行为数据对应的类别标签；

将每个用户的每条行为数据分别对应的类别标签进行融合处理，确定每个用户的特征。

在本申请实施例一种可能的实现方式中，所述第二确定模块，还用于：

确定所述每条网络行为数据对应的行为向量；

在本申请实施例一种可能的实现方式中，所述主题生成模块，具体用于：

本申请第三方面实施例提出了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面实施例所述的社区主题生成方法。

本申请第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行前述第一方面实施例所述的社区主题生成方法。

上述申请中的一个实施例具有如下优点或有益效果：

通过对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联，利用预设的自然语言处理模型，对社区网络中的每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征，进而利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定社区网络对应的社区主题。由此，通过对各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，再对社区网络中每个用户的网络行为数据进行处理得到每个用户的特征和各连接边特征，进而利用图注意力网络进行学习得到社区网络对应的社区主题，从而，在生成社区主题时不仅考虑了用户的行为文本，还考虑了社区网络构成，提高了社区主题生成的准确性和可靠性，有利于更好地了解用户的社交行为。因为采用对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，确定社区网络对应的社区主题的技术手段，在生成社区主题时兼顾了社区网络构成和用户的行为文本，提高了准确性和可靠性，所以克服了现有技术中仅从文本处理的角度确定社区主题，准确性较差的技术问题。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请第一实施例的社区主题生成方法的流程示意图；

图2是一种确定的社区网络的示例图；

图3是一种预设的图注意力网络的结构示例图；

图4是根据本申请第二实施例的社区主题生成方法的流程示意图；

图5是一种文本分类模型的示例图；

图6是根据本申请第三实施例的社区主题生成方法的流程示意图；

图7是根据本申请第四实施例的社区主题生成方法的流程示意图；

图8是根据本申请第五实施例的社区主题生成装置的结构示意图；

图9是用来实现本申请实施例的社区主题生成方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面参考附图描述本申请的社区主题生成方法、装置、电子设备及存储介质。

目前，进行社区主题发现时，主要通过处理社区文本得到社区主题，将社区主题生成任务转换为自然语言处理任务，通过关键字提取或主题分类等方式，确定社区主题。

现有生成社区主题的方式主要有以下几种：

(1)基于词袋模型，对社区中的文档集进行主题分析，得到相关的主题词袋模型，再按照频率、共现次数、词频-逆文件频率(Term Frequency-Inverse DocumentFrequency，TF-IDF)等指标进行主题词挑选，得到社区的主题簇；

(2)基于潜在狄利克雷分配模型(Latent Dirichlet Allocation，LDA)等主题提取算法，得到社区文本的主题，再进行归类总结得到社区主题；

(3)基于文本分类的思路，通过对社区文本进行表示学习，得出文本特征，通过分类器得到文本归属类别，再上升得到社区主题。

然而，上述采用转换法把任务转换成自然语言处理任务进行分析得到社区主题的方法，仅从文本处理角度得到社区主题，丧失了社区非常重要的图结构特性，使得最终确定的社区主题的准确性和可靠性较差。

针对上述问题，本申请提出了一种社区主题生成方法，通过对各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，再对社区网络中每个用户的网络行为数据进行处理得到每个用户的特征和各连接边特征，进而利用图注意力网络进行学习得到社区网络对应的社区主题，从而，在生成社区主题时不仅考虑了用户的行为文本，还考虑了社区网络构成，提高了社区主题生成的准确性和可靠性，有利于更好地了解用户的社交行为。

具体而言，图1是根据本申请第一实施例的社区主题生成方法的流程示意图，该方法可以由本申请提出的社区主题生成装置执行，也可以由电子设备执行，其中，电子设备可以是服务器，也可以是台式电脑、笔记本电脑等终端设备，本申请对此不作限制。下面以本申请提出的社区主题生成装置执行本申请的社区主题生成方法作为示例来解释说明本申请。

如图1所示，该社区主题生成方法，包括以下步骤：

步骤101，对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，其中，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联。

其中，各用户的网络行为数据可以包括用户关系数据和用户的行为文本数据，用户关系数据是用户在互联网上表露出来的社交行为数据，是自然形成的图模型数据，用户的行为文本数据比如可以是用户撰写的网络文章、用户对其他用户撰写的网络文章的评论、用户从其他用户转发的文章或微博内容等等。

本申请实施例中，各用户的网络行为数据可以从贴吧、微博、知乎等常见的交互平台中获取。

对于获取的各用户的网络行为数据，可以对网络行为数据进行挖掘处理，确定各用户组成的社区网络。其中，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联。

作为一种示例，对各用户的网络行为数据进行挖掘处理后，可以将每个网络行为数据中的用户关系数据表示成一个三元组，记为[fromid，link，toid]，其中，fromid和toid表示相互关联的两个用户的用户标识，link可以用权重加文本的形式表示不同的关系类型。接着，根据对每个网络行为数据进行挖掘处理后得到的三元组，可以构建得到社区网络，其中，社区网络中各节点的关联节点根据三元组中的fromid和toid确定，互相连接的两个节点的关系类型由三元组中的link确定。

步骤102，利用预设的自然语言处理模型，对社区网络中的每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征。

其中，用户的特征包括但不限于用户画像、用户的兴趣点等等；各连接边特征可以包括权重、互动文本等。

本实施例中，可以从微博、贴吧等交互平台获取各用户的网络行为数据，并利用预设的自然语言处理模型，对每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征。

其中，预设的自然语言处理模型可以是任意类型的语言处理模型，比如，预设的自然语言处理模型可以是卷积神经网络模型、长短时记忆网络、BERT模型等等。预设的自然语言处理模型可以为一个，利用同一个自然语言处理模型对用户的网络行为数据进行处理，得到社区网络中每个用户的特征和各连接边特征；预设的自然语言处理模型也可以为多个，利用不同的自然语言处理模型对用户的网络行为数据进行处理，分别得到社区网络中每个用户的特征和各连接边特征，本申请对此不作限制。

以预设的自然语言处理模型为卷积神经网络模型为例，可以预先利用大量用户的网络行为数据作为训练样本，训练得到卷积神经网络模型作为预设的自然语言处理模型，该卷积神经网络模型可以输出用户的特征和社区网络中各连接边特征。从而，本示例中，可以利用该卷积神经网络模型，对社区网络中每个用户的网络行为数据进行分析，得到用户的特征和各连接边特征。

需要说明的是，本实施例中的步骤101和步骤102的执行顺序不分先后，两者可以先后顺序执行，也可以并行执行，本申请仅以步骤102在步骤101之后执行作为示例来解释说明本申请，而不能作为对本申请的限制。

步骤103，利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定社区网络对应的社区主题。

其中，图注意力网络(Graph Attention Network，GAT)提出了用注意力机制对邻近节点特征加权求和，在GAT网络中，邻近节点特征的权重完全取决于节点特征，独立于图结构，GAT网络中的每个节点可以根据邻节点的特征，为该节点分配不同的权重。GAT网络中包括图注意力层，图注意力层的输入为节点特征向量集，输出为新的节点特征向量集。本实施例中，图注意力层的输入为社区网络中节点的特征向量集，输出为新的节点特征向量集。对于每个节点，图注意力层输出的节点特征向量可以利用公式(1)计算得到。

其中，W为与特征相乘的权重矩阵，α为基于注意力机制计算得到的节点i和节点j之间的注意力互相关系数，σ为非线性激活函数，j∈N_i中遍历的j表示所有与i相邻的节点，表示节点j的节点特征向量，/>表示图注意力层输出的节点i的节点特征向量。

从公式(1)可以看出，节点i的输出特征向量与和它相邻的所有节点有关，是所有相邻节点的线性和的非线性激活后得到的。

GAT网络中，分类器位于图注意力层之后，用于根据图注意力层输出的节点特征向量，确定节点属于各个类别的概率。其中，同一节点属于各个类别的概率之和为1，分类器可以采用softmax函数完成。

本实施例中，利用预设的图注意力网络，对社区网络中每个用户的特征以及每个连接边的特征进行学习，能够确定社区网络对应的社区主题。

作为一种可能的实现方式，可以利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，确定社区网络对应的嵌入表示，再将社区网络对应的嵌入表示进行解码处理，生成社区网络对应的主题。其中，社区网络对应的嵌入表示为社区网络的特征向量表述，其表示形式为向量。由前述有关GAT网络的描述可知，GAT网络的图注意力层能够根据与某一节点相邻的所有相邻节点的特征来输出该节点新的特征，本实施例中，可以提取图注意力层输出的特征向量作为社区网络对应的嵌入表示，将所提取的嵌入表示作为社区网络的主题向量，进而基于词向量转换，比如基于词袋模型，将社区网络对应的嵌入表示进行解码处理，转换成文字形式的社区主题。

由于社区网络中每个节点(即用户)的特征是由预设的自然语言处理模型对社区网络中用户的网络行为数据处理得到的，因此可以认为最终确定的社区主题兼顾了用户所在社区网络的图结构信息以及用户的行为文本数据，从而相对于现有技术中仅从文本处理的角度确定社区主题的方法，提高了社区主题生成的准确性。

本实施例的社区主题生成方法，通过对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联，利用预设的自然语言处理模型，对社区网络中的每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征，进而利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定社区网络对应的社区主题。由此，通过对各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，再对社区网络中每个用户的网络行为数据进行处理得到每个用户的特征和各连接边特征，进而利用图注意力网络进行学习得到社区网络对应的社区主题，从而，在生成社区主题时不仅考虑了用户的行为文本，还考虑了社区网络构成，提高了社区主题生成的准确性和可靠性，有利于更好地了解用户的社交行为。

下面结合附图2和附图3，对本申请实施例进行解释说明。

图2是一种确定的社区网络的示例图。如图2所示，社区网络中的各个节点表示网络用户，两个节点之间的连接边表示对应的两个网络用户之间的互动关系，比如评论关系等。图2中，每个节点的特征和每条连接边的特征，可以根据各个节点对应的网络用户的网络行为数据，利用预设的自然语言处理模型处理得到。之后，对于确定了每个节点的特征和每个连接边的特征的社区网络，可以利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，确定该社区网络对应的社区主题。

图3是一种预设的图注意力网络的结构示例图。如图3所示，该图注意力网络主要由堆叠的图注意力层实现提取社区网络的结构特征的目的，图注意力层的具体层数可以根据任务复杂程度决定。图3所示的每层图注意力层均由多头注意力(Multi-HeadsAttention)构成，在每一层中采用自注意力(Self-Attention)机制来捕捉不同节点的特征。采用自注意力机制，能够更好地学习到全局特征之间的依赖关系，通过直接计算社区网络结构中任意两个节点之间的关系，一步到位地获取社区网络结构的全局几何特征。利用图3所示的图注意力网络，对图2中各个节点的特征、各个连接边的特征进行学习，提取任一层的图注意力层的输出作为图2所示的社区网络对应的主题向量，进而通过对主题向量进行词向量转换，将主题向量转换为对应的文本内容，则转换得到的文本内容即为图2所示社区网络对应的社区主题。

图4是根据本申请第二实施例的社区主题生成方法的流程示意图。如图4所示，在如图1所示实施例的基础上，步骤102中，确定社区网络中每个用户的特征时，可以采用如下方式：

步骤201，将每个用户的每条网络行为数据，输入文本分类模型中，确定每条网络行为数据对应的类别标签。

步骤202，将每个用户的每条网络行为数据分别对应的类别标签进行融合处理，确定每个用户的特征。

本实施例中，对于每个用户，可以将每个用户的每条网络行为数据输入文本分类模型中，确定每条网络行为数据对应的类别标签。其中，主要根据网络行为数据中的行为文本数据来确定对应的类别标签。接着，对于每个用户，将同一用户的每条网络行为数据分别对应的类别标签进行融合处理，得到每个用户的特征。其中，融合处理比如可以是拼接，将所有的类别标签拼接在一起，得到用户的特征；融合处理还可以是加权求和、加权求均值等处理方式，本申请对此不作限制。

作为一种示例，图5是一种文本分类模型的示例图。如图5所示，该文本分类模型包括输入层、嵌入层、卷积层、池化层和输出层，其中，卷积层中可以使用多个卷积核，从不同大小的窗口多方面地提取出网络行为数据的特性，以保证确定的用户特征的全面性。

本实施例的社区主题生成方法，通过将每个用户的每条网络行为数据，输入文本分类模型中，确定每条网络行为数据对应的类别标签，进而将每个用户的每条网络行为数据分别对应的类别标签进行融合处理，确定每个用户的特征，由此，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

图6是根据本申请第三实施例的社区主题生成方法的流程示意图。如图6所示，在如图1所示实施例的基础上，步骤102中，确定社区网络中每个用户的特征时，可以采用如下方式：

步骤301，将每个用户的每条网络行为数据，输入文本分类模型中，确定每条网络行为数据对应的行为向量及类别标签。

步骤302，将每个用户的每条网络行为数据对应的行为向量及类别标签进行融合处理，生成每个用户的特征。

其中，本实施例的文本分类模型，可以采用如图5所示的模型结构。

本实施例中，对于每个用户，可以将每个用户的每条网络行为数据输入到文本分类模型中，得到每条网络行为数据对应的行为向量和类别标签。

其中，网络行为数据对应的类别标签可以用向量形式表示，以便与对应的行为向量进行融合；网络行为数据对应的行为向量，可以通过提取文本分类模型中的分类器前的某一层输出的向量作为行为向量。

接着，对于每个用户，将该用户所有的网络行为数据对应的行为向量和类别标签进行融合处理，得到该用户的特征。其中，融合处理可以是拼接、加权求平均等处理方式，本申请对此不作限定。

本实施例的社区主题生成方法，通过将每个用户的每条网络行为数据，输入文本分类模型中，确定网络行为数据对应的行为向量及类别标签，进而将行为向量及类别标签进行融合处理，生成每个用户的特征，由此，能够使得确定的用户的特征更加准确、全面，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

图7是根据本申请第四实施例的社区主题生成方法的流程示意图。如图7所示，在如图1所示实施例的基础上，步骤102中，确定社区网络中各连接边特征时，可以采用如下方式：

步骤401，利用预设的自然语言处理模型，对社区网络中第一用户的网络行为数据进行处理，确定第一用户与关联的第二用户间的互动次数和互动内容。

其中，预设的自然语言处理模型可以是任意类型的语言处理模型，利用自然语言处理模型，可以分析出用户与其他网络用户的互动情况，包括互动次数和互动内容，互动内容包括但不限于互动关系、互动文本等。

本实施例中，对于社区网络中的每个用户，可以利用预设的自然语言处理模型对该用户的网络行为数据进行处理，得到该用户与其他用户的互动次数和互动内容，其中，该用户称为第一用户，与该用户关联的其他用户称为第二用户，能够理解的是，第二用户可以为多个。

步骤402，根据第一用户标识、第二用户标识，及第一用户与第二用户间的互动次数和互动内容，确定第一用户与第二用户间的连接边特征。

其中，用户标识能够唯一表示对应的用户，一个用户可以有多个不同的用户标识，比如，一个用户的用户标识可以是用户的id、账号名等信息，但同一网络平台中，一个用户标识仅能表征一个用户。本实施例中，第一用户标识即为第一用户的用户标识，用于表征第一用户；第二用户标识即为第二用户的用户标识，用于表征第二用户。

本实施例中，确定了第一用户与关联的第二用户之间的互动次数和互动内容之后，可以根据确定的互动次数和互动内容，以及第一用户标识和第二用户标识，确定第一用户与第二用户间的连接边特征。其中，第一用户标识用于确定社区网络中与第一用户标识对应的第一节点，第二用户标识用于确定社区网络中与第二用户标识对应的第二节点，进而确定第一节点与第二节点之间的连线为两节点之间的连接边，则对应的第一用户和第二用户之间的互动次数和互动内容，即确定为该连接边的特征。

本实施例的社区主题生成方法，通过利用预设的自然语言处理模型，对社区网络中第一用户的网络行为数据进行处理，确定第一用户与关联的第二用户间的互动次数和互动内容，再根据第一用户标识、第二用户标识以及第一用户与第二用户间的互动次数和互动内容，确定第一用户与第二用户间的连接边特征，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

根据本申请的实施例，本申请还提出一种社区主题生成装置。

图8是根据本申请第五实施例的社区主题生成装置的结构示意图。如图8所示，该社区主题生成装置50包括：第一确定模块510、第二确定模块520，以及主题生成模块530。

其中，第一确定模块510，用于对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，其中，社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联。

第二确定模块520，用于利用预设的自然语言处理模型，对社区网络中的每个用户的网络行为数据进行处理，确定社区网络中每个用户的特征和各连接边特征。

在本申请实施例一种可能的实现方式中，第二确定模块520具体用于：将每个用户的每条行为数据，输入文本分类模型中，确定每条行为数据对应的类别标签；将每个用户的每条行为数据分别对应的类别标签进行融合处理，确定每个用户的特征。

在本申请实施例一种可能的实现方式中，第二确定模块520具体用于：将每个用户的行为数据，输入文本分类模型中，确定每条网络行为数据对应的行为向量及类别标签；将每个用户的每条网络行为数据对应的行为向量及类别标签进行融合处理，生成每个用户的特征。

通过利用文本分类模型，根据用户的网络行为数据确定对应的行为向量及类别标签，再将行为向量及类别标签进行融合得到每个用户的特征，使得确定的用户的特征更加准确、全面，为生成社区主题时兼顾社区网络构成和用户的行为文本奠定了基础。

在本申请实施例一种可能的实现方式中，第二确定模块520具体用于：利用预设的自然语言处理模型，对社区网络中第一用户的网络行为数据进行处理，确定第一用户与关联的第二用户间的互动次数和互动内容；根据第一用户标识、第二用户标识，及第一用户与第二用户间的互动次数和互动内容，确定第一用户与第二用户间的连接边特征。

主题生成模块530，用于利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定社区网络对应的社区主题。

在本申请实施例一种可能的实现方式中，主题生成模块530，具体用于：利用预设的图注意力网络，对社区网络中每个用户的特征、及每个连接边的特征进行学习，确定社区网络对应的嵌入表示；将社区网络对应的嵌入表示进行解码处理，生成社区网络对应的社区主题。

需要说明的是，前述对社区主题生成方法实施例的解释说明，也适用于本申请实施例的社区主题生成装置，其实现原理类似，此处不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图9所示，是根据本申请实施例的社区主题生成方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图9所示，该电子设备包括：一个或多个处理器701、存储器702，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器701可以对在电子设备内执行的指令进行处理，包括存储在存储器702中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器701为例。

存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器702存储有可由至少一个处理器执行的指令，以使所述至少一个处理器701执行本申请所提供的社区主题生成方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的社区主题生成方法。

存储器702作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的社区主题生成方法对应的程序指令/模块(例如，附图8所示的第一确定模块510、第二确定模块520和主题生成模块530)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的社区主题生成方法。

存储器702可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据执行社区主题生成方法的电子设备的使用所创建的数据等。此外，存储器702可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器702可选包括相对于处理器701远程设置的存储器，这些远程存储器可以通过网络连接至执行社区主题生成方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

执行社区主题生成方法的电子设备还可以包括：输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接，图9中以通过总线连接为例。

输入装置703可接收输入的数字或字符信息，以及产生与执行社区主题生成方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种社区主题生成方法，其特征在于，包括：

对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，其中，所述社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联，其中，所述各用户的网络行为数据包括用户关系数据和用户的行为文本数据，用户关系数据是用户在互联网上表露出来的社交行为数据，是自然形成的图模型数据；

利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定所述社区网络对应的社区主题，所述社区主题包含了用户所在社区网络的图结构信息以及用户的行为文本数据。

2.如权利要求1所述的方法，其特征在于，所述利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征，包括：

3.如权利要求2所述的方法，其特征在于，所述将每个用户的每条网络行为数据，输入文本分类模型之后，还包括：

确定所述每条网络行为数据对应的行为向量；

所述确定每个用户的特征，包括：

4.如权利要求1所述的方法，其特征在于，所述利用预设的自然语言处理模型，对所述社区网络中的每个用户的网络行为数据进行处理，确定所述社区网络中每个用户的特征和各连接边特征，包括：

5.如权利要求1-4任一所述的方法，其特征在于，所述确定所述社区网络对应的社区主题，包括：

6.一种社区主题生成装置，其特征在于，包括：

第一确定模块，用于对获取的各用户网络行为数据进行挖掘处理，确定各用户组成的社区网络，其中，所述社区网络中的每个节点表征一个用户，两节点间的连接边表征互相连接的两个用户互相关联，其中，所述各用户的网络行为数据包括用户关系数据和用户的行为文本数据，用户关系数据是用户在互联网上表露出来的社交行为数据，是自然形成的图模型数据；

主题生成模块，用于利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，以确定所述社区网络对应的社区主题，所述社区主题包含了用户所在社区网络的图结构信息以及用户的行为文本数据。

7.如权利要求6所述的装置，其特征在于，所述第二确定模块，具体用于：

8.如权利要求7所述的装置，其特征在于，所述第二确定模块，还用于：

确定所述每条网络行为数据对应的行为向量；

9.如权利要求6所述的装置，其特征在于，所述第二确定模块，具体用于：

10.如权利要求6-9任一所述的装置，其特征在于，所述主题生成模块，具体用于：

利用预设的图注意力网络，对所述社区网络中每个用户的特征、及每个连接边的特征进行学习，确定所述社区网络对应的嵌入表示；将所述社区网络对应的嵌入表示进行解码处理，生成所述社区网络对应的社区主题。

11.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一所述的社区主题生成方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-5中任一所述的社区主题生成方法。