CN115577288A

CN115577288A - 面向内容的群体观点预测方法及系统

Info

Publication number: CN115577288A
Application number: CN202211309757.XA
Authority: CN
Inventors: 刘波; 薛潇雨; 韩旺; 曹玖新
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-01-06

Abstract

本发明公开了一种面向内容的群体观点预测方法及系统，本发明的方法步骤如下：首先利用BERT模型预训练活动描述文本特征，得到用户初始表示；再基于用户合作关系构建合作网络，提取用户的自驱性表示；之后根据用户本身的兴趣爱好标签领域，对用户领域聚类，得到用户领域性特征表示；融合个体层面的用户初始化表示、自驱性表示和领域性表示得到群组特征；最后通过群体观点预测模型预测群组对目标活动的态度。系统采用web交互技术实现描述生成结果的可视化展示。本发明可以有效预测兴趣活动社区里群组对活动是否举办的态度，为平台管理和相关活动推荐提供了有效技术支持。

Description

面向内容的群体观点预测方法及系统

技术领域

本发明涉及群体观点预测的描述方法，特别是涉及一种针对文本的群体观点预测方法及系统。

背景技术

随着互联网的发展，社交网络逐渐积攒了大量的用户，庞大的用户群体能够自由地、充分地分享和交流自己的见解。社交网络平台不仅为个人与个人提供了便捷的交互方式，也从群体角度供一部分有相似爱好、相似背景的人进行充分交流。在一些特定的兴趣爱好社区中，兴趣活动发起人往往会在一个群组里以一定方式发起活动，该活动是否能够被举办取决于整个群体的观点。因此，群体观点预测对社区管理平台显得尤为重要。

群体观点预测可以视为基于文本的立场检测或群体推荐的扩展任务，但是又与这两种技术存在差异。基于文本的立场检测任务是从文本的角度出发，根据单个或多个目标考虑其对该文本的立场。群体推荐则是向一个群体推荐不同的物品。一方面，基于文本的立场检测需要将立场明确区分开，即分为正向、负向等立场。群体观点与立场检测差异在于，其需要预测群体观点，而群体中的目标只持有一种正向观点，这也说明群体的形成存在目的性。另一方面，群体推荐的研究重点在于如何挖掘群体中成员的共性偏好特征，需要平衡群体中各个成员的差异性，以缓解成员间的偏好冲突。

基于文本的立场检测可以分为单目标文本立场检测和多目标文本立场检测。基于单目标的立场检测的任务是给定单一目标和文本内容，需要确定给定目标对当前文本的态度和观点，即寻找文本与目标立场的映射关系。早期工作主要使用基于规则和机器学习的研究路线进行研究。SVM在使用以特征工程的研究中占据主流地位。随着深度学习的发展，在立场检测领域中越来越多的工作采用深度学习的方式进行研究。Isablelle等人使用RNN对目标和文本进行编码，使用目标编码模块的输出层作为文本编码模块的初始值，即文本编码模块需要等待目标编码模块的输出。Vijayaraghavan等人使用卷积神经网络对两个级别的数据进行特征训练，分别是单词级别和字符级别，通过融合这两种级别的特征，进行立场检测和分析。多目标立场检测与单目标立场检测定义相比，研究对象从单个目标变为了多个目标，即给定n个目标和文本内容，需要判断多个目标对文本的立场倾向。此外，多目标立场检测中涉及到立场的传播与对立，即目标间角色存在差异会导致立场不同。Sobhani认为在基于单目标的立场检测任务中，将每个个体都平等的对待，忽略了个体间可能存在的影响力和利益对立，提出了多目标的立场检测任务，并发布了一个用于多目标立场检测的数据集。同时，作者提出了一个基于注意力机制的多目标立场检测方法,该方法利用注意力机制的优势，从而在判断每个目标的立场时，可以更合理地调整文本信息的权重。Wei等人提出了一种动态记忆增强网络，该网络在文本编码模块使用了两个双向长短期记忆神经网络，并使用了注意力机制融合特征，再利用共享动态记忆单元提取多目标与立场的关联信息。Siddiqua等人提出了基于神经网络的集成模型，该模型将目标向量和文本向量进行拼接得到输入特征，随后使用多个卷积核对输入特征卷机，传入密集连接的双向长短期记忆网络和嵌套长短期记忆网络，再对上述两个网络的输出结果再次进行拼接，得到最后的特征用来判断目标的立场概率。

在基于群体推荐的群体观点预测研究中，研究对象从个体变为了群体，存在从个体到群体的跨越，所以在群体推荐中，从个体到群体的偏好融合成了核心问题，偏好融合也成为了群体推荐领域中的关键步骤。从偏好融合的角度出发，可以分为两个方面，分别是隐性偏好融合方法和显性偏好融合方法，这两种方法的不同之处在于隐性融合方法在不获得个体的显性偏好进行群体观点融合，个体的偏好通过特征表示；而显性融合方法，需要将个体的观点或喜好预先的获得，然后再进行融合为群体观点或群体偏好。隐性偏好融合在早期的工作中，主要基于概率模型和信息聚合的思想。Seko等人提出将内容分类与群组决策相融合的模型，主张物品分类会影响群组的决策。Liu等人提出了个性化主题模型，该模型假设最有影响力的用户来表示群组并且对群组的决策有重要影响。但是这种方法只适用于预先定义好的群组，即关系较为稳定的群体，而对于偶发形成的群体，该方法的局限性较大。随着深度学习的发展，越来越多的工作使用深度学习的方法进行研究。Cao等人首次在使用了注意力机制聚合个体偏好得到群体偏好的表示，但仅进行了个体偏好的聚合，没有考虑社交影响力；作者在前一工作的基础上，考虑到了社交影响力，对每个用户的邻居使用一次注意力，表示其邻居对其影响，然后在群体上再使用一次注意力，通过层次注意力的机制，得到群体特征表示。He等人提出了GAME模型，适用于偶发群体，该文章从多角度建模了用户、群体、和内容之间的关系。用户-内容，个体-群体两个角度获得用户的偏好特征；此外，作者认为一个群体是在主题作用下产生的，因而将该主题作为对个体的观点也会产生影响；由于偶发群体缺少历史的行为数据，所以这篇工作认为使用群体中的个体特征融合作为群体表示。

观点动力学是运用数学、物理学以及计算机，特别是基于agent的建模和仿真方法，研究群体观点趋于一致或者产生聚类分离现象的演化过程和规则。观点动力学的研究对象非常广泛，包括个体观点演化、群体决策、一致性达成、少数观点的幸存等各种社会现象。观点是个体对待事件的看法、选择或者倾向。根据观点的描述方式，可以将观点动力学模型分为离散模型和连续模型；本专利将从观点的描述方式角度介绍观点动力学的研究现状。离散模型采用二元值或其他离散的整数值对观点进行建模，如0和1，就像现实世界中表示的买和卖、左和右、中立、支持和反对等一样，包括Ising模型，投票者模型和局部多数模型及其扩展模型。Ising模型是Ising最初是在物理学领域中为了解释铁磁物质的相变性质而提出的，铁磁物质的相变性质与社会学中群体观点的演化性质有很多相似的地方，因此，有人提出使用Ising模型来刻画群体的观点冲突，该方法用个体观点的极性取代铁磁物质的极性，用群体的观点取代系统能量，如果相邻两个节点之间的观点相反，那么系统总能量减一，否则加一；而如果两个节点之间的观点一致，则系统总能量减一。Voter模型由Clifford和Sudbury共同提出，一方面，个体总是在参照其邻居的观点，且不受外部信息的干扰；另一方面，个体的观点仅来自其单一邻居，而多数邻居并不与个体产生直接作用。随着模型的演化，持相同观点的个体开始在群体网络中形成聚集的团簇，由于该模型等价于一个随机游走，系统往往能够收敛到某一确定的观点，但具体收敛到哪一方观点则无法预测。Galam对Ising模型进行了改进，提出了局部多数模型。该模型考虑了社会学中普遍存在的羊群效应。该模型的演化规则如下：在一个包含n个个体的群体中，个体分别持有+1和-1两种观点，群体观点的量化体现在模型会选择当前群体中拥有数量最多的观点作为群体的观点。Sznazjd模型由sznazjd提出，Sznajd模型认为总是由一对个体组合产生作用，个体的观点受到其两跳内邻居的影响，其信息具有显著的“外流性”，因而更多地被用来模拟观点在社会中的传播行为。

发明内容

发明目的：为了解决现有技术的不足，本发明提供一种面向内容的群体观点预测方法及系统。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

本发明的一种面向内容的群体观点预测方法，包括以下步骤：

(1)文本特征提取

对活动文本进行预处理，并利用BERT对活动文本进行预训练，按照活动文本不同的领域进行分类训练，得到活动文本特征表示

(2)用户初始化表示

构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化，再将相应遗忘曲线值和步骤(1)中得到的活动文本特征表示

相乘并求和，得到用户特征表示u_self′；再减去平均池化后的反对的本文u_nay得到用户初始化表示u_self；

(3)用户自驱性表示

利用用户间的关系建立用户间的拓扑关系图G₁，再利用两层卷积神经网络得到用户自驱性表示u_effected，其中卷积神经网络用户的初始特征为步骤(2)得到的的用户初始化表示u_self；

(4)用户领域性表示

根据每位用户不同的领域，采用GMM算法对用户的领域进行重叠聚类，并构建领域图G₂，再利用GAT对特征进行融合，最终得到用户所在领域的特征，即用户领域性表示u_group；

(5)群体特征融合

根据步骤(2)、步骤(3)和步骤(4)的输出，利用注意力机制进行加权求和得到群组中的用户表征S，再利用LSTM和注意力机制得到群组特征

(6)群体观点预测

将步骤(1)中得到的活动文本特征表示

和步骤(5)得到的群组特征

进行拼接，再将其输入由多层感知机构成的分类器中进行分类，最终得到预测结果。

进一步地，本发明的方法还包括系统功能展示的步骤，即将步骤(6)得到的结果，在web网页端进行可视化的展示分析，并给出该方法相较于其他方法的准确性。

进一步地，步骤(1)中所述的活动文本包括活动的文本标题，以及对该项活动的简要文字性描述，并且要求字数不超过160字；

步骤(1)中所述利用BERT对活动文本进行编码，一项活动文本的特征表示，即活动文本特征表示，其维度为1*768，设定BERT处理的句子长度为160；在对活动文本预训练过程中，分别采用BERT最后四层的特征拼接、最后四层特征最大池化、最后一层的特征以及最后一层输出加上LSTM四种方法进行训练；

当对群组所支持的活动文本进行表征时，对于被拆分的单词

使用平均池化作为其编码表示，如公式1所示

其中，

在BERT词表中单词中的输出，n_w代表在BERT此表中有对应输出的单词个数，

表示不在词表中的表示。

进一步地，步骤(2)具体步骤为：

构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化，如公式2所示

其中f(t)表示活动随时间变化的重要程度，k₀,c,t₀都是常数，t代表时间，对于活动发起者提出的活动，将活动文本特征表示

按照时间排序，并和上述设计的遗忘函数相乘并求和，得到用户特征表示u_self′；此外，由于反对的文本和用户观点相违背，采用了平均池化得到反对的文本u_nay，并从u_self′中减去u_nay，得到用户的初始化表示u_self。

进一步地，步骤(3)具体包括：

首先，需要根据发起人和联合发起人的关系建立用户间的拓扑关系，得到用户间的拓扑关系图G₁，根据G₁，得到影响力的传播路径，在步骤(2)中，我们获得了用户初始化表示u_self，即存在初始特征

图卷积计算的初始表示是用户初始化表示的输出，如公式3所示，

自驱性表示如公式4，

其中

表示经过l₁+1次卷积运算后的输出，取最后一层网络输出u_effected为用户自驱性表示，σ(·)表示激活函数，

其中A为拓扑关系G₁的邻接矩阵，I是单位矩阵，

为

的度矩阵，

为模型需要学习的参数。

进一步地，步骤(4)中的计算用户的领域性表示，具体方法为：

采用高斯混合模型(GaussianMixtureMode，GMM)对用户领域进行聚类，GMM可以将一个用户分到多个领域中，具体算法如公式5所示，

其中p(x)代表高斯混合模型的分布，k_cluster代表类别数，

代表观测数据属于第i_cluster个类别的混合系数，

为服从高斯分布的随机向量x的概率密度函数，其中

代表数据的均值向量，GMM聚类算法优化式无法直接通过解析方式求得解，常采用EM(Expectation Maximization Algorithm)算法进行迭代优化求解，

其中，

表示GMM优化目标，N代表网络中的用户数量；

通过上述的聚类过程，将用户划分到不同的兴趣领域中，但是领域性的影响力尚未在不同的领域间传播，对此，将划分出的领域抽象为图中的节点，构建以领域为节点的图G₂。，具体的构建过程如下：对于处于多个领域中的用户，将其视为中枢节点，连接两个或多个领域，用户的自驱性表示在GMM算法的作用下，会聚成不同的领域，然后将领域抽象为图中的节点，并通过将跨越多领域的用户作为锚点，连接两个或多个G₂中的节点；

在使用图注意网络之前，需要将网点节点的参数进行初始化，对于构建的图G₂中各个节点的初始化方式为：使用注意力机制融合一个兴趣领域内的用户特征作为当前领域的表示

如公式7所示，

其中

表示在当前领域中的用户,Attention(·)表示注意力机制；

随后在构建的G₂中使用图注意力网络，得到用户受到的群体影响力表示，注意力系数的计算过程如公式8所示，

其中

表示群体

对群体

的注意力系数，

代表与群体i_g相连的群体集合，k_g代表其中的群组，

表示与群体

相连的群体

j_g＝1,2,...,n对

产生的影响权重；

而此权重需要通过与一个节点相邻的所有节点特征线性变换后，再经LeakeyReLU激活函数得到，如公式9、10所示,

其中

表示群体特征经过线性变换后的特征,

和

为线性变换的矩阵,l₂,l₃分别为网络层数,

GAT的计算过程如公式11所示，

其中对于目标领域受到的影响力，来自与其相邻的领域影响力的传播，

代表与群体i_cluster相连的群体集合，j_cluster代表其中的群组，

表示j_cluster领域对当前领域的影响力系数，l₄为网络的层数，再经过激活函数σ后，得到l₄+1层的输出

最后一层输出为受到领域影响后的特征

为了获得的领域特征叠加到每个用户的特征表示，通过用户和领域的关系Map_ug获取一个用户所属的领域，对于只属于一个领域的用户，将获取的领域特征作为其特征的一部分；而对于属于多个领域的用户，即存在该用户有多个领域特征，使用平均池化的方式将多个领域特征作为用户受到的领域影响的一部分，即用户的领域性表示u_group，如公式12所示，

其中N_cluster表示一个用户所属的领域个数。

进一步地，步骤(5)所述群体特征融合，具体是使用注意力机制对步骤(2)、步骤(3)和步骤(4)分别得到的用户初始化表示、用户自驱性表示、用户领域表示这三个特征进行融合得到用户i的最终表示S_i，如公式13所示，

其中

表示用户i出于自身兴趣考虑，主动提出一些活动方案，即初始化表示；

为用户i的自驱性特征，用户发起活动后，自发性地寻求其他用户支持，表示主动发起与其他用户的合作而产生的直接影响；

为用户i的领域性表示，表示用户提出的活动归属于某一领域，而在此兴趣领域内势必存在别的用户，而活动方案的提出也会受到领域内其他用户的影响；

使用长短期记忆网络(Long short-term memory，LSTM)和注意力机制(Attention)进行特征的融合以体现联合发起人加入群组的时序特性。

使用满足时序特征的长短期记忆网络进行计算，获得输出h_lstm；当LSTM的隐状态输出完毕后，即可使用注意力机制进行特征的融合，进而得到群组特征

如公式14-16所示，

h_u＝ReLU(W_sgh_lstm) (14)

e_i＝W_ghh_u (15)

其中h_u代表h_lstm线性变换后通过ReLU后的结果，e_i表示对用户i的注意力系数，α_i表示对用户i归一化后的注意力权重，τ(i)表示用户i所在群体的用户集合，W_sg、W_gh表示模型需要学习的参数；

通过α_i与LSTM对应的隐状态特征

做乘法运算，即可得到群组特征，如公式17所示，

其h_lstm表示群体中用户的特征经过LSTM编码后的特征，N表示用户的数量。

进一步地，步骤(6)所述群体观点预测的具体方法是：

将步骤(5)得到的群体特征

和步骤(1)中得到的活动文本特征表示

进行拼接，送入到多层感知机构成的分类器中，就能获得该群组支持发起该项活动的概率p，

其中W_gb为需要学习的参数，即当前群体对于对应的活动文本的观点，是持肯定态度或是否定态度，如果是肯定的观点，则模型认为当前群体会作为联合发起用户，提出该项活动；反之，模型则认为当前群体不会发起该项活动。

进一步地，所述系统功能展示包括数据补充的展示、模型性能对比结果的展示以及群组观点预测结果的展示；在数据补充展示部分，平台方可以自行上传群组信息，包含用户领域信息和历史发起过的活动信息或是否定过的活动信息，实现对模型训练数据集的补充；模型性能对比结果展示部分提供对于本专利所提模型与其他相关对比模型的性能分析结果；群组观点预测展示部分，平台方可以选择一个群组，并上传一份新的活动文案信息，系统能够自动判断该群组是否会支持该项活动的发起。

本发明还提供一种面向内容的群体观点预测系统，包括数据管理及存储模块、数据预处理模块、模型训练模块以及用户交互模块，数据管理及存储模块负责数据的补充和数据的存储工作；数据补充功能通过平台上传新的数据，对原始数据集进行补充；数据存储功能则负责存储相关的原始数据、预处理数据、相关数据集以及最终训练好的模型；数据预处理模块是对数据集原始数据进行预处理，以供后续模型训练；模型训练模块对模型进行构建和训练，包括模型参数初始化、迭代输入以及参数更新；最后，用户交互模块主要负责接收和处理用户请求，并对描述结果进行可视化展示。

最终经过大量的实验测试，证明该发明相比其他群体推荐技术、观点预测技术都有较高的准确性。

有益效果：与现有技术相比，本发明采用如上技术方案，具有如下优点：

(1)建模了用户的自驱性特点，本发明设计了一种表示用户自驱性的方法，能够捕捉到活动发起者自发寻求其他兴趣爱好类似的用户的过程；

(2)考虑到了活动提出的实效性，本发明涉及了一种遗忘函数，能够有效地体现活动实效性的重要性，对于近期提出的活动会更有影响力；

(3)考虑了用户加入群组的先后顺序，并利用LSTM和注意力机制建模并融合群组观点，提高了模型的准确性。

附图说明

图1是本发明的总体框架图；

图2是用户关系构建示意图，图2(a)表示用户与活动文本的二部图关系，图2(b)表示用户间影响力拓扑构建图，图2(c)表示用户间影响力传播关系；

图3是领域网络构建示意图，图3(a)表示用户还未聚类的初始状态，图3(b)表示用户的自驱性下的领域聚类，图3(c)表示建立的领域拓扑；

图4是领域影响力传播示意图，图4(a)表示构建的领域拓扑，图4(b)表示在领域拓扑中使用GAT进行卷积得到用户的领域特征，图4(c)表示用户受到领域的影响；

图5是本发明的系统结果展示界面。

具体实施方式

以下结合附图和具体实施例对本发明的技术方案进行详细说明。

以下只是本发明一种实施例，本发明还有其他多种实施方式，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明做出各种相应的改变和变形，这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本发明方法主要有三大模块，分别是个体特征提取模块、群体特征提取模块和群体观点预测模块。个体特征提取模块主要功能是从个体层面提取用户的相关特征，其可分为三个子模块，分别是活动描述文本特征提取模块、用户自驱性特征抽取模块和用户领域性特征抽取模块。活动描述文本特征提取模块对活动文本进行处理，得到活动文本特征，并形成用户初始化表示；用户自驱性特征抽取模块根据构建的合作网络抽取得到用户自驱性表示；用户领域性特征抽取模块根据领域聚类图提取用户所在领域的用户领域性表示。群体特征提取模块融合个体特征提取模块提取的三种特征为群组特征，再送入群体观点预测模块进行群体观点预测。具体流程框图如图1所示，详细的描述方法，包括以下步骤：

1、活动描述文本特征提取

(1)文本特征提取

在本发明的应用场景中，一个群组所支持的活动文本内容非常重要。因此，本发明将活动所属领域视为标签，描述活动的文本看作为训练内容，进行分类任务的与训练即按照其所属不同的类别进行分类，即对活动文本进行预处理。该阶段采用BERT模型进行预训练，首先将活动内容进行分词，得到分词列表words，再经过词表的映射，获取每次单词的ID，然后通过单词的ID传入到BERT中，即可完成对活动文本的编码。

当对群组所支持的活动文本进行表征时，由于在活动文本中可能会出现一些专有名词，而这些名词在BERT的词表中并不存在，BERT默认会将不存在的词拆分成存在的词，此操作会对判断的准确性带来影响。例如在新型冠状病毒爆发后，群组中讨论新冠病毒、核酸检测等热度增加，那么群组所支持的活动中自然也会涉到新冠病毒。然而，Coronavirus在BERT模型中是不存在的，BERT默认将一个不认识的词

拆分成多个单词的词根叠加，即

一旦这个词语被拆分，对应的语义会受到影响。在本发明中，对于被拆分的单词

使用平均池化作为其编码表示，如公式1所示，其中，

在BERT词表中单词中的输出，

表示不在词表中的表示。

该任务为多分类任务，因此本文采用了多分类的交叉熵损失函数，其中

表示第i_b个活动文本，其对应的活动文本特征表示为

是BERT的输出，即活动文本特征表示；

表示当前活动预测类别的概率；y_ic表示真实类别，W_b、b₀为模型需要学习的参数，

表示损失函数，N_b表示训练时的文本样本数量，M_i表示与用户有关的活动文本数量。

(2)用户初始化表示

用户与活动文案之间存在两种交互关系，分别是用户与活动文案之间的支持边和持反对意见的用户与活动文本之间的反对边，其中用户和活动文本之间的边可以细化为活动发起人和联合发起人与活动文案的边。本发明对用户初始化表示使用的数据是依据用户主动发起的文案和持反对意见的文案。由于群体热衷的活动具有时效性，因此，对于近期群组表示支持的活动重要性更大，而相对提出较早的活动对群组和用户的影响更小。本发明基于遗忘曲线设计并实现了时间影响力函数，如公式2所示

其中f(t)表示活动随时间变化的重要程度，k₀,c,t₀都是常数，t代表时间，对于活动发起者提出的活动，将文案特征表示

2、用户自驱性特征抽取

首先，需要根据发起人和联合发起人的关系建立用户间的拓扑关系图G₁，建立的过程如图2所示。图2(a)表示用户与活动文本的二部图关系，其中圆圈表示文本，虚线表示该用户是该活动的发起人u_i，实线表示此用户是该活动的联合发起人u_k,u_k+1,...,

其中n_u为联合发起人数量，椭圆是由发起人和联合发起人构成的群体。图2(b)表示用户间影响力拓扑构建图，通过将联合提出的活动文本

作为桥梁，活动发起人作为起点，而联合发起人作为终点，构建用户间影响力传播关系，构建效果如图2(c)所示，在每一个群体中，形成了以发起人为中心的自我中心网络(Ego Network)，网络中的边是从发起人指向联合发起人的单向边。

根据用户间的拓扑关系，能够得到影响力的传播路径，在步骤1中，我们获得了用户初始化表示u_self，即存在初始特征

自驱性表示如公式4，

其中

其中A为拓扑关系G₁的邻接矩阵，I是单位矩阵，

为

的度矩阵，

为模型需要学习的参数。用户自驱性具体建模过程如表1所示。

表1是用户自驱性表示算法伪代码

3、用户领域性特征抽取

本发明应用场景所涉及到的用户并不只是属于一个领域，因此传统的聚类方法在本发明中并不适用。本发明采用了高斯混合模型(GaussianMixtureMode，GMM)对用户领域进行聚类，GMM可以将一个用户分到多个领域中，具体算法如公式5所示，

其中p(x)代表高斯混合模型的分布，k_cluster代表类别数，

代表观测数据属于第i_cluster个类别的混合系数，

为服从高斯分布的随机向量x的概率密度函数，其中

其中，

表示GMM优化目标，N代表网络中的用户数量；

通过上述的聚类过程，可以将用户划分到不同的兴趣领域中，但是领域性的影响力尚未在不同的领域间传播，对此，本发明将划分出的领域抽象为图中的节点，构建以领域为节点的图G₂。具体的构建过程如下：对于处于多个领域中的用户，将其视为中枢节点，连接两个或多个领域，如图3所示，其中，图3(a)表示用户还未聚类的初始状态；图3(b)表示用户的自驱性表示在GMM算法的作用下，会聚成不同的类别(领域)，为了聚成的类别再构成一张图，本发明将领域抽象为图中的节点，并通过将跨越多类别的用户作为锚点，连接两个或多个G₂中的节点。图3(c)表示建立的领域拓扑。

在使用图注意网络之前，需要将网点节点的参数进行初始化。对于构建的图G₂中各个节点的初始化方式为：使用注意力机制融合一个兴趣领域内的用户特征作为当前领域的表示

如公式7所示，

其中

表示在当前领域中的用户,Attention(·)表示注意力机制；

其中

表示群体

对群体

的注意力系数，

代表与群体i_g相连的群体集合，k_g代表其中的群组，

表示与群体

相连的群体

j_g＝1,2,...,n对

产生的影响权重；

其中

表示群组特征经过线性变换后的特征,

和

为线性变换的矩阵,l₂,l₃分别为网络层数,

GAT的计算过程如公式11所示，

最后一层输出为受到领域影响后的特征

在图4(c)表示用户受到领域的影响，需要将图4(b)中获得的领域特征叠加到每个用户的特征表示中。为了获得的领域特征叠加到每个用户的特征表示，本发明设计并实现了Back函数，通过用户和领域的关系Map_ug获取一个用户所属的领域，对于只属于一个领域的用户，将获取的领域特征作为其特征的一部分；而对于属于多个领域的用户，即存在该用户有多个领域特征，使用平均池化的方式将多个领域特征作为用户受到的领域影响的一部分，如公式12所示，其中N_cluster表示一个用户所属的领域个数。

基于聚类的领域划分和群体影响力的计算，整体实现过程如表2所示。

表2是用户领域性表示算法伪代码

4、群体观点融合

在步骤1、2和3中分别介绍了活动文本的特征提取，用户初始化表示、用户自驱性、用户领域性建模四部分的内容，步骤4通过将上述获取用户的三个特征作为用户的表示，为了可以动态的调整这三个特征的权重，本发明使用了注意力机制对这三个特征进行融合，如公

式13所示。

其中

表示用户出于自身兴趣考虑，主动提出一些活动方案，即用户初始化表示；

为用户i的领域性表示，表示用户提出的活动归属于某一领域，而在此兴趣领域内势必存在别的用户，而活动方案的提出也会受到领域内其他用户的影响。本发明将基于用户的以上三方面特征和活动文本特征，构建最终的群体观点预测模型。群体特征部分的作用是获取群体特征，而要获得群体特征，需要从个体上升到群体，在前三个步骤中已经完成了对用户个体的建模，即融合个体观点特征得到群体观点特征。本发明使用长短期记忆网络(Long short-term memory，LSTM)和注意力机制(Attention)进行特征的融合以体现联合发起人加入群组的时序特性。

在使用注意力之前使用长短期记忆网络的原因在于，一个活动文本的提出，发起用户可能会短期内找到一些其他用户

作为联合支持者，但是活动文本尚未通过赞助商或是社区平台的审核，发起用户还是可以说服其他用户作为发起用户

因此，发起用户的加入存在先后顺序，所以使用满足时序特征的长短期记忆网络进行计算，获得输出h_lstm；当LSTM的隐状态输出完毕后，即可使用注意力机制进行特征的融合，进而得到群组特征

如公式14-16所示，其中e_i表示注意力系数，α_i表示归一化后的注意力权重，W_i表示模型需要学习的参数。

h_u＝ReLU(W_sgh_lstm) (14)

e_i＝W_ghh_u (15)

通过α_i与LSTM对应的隐状态特征

做乘法运算，如公式17所示，即可得到群组特征，

5、群体观点预测

将步骤4得到的群组特征

和步骤1中得到的活动文本特征

进行拼接，送入到多层感知机构成的分类器中，就能获得该群组支持发起该项活动的概率p。

6、系统功能展示

系统功能展示包括数据补充的展示、模型性能对比结果的展示以及群组观点预测结果的展示。具体如下，

(1)数据补充展示，平台方可以自行上传群组信息(包含用户领域信息等)和历史发起过的活动信息或是否定过的活动信息，实现对模型训练数据集的补充；

(2)模型性能对比结果展示，提供对于本专利所提模型与其他相关对比模型的性能分析结果；

(3)群组观点预测展示，平台方可以选择一个群组，并上传一份新的活动文案信息，系统能够自动判断该群组是否会支持该项活动的发起。

本发明的群体观点预测系统，包括数据管理及存储模块、数据预处理模块、模型训练模块以及用户交互模块，具体如下，

(1)数据管理及存储模块，该模块主要负责数据的补充和数据的存储等工作。数据补充功能通过平台上传新的数据，对原始数据集进行补充；数据存储功能负责存储相关的原始数据、预处理数据、相关数据集以及最终训练好的模型。

(2)数据预处理模块，对数据集原始数据进行预处理，以供后续模型训练。

(3)在模型训练模块，该模块对模型进行构建和训练，包括模型参数初始化、迭代输入以及参数更新。

(4)用户交互模块，主要负责接收和处理用户请求，并对描述结果进行可视化展示。

Claims

1.一种面向内容的群体观点预测方法，包括以下步骤：

(1)文本特征提取

(2)用户初始化表示

(3)用户自驱性表示

利用用户间的关系建立用户间的拓扑关系图G₁，再利用两层卷积神经网络得到用户的自驱性表示u_effected，其中卷积神经网络用户的初始特征为步骤(2)得到的的用户初始化表示u_self；

(4)用户领域性表示

(5)群体特征融合

(6)群体观点预测

将步骤(1)中得到的活动文本特征表示

和步骤(5)得到的群组特征

2.根据权利要求1所述的面相内容的群体观点预测方法，其特征在于，还包括系统功能展示的步骤，即将步骤(6)得到的结果，在web网页端进行可视化的展示分析，并给出该方法相较于其他方法的准确性。

3.根据权利要求1所述的面相内容的群体观点预测方法，其特征在于，步骤(1)中所述的活动文本包括活动的文本标题，以及对该项活动的简要文字性描述，并且要求字数不超过160字；

当对群组所支持的活动文本进行表征时，对于被拆分的单词

使用平均池化作为其编码表示，如公式1所示

其中，

表示不在词表中的表示。

4.根据权利要求1所述的面相内容的群体观点预测方法，其特征在于，步骤(2)具体步骤为：

5.根据权利要求1所述的面相内容的群体观点预测方法，其特征在于，步骤(3)具体包括：

自驱性表示如公式4，

其中

其中A为拓扑关系G₁的邻接矩阵，I是单位矩阵，

为

的度矩阵，

为模型需要学习的参数。

6.根据权利要求1所述的面相内容的群体观点预测方法，其特征在于步骤(4)中的计算用户的领域性表示，具体方法为：

其中p(x)代表高斯混合模型的分布，k_cluster代表类别数，

代表观测数据属于第i_cluster个类别的混合系数，

为服从高斯分布的随机向量x的概率密度函数，其中

其中，

表示GMM优化目标，N代表网络中的用户数量；

如公式7所示，

其中

表示在当前领域中的用户,Attention(·)表示注意力机制；

其中

表示群体

对群体

的注意力系数，

代表与群体i_g相连的群体集合，k_g代表其中的群组，

表示与群体

相连的群体

对

产生的影响权重；

其中

表示群组特征经过线性变换后的特征,

和

为线性变换的矩阵,l₂,l₃分别为网络层数,

GAT的计算过程如公式11所示，

最后一层输出为受到领域影响后的特征

其中N_cluster表示一个用户所属的领域个数。

7.根据权利要求1所述的面向内容的群体观点预测方法，其特征在于，步骤(5)所述群体特征融合，具体是使用注意力机制对步骤(2)、步骤(3)和步骤(4)分别得到的用户初始化表示、用户自驱性表示、用户领域表示这三个特征进行融合得到用户i的最终表示S_i，如公式13所示，

其中

如公式14-16所示，

h_u＝ReLU(W_sgh_lstm) (14)e_i＝W_ghh_u (15)

通过α_i与LSTM对应的隐状态特征

做乘法运算，即可得到群组特征，如公式17所示，

8.根据权利要求1所述的面向内容的群体观点预测方法，其特征在于，步骤(6)所述群体观点预测的具体方法是：

将步骤(5)得到的群体特征

和步骤(1)中得到的活动文本特征表示

9.根据权利要求2所述的面向内容的群体观点预测方法，其特征在于，所述系统功能展示包括数据补充的展示、模型性能对比结果的展示以及群组观点预测结果的展示；在数据补充展示部分，平台方可以自行上传群组信息，包含用户领域信息和历史发起过的活动信息或是否定过的活动信息，实现对模型训练数据集的补充；模型性能对比结果展示部分提供对于本专利所提模型与其他相关对比模型的性能分析结果；群组观点预测展示部分，平台方可以选择一个群组，并上传一份新的活动文案信息，系统能够自动判断该群组是否会支持该项活动的发起。

10.一种面向内容的群体观点预测系统，包括数据管理及存储模块、数据预处理模块、模型训练模块以及用户交互模块，数据管理及存储模块负责数据的补充和数据的存储工作；数据补充功能通过平台上传新的数据，对原始数据集进行补充；数据存储功能则负责存储相关的原始数据、预处理数据、相关数据集以及最终训练好的模型；数据预处理模块是对数据集原始数据进行预处理，以供后续模型训练；模型训练模块对模型进行构建和训练，包括模型参数初始化、迭代输入以及参数更新；最后，用户交互模块主要负责接收和处理用户请求，并对描述结果进行可视化展示。