CN111159402A

CN111159402A - 一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法

Info

Publication number: CN111159402A
Application number: CN201911367336.0A
Authority: CN
Inventors: 邹新宇; 吴晓晓; 王晖
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2019-12-13
Filing date: 2019-12-26
Publication date: 2020-05-15
Anticipated expiration: 2039-12-26
Also published as: CN111159402B

Abstract

本发明公开一种基于主题意见分析和意见领袖的挖掘社交网络用户影响关系方法，包括：采集用户行为产生的文本内容建立用户群行为文本；对用户群行为文本进行主题意见分析得到恒稳态的意见分布：定义用户间影响关系的矩阵权重，建立用户对主题意见由初始态转为恒稳态的转移模型；将由初始态转为恒稳态时意见不改变的用户为意见领袖，由初始态转为恒稳态时意见会改变的用户为普通用户，求解转移模型中的普通用户受意见领袖的影响关系和普通用户之间的影响关系；将普通用户受意见领袖的影响关系和普通用户之间的影响关系拼接得到用户群用户间影响关系。本发明更加精准地挖掘出了社交网络用户之间的影响关系。

Description

一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法

技术领域

本发明涉及互联网领域，特别涉及一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法。

背景技术

当社交网络中用户交互取代web成为默认的社交网络运作模式后，用户之间的影响关系问题变得尤为突出。尽管在线社交网络和社交媒体可以让用户很直观地看到用户之间的关注关系。然而每个用户只可能知道其邻居用户的一小部分好友，无法轻易掌握整个网络的关系，并且无法直观的获得关注程度的强弱。相关工作人员必须有方法来推断所有用户之间影响关系，从而进行精准的好友推荐服务或者其它个性化服务。这一问题已成为社交网络领域研究的热点，越来越多的用户关系研究旨在增强在线社区用户忠诚度以及活跃度，提升社区的信息服务准确性和效率

纵观社交网络用户关系的创建因素大体分为两种：显示和隐式。在包含显示连接的社交网络中，用户之间的所有联系都是用户有意行为的直接结果，如直接互动，关注。每个用户都在通过明确定义与他人的联系来建立自己的拓扑网络；在包含隐式连接的社交网络中，用户之间的联系是基于对用户资料、行为信息等的“第三方”推理，从而导致拥有相似隐藏信息的用户之间自动或半自动连接。

关于从数据中挖掘社会影响的现有技术，有很大一部分是关于在给定的社会图中搜索特征的。例如，在先验知识下的社交网络结构中的影响矩阵，而本专利给出的技术方案与这类研究不同，仅在在只使用社交网络用户群体用户行为所产生文本的情况下，评估出了社交网络结构图和影响关系矩阵。有研究人员在其具体的方法论假定了用户的置信度转移过程是能被直接观测的。

发明内容

本发明的主要目的是提出一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，旨在克服以上问题。

为实现上述目的，本发明提出的一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，包括如下步骤：

S10采集用户行为产生的文本内容建立用户群行为文本；

S20对用户群行为文本进行主题意见分析得到t时刻用户群对K个主题恒稳态的意见分布X^t：

S30定义用户间影响关系的矩阵权重W，

为所有用户在t时刻对主题k的意见分布，

为所有用户在t+1时刻对主题k的意见分布，建立用户对主题意见由初始态转为恒稳态的转移模型：X^t+1＝W·X^t (1)；

S40将由初始态转为恒稳态时意见不改变的用户为意见领袖，由初始态转为恒稳态时意见会改变的用户为普通用户，求解转移模型中的普通用户受意见领袖的影响关系B和普通用户之间的影响关系D；

S50将普通用户受意见领袖的影响关系B和普通用户之间的影响关系D拼接得到用户群用户间影响关系W。

优选地，所述S40具体为：

视由初始态转为恒稳态时意见不会改变的用户为意见领袖，由初始态转为恒稳态时意见会改变的用户为普通用户，从稳态意见分布

划分为稳态时意见领袖的意见分布

和普通用户的意见分布

矩阵X^t表示用户群所有用户在t时刻对于网络中所有K个主题的意见分布；

将用户间影响关系的矩阵权重W划分为普通用户受意见领袖的影响关系B和普通用户之间的影响关系D：

其中I为单位对角矩阵，表示意见领袖受自己的影响程度为1，不受其他意见领袖的影响，O表示意见领袖不受普通用户的影响；

假设t趋向无穷，得到意见分布由恒稳态至初始态的关系：

将矩阵分块原理将公式(5)拆分公式(6)、(7)、(8)：

基于公式(1)、(6)、(7)、(8)，根据分块矩阵乘法得到：

因为意见领袖的意见分布由初始态转为恒稳态不会改变，故

由于：

故Y＝(I-D)^-1·B·Z。

优选地，所述意见领袖的选取方法包括：

将那些发表意见且被互动频率高于预定值的用户视为意见领袖；及

将用户的意见分布进行聚类，离类中心最近的用户视为意见领袖；及

为每个用户提供一个利用专家知识计算出来的意识形态得分，得分偏激的用户视为意见领袖。

优选地，所述S20中主题意见分析的方法为：

通过使用概率生成法对用户主题意见进行建模得到用户主题意见模型，假设用户群行为文本中包括K个主题，通过用户主题意见模型求解用户群的主题意见分布。

优选地，所述用户对主题意见的初始态为：用户在t＝0时对主题所持有一个初始意见状态；所述用户对主题意见的恒稳态为：用户在t→∞时观测到其他用户对主题的意见时，用户根据其他用户对自已的影响关系融合其他用户对主题的意见，从而用户对意见的初始态经过多轮融合后得到最终用户主题意见。

优选地，所述S50的方法具体为：

S501建立恒稳态时普通用户意见分布的优化模型进行优化，得到优化后的B和D：

其中

为F范数，是该优化问题的误差项，||[B,D]||为L₁正则项，ρ为用于平衡误差项和正则项的可调节参数，让误差值与正则项在求解B和D的过程中趋向相等，最终保证B和D的唯一性；

S502将优化得到的B和D，代入公式(4)，得到用户间影响关系的矩阵权重W。

优选地，优化模型优化的约束条件为：

[B,D]·e＝e

diag(D)＝L

其中，e为n*1维的列向量，e中的元素全部为1，n为用户数量，[B,D]·e＝e表示普通用户受用户群所有用户的影响权重总和为1，L是普通成员对自己的自信度向量，是一个一维行向量，其元素个数等于普通用户的数量，diag(D)表示取出D矩阵的对角线元素组成的行向量L＝[L,L,...,L]。

优选地，所述普通用户意见分布的优化模型采用MATLAB软件的CVX优化工具包进行黑盒计算。

优选地，所述S10中采集用户行为产生的文本内容的方法为采用网络爬虫的方法爬取网络上用户行为产生的文本内容。

优选地，所述S10之后，所述S20之前还包括：

S60对采集到的用户行为产生的文本内容进行质量筛选，筛选出相对规范的文本内容。

本发明相比于现有技术的有益效果是：本发明通过对用户群行为文本进行主题意见分析得到恒稳态的意见分布，再对通过意见动态变化建立恒稳态的转移模型，将用户群区分出意见领袖和普通用户，分别求解普通用户受意见领袖的影响关系和普通用户之间的影响关系，再通过拼接普通用户受意见领袖的影响关系和普通用户之间的影响关系得到用户群用户间影响关系，即便在恒稳态，用户群所有用户对某个特定主题的意见不再达成一致，而是各有分歧，可见本发明更加精准地挖掘出了社交网络用户之间的影响关系。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例的方法流程图；

图2为用户群影响关系矩阵W示例；

图3为用户群对主题k的意见由时刻t转移至时刻t+1时意见转移推量示例；

图4为所述优化模型优化的流程图。

图5为本发明的性能与LASSO模型的ROC曲线的比较图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

如图1-5，本发明提出的一种基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，包括如下步骤：

S10采集用户行为产生的文本内容建立用户群行为文本；

S30定义用户间影响关系的矩阵权重W，

为所有用户在t时刻对主题k的意见分布，

为所有用户在t+1时刻对主题k的意见分布，建立用户对所有K个主题意见由初始态转为恒稳态的转移模型：X^t+1＝W·X^t (1)；

在本发明实施例，本发明假充网络采集的文本内容中共有K个主题，对于每个不同的主题，意见转移过程都遵从相同的规律，将用户对网络中所有的K个主题的意见一次转移过程用向量描述为：

其中W是小组用户之间的影响关系矩阵，

是所有小组用户在t时刻对主题k的意见分布，它是一个列向量，也就是图(2)中t时刻的那一列所表现的形式。进一步用矩阵描述为：

X^t+1＝W·X^t (1)

X^t是所有小组用户在t时刻对于网络中所有K个主题的意见分布。

本发明通过对用户群行为文本进行主题意见分析得到恒稳态的意见分布，再对通过意见动态变化建立恒稳态的转移模型，将用户群区分出意见领袖和普通用户，分别求解普通用户受意见领袖的影响关系和普通用户之间的影响关系，再通过拼接普通用户受意见领袖的影响关系和普通用户之间的影响关系得到用户群用户间影响关系，即便在恒稳态，用户群所有用户对某个特定主题的意见不再达成一致，而是各有分歧，可见本发明更加精准地挖掘出了社交网络用户之间的影响关系。

优选地，所述S40具体为：

划分为稳态时意见领袖的意见分布

和普通用户的意见分布

矩阵X表示用户群所有用户在t→∞时刻对于网络中所有K个主题的意见分布；

假设t趋向无穷，得到意见分布由恒稳态至初始态的关系：

将矩阵分块原理将公式(5)拆分公式(6)、(7)、(8)：

基于公式(1)、(6)、(7)、(8)，根据分块矩阵乘法得到：

因为意见领袖的意见分布由初始态转为恒稳态不会改变，故

由于：

故Y＝(I-D)^-1·B·Z。

优选地，所述意见领袖的选取方法包括：

优选地，所述S20中主题意见分析的方法为：

在本发明实施例中，本发明视用户群的意见是如何从当前时刻向下一时刻进行转移的。当用户群观测到其他成员对于主题意见时，会自然地去接纳他人意见，并依据自身与他人之间的影响关系，对其他用户的意见进行加权线性组合(注：受其他用户的影响程度，这里的“其他用户”包含了该用户本身，每位用户对自己也有一个自信度)。经过足够长的时间，用户意见进行了足够多次数的转移，所有用户对同一个主题的意见达到恒稳态。时刻t趋近无穷大时，每一位用户群均会对主题k持有一个意见，如果这时候进行另一次的意见转移，他们对这个主题k的意见与上一个时刻是相同的。也就是说在意见转移次数到达一定的值后，之后的意见转移的结果和上个阶段呈现出来的结果是一样的。如图2-3，在这个例子中，假设小组中现在只有4个人，分别是意见领袖1，意见领袖2，普通用户1，普通用户2。可以看到意见领袖1对自己信任程度为1，不受其他人的影响；普通用户1受该小组用户的影响程度分别为a，b，L，d，其中L是对自己的自信度,在我们的模型中进行人为的设定。用户影响关系矩阵W其中的字母a,b,d,e,f,g是未知数，用这些字母来做意见转移的推理。图3中意见领袖1、意见领袖2、普通用户1、普通用户2在t时刻对主题k的意见分别为M，N，C，V；在下一个时刻t+1时，可以看到意见领袖1的意见转移过程为1*M+0*N+0*C+0*N＝M，即意见领袖的意见在转以后不会发生变化，宏观表现为意见领袖不会收到其他用户的影响，而普通用户1的意见等于a*M+b*N+L*C+d*V，其原理是：普通用户会根据自己对小组用户的信任程度，对他们的意见进行加权汇总；普通用户2在t+1时刻对主题k的意见可同样求解；当经过了足够多个时刻的意见转移之后，小组用户对这个主题k的意见达到了恒稳态，也即用户对主题k的意见达到了一个极限值。

优选地，所述S50的方法具体为：

其中

优选地，优化模型优化的约束条件为：

[B,D]·e＝e

diag(D)＝L

在本发明实施例中，本发明优化问题的求解可以利用现今以及其成熟的数值计算软件MATLAB以及相应的优化工具包，两者配合对B和D进行求解。假设将MATLAB软件和CVX优化工具包组成的计算流程看做一个黑盒子BLACK BOX，只需要向其中输入合适的可调节参数ρ，以及通过目标用户意见提取模块得到的意见领袖对主题的意见分布Z和普通用户对主题的意见分布Y，外加上先验性确定的普通用户的自信度L，该黑盒子就可以输出的矩阵B和D的数值。在已知Z和Y，且固定了普通用户们对自己的自信度向量L的情况下，人为指定一个调节参数ρ，黑盒子使用这一套参数进行求解时，可能会得出不同的解，即B和D的解不唯一，这种情况是不理想的；需要不断调整输入参数中的ρ，使得黑盒子输出的结果B和D的解是唯一的，而此时的B和D才是真正要求解的用户影响关系子矩阵。

优选地，所述S10之后，所述S20之前还包括：

我们提出的方法相对于现有技术增加了隐藏信息的提取，扩充了传统方法影响力评估因素的粒度，并且构建了合理的社交网络结构，更加精准地挖掘出了社交网络用户之间的影响关系。在先前工作中带有意见领袖的国会社交网络投票系统对议员直接的影响关系的挖掘工作已经达到了较好的效果。

图5为本发明的性能与LASSO模型的ROC曲线的比较图。由图5可知，本方法的性能明显优于图形LASSO模型。基于采用本技术方案挖掘出来的关系图，对新的主题，如果可以如采访到意见领袖的意见，就可以预测整个网络的动态。本发明的预测性能优于大多数基准测试，因此，在舆情预测方面，我们的技术方案能够极好的预测出网络用户的意见动态变化，把握网络舆情的发展走向。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种基于主题意见分析和意见领袖的挖掘社交网络用户影响关系方法，其特征在于，包括：

S10采集用户行为产生的文本内容建立用户群行为文本；

S20对用户群行为文本进行主题意见分析得到t时刻趋近于无穷时刻的用户群对K个主题恒稳态的意见分布

S30定义用户间影响关系的矩阵权重W，

为所有用户在t时刻对主题k的意见分布，

为所有用户在t+1时刻对主题k的意见分布，建立用户对主题意见由初始态转为恒稳态的转移模型：

2.如权利要求1所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述S40具体为：

划分为稳态时意见领袖的意见分布

和普通用户的意见分布

将用户间影响关系的矩阵权重W划分为普通用户受意见领袖的影响关系B和普通用户之间的影响关系D，即

其中I为单位对角矩阵，单位对角矩阵中对角元素1表示意见领袖受自己的影响程度为1，不受其他意见领袖的影响，其他元素0表示意见领袖不受普通用户的影响，即普通用户对意见领袖的影响程度为0；

假设t趋向无穷，得到意见分布由恒稳态至初始态的关系：

利用矩阵分块原理将公式(5)拆分公式(6)、(7)、(8)：

基于公式(1)、(6)、(7)、(8)，根据分块矩阵乘法得到：

因为意见领袖的意见分布由初始态转为恒稳态不会改变，故

由于：

故Y＝(I-D)^-1·B·Z。

3.如权利要求1所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述意见领袖的选取方法包括：

4.如权利要求1所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述S20中主题意见分析的方法为：

通过使用概率生成法对用户主题意见进行建模分析得到用户主题意见模型，假设用户群行为文本中包括K个主题，通过用户主题意见模型求解用户群的主题意见分布。

5.如权利要求1所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述用户对主题意见的初始态为：用户在t＝0时对主题所持有一个初始意见状态；所述用户对主题意见的恒稳态为：用户在t→∞时观测到其他用户对主题的意见时，用户根据其他用户对自已的影响关系融合其他用户对主题的意见，从而用户对意见的初始态经过多轮融合后得到最终恒稳态的用户主题意见。

6.如权利要求2所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述S50的方法具体为：

其中

7.如权利要求6所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，优化模型优化的约束条件为：

[B,D]·e＝e

diag(D)＝L

其中，e为n*1维的列向量，e中的元素全部为1，n为用户数量，[B,D]·e＝e表示普通用户受用户群所有用户的影响权重总和为1，L是普通成员对自己的自信度向量，是一个一维行向量，元素个数等于普通用户的数量，diag(D)表示取出D矩阵的对角线元素组成的行向量L＝[L,L,...,L]。

8.如权利要求7所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述普通用户意见分布的优化模型采用MATLAB软件的CVX优化工具包进行黑盒计算。

9.如权利要求1所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述S10中采集用户行为产生的文本内容的方法为采用网络爬虫的方法爬取网络上用户行为产生的文本内容，或者是，采集采访或问卷调查得到用户主题意见。

10.如权利要求1所述的基于主题意见分析和意见领袖的网络用户影响关系的挖掘方法，其特征在于，所述S10之后，所述S20之前还包括：

S60对采集到的用户行为产生的文本内容进行过滤处理，过滤掉无实际含义的形容词、连词、副词；丢弃与主题无关的文本内容。