CN110990718A

CN110990718A - 一种公司形象提升系统的社会网络模型构建模块

Info

Publication number: CN110990718A
Application number: CN201911183134.0A
Authority: CN
Inventors: 梁鑫; 于灏; 陈睿欣; 郑厚清; 刘睿; 贾德香; 孙艺新; 王西胜; 陈爽; 刘素蔚; 王玓; 王智敏; 曹瑾; 李艳娜; 李培杰; 陈�光; 柳占杰; 刘威; 高洪达; 崔维平
Original assignee: State Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Energy Research Institute Co Ltd; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2020-04-10
Anticipated expiration: 2039-11-27
Also published as: CN110990718B

Abstract

本发明公开了一种公司形象提升系统的社会网络模型构建模块，包括构建复杂社会网络用户模型、构建用户之间关系模块、构建多源异构复杂社会网络拓扑图、识别关键节点、社区发现和划分五个子模块构成，所述构建复杂社会网络用户模型包括用户数据提取与用户属性特征定义，所述构建用户之间关系模块包括用户关系提取与潜在关系预测，所述识别关键节点包括用户节点重要度指标与事件传播节点重要度指标，本发明对社交媒体上的相关数据进行高效采集，在采集得到的数据基础之上构建复杂社会网络用户模型，同时对用户之间的特定关系建模，构建用户之间的单向边模型，综合得到复杂社会网络拓扑结构模型，并以复杂社会网络拓扑结构模型为对象。

Description

一种公司形象提升系统的社会网络模型构建模块

技术领域

本发明涉及网络科学技术领域，具体为一种公司形象提升系统的社会网络模型构建模块。

背景技术

1.构建复杂社会网络用户模型/多源异构复杂社会网络拓扑图：一般采用监督学习模型利用未缺失数据对其进行预测。但通常忽略了用户的潜在属性，而导致了因模型信息不足造成的预测准确率下降的问题。人工编写规则的方式对用户之间关系(如新浪微博上用户之间的关注关系)进行建模和抽取时，对于复杂或潜在的用户关系，很难由人工去构建规则对用户之间的关系进行提取、预测；

2.关键节点识别：基于网络拓扑的方法一般计算简单，复杂度低，但是这类方法无法准确评估节点的影响力，对于不同网络的适应性也不够强。基于传播的方法虽然能够准确地评估节点的影响力，对于不同网络的适应性也很强，但是由于这类方法需要进行大量的蒙特卡洛模拟，导致复杂度很高，难以适用于大规模社交网络；

3.社区发现和划分：传统方法为运用谱方法进行社区发现，但该类方法计算的时间复杂度较高,涉及到许多矩阵特征向量的计算，后出现了基于模块度的优化方法。基于单一评判指标来做优化的社区发现算法有很大的局限性。而多目标粒子群优化的网络社区发现算法工作量会较大。

发明内容

本发明的目的在于提供一种公司形象提升系统的社会网络模型构建模块，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种公司形象提升系统的社会网络模型构建模块，包括构建复杂社会网络用户模型、构建用户之间关系模块、构建多源异构复杂社会网络拓扑图、识别关键节点、社区发现和划分五个子模块构成；

所述构建复杂社会网络用户模型包括用户数据提取与用户属性特征定义；

所述构建用户之间关系模块包括用户关系提取与潜在关系预测；

所述识别关键节点包括用户节点重要度指标与事件传播节点重要度指标；

所述社区发现和划分包括网络签潜在社区发现与社区划分优质衡量。

优选的，通过构建复杂社会网络用户模型与构建用户之间关系模型关联形成多源异构复杂社会网络拓扑图。

优选的，构建复杂社会网络用户模型时，根据未缺失的用户数据构建基于最小二乘法的支持向量机模型，对用户数据进行采样并进行预处理构造周期性训练样本数据，进行归一化处理。并利用此向量机预测模型完成缺失用户数据的预测同时引入用户的行为数据特征。

优选的，构建复杂社会网络用户模型时，根据用户的行为数据采用监督学习模型去预测用户的潜在可能的标签属性，更进一步对用户进行刻画，构建完整的复杂社会网络模型。

优选的，构建用户之间关系模型时，通过语义相似度找出简单用户之间的关系，并根据用户基本属性数据和交互行为数据，采用机器学习分类器模型xgboost对复杂用户潜在关系进行预测。

优选的，在识别关键节点时，采用多种衡量网络关键节点重要度的指标，对复杂社会网络用户的重要程度从多个方面进行衡量、评估，同时用事件传播节点的重要度对用户节点重要度进行修正，分析两种不同来源的节点重要度的关联和差异，进一步优化用户节点模型重要度。

优选的，识别关键节点方法，通过简单平均、加权平均、投票以及Stacking等方式对多个模型的结果进行融合，得到节点的综合重要度，对复杂社会网络拓扑结构上的关键节点进行区分。

优选的，在发现和划分社区时，运用标签传播算法从多个维度将社会网络中的节点划分为不同的社区，并社区视作超级节点，简化复杂社会网络之上的模型构建和分析。

优选的，社区发现与划分方法，在标签传播过程中进一步使用增强学习的方式，把模块度等指标作为奖励，把选择某个节点加入某个社区作为动作，通过直接优化模块度等衡量社区划分优劣的指标，增加划分准确率。

与现有技术相比，本发明的有益效果是：本发明拟构建一个与公司相关的复杂社交媒体拓扑结构模型系统，并要求能从中识别关键节点和可能存在的潜在社区，该模型系统在网络拓扑结构中引入用户画像技术对节点潜在属性建模，在构建社会网络拓扑图时根据交互数据，采用传统机器学习的方式对用户之间的关系自动进行预测，从而构建用户之间的单向边模型，在关键节点识别方法中引入节点/社区间单向影响力模型，同时在社区识别方法引入强化学习的思想直接优化相关评价指标(如模块度指标)，加深了网络节点的表达能力，细化节点或社区间的影响力关系，提升了关键节点和社区发现的准确性，该模型系统能定量化地抽象出公司关注人群在社交媒体中的复杂关系图谱，可清晰描绘出公司在社交媒体中的被关注热点，并为热点描绘、优化客户服务水平、情感预判及优化在社交媒体中的传播效果提供了高效精准的网络基础模型平台。

附图说明

图1为本发明的整体系统框图；

图2为本发明的构建复杂社会网络用户模型模块框图；

图3为本发明的构建用户之间关系模型模块框图；

图4为本发明的识别关键节点模块框图；

图5为本发明的社区发现与划分模块框图；

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1至图5，本发明提供一种技术方案：一种公司形象提升系统的社会网络模型构建模块，包括构建复杂社会网络用户模型、构建用户之间关系模块、构建多源异构复杂社会网络拓扑图、识别关键节点、社区发现和划分五个子模块构成，所述构建复杂社会网络用户模型包括用户数据提取与用户属性特征定义，所述构建用户之间关系模块包括用户关系提取与潜在关系预测，所述识别关键节点包括用户节点重要度指标与事件传播节点重要度指标，所述社区发现和划分包括网络签潜在社区发现与社区划分优质衡量，通过构建复杂社会网络用户模型与构建用户之间关系模型关联形成多源异构复杂社会网络拓扑图。

括构建复杂社会网络用户模型：构建复杂社会网络用户模型时，根据未缺失的用户数据构建基于最小二乘法的支持向量机模型，对用户数据进行采样并进行预处理构造周期性训练样本数据，进行归一化处理，并利用此向量机预测模型完成缺失用户数据的预测同时引入用户的行为数据特征，构建复杂社会网络用户模型时，根据用户的行为数据采用监督学习模型去预测用户的潜在可能的标签属性，更进一步对用户进行刻画，构建完整的复杂社会网络模型；

构建用户之间关系模块：构建用户之间关系模型时，通过语义相似度找出简单用户之间的关系，并根据用户基本属性数据和交互行为数据，采用机器学习分类器模型xgboost对复杂用户潜在关系进行预测；

根据未缺失的用户数据即结构化数据构建监督学习模型：基于最小二乘法的支持向量机，对用户数据进行采样并进行预处理构造周期性训练样本数据，进行归一化处理，同时选取核函数与参数构造最小二乘支持向量机预测模型，并利用此向量机预测模型完成缺失用户数据的预测同时引入用户的行为数据特征，通过更多信息的引入来提升模型预测的准确度，对缺失的属性数据进行预测补全。并通过用户画像技术对用户的社会属性、兴趣爱好、性格特点和行为习惯等数据进行定性+定量画像标签建模：

①原始数据层，使用文本挖掘的TF-IDF算法对原始数据的预处理和清洗，对用户数据的匹配和标识。TF表示词频

IDF表示逆文本频率指数

一个词的TF-IDF就是：TF-IDF＝TF*IDF；

②事实标签层，根据朴素贝叶斯定理

对用户数据进行预测分类，补全信息缺失的用户数据；

③模型标签层，使用机器学习的方法，采用决策树建模标识，选取基尼不纯度最小的分类属性，对群组进行分类，并通过设置阈值剪枝，当合并前后熵的减少量小于某一个阀值时，将两个叶子节点合并，完成对用户的标签建模与用户标识。我们可以进一步挖掘出用户的群体特征和个性权重特征，从而完善用户的数据、属性等；

④预测层，利用监督学习回归分析法，构建潜在属性与现有属性间的线性关系，定义一个成本函数或者损失函数，以衡量模型预测的不准确度，

通过梯度下降得到最小化的损失函数和模型参数值，完成对用户的潜在属性预测；

根据预测出的潜在属性更进一步对用户进行刻画，构建完整的复杂社会网络模型；

构建多源异构复杂社会网络拓扑图：针对社交媒体上用户关系复杂多样的特点，拟通过人工构建规则的方式对用户之间的简单关系进行抽取：

①按照预定时间段将第一用户的第一发布数据和第二用户的第二发布数据分别划分为多组子数据，其中，同一时间段内的第一用户的子数据与同一时间段内的第二用户的子数据相对应；

②分别抽取同一时间段内的第一用户的子数据的话题特征词和相对应的第二用户的子数据的话题特征词；

③对第一用户的第一发布数据和第二用户的第二发布数据进行去重、简繁体转换和无关信息剔除；

④计算同一时间段内的第一用户的每个话题特征词与第二用户的每个话题特征词的语义相似度，语义相似度计算公式为

其中，wi和wj分别为所述第一用户的任一话题特征词和所述第二用户的任一话题特征词，SIM(wi，wj)表示wi和wj的语义相似度，δ为可调节参数，Dis(wi，wj)为wi和wj的语义距离；

对于复杂的潜在用户关系，根据用户基本属性数据和交互行为数据，采用机器学习分类器模型xgboost，将所有样本数据通过10折交叉验证，将全体样本分割成10个子样本，一个单独的子样本被保留作为验证模型的数据，其他9个样本用来训练分类器模型，交叉验证重复10次，每个子样本验证一次，平均10次的验证结果作为该分类器模型的最终评价成绩，以此增强分类模型的泛化能力，训练并构建用户关系预测器模型，预测出完整的用户之间关系模型，再与复杂社会网络用户模型关联得到复杂社会网络拓扑图。

识别关键节点：在识别关键节点时，采用多种衡量网络关键节点重要度的指标，对复杂社会网络用户的重要程度从多个方面进行衡量、评估，同时用事件传播节点的重要度对用户节点重要度进行修正，分析两种不同来源的节点重要度的关联和差异，进一步优化用户节点模型重要度，识别关键节点方法，通过简单平均、加权平均、投票以及Stacking等方式对多个模型的结果进行融合，得到节点的综合重要度，对复杂社会网络拓扑结构上的关键节点进行区分；

基于PageRank思想的用户影响力衡量：

将用户关系网络定义为一带权有向图，建立微博交互信息模型并获取信息转发、评论、提及强度，综合得到交互强度因子

其中，RT(vi，vj)表示用户vi转发用户vj的转发强度，RT(vi，vj)表示用户vi评论用户vj的评论强度，MN(vi，vj)表示用户vi提及用户vj的提及强度。则改进的PageRank算法表示为

其中，d为阻尼系数；Followers(vi)表示用户vi的追随者集合，Is(vi，vj)表示交互强度因子，IRPR(vj)表示用户vi的影响力，PR(vj)为用户vj的影响力。

基于信念传播的BPR算法：

BPR模型的样本由三元组(u，i，j)组成，其中i为重要用户有过交往的用户，j表示重要用户没有交往的用户，用最大化后验概率表达这种偏爱关系，用＞u符号表示用户u的偏好。对训练集三元组进行矩阵分解，通过迭代更新模型参数直到收敛，最终利用模型计算出每一个重要用户u对应的任意其他用户的排序分。

基于AHP-熵权法的重要节点识别算法：

根据复杂网络关键节点评价指标及关键节点识别的特点，建立“方案层(网络节点)→准则层(评估指标)→目标层(关键节点)”的递阶层次结构模型，对准则层中的所有指标相对于目标层关键节点的相对重要性做出主观判断，采用两两比较的方法，构造判断矩阵C＝(c_ij)_m×m，其中c_ij参考比例表度法，m为评估指标的个数。运用特征向量法对判断矩阵的一致性进行检验后计算各指标的权重矩阵

其中x为矩阵C的特征向量矩阵，d为最大的特征值所在的列。最后用熵权法对权重进行修正，并进行归一化处理，得最终权重，利用最终权重，计算比较各节点重要度大小，可得各节点重要度排序；

同样的，社交网络中事件的传播实际上也构成一个单向连接的图或者说网络结构，只是这个网络结构是基于事件传播的；因此，将多种中心度指标计算方法用于基于事件传播的网络节点，将计算得到的节点重要度对基于用户之间特定关系的复杂社会网络结构得到的节点重要度进行修正。此外，应用上述节点重要度评估指标和算法对复杂社会网络中所有节点的重要度进行计算，并通过简单平均、加权平均、投票以及Stacking方式对多个模型的结果进行融合，得到节点的综合重要度，对复杂社会网络拓扑结构上的关键节点进行区分；

社区发现和划分：在发现和划分社区时，运用标签传播算法从多个维度将社会网络中的节点划分为不同的社区，并社区视作超级节点，简化复杂社会网络之上的模型构建和分析，社区发现与划分方法，在标签传播过程中进一步使用增强学习的方式，把模块度等指标作为奖励，把选择某个节点加入某个社区作为动作，通过直接优化模块度等衡量社区划分优劣的指标，增加划分准确率；

复杂社交网络的节点数量庞大，从用户节点的角度直接对其分析会非常复杂，其中的规律会很难发现，从多个维度将社会网络中的节点划分为不同的社区，把社区视作超级节点，原始的社会网络变成一个以社区为节点的高层次的网络结构，简化复杂社会网络之上的模型构建和分析；

针对复杂社交网络庞大的特点，采用标签传播算法(LPA)，从已标记的节点的标签信息来预测未标记的节点的标签信息，利用样本间的关系，以接近线性的时间识别网络中可能存在的社区，并且结果的准确度可接受，实现高效的社区发现，建立完全图模型：

①令(x₁，y₁)...(x_l，y_l)是已标注的数据，Y_L＝{y₁，...y_L}∈{1，...，C}类别数C已知，且均存在于标签数据中。令(x_l+1，y_l+1)...(x_l+u，y_l+u)为未标注数据，则Y_U＝{y_l-1，...，y_l+u}是没有标签的，通常有标签的数据的数量远远小于没有标签的数据的数量，让X＝{x₁，..，x_l+u}∈R^D则问题转换为从X和YL中去预测YU；

②建立一个全连接图，让每一个样本点(有标签的和无标签的)都作为一个节点。用以下权重计算方式来设定两点i，j之间边的权重，所以两点间的距离d_ij越小，权重w_ij越大，

然后让每一个带有标签的节点通过边传播到所有的节点，权重大的边的节点更容易影响到相邻的节点。

③定义一个(l+u)*(l+u)的概率传播矩阵T(l为有标签数据，u为无标签数据)，让T_ij为标签j传播到标签i的概率。

同时定义一个(l+u)*C的标签矩阵Y，Y_i，C＝δ(y_i，C)它的第i行表示节点y_i的标注概率，第C列代表类别。Y_i，C＝1则说明节点y_i的标签为C。每个节点按传播概率把它周围节点传播的标注值按权重相加，并更新到自己的概率分布。

④限定已标注的数据，把已标注的数据的概率分布重新赋值为初始值，然后重复步骤③，直至收敛。

同时应用FastUnfolding算法，通过不断迭代增大模块度指标来识别复杂社交网络上的潜在社区，作为标签传播算法的一种补充：

①初始化，将每个点划分在不同的社区中

②对每个节点，将每个点尝试划分到与其邻接的点所在的社区中，计算此时的模块度

其中，

表示的是网络中的所有的权重，A_i，j表示的是节点i和节点j之间的权重，k_i＝∑_jA_i，j表示的是与顶点i连接的边的权重，c_i表示的是顶点被分配到的社区，δ(c_i，c_j)用于判断顶点i与顶点j是否被划分在同一个社区中，若是，则返回1，否则，返回0。上述模块度的计算可化简为

其中，∑_in表示的是社区c内部的权重，∑_tot表示的是与社区c内部的点连接的边的权重，包括社区内部的边以及社区外部的边。若划分前后的模块度的差值ΔQ为正数，则接受本次的划分，若不为正数，则放弃本次的划分。

③重复以上的过程，直到不能再增大模块度为止。

④构造新图，新图中的每个点代表的是步骤③中划出来的每个社区，继续执行步骤②和步骤③，直到社区的结构不再改变为止。

进一步使用增强学习的方式，把模块度等指标作为奖励，把选择某个节点加入某个社区作为动作，通过直接优化模块度等衡量社区划分优劣的指标，实现更加准确的社区划分，并对三种社区发现模型进行融合，对比效果，确定最终的方案

本发明主要针对一种公司形象提升系统的社会网络模型构建模块，本发明拟构建一个与公司相关的复杂社交媒体拓扑结构模型系统，并要求能从中识别关键节点和可能存在的潜在社区，该模型系统在网络拓扑结构中引入用户画像技术对节点潜在属性建模，在构建社会网络拓扑图时根据交互数据，采用传统机器学习的方式对用户之间的关系自动进行预测，从而构建用户之间的单向边模型，在关键节点识别方法中引入节点/社区间单向影响力模型，同时在社区识别方法引入强化学习的思想直接优化相关评价指标(如模块度指标)，加深了网络节点的表达能力，细化节点或社区间的影响力关系，提升了关键节点和社区发现的准确性，该模型系统能定量化地抽象出公司关注人群在社交媒体中的复杂关系图谱，可清晰描绘出公司在社交媒体中的被关注热点，并为热点描绘、优化客户服务水平、情感预判及优化在社交媒体中的传播效果提供了高效精准的网络基础模型平台。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种公司形象提升系统的社会网络模型构建模块，其特征在于：包括构建复杂社会网络用户模型、构建用户之间关系模块、构建多源异构复杂社会网络拓扑图、识别关键节点、社区发现和划分五个子模块构成；

2.根据权利要求1所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：通过构建复杂社会网络用户模型与构建用户之间关系模型关联形成多源异构复杂社会网络拓扑图。

3.根据权利要求1所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：构建复杂社会网络用户模型时，根据未缺失的用户数据构建基于最小二乘法的支持向量机模型，对用户数据进行采样并进行预处理构造周期性训练样本数据，进行归一化处理，并利用此向量机预测模型完成缺失用户数据的预测同时引入用户的行为数据特征。

4.根据权利要求1所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：构建复杂社会网络用户模型时，根据用户的行为数据采用监督学习模型去预测用户的潜在可能的标签属性，更进一步对用户进行刻画，构建完整的复杂社会网络模型。

5.根据权利要求1所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：构建用户之间关系模型时，通过语义相似度找出简单用户之间的关系，并根据用户基本属性数据和交互行为数据，采用机器学习分类器模型xgboost对复杂用户潜在关系进行预测。

6.根据权利要求1所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：在识别关键节点时，采用多种衡量网络关键节点重要度的指标，对复杂社会网络用户的重要程度从多个方面进行衡量、评估，同时用事件传播节点的重要度对用户节点重要度进行修正，分析两种不同来源的节点重要度的关联和差异，进一步优化用户节点模型重要度。

7.根据权利要求6所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：识别关键节点方法，通过简单平均、加权平均、投票以及Stacking等方式对多个模型的结果进行融合，得到节点的综合重要度，对复杂社会网络拓扑结构上的关键节点进行区分。

8.根据权利要求1所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：在发现和划分社区时，运用标签传播算法从多个维度将社会网络中的节点划分为不同的社区，并社区视作超级节点，简化复杂社会网络之上的模型构建和分析。

9.根据权利要求8所述的一种公司形象提升系统的社会网络模型构建模块，其特征在于：社区发现与划分方法，在标签传播过程中进一步使用增强学习的方式，把模块度等指标作为奖励，把选择某个节点加入某个社区作为动作，通过直接优化模块度等衡量社区划分优劣的指标，增加划分准确率。