CN109857871B

CN109857871B - 一种基于社交网络海量情景数据的用户关系发现方法

Info

Publication number: CN109857871B
Application number: CN201910077708.XA
Authority: CN
Inventors: 王国胤; 孟艺凝; 刘群; 王如琪; 舒航; 张刚强
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-01-28
Filing date: 2019-01-28
Publication date: 2021-04-20
Anticipated expiration: 2039-01-28
Also published as: CN109857871A

Abstract

本发明属于用户关系挖掘领域，尤其涉及一种基于社交网络海量情景数据的用户关系发现方法，包括获取网络中用户产生的情景数据信息以及用户所在网络的边关系类型，提取图像中的文本信息，对文本类型数据集进行预处理；利用实体链接工具获取预处理后的情景数据集中文本的实体向量，作为先验知识加入到对应文本中；构建卷积神经网络提取文本数据集中的有效特征等综合考虑来对节点进行量化；根据节点的向量化结果求出每两个节点的余弦距离并以此来作为用户间的关系强弱值；本发明增加原有数据的语义信息，提高机器对文本的可读性和理解性，减少深度学习对数据标签的依赖性，还能减弱很多分类问题中出现的边缘问题，降低过拟合的风险，优化模型性能。

Description

一种基于社交网络海量情景数据的用户关系发现方法

技术领域

本发明属于用户关系挖掘领域，尤其涉及一种基于社交网络海量情景数据的用户关系发现方法。

背景技术

随着社交网络的兴起，微博，facebook等新型社交媒体已经逐渐成为人们发布信息的平台，这些主流媒体在促进社会经济发展，人文交流的同时，也带来了“信息爆炸”的问题。同时不断增长的用户数量，错综复杂的用户关系网络也增加了社会，经济和服务的压力，因此准确分析用户关系不仅可以刺激和促进社会关系网络的扩大，引导社会舆论的发展方向，还可以根据相似用户，判断用户爱好，对用户进行准确，适当的个性化推荐，间接的促进社会经济的发展。同时对用户关系进行分析还有利于对舆情事件进行监控，降低有害事件的危害性，凝聚民众力量。

目前对社交用户关系的研究主要分为两个方面，一个是对用户群体的分析，另一个是对网络中关键用户的分析如：意见领袖，结构洞等。同时用户关系的挖掘主要是从用户所在关系网络的结构和用户自身的行为属性来进行分析的。

现有的对用户关系的分析，主要是对用户所在网络以及情景数据进行量化来作为用户属性的表示展开研究，但这些算法大多都只会为网络节点学习固定的表示向量，而实际上，一个节点与其它邻居节点网络节点交互时，会根据关系的不同产生出不同的边权重(如图1)。同时知识图谱作为现阶段人工智能符号主义的代表，与传统知识表示形式相比，他具有实体覆盖率高，结构友好以及质量高等优势。如果将知识图谱的语义信息作为节点量化时的先验知识，可以增强机器对数据的理解，提升模型的性能。

发明内容

为了增强机器对数据的理解、提升模型的性能，本发明提出一种基于社交网络海量情景数据的用户关系发现方法，包括：

S1、获取特定网络中用户产生的情景数据以及不同用户间的边关系；

S2、对用户情景数据进行预处理，用户情景数据包括用户发送的文本、图像及视频信息，提取用户发送图像中的文字信息，并将其加入用户文本信息中，同时利用word2vec将边关系转换为向量；

S3、调用已有的实体链接工具包提取预处理后的文本数据实体集合及其向量；

S4、将实体链接得到的实体向量加入到对应用户的文本数据中，作为新的文本数据集；

S5、将文本数据集转化为句子矩阵；

S6、利用卷积神经网络对句子矩阵进行卷积、池化、激活操作；

S7、对激活层输出的向量加入选择注意机制select attention，求出不同边关系情况下的节点量化结果；

S8、将S7输出到全连接层，得到用户节点新的向量表示；

S9、将S8结果作为softmax层的输入，最大化softmax函数；

S10、获得网络中节点的向量结果后，求算每两个节点间的余弦距离，以此来作为用户关系的强弱表示。

进一步的，所述句子矩阵的列对应句子中的每个单词、行对应每个单词的向量表示；单词的向量表示为随机初始的值或者为使用预先训练好的词向量且没有在预训练集合中的单词可被随机量化；通过填充padding操作将输入长短不一的句子长度进行统一；若一个文本中句子的长度为n，s_i表示长度为n的句子中第i个单词的向量表示，s_i＝(e₁,e₂,...,e_r)，e_r表示构成s_i中的第r个元素；那么最终神经网络的输入矩阵表示为：S＝(s₁,s₂,s₃,...s_n)。

进一步的，利用卷积神经网络对句子矩阵进行卷积包括利用卷积操作获取句子矩阵的局部特征，主要是通过一个h×k的卷积核ω在输入层从上到下进行滑动进行卷积操作，通过该卷积操作得到一个特征图像feature map；feature map的列为1，行为(n-h+1)，其中单词序列S_i:i+h-1经过卷积窗口得到生成的特征x_i表示为：

x_i＝f(ω×s_i:i+h-1+b)；

其中，x_i表示经过卷积窗口所产生的局部特征，b是一个偏置项，f为一个非线性函数，s_i:i+h-1表示卷积操作中的一个单词序列；k是词向量的维度数，h表示卷积核的大小。

进一步的，所述select attention为根据用户间不同的边关系来对用户关系网络赋予权重，对于给定的两个用户μ和ν及其边关系向量r，权重α的计算具体表示为：

其中，

分别为用户μ、用户ν在激活层的输出，矩阵A是权重对角矩阵，r是两个节点边关系的向量，k是边关系总数，Q_i表示不同的边关系对有连边用户的影响值。

进一步的，步骤S8中所述的用户节点新的向量表示表示为：

其中，

分别为用户μ、用户ν的用户节点新的向量表示；

分别为用户μ、用户ν的；M是由整个网络所有边关系的向量构成的矩阵，

是一个偏置向量。

进一步的，所述最大化softmax函数的条件概率：

其中，

表示条件概率，Q表示模型的所有参数。

进一步的，利用交叉熵损失来优化网络参数：

其中，J(Q)表示交叉熵，r为边关系向量，Q表示模型的所有参数。

进一步的，两个节点间的余弦距离表示为：

其中，cosθ为两个用户之间的余弦距离；||·||表示求范数。

本发明综合考虑了社交网络中节点用户所在的网络结构和用户产生的情景数据，并对其进行量化，已有的工作大部分只能学习节点的固定表示如node2vec、struc2vec，word2vec等；而实际上用户所在网络中边关系的不同，也会影响用户嵌入结果，因此文本考虑使用select attention来对不同边关系设置权重，结合用户的情景数据，对用户节点进行学习；卷积神经网络可以有效地捕捉局部特征，获取数据的语义信息；因此本文构建卷积神经网络框架来对用户产生的情景数据进行处理。考虑到神经网络对数据集标签的依赖性以及难以有效利用先验知识的问题，本文利用知识图谱中的实体链接技术，调用已有的工具包如：Fast Entity Linker，获得情景数据中的实体向量，加入到对应文本中，这样可以增加原有数据的语义信息，提高机器对文本的可读性和理解性，减少深度学习对数据标签的依赖性，同时在一定程度上还能减弱很多分类问题中出现的“边缘”问题，降低过拟合的风险，优化模型性能；最后根据用户节点的向量化结果计算用户间的余弦距离作为用户关系的判定值，根据这个值得大小，可以对用户进行适当的个性化推荐，同时也可以对疑似危险用户进行实时监控等。

附图说明

图1为本发明不同关系权重的网络示例图；

图2为本发明采用的流程示意图；

图3为本发明采用的select attention求解过程示意图；

图4为本发明采用的卷积神经网络提取文本特征示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于社交网络海量情景数据的用户关系发现方法，如图2，包括：

S5、将文本数据集转化为句子矩阵；

S7、对激活层输出的向量加入select attention，求出不同边关系情况下的节点量化结果；

S8、将S7输出到全连接层，得到用户节点新的向量表示；

S9、将S8结果作为softmax层的输入，最大化softmax函数；

在本实施例中调用Fast Entity Linker工具包获取用户情景数据中的实体及其向量，其输入为用户文本数据，输出为文本数据对应的实体、实体向量以及置信度得分。由于用户产生文本数据的内容和长度的不同，所以从每个用户文本数据中获取得到的实体个数也不相同。为了后续的统计及计算的方便性，本发明统一使用置信度排名前2的实体向量加入到对应文本中；如图2中，文本预处理之后将加入先验知识，所述先验知识为图片中提取的文本信息，。

在句子矩阵中，句子矩阵的列对应句子中的每个单词、行为每个单词对应的向量表示；本发明使用预先训练好的100维的Glove词向量且没有在预训练集合中的单词可以被随机量化，对于输入长短不一的句子通过padding操作设置句子的统一长度nb_timesteps，其他短于该长度的序列都会在后部填充0以达到该长度，长于nb_timesteps的序列将会被截断，以使其匹配目标长度；若一个文本中句子的长度为n，s_i表示长度为n的句子中第i个单词的向量表示，s_i＝(e₁,e₂,...,e_r)，e_r表示构成s_i中的第r个元素；那么最终神经网络的输入矩阵表示为：S＝(s₁,s₂,s₃,...s_n)。

本实施例通过卷积操作获取情景数据的局部特征，如图3所示，本发明使用一层卷积，其有不同大小的卷积核构成，卷积核大小分别为3、4、5；具体来说，利用卷积操作获取句子矩阵的局部特征，主要是通过一个h×k的卷积核w在输入层从上到下进行滑动进行卷积操作(在本实施例中k＝100，h表示卷积核的大小)，通过该卷积操作得到一个特征图像feature map，feature map的列为1，行为(n-h+1)，其中单词序列S_i:i+h-1经过卷积窗口得到生成的特征x_i表示为：

x_i＝f(ω×s_i:i+l-1+b)；

其中，b是一个偏置项，f是一个非线性函数。

本发明使用大小分别为3、4、5的卷积核进行卷积时，所得到的feature map的列均为1，卷积核3、4、5对应的行分别为(n-3+1)、(n-4+1)、(n-5+1)。

当完成卷积操作之后可以得到n个feature map，通过maxpooling操作获取最大特征值，该最大池化过程表示为：

x_i＝max(x_i)；

通过最大池化层的最大池化操作之后，用户的数据经过修正线性单元即可输出

用户数据从卷积神经网络输出后，可根据用户之间的边关系来对用户关系网络赋予权重，如图4，对于两个给定的用户μ和ν及其边关系向量r，权重α的计算包括：

其中，

分别为修正线性单元的输出的用户μ、用户ν的值，矩阵A是权重对角矩阵，r是两个节点边关系的向量；Q_k表示不同的边关系对有连边用户的影响值。

在引入上述的权重对用户的值进行加权操作之后，可以更新用户μ、用户ν的值，更新过程定义为：

然后，上述更新的值经过全连接层后输出，即全连接层输出的用户μ、用户ν的值，即用户μ、用户ν的用户节点新的向量表示

表示为：

其中，M是由整个网络所有边关系的向量构成的矩阵，

是一个偏置向量。

将用户μ、用户ν的用户节点新的向量表示

作为softmax层的输入，利用最大化softmax函数，此最大化的过程包括：

在利用神经网络对句子矩阵进行卷积、池化、激活操作的过程中，利用用户间的交叉熵来优化神经网络的网络参数，该优化过程可以表示为：

对网络中所有节点进行性最大化softmax函数的操作之后，以两个节点之间的余弦距离作为两个节点之间的强弱关系，可以表示为：

其中，||·||表示求范数，即求向量的长度或者大小。

目前已有的对用户节点的表示学习算法，大多只能学习节点的固定表示，如基于网络结构或者基于文本数据信息。本文综合考虑了网络中用户产生的情景数据和所在的关系网络来对用户进行嵌入。卷积神经网络可以有效的提取文本局部信息，但其对数据标签的依赖性强而且不能有效利用先验知识，因此本文引入了知识图谱技术，通过已有的实体链接工具包获取情景数据中的实体向量，并将其加入到原始文本中作为先验知识，这样既可以增强情景数据的语义，提高机器对数据的理解性，同时也可以减弱神经网络在分类问题中的“边缘”问题，提高模型精度。最后利用节点向量化的结果求算节点间的余弦距离，以此来作为用户关系强弱的判定值。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于社交网络海量情景数据的用户关系发现方法，其特征在于，所述方法包括：

S5、将文本数据集转化为句子矩阵；

S7、对激活层输出的向量加入选择注意机制select attention，求出不同边关系情况下的节点量化结果，即select attention为根据用户间不同的边关系来对用户关系网络赋予权重，对于给定的两个用户μ和ν及其边关系向量r，权重α的计算具体表示为：

其中，

分别为修正线性单元的输出的用户μ、用户ν的值，A为权重对角矩阵，r是两个节点边关系的向量，k是边关系总数，Q_i表示不同的边关系对有连边用户的影响值；

S8、将不同边关系情况下的节点量化结果输出到全连接层，更新得到用户节点向量表示；

S9、将用户节点向量表示作为softmax层的输入，并最大化softmax函数；

2.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法，其特征在于，所述句子矩阵的列对应句子中的每个单词、行对应每个单词的向量表示；单词的向量表示为随机初始的值或者为使用预先训练好的词向量且没有在预训练集合中的单词可被随机量化；通过填充padding操作将输入长短不一的句子长度进行统一；若一个文本中句子的长度为n，s_i表示长度为n的句子中第i个单词的向量表示，s_i＝(e₁,e₂,...,e_r)，e_r表示构成s_i中的第r个元素；那么最终神经网络的输入矩阵表示为：S＝(s₁,s₂,s₃,...s_n)。

3.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法，其特征在于，利用卷积神经网络对句子矩阵进行卷积包括利用卷积操作获取句子矩阵的局部特征，主要是通过一个h×k的卷积核ω在输入层从上到下进行滑动进行卷积操作，通过该卷积操作得到一个特征图像feature map，feature map的列为1，行为n-h+1，其中单词序列S_i:i+h-1经过卷积窗口得到生成的局部特征x_i表示为：

x_i＝f(ω×s_i:i+h-1+b)；

其中，x_i表示经过卷积窗口所产生的局部特征，b是一个偏置项，f为一个非线性函数，s_i:i+h-1表示卷积操作中的一个单词序列，k是词向量的维度数，h表示卷积核的大小，n为句子矩阵的长度。

4.根据权利要求3所述的一种基于社交网络海量情景数据的用户关系发现方法，其特征在于，经过卷积运算得到n个feature map，将这n个feature map进行最大池化操作，并在池化操作之后经过修正线性单元分别输出用户μ和用户ν的值。

5.根据权利要求1所述的一种基于社交网络海量情景数据的用户关系发现方法，其特征在于，步骤S8中所述的用户节点向量表示表示为：