CN109271488A

CN109271488A - 一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统

Info

Publication number: CN109271488A
Application number: CN201811166418.4A
Authority: CN
Inventors: 蔡瑞初; 谢泳; 陈薇; 郝志峰; 陈炳丰
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2019-01-25
Anticipated expiration: 2038-10-08
Also published as: CN109271488B

Abstract

本发明提供了一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统，包括：S1)、数据获取；S2)、以最小的时间单位对数据进行等间距预处理；S3)、利用时序行为数据，优化目标函数以找到最优间隔；S4)用合并时刻拼接文本的方式重新构造文本数据，文本向量化表示；S5)对两两用户的文本向量序列进行传递熵计算；S6)、剪枝得到用户因果关系网络；S7)、用户因果网络存储与导出；S8)用户因果关系查询及可视化。本发明解决了用户活动稀疏给传递熵计算带来的问题；用文本数据推断社交网络的用户因果关系，信息量比纯粹的行为数据更丰富；提供了一个交互式的用户因果关系推断、查询和导出系统。

Description

一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统

技术领域

本发明涉及数据挖掘技术领域，尤其是一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。

背景技术

在社交网络上，由于大量用户的参与，产生了一系列的用户活动数据和用户文本、音频、视频数据。用户可以通过各种网络渠道发布消息或上传图片和视频。用户可以将他们日常的所见所闻所感写成一句话，通过电脑或者手机随时随地分享给朋友；还可以关注朋友的动态。

随着社交网络用户数量的不断增加，从用户的动态中可以挖掘出用户的兴趣爱好、关注话题。数据挖掘和分析的人们的目光也越来越多地投向了社交网络，国内外研究社交网络挖掘和用户影响力的学者很多，成果颇丰。比如计算网页重要度的计算方法PageRank、在PageRank算法的基础上提出的TunkRank算法、TwitterRank算法等。以上所阐述的方法虽然使用了不同的度量方式来计算影响力，但实质上，这些算法关注点基本都是用户显式声明的关系网络。然而，用户显式声明的好友网络往往具有较大的冗余性，具体表现为大量显式声明的好友网络对于用户的影响力没有实质作用。比如，僵尸粉是指有名无实的粉丝，它们通常是由系统自动产生的恶意注册用户，僵尸粉与博主之间存在一种关注的关系，但是并不意味着他们之间的行为存在影响关系。这种类型的方法发现出来的影响关系和强度对预测用户感兴趣内容、推荐可能感兴趣用户等方面的实际应用有很大的干扰。

目前因果关系领域中对社交网络的分析主要利用的是用户活动数据。用户的活动包括发送动态、评论、转发、关注等。使用用户行为数据的预处理难度低。基于活动的时序数据推断因果关系可以在一定程度上得到比较好的效果，但其存在的不足是数据没有包含真实内容信息。假设用户X在t-1时刻有活动，用户Y在t时刻也有活动，从时序上看似乎存在或强或弱的影响关系。但如果考虑其文本内容，有可能Y在t时刻的活动讨论的话题与X在t-1时刻截然不同。这就是文本信息的独特作用。文本内容既代表用户存在活动，又能提取出这个时间节点上的活动关注的主题是什么，根据不同用户对各个主题的关注度在时序上的分布，可以更为准确地推断出他们之间是否存在因果关系。通过分析用户在社交网络上发表的文本信息之间存在的关联，最终获得更为可靠的社交网络中的用户因果关系。另外，在时序数据的使用中，现有技术基本是对数据进行等间隔划分，由于稀疏性会导致某些数据的作用不大甚至会误导信息传递的发现，因此，我们可以用一个更为适当的方法来找到最优间隔序列，重新构造数据。

发明内容

针对现有技术的不足，本发明提供一种结合行为序列和文本信息的社交网络用户间因果关系发现方法及系统。

本发明的技术方案为：一种结合行为序列和文本信息的社交网络用户间因果关系发现方法，包括以下步骤：

S1)、通过python+scrapy的架构编写网络爬虫，根据用户ID构造目标URL，抓取目标社交网络中的用户信息和发布的动态数据；

S2)、根据数据的时间信息，先按照最小的时间单位对数据进行等间距划分，以最小时间单位期间视为一个时刻，构造出时序行为数据X＝(x₁,x₂,...,x_n)和时序文本数据，其中，x_i表示第i个用户的时序行为数据，每个时序行为数据标记该时刻中用户的活动情况，其所对应时刻的文本由该时刻中产生的所有文本拼接而成；

S3)、利用时序行为数据对时序间隔进行优化，构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔，其中，优化目标是最大化以间隔序列θ为参数的目标函数：

其中，n为用户数量，|θ|是时序长度，表示采用间隔θ对数据进行重新划分，x_i表示第i个用户的时序行为数据，为信息熵，是变量的传递熵，表示其在时序上的信息传递，λ为正则化系数；

S4)、使用最优相邻间隔合并方法求解目标函数的最大值及其相应的参数θ^*，具体为：

对于一个特定时序间隔序列θ，考察在其基础上所有两两相邻的时刻，分别计算其合并后的θⁱ对应的目标函数值，选出其中目标函数值最大的方案合并，然后令重复上述方法，直到下一步的最大目标函数值不大于当前时序间隔序列的目标函数值，则求得最优的间隔序列θ^*，迭代结束；

S5)、重新切分时序文本数据，利用步骤S4)中得到的最优间隔θ^*构造出文本序列，由于文本已经按照一天为单位切分，因此新的间隔序列在时序文本序列上做的操作是减少时刻，拼接文本，构造最优间隔θ^*对应的文本序列；

S6)、计算文本中词汇的TF-IDF值，选用文本向量模型LDA对步骤S5)中获得的自然语言的文本进行向量化表示，得到可以输入到计算机程序的时序文本向量U＝(u₁,u₂,...,u_n)，其中，u_i表示第i个用户对应的文本向量矩阵；

S7)、对两两用户的文本向量序列进行多维连续的传递熵计算，得到一个结果矩阵Te_rst，每个元素Te_rst[i][j]表示用户i对用户j的信息传递熵，所述的传递熵定义如下：

其中，为给定用户j自身滞后期文本信息后，用户j当前时刻文本信息与用户i滞后期文本信息的条件互信息，l为数据长度，k为滞后长度，为用户j当前时刻文本信息、用户i滞后期文本信息、用户j滞后期文本信息的联合概率密度，为给定用户i滞后期文本信息、用户j滞后期文本信息后，用户j当前时刻文本信息的概率密度，为给定用户j滞后期文本信息后，用户j当前时刻文本信息的概率密度；

S8)、对传递熵矩阵进行剪枝处理，检测传递熵结果的每个元素值，通过设定的阈值来过滤不显著的信息传递值，将这条边从因果网络中删除；然后，比较两个变量之间两个方向的传递熵，若两者差异明显，则删除传递熵值小的方向，最终剩下的非零值表示用户因果网络中存在的边。

本发明还提供一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，包括以下模块：

数据获取模块，用于编写网络爬虫，根据用户ID构造目标URL，抓取目标社交网络中的用户信息和发布的动态数据；

时序数据预处理模块，用于根据用户数据的时间信息，先按照最小的时间单位对数据进行等间距划分，构造出时序行为数据和时序文本数据，其中时序行为数据表示为X＝(x₁,x₂,...,x_n)，x_i表示第i个用户的时序行为数据；

时序间隔优化模块，用于利用时序行为数据对时序间隔进行优化，使得数据的切分更加有效；构造目标函数并优化目标函数以找到自适应的最优间隔；

时序文本数据重构及向量化模块，用于重新切分时序文本数据，利用时序间隔优化模块得到的最优间隔构造出文本序列，并选用文本向量模型对最优间隔对应的社交网络文本进行向量化表示，得到可以输入到计算机程序的时序文本向量U＝(u₁,u₂,...,u_n)，其中，u_i表示第i个用户对应的文本向量矩阵；由于文本已经按照最小时间单位切分，因此新的间隔序列在时序文本序列上做的操作是减少时刻，拼接文本；

时序文本的传递熵计算模块，用于对两两用户的文本向量序列进行多维连续的传递熵计算，得到一个用户对应于另一用户的传递熵；

用户因果关系推断模块，用于传递熵矩阵进行剪枝操作得到用户因果关系网络；

用户因果网络存储与导出模块，用于将系统自动将推断出来的用户因果关系持久化到硬盘中；系统提供用户因果关系导出接口，可以将系统中用户的因果关系提取、导出到文件；

用户因果关系查询及可视化模块，用于通过输入一系列用户ID，查询这些特定用户之间的因果关系，并实现可视化。

进一步的，所述的数据获取模块获取的网络爬虫通过python及scrapy架构来构建。

进一步的，所述的时序数据预处理模块以一个最小时间单位期间视为一个时刻，每个时序行为数据标记该时刻中用户的活动情况，其所对应时刻的文本由该时刻中产生的所有文本拼接而成。

进一步的，所述的时序间隔优化模块对时序间隔序列优化的目的是为了使得数据稀疏性减小的同时尽可能多地保持数据自身信息和变量间信息传递最大。构造目标函数

其中，|θ|是时序长度，表示采用间隔θ对数据进行重新划分，x_i表示第i个用户的时序行为数据，为信息熵，是变量的传递熵，表示其在时序上的信息传递，λ为正则化系数；

进一步的，时序文本数据重构及向量化模块使用的文本向量模型为LDA、LSI、Word2Vec中任一种，若使用的文本模型为LDA或LSI，在向量化之前，先计算文本中的词汇的TF-IDF值，然后再使用文本模型。

进一步的，所述的时序文本的传递熵计算模块计算传递熵的计算式为：

进一步的，所述的用户因果关系推断模块进行剪枝操作，具体如下：首先通过一个阈值来过滤不显著的信息传递值，将这些边从因果网络中删除；然后通过比较两个变量之间两个方向的传递熵，若两者差异明显，则删除传递熵值小的方向，最终剩下的非零值表示用户因果网络中存在的边。

进一步的，所述的用户因果网络存储与导出模块可以从系统中导出的因果网络可以包含所有用户的因果关系，也可以是输入一系列ID查询出来的部分结果。

进一步的，用户因果关系查询及可视化模块的可视化界面采用有向图来表示，标记有用户ID的结点表示用户，连接两个结点的有向边表示两个用户间存在因果关系，系统提供接口将图片保存到本地。

本发明的有益效果为：本发明通过用户间行为序列和文本序列推断因果关系，可以减少社交网络上显式关系的误导；利用文本做传递熵计算，可以减少时序行为数据因信息不够全面产生的错误结果；通过间隔优化来减少因滞后期长短差异使得结果不准确的情况。目前社交网络用户因果关系分析的研究仅仅是在算法层面，实现一个交互式系统便于更多用户使用和分析社交网络用户间因果关系，对于推广社交网络用户因果关系理论和算法都有重要作用。

附图说明

图1为本发明一种结合行为序列和文本信息的社交网络用户间因果关系发现方法的流程示意图；

图2为本发明一种结合行为序列和文本信息的社交网络用户间因果关系发现系统框架图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

如图1所示，一种结合行为序列和文本信息的社交网络用户间因果关系发现方法，包括以下步骤：

S1)、通过python+scrapy的架构编写网络爬虫，根据用户ID构造目标URL，抓取目标社交网络中的用户信息和发布的动态数据；本实施方式以新浪微博为例，通过分析新浪微博的用户微博页面URL及其参数，构造对应用户的URL开始抓取数据；对原始的微博数据进行清洗，去除一些信息不完整的数据。清洗后的数据具有两个维度，分别是用户和时间；

S2)、根据数据的时间信息，先按照最小的时间单位对数据进行等间距划分，以最小时间单位期间视为一个时刻，本实施例以一天的00:00到24:00视为一个时刻，构造出时序行为数据X＝(x₁,x₂,...,x_n)和时序文本数据，其中，x_i表示第i个用户的时序行为数据，每个时序行为数据标记该时刻中用户的活动情况，其所对应时刻的文本由该时刻中产生的所有文本拼接而成；

S3)、利用时序行为数据对时序间隔进行优化，构造目标函数F(θ)并优化目标函数F(θ)以找到自适应的最优间隔，使得数据的切分更加有效。时序间隔序列优化的目的是为了使得数据稀疏性减小，同时在保持数据自身信息、变量间信息传递的基础上重新划分数据；其中，优化目标是最大化以间隔序列θ为参数的目标函数：

如图2所示，本发明还提供一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，包括以下模块：

数据获取模块，用于通过python及scrapy架构来编写网络爬虫，根据用户ID构造目标URL，抓取目标社交网络中的用户信息和发布的动态数据；

时序数据预处理模块，用于根据用户数据的时间信息，先按照最小的时间单位对数据进行等间距划分，以一个最小时间单位期间视为一个时刻，构造出时序行为数据和时序文本数据，其中时序行为数据表示为X＝(x₁,x₂,...,x_n)，x_i表示第i个用户的时序行为数据，每个时序行为数据标记该时刻中用户的活动情况，其所对应时刻的文本由该时刻中产生的所有文本拼接而成；

时序间隔优化模块，用于利用时序行为数据对时序间隔进行优化，使得数据的切分更加有效；构造目标函数并优化目标函数以找到自适应的最优间隔；所述的时序间隔优化模块对时序间隔序列优化的目的是为了使得数据稀疏性减小的同时尽可能多地保持数据自身信息和变量间信息传递最大。构造目标函数

时序文本数据重构及向量化模块，用于重新切分时序文本数据，利用时序间隔优化模块得到的最优间隔构造出文本序列，并选用文本向量模型LDA对最优间隔对应的社交网络文本进行向量化表示，得到可以输入到计算机程序的时序文本向量U＝(u₁,u₂,...,u_n)，其中，u_i表示第i个用户对应的文本向量矩阵；由于文本已经按照最小时间单位切分，因此新的间隔序列在时序文本序列上做的操作是减少时刻，拼接文本；

时序文本的传递熵计算模块，用于对两两用户的文本向量序列进行多维连续的传递熵计算，得到一个用户对应于另一用户的传递熵，所述的传递熵的计算式为：

用户因果关系推断模块，用于传递熵矩阵进行剪枝操作得到用户因果关系网络：首先通过一个阈值来过滤不显著的信息传递值，将这些边从因果网络中删除；然后通过比较两个变量之间两个方向的传递熵，若两者差异明显，则删除传递熵值小的方向，最终剩下的非零值表示用户因果网络中存在的边；

用户因果网络存储与导出模块，用于将系统自动将推断出来的用户因果关系持久化到硬盘中；系统提供用户因果关系导出接口，可以将系统中用户的因果关系提取、导出到文件，导出的因果网络可以包含所有用户的因果关系，也可以是输入一系列ID查询出来的部分结果；

用户因果关系查询及可视化模块，用于通过输入一系列用户ID，查询这些特定用户之间的因果关系，并实现可视化；用户因果关系查询及可视化模块的可视化界面采用有向图来表示，标记有用户ID的结点表示用户，连接两个结点的有向边表示两个用户间存在因果关系，系统提供接口将图片保存到本地。

上述实施例和说明书中描述的只是说明本发明的原理和最佳实施例，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种结合行为序列和文本信息的社交网络用户间因果关系发现方法，其特征在于，包括以下步骤：

S4)、使用最优相邻间隔合并法求解目标函数的最大值及其相应的参数θ^*，具体为：

S5)、重新切分时序文本数据，利用步骤S4)中得到的最优间隔θ^*构造出基于最优间隔θ^*的文本序列；由于文本已经按照最小时间单位切分，因此新的间隔序列在时序文本序列上做的操作是减少时刻，拼接文本，构造最优间隔θ^*对应的文本序列；

S8)、对传递熵矩阵进行剪枝处理，得到用户因果关系网络；检测传递熵结果的每个元素值，通过设定的阈值来过滤不显著的信息传递值，将这条边从因果网络中删除；然后，比较两个变量之间两个方向的传递熵，若两者差异明显，则删除传递熵值小的方向，最终剩下的非零值表示用户因果网络中存在的边。

2.根据权利要求1所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于，包括以下模块：

3.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：所述的数据获取模块获取的网络爬虫通过python及scrapy架构来构建。

4.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：所述的时序数据预处理模块以一个最小时间单位期间视为一个时刻，每个时序行为数据标记该时刻中用户的活动情况，其所对应时刻的文本由该时刻中产生的所有文本拼接而成。

5.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：所述的时序间隔优化模块对时序间隔序列优化的目的是为了使得数据稀疏性减小的同时尽可能多地保持数据自身信息和变量间信息传递最大；构建构造目标函数

其中，|θ|是时序长度，表示采用间隔θ对数据进行重新划分，x_i表示第i个用户的时序行为数据，为信息熵，是变量的传递熵，表示其在时序上的信息传递，λ为正则化系数。

6.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：时序文本数据重构及向量化模块使用的文本向量模型为LDA、LSI、Word2Vec中的任一种，若使用的文本模型为LDA或LSI，在向量化之前，先计算文本中的词汇的TF-IDF值，然后再使用文本模型。

7.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：所述的时序文本的传递熵计算模块计算传递熵的计算式为：

其中，为给定用户j自身滞后期文本信息后，用户j当前时刻文本信息与用户i滞后期文本信息的条件互信息，l为数据长度，k为滞后长度，为用户j当前时刻文本信息、用户i滞后期文本信息、用户j滞后期文本信息的联合概率密度，为给定用户i滞后期文本信息、用户j滞后期文本信息后，用户j当前时刻文本信息的概率密度，为给定用户j滞后期文本信息后，用户j当前时刻文本信息的概率密度。

8.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：所述的用户因果关系推断模块进行剪枝操作，具体如下：首先通过一个阈值来过滤不显著的信息传递值，将这些边从因果网络中删除；然后通过比较两个变量之间两个方向的传递熵，若两者差异明显，则删除传递熵值小的方向，最终剩下的非零值表示用户因果网络中存在的边。

9.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：所述的用户因果网络存储与导出模块可以从系统中导出的因果网络可以包含所有用户的因果关系，也可以是输入一系列ID查询出来的部分结果。

10.根据权利要求2所述的一种结合行为序列和文本信息的社交网络用户间因果关系发现系统，其特征在于：用户因果关系查询及可视化模块的可视化界面采用有向图来表示，标记有用户ID的结点表示用户，连接两个结点的有向边表示两个用户间存在因果关系，系统提供接口将图片保存到本地。