CN105184326A

CN105184326A - 基于图数据的主动学习多标签社交网络数据分析方法

Info

Publication number: CN105184326A
Application number: CN201510646173.5A
Authority: CN
Inventors: 刘波; 李程文; 肖燕珊; 郝志峰; 余刚; 李远航
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2015-12-23

Abstract

本发明公开了基于图数据的主动学习多标签社交网络数据分析方法，具体按照以下步骤实施：社交网络数据采集；类型标记与训练；建立模型；社交网络用户数据分析。本发明给出了多标签图数据的分类方法，并与一种基于误差界最小化的主动学方法相结合。通过多标签分类与局部和全局的一致性学习得到一系列目标方程，并将它们应用于直推式的拉德马赫复杂度中。本发明方法的结果就是通过将经验直推式的拉德马赫复杂度最小化，得到最小泛化误差上界，从而在图上获取少量的但蕴含信息量巨大的节点。通过本发明方法，可以对海量多标签图数据进行分类，从而为后续的决策提供支持。

Description

基于图数据的主动学习多标签社交网络数据分析方法

技术领域

本发明属于技术领域，具体涉及一种基于图数据的主动学习多标签社交网络数据分析方法。

背景技术

“互联网+”战略就是利用互联网的平台，利用信息通信技术，把互联网和包括传统行业在内的各行各业结合起来，在新的领域创造一种新的生态。“互联网+”是互联网思维的进一步实践成果，它代表一种先进的生产力，推动经济形态不断的发生演变。从而带动社会经济实体的生命力，为改革、发展、创新提供广阔的网络平台。它代表一种新的社会形态，即充分发挥互联网在社会资源配置中的优化和集成作用，将互联网的创新成果深度融合于经济、社会各领域之中，提升全社会的创新力和生产力，形成更广泛的以互联网为基础设施和实现工具的经济发展新形态。

“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

云计算是一种按使用量付费的模式，这种模式提供可用的、便捷的、按需的网络访问，进入可配置的计算资源共享池(资源包括网络，服务器，存储，应用软件，服务)，这些资源能够被快速提供，只需投入很少的管理工作，或与服务供应商进行很少的交互。云计算是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。

超级计算理论研究如何设计高性能的并行计算系统，如何发挥超级计算机的性能，为超级计算科学服务。超级计算理论主要包括下面三个方面的内容，即超级计算(或并行处理)模型、超级计算方法和超级计算机系统。

主动学习，也被称为查询学习或者最优实验设计，是机器学习研究的子领域。与给定样例的被动学习策略不同，主动学习通过已有的学习模型主动的与环境进行交互，从大量无标注样例中挑选认为最有价值的样本进行标注，标注后的样本加入到训练集，更新分类器模型，重复这一过程直到满足停止准则。

所谓图可以定义为G＝(V,ξ,Y,K)，其中V为用户集合，各个用户节点V_i∈V对应于数据x_i。是一个用户节点的边缘集，如果两个用户V_i和V_j有关系，就有一条边ξ(V_i，V_j)。Y是关于数据节点集的标记集。K：V∪ξ→Y，K是一个可以获得数据节点标签的函数，通过利用数据节点集与数据节点的边缘得出数据节点的标记集。

随着信息技术的迅猛发展，参与到社交网络的人越来越多，人们乐于在网络中去分享自己的相关信息，拓展自己的人脉。通过数据挖掘与分析，可以发现某个用户的活动商圈是否在企业的商圈覆盖范围内；可以知道某个用户的消费能力；可以知道某个用户的喜好及最近的购买习惯；可以知道某个用户会购买自己产品的概率；可以知道竞争对手的策略。可以对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控起来。并追踪其传播路径，找到其中的关键节点。利用＂乱石＂打散其传播轨迹。从而让危机尽快消失。可以通过对企业已掌控的圈子，消费群体的黏着度，事件的时序，传播的投入上去事先预测相关的效果。从而让企业能花最少的钱得到最大的产出。

发明内容

本发明的目的是提供一种基于图数据的主动学习多标签社交网络数据分析方法，解决了现有技术中社交网络数据分析精确度低的问题。

本发明所采用的技术方案是，基于图数据的主动学习多标签社交网络数据分析方法，具体按照以下步骤实施：

步骤1：社交网络数据采集；

步骤2：类型标记与训练；

步骤3：建立模型；

步骤4：社交网络用户数据分析。

本发明的特点还在于，

其中的步骤1具体按照以下步骤实施：首先从服务器中获得用户的信息，将每个用户作为一个节点，将所有用户以图数据的方式表示，如果两个用户相互之间互相关注则用双向箭头连接，如果两个用户之间属于单向关注类型这用指向被关注用户的单向箭头连接，如果两个用户之间没有关注则不相连。

其中的步骤2具体按照以下步骤实施：对部分社交网络用户进行人工标记，使用这些人工标记的样本分别对每个标签进行训练得到相应分类器；利用两个节点之间的相互关系，列出关系矩阵，对剩下为标准的样本组中的每一个样本的每一个标签用相应的模型对其进行标注，把新标注的样本加进训练集合中，重新训练分类器，直到满足一定条件则停止。

其中的步骤3具体按照以下步骤实施：采用步骤1处理从社交网络中采集的数据，得到用户信息，并将所有用户信息制作为图数据模型，根据步骤2得到的分类器对步骤1所得到的用户信息进行分类，得到社交网络用户的标签分类，然后将用户信息的标签和用户数据储存到数据库。

其中的步骤4具体按照以下步骤实施：采用步骤2对用户的每个标签进行分类，根据每个标签的分类结果将具有相同标签的用户分为相同类别；根据用户所具有的标签类别，对所获得的数据进行分析，获得某个用户的消费能力，某个用户的喜好及最近的购买习惯，某个用户会购买自己产品的概率，竞争对手的策略；对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控起来；通过数据挖掘与分析，通过对企业已掌控的圈子，消费群体的黏着度，事件的时序，传播的投入上事先预测相关的效果。

本发明的有益效果是，在当今互联网+时代背景下，互联网数据呈现海量、高速、多样性等特征，进入大数据时代。面对海量、高增长率和多样化的信息资产，传统数据挖掘方法无法在可承受的时间范围内进行捕捉、管理和处理的数据集合。本发明给出了多标签图数据的分类方法，并与一种基于误差界最小化的主动学方法相结合。通过多标签分类与局部和全局的一致性学习(LLGC)得到一系列目标方程，并将它们应用于直推式的拉德马赫复杂度中。本发明方法的结果就是通过将经验直推式的拉德马赫复杂度最小化，得到最小泛化误差上界，从而在图上获取少量的但蕴含信息量巨大的节点。通过本方法，可以对海量多标签图数据进行分类，从而为后续的决策提供支持。

附图说明

图1为本发明分类器训练标注模型的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于图数据的主动学习多标签社交网络数据分析方法，具体按照以下步骤实施：

步骤1：社交网络数据采集：首先从服务器中获得用户的信息，其中包括用户名、职业、上传的图像、兴趣爱好、性别、所在地、毕业学校、浏览记录、购物习惯等信息。将每个用户作为一个节点，将所有用户以图数据的方式表示，如果两个用户相互之间互相关注则用双向箭头连接，如果两个用户之间属于单向关注类型这用指向被关注用户的单向箭头连接，如果两个用户之间没有关注则不相连。

社交网络用户信息提取和图数据构建步骤：本发明采用模拟登录技术，利用社交平台账户获取平台访问权限，通过设置初始任务集对目标信息进行定向获取。从获取到的数据中提取职业信息、提取兴趣爱好信息、提取性别信息、提取所在地信息、提取毕业学校信息。将获得的用户信息绘制成图数据模型，其中如果两个用户之间相互关注则采用双向箭头，如果一个用户关注另外一个用户则采用单向箭头，指向关注用户。

步骤2：类型标记与训练：对部分社交网络用户进行人工标记，使用这些人工标记的样本分别对每个标签进行训练得到相应分类器。如：使用职业信息训练职业分类器，使用兴趣爱好信息训练兴趣爱好分类器。利用两个节点之间的相互关系，列出关系矩阵，对剩下为标准的样本组中的每一个样本的每一个标签用相应的模型对其进行标注。把新标注的样本加进训练集合中，重新训练分类器，直到满足一定条件则停止。采用直推式的拉德马赫复杂度对分类器的泛化误差作最小化处理得到正确率最高的分类器。

用户初始标签人工标记包括如下步骤：把每一个社交网络用户数据中所包含的职业信息、上传的图像信息、兴趣爱好信息、性别信息、所在地信息、毕业学校信息、浏览记录信息、购物习惯信息分别作为一中标签，从每一种标签中选择一定数量的标签交给oracle进行标记。然后将的到的已经标记的标签信息和对应的用户信息存入作为训练集。

分类器构造算法为局部和全局一致性学习算法，一致性的优先假设问题是：a.相邻近的数据节点有较大的概率属于同一类标签；b.数据节点处在同一区域空间有较大的概率属于同一类标签。

图数据模型中的每一个节点用于储存每一个社交网络用户的数据，根据优先假设问题，两个相邻的数据节点之间有较大的概率属于同一类标签，对应图数据模型中相邻的两个用户的某一个标签之间有较大的概率属于同一类标签。

图数据模型中的两两节点之间的关系用邻接矩阵表示，通过已经获得的标签数据信息的数据节点对其他未获得标签数据信息数据节点进行信息的传递。定义一个迭代算子，将加权邻接矩阵代入迭代算子中使得迭代算子在进过无数次迭代时可以收敛。根据迭代算子收敛后的到的结果，可以判断该标签是否被标记。然后根据拉德马赫复杂度，通过泛化误差界的最小化处理提高分类器的精确度。

对用户的每个标签进行分类，根据每个标签的分类结果将具有相同标签的用户分为相同类别。围绕某一监测领域或事件，经过科学部署的不间断的数据收集与分析的过程，前期需要对收集范围和用户关键词群进行设置，中期对采集的数据进行过滤、分组、聚类等预处理，后期对数据进行分析。

步骤3：模型建立：采用步骤1处理从社交网络中采集的数据，得到每一位用户的职业、兴趣爱好、性别、所在地、毕业学校、浏览记录、购物习惯，并将所有用户信息制作为图数据模型。根据步骤2得到的分类器对步骤1所得到的职业、兴趣爱好等标签分别进行分类，得到社交网络用户的标签分类。然后将用户的职业、兴趣爱好等标签和用户数据储存到数据库。

模型建立步骤：从服务器中获得社交网络用户的信息，获得社交网络用户的标签信息，对每一个标签选取部分进行人工标记，用已经标记好的标签分别训练分类器，利用两个节点之间的相互关系列出关系矩阵对剩下未标记的样本组中的每一个样本的每一个标签用相应的模型对其进行标注，把新标注的样本加进训练集合中重新训练分类器，采用直推式的拉德马赫复杂度对分类器的泛化误差作最小化处理得到正确率最高的分类器，用分类器对新来的用户做预测。

步骤4：社交网络用户数据分析：采用步骤2对用户的每个标签进行分类，根据每个标签的分类结果将具有相同标签的用户分为相同类别。获得潜在商机，根据用户所具有的标签类别，对所获得的数据进行分析，获得某个用户的消费能力，某个用户的喜好及最近的购买习惯，某个用户会购买自己产品的概率，竞争对手的策略。危机预警，对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控起来。效果预测，通过数据挖掘与分析，可以通过对企业已掌控的圈子，消费群体的黏着度，事件的时序，传播的投入上去事先预测相关的效果。

以下结合实施例对本发明作进一步说明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

实施例

图1为本发明实施例的基于图数据的主动学习多标签社交网络数据分析方法的流程图。如图1所示，本发明涉及到的场景图像标注方法包括下述过程。

基于图数据的主动学习多标签社交网络数据分析方法，具体包含以下几个部分：

从服务器获得社交网络用户数据，将获得的数据以图数据的方式构建，局部和全局的一致性算法(LLGC)，多标签主动学习的数据信息价值的评价模型，直推式的拉德马赫复杂度，泛化误差界的最小化处理，对用户的预测与推荐。

第一步，收集每一位社交网络用户的职业、上传的图像、兴趣爱好、性别、所在地、毕业学校、浏览记录、购物习惯等信息。每一位用户信息作为图数据中节点的信息，节点之间的连线表示两个用户之间的关系。

第二步，图数据的构建：定义一个关于多标签数据节点的权重图G＝(V,ξ,Y,K)，其中V为数据节点集，各个数据节点V_i∈V对应于数据x_i。是一个数据节点的边缘集，可作为反映数据节点间相关性的量。

第三步，构建数据节点间关联性的矩阵：邻接矩阵W。其中，W_ij∈W映射出i-th节点与j-th节点间的相关性。而对于无向图，W就是一个对称的矩阵。Y是关于数据节点集的标记集。K：V∪ξ→Y，K是一个可以获得数据节点标签的函数，通过利用数据节点集与数据节点的边缘得出数据节点的标记集。

第四步，从获得的用户数据中挑选少量用户，交由oracle进行人工标记，将人工标记的数据作为已被标记的多标签的数据节点集，本发明是通过这些已被标记的多标签的数据节点集对剩下的未被标记的数据节点集进行多标签的标记。

第五步，定义一个数据节点集的空间χ与一个有限的数据的标记集ω＝{1,2,3,…,Q}。定义一个数据节点与数据节点标签的集合T＝{(x₁,Y₁),(x₂,Y₂),…,(x_n,Y_n)}(x_i∈χ)，其中Y_i＝[Y_i ¹,Y_i ²,…,Y_i ^Q]，如果x_i则被标记为k(1≤k≤Q)，而当时，那么x_i就不被标记为标签k，另外则是表示x_i是未被标记的数据。

对于存储多标签数据信息的邻接矩阵W∈R^n×n，可定义，其中W_ii＝0，

W_ij＝exp(-||x_i-x_j||²/2σ²)(1)

通过上式，可以构建出一个加权的邻接矩阵，其中

S＝D^-1/2WD^-1/2(2)

通过上面两式可用于解决如何获取数据节点间的相互联系性的问题，S_ij值越大那么数据节点i与数据节点j的相似度就越高。

把多标签数据的分类问题分成多个的且相互独立的单标签数据的分类问题。多标签的分类过程中采用LLGC的算法，最终构建出基于与图数据相关的多标签数据的分类器。

定义n×2的矩阵κ，并将这个矩阵定性为正定矩阵。给出一个矩阵其中数据节点xi多个标签中的其中一个标签：第k个标签为：

y_{i}^{k} = \underset{j \leq 2}{a r c \max} K_{i j}^{k} - - - (3)

给出一个大小为n×2的矩阵Y^k∈κ，其中矩阵里的元素可表示成：

因此与数据节点初始的标签信息是保持一致的，如果这个数据节点是一个已被标记的数据节点。

数据节点间的相关性信息都包含在加权的邻接矩阵S中，通过已经获得的标签数据信息的数据节点对其他未获得标签数据信息数据节点进行信息的传递。于是，通过对第k个已被标记的数据节点的相关性信息利用，本发明可以得到一个相关的迭代方程式K^k(t+1)＝SK^k(t)，其中，由于S_ii＝0，避免数据节点信息不断叠加产生自增强而产生误差。同时，在迭代获取相关性的信息中还需要保证本发明的多标签节点数据的初始信息Y^k能够得到有效保存。

根据以上的定义与分析，给出用于多标签数据节点分类的迭代公式，其公式如下：

K^k(t+1)＝αSK^k(t)+(1-α)Y^k(5)

其中，α∈(0，1)是用于调节节点相关性与初始多标签的数据信息间的比重参数的。

当t逐渐增大到无穷时，K^k(t)的极限是可以达到稳定的，其最终达到的稳定值为：

K^k*＝(I-αS)^-1Y^k(6)

各个多标签数据节点x_i的第k个数据标签可以用以下的式子获得。

y_{i}^{k} = \underset{j \leq 2}{a r c \max} K_{i j}^{k *} - - - (7)

Claims

1.基于图数据的主动学习多标签社交网络数据分析方法，其特征在于，具体按照以下步骤实施：

步骤1：社交网络数据采集；

步骤2：类型标记与训练；

步骤3：建立模型；

步骤4：社交网络用户数据分析。

2.根据权利要求1所述的基于图数据的主动学习多标签社交网络数据分析方法，其特征在于，所述的步骤1具体按照以下步骤实施：首先从服务器中获得用户的信息，将每个用户作为一个节点，将所有用户以图数据的方式表示，如果两个用户相互之间互相关注则用双向箭头连接，如果两个用户之间属于单向关注类型这用指向被关注用户的单向箭头连接，如果两个用户之间没有关注则不相连。

3.根据权利要求2所述的基于图数据的主动学习多标签社交网络数据分析方法，其特征在于，所述的步骤2具体按照以下步骤实施：对部分社交网络用户进行人工标记，使用这些人工标记的样本分别对每个标签进行训练得到相应分类器；利用两个节点之间的相互关系，列出关系矩阵，对剩下为标准的样本组中的每一个样本的每一个标签用相应的模型对其进行标注，把新标注的样本加进训练集合中，重新训练分类器，直到满足一定条件则停止。

4.根据权利要求3所述的基于图数据的主动学习多标签社交网络数据分析方法，其特征在于，所述的步骤3具体按照以下步骤实施：采用步骤1处理从社交网络中采集的数据，得到用户信息，并将所有用户信息制作为图数据模型，根据步骤2得到的分类器对步骤1所得到的用户信息进行分类，得到社交网络用户的标签分类，然后将用户信息的标签和用户数据储存到数据库。

5.根据权利要求4所述的基于图数据的主动学习多标签社交网络数据分析方法，其特征在于，所述的步骤4具体按照以下步骤实施：采用步骤2对用户的每个标签进行分类，根据每个标签的分类结果将具有相同标签的用户分为相同类别；根据用户所具有的标签类别，对所获得的数据进行分析，获得某个用户的消费能力，某个用户的喜好及最近的购买习惯，某个用户会购买自己产品的概率，竞争对手的策略；对一些网络中突然发布的一条可能对企业产生危机的信息即时的监控起来；通过数据挖掘与分析，通过对企业已掌控的圈子，消费群体的黏着度，事件的时序，传播的投入上事先预测相关的效果。