CN103955545A

CN103955545A - 一种个性化的社交网络影响识别方法

Info

Publication number: CN103955545A
Application number: CN201410216618.1A
Authority: CN
Inventors: 张一文
Original assignee: Chengdu Pinguo Technology Co Ltd
Current assignee: Chengdu Pinguo Technology Co Ltd
Priority date: 2014-05-22
Filing date: 2014-05-22
Publication date: 2014-07-30
Anticipated expiration: 2034-05-22
Also published as: CN103955545B

Abstract

本发明公开了一种个性化的社交网络影响识别方法，涉及社交工程学，旨在根据网络中的人与人之间互动，识别网络中的个性化的影响关系。本发明技术要点：选择一网络用户群，建立目标用户相对其直接朋友的关系对；提取每个关系对的关系特征值；确定每个关系对的影响程度；选取一预测模型，利用每个关系对的关系特征值及其影响程度训练所述预测模型；选定一新用户，建立所述新用户相对其直接朋友的关系对，提取每个关系对的关系特征值；将新用户每个关系对的关系特征值带入训练好的预测模型中，通过训练好的预测模型计算出新用户的每个直接朋友对其的影响程度。

Description

一种个性化的社交网络影响识别方法

技术领域

本发明涉及社交工程学，尤其是一种利用社交网络分析(Social Network Analysis)和机器学习（MachineLearning）技术在局域网络寻找和发现目标用户个性化影响者的方法。

背景技术

随着网络的不断发展，人们普遍认为在社交网络中每一个人的周围都有很多不同的人扮演着许多角色，例如追随者、领导者、亲密朋友、普通朋友等，每一种角色对该人具有不同的影响力或者说影响程度。

识别人与人之间的影响程度的重要性不仅在于这些信息能帮助我们更好地了解社交网络功能和信息如何流动，更在于这些信息包含了有利于市场营销和产品推广的巨大价值。

比如说，人们更信任第三方的推荐通常超过商家推销及品牌本身。如果更多的站在你自身角度进行考虑，这也有道理的：你一般会相信你的朋友担保的某个想法，这个想法可能是关于另一个人或一种产品，尤其是对你有影响力的人的推荐。对于商家来说，对其目标用户或者说目标消费者的有影响力的人就是连接商家的品牌与其目标用户的共同的朋友。

目前，人们在社交网络分析领域已经完成了大量的研究工作，提出了基于中间性（Betweeness），亲密性（Closeness），度数（Degrees），PR排名（PageRank），特征向量（Eigenvector）等中心度量（centrality measures）的不同算法来识别这些人群。

然而上述这些传统的的基于图表的网络分析中，所有的个体和关联的权重都是被视为相同的：反应不出目标用户的信任的朋友或陌生人之间的区别。然而，现实告诉我们，社交网络中人与人之间存在许多类型的关系，强的，弱的，以及许多其他类型。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，本发明的主要目标是根据网络中反应的人与人之间互动，识别网络中的个性化的影响关系。

本发明公开了这样一种个性化的社交网络影响识别方法，包括：

步骤101：选择一网络用户群，将所述用户群中每一个成员分别作为目标用户识别其直接朋友，建立每个目标用户相对其直接朋友的关系对，所述每个关系对包括一个目标用户与其一位直接朋友；提取每个关系对的关系特征值；

步骤102：将影响程度按升序或降序分为1、2…、n等级，根据关系对的关系特征值将所有的关系对分类到所述的n个等级中形成n组；所述n为大于1的整数；在第m组中的关系对的影响程度为m等级，m取1、2、…或n；

步骤103：选取一预测模型，利用每个关系对的关系特征值及其影响程度训练所述预测模型；

步骤104：选定一新用户，识别网络中该新用户的所有直接朋友，建立所述新用户相对其直接朋友的关系对，并提取每个关系对的关系特征值；

步骤105：将新用户每个关系对的关系特征值带入训练好的预测模型中，通过训练好的预测模型计算出新用户的每个直接朋友对其的影响程度。

进一步，所述关系对的关系特征值包括以下特征值中的至少一个：目标用户查看了多少次直接朋友的主页；目标用户查看了多少次直接朋友的帖子；目标用户评论了多少次直接朋友的帖子；目标用户转载了多少次直接朋友的帖子；目标用户赞了多少次直接朋友的帖子；直接朋友查看了多少次目标用户的描述概要；直接朋友查看了多少次目标用户的帖子；直接朋友评论了多少次目标用户的帖子；直接朋友转载了多少次目标用户的帖子；直接朋友赞了多少次目标用户的帖子；距离上次目标用户与直接朋友交流多少小时；目标用户和直接朋友之间有多少共同直接朋友；所述共同直接朋友占目标用户的直接朋友总数的比例；所述共同直接朋友占直接朋友的直接朋友总数的比例。

进一步，在步骤102中使用K-Means聚类算法根据关系对的关系特征值将所有的关系对分为n组；然后抽查每组中的若干关系对，根据从每组中抽查的关系对的关系特征值将n组的影响程度进行升序或降序排序，并按照顺序将n组的影响程度标记为1、2…、n等级。

进一步，所述步骤103中，选用的预测模型为支持向量机模型。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

以往的社交网络分析算法致力于发现某一社交网络中影响力最高的人，然而我们知道即使在一个局部网络中，也不存在能够影响该局域网络每一个人的人，总是会有对这个人具有影响力的人并不是对那个人具有影响力，因此现有技术致力于寻找的影响力人物的实际意义不大。本发明方法与现有技术不同之处在于基于目标用户的在线行动能够发现社交网络每个人的影响力关系，而这些影响力关系包含了有利于市场营销和产品推广的巨大价值。

说明书附图

图1为本发明第一环节流程图。

图2为本发明第二环节流程图。

图3为本发明第三环节流程图。

具体实施方式

本说明书中公开的所有特征，或公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合。

本说明书中公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

本发明主要有三个环节: 第一环节是从部分的用户里提取训练范例；第二环节是利用范例来训练机器模型；第三环节是关于如何应用训练好的模型来做预测。

图1展示了本发明第一环节的流程图。在这一环节中包括以下步骤：

步骤1：选择一网络用户群，一般来说网络用户群的人数为几百到上万不等。例如，现选取一个网络用户群，我们将其中的成员A作为目标用户A，将与他有直接在线互动的其他网络参与者（可以是本用户群成员也可以不是）作为成员A的直接朋友（比如我们发现网络参与者1浏览过成员A的帖子，那么这样的行为为直接的在线互动），然后建立起目标用户即成员A与其直接朋友的关系对：目标用户A—>直接朋友1、目标用户A—>直接朋友2、目标用户A—>直接朋友3、…、目标用户A—>直接朋友50。依次类推，一一将网络用户群中的成员作为目标用户，发现其在网络中的直接朋友并建立他们与其直接朋友的关系对。

从网站的统计数据中提取每个关系对的关系特征值，这里所述的关系特征值包括但不限于以下：目标用户查看了多少次直接朋友的主页；目标用户查看了多少次直接朋友的帖子；目标用户评论了多少次直接朋友的帖子；目标用户转载了多少次直接朋友的帖子；目标用户赞了多少次直接朋友的帖子；直接朋友查看了多少次目标用户的描述概要；直接朋友查看了多少次目标用户的帖子；直接朋友评论了多少次目标用户的帖子；直接朋友转载了多少次目标用户的帖子；直接朋友赞了多少次目标用户的帖子；距离上次目标用户与直接朋友交流多少小时；目标用户和直接朋友之间有多少共同直接朋友；所述共同直接朋友占目标用户的直接朋友总数的比例；所述共同直接朋友占直接朋友的直接朋友总数的比例。

步骤2：使用K-Means聚类算法等分类算法根据关系对的关系特征值将所有的关系对分为n组，属于同1个组中的关系对必然具有某种相似的特征，由于聚类算法依据关系特征值进行的分类，而关系特征值反应的是关系对的影响程度，因此每组中的关系对必然具有相似的或相同的影响程度，那么我们只需抽查每组中的若干关系对，将来自不同组的关系对的关系特征值进行比较，便能将n组的影响程度进行升序或降序排序，并按照顺序将n组的影响程度标记为1、2…、n等级，在一个实施例中我们将影响程度最大的记为n等级，…，最小的记为1等级，在其他实施例中也可以将影响程度最大的记为1等级，…，最小的记为n等级。

当我们为每组标记上影响程度后，也即是为每个关系对标记上了影响程度。

图2展示了本发明第二环节的流程图，这一环节包括步骤3：选取一预测模型，利用每个关系对的关系特征值及其影响程度训练所述预测模型；本发明一个实施例中选用的是支持向量机模型（Support Vector Machine），其配置为：

C = 1.0

L = 0.001

P = 1.0E-12

N = 0

V = 1

W = 1

Kernel = PolyKernel -C 250007 -E 1.0。

图3展示了本发明第三环节的流程图，包括：

步骤4：选定一新用户B，识别网络中该新用户的所有直接朋友，建立所述新用户相对其直接朋友的关系对，例如：新用户B—>直接朋友100，新用户B—>直接朋友101，新用户B—>直接朋友102等，从网站上获取每个关系对的关系特征值。

步骤5：将新用户B每个关系对的关系特征值带入训练好的预测模型中，通过训练好的预测模型计算出新用户的每个直接朋友对其的影响程度。

一旦得到新用户B在网络中的直接朋友对其的影响程度，我们便能够容易的逆转他们之间的关系获知每个受到她/他影响的用户。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种个性化的社交网络影响识别方法，其特征在于，包括：

2.根据权利要求1所述的一种个性化的社交网络影响识别方法，其特征在于，所述关系对的关系特征值包括以下特征值中的至少一个：目标用户查看了多少次直接朋友的主页；目标用户查看了多少次直接朋友的帖子；目标用户评论了多少次直接朋友的帖子；目标用户转载了多少次直接朋友的帖子；目标用户赞了多少次直接朋友的帖子；直接朋友查看了多少次目标用户的描述概要；直接朋友查看了多少次目标用户的帖子；直接朋友评论了多少次目标用户的帖子；直接朋友转载了多少次目标用户的帖子；直接朋友赞了多少次目标用户的帖子；距离上次目标用户与直接朋友交流多少小时；目标用户和直接朋友之间有多少共同直接朋友；所述共同直接朋友占目标用户的直接朋友总数的比例；所述共同直接朋友占直接朋友的直接朋友总数的比例。

3.根据权利要求1或2所述的一种个性化的社交网络影响识别方法，其特征在于，在步骤102中使用K-Means聚类算法根据关系对的关系特征值将所有的关系对分为n组；然后抽查每组中的若干关系对，根据从每组中抽查的关系对的关系特征值将n组的影响程度进行升序或降序排序，并按照顺序将n组的影响程度标记为1、2…、n等级。

4.根据权利要求3所述的一种个性化的社交网络影响识别方法，其特征在于，所述步骤103中，选用的预测模型为支持向量机模型。

5.一种个性化的社交网络影响识别方法，其特征在于，包括：

步骤201：选定一新用户，识别网络中该新用户的所有直接朋友，建立所述新用户相对其直接朋友的关系对，并提取每个关系对的关系特征值；

步骤202：将新用户每个关系对的关系特征值带入训练好的预测模型中，通过训练好的预测模型计算出新用户的每个直接朋友对其的影响程度；

所述步骤202中的预测模型是按照以下步骤训练出来的：

步骤301：选择一网络用户群，将所述用户群中每一个成员分别作为目标用户识别其直接朋友，建立每个目标用户相对其直接朋友的关系对，所述每个关系对包括一个目标用户与其一位直接朋友；提取每个关系对的关系特征值；

步骤302：将影响程度按升序或降序分为1、2…、n等级，根据步骤301中关系对的关系特征值将所有的关系对分类到所述的n个等级中形成n组；所述n为大于1的整数；在第m组中的关系对的影响程度为m等级，m取1、2、…或n；

步骤303：利用步骤301及步骤302中所述的每个关系对的关系特征值及其影响程度训练所述预测模型。

6.根据权利要求5所述的一种个性化的社交网络影响识别方法，其特征在于，所述关系对的关系特征值包括以下特征值中的至少一个：目标用户查看了多少次直接朋友的主页；目标用户查看了多少次直接朋友的帖子；目标用户评论了多少次直接朋友的帖子；目标用户转载了多少次直接朋友的帖子；目标用户赞了多少次直接朋友的帖子；直接朋友查看了多少次目标用户的描述概要；直接朋友查看了多少次目标用户的帖子；直接朋友评论了多少次目标用户的帖子；直接朋友转载了多少次目标用户的帖子；直接朋友赞了多少次目标用户的帖子；距离上次目标用户与直接朋友交流多少小时；目标用户和直接朋友之间有多少共同直接朋友；所述共同直接朋友占目标用户的直接朋友总数的比例；所述共同直接朋友占直接朋友的直接朋友总数的比例。

7.根据权利要求5或6所述的一种个性化的社交网络影响识别方法，其特征在于，所述步骤203中，选用的预测模型为支持向量机模型。

8.根据权利要求7所述的一种个性化的社交网络影响识别方法，其特征在于，在步骤302中使用K-Means聚类算法根据关系对的关系特征值将所有的关系对分为n组；然后抽查每组中的若干关系对，根据从每组中抽查的关系对的关系特征值将n组的影响程度进行升序或降序排序，并按照顺序将n组的影响程度标记为1、2…、n等级。