CN104573081B

CN104573081B - 一种基于sns的个人社会关系数据挖掘方法

Info

Publication number: CN104573081B
Application number: CN201510042252.5A
Authority: CN
Inventors: 张坤; 史波良; 李名臣; 邢苏霄
Original assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Current assignee: NANJING FIBERHOME INFORMATION DEVELOPMENT Co Ltd
Priority date: 2015-01-27
Filing date: 2015-01-27
Publication date: 2017-11-03
Anticipated expiration: 2035-01-27
Also published as: CN104573081A

Abstract

本发明涉及一种基于SNS的个人社会关系数据挖掘方法，逻辑清楚，易于实施，其中，以社交网站平台为基础，获取用户的关注信息、粉丝信息，以及用户的备注信息，计算获得两用户之间的相识可信度，并结合150定律，分析找出更多在现实世界中彼此认识的人，有效提高了个人社会关系数据挖掘的工作效率和准确性。

Description

一种基于SNS的个人社会关系数据挖掘方法

技术领域

本发明涉及一种基于SNS的个人社会关系数据挖掘方法。

背景技术

互联网时代是信息膨胀的时代。科技的进步，尤其是3G网络的发展、智能手机的普及，极大地提高了网民的互联网参与度。伴随着SNS(Social Network Site，社交网站)的兴起，互联网成为一种社会关系的载体。基于互联网信息的社会关系挖掘已然成为一项热门课题。

通过SNS网站可以知道某用户是哪些用户的粉丝(即某用户关注了哪些用户)以及某用户有哪些粉丝(即哪些用户关注了此用户)。以此为起点，通过更深层次的采集，可以很容易的知道更多用户的相互关注情况。但是这样的方法有以下不足:

1)它仅是虚拟世界中的一种关注行为，并不代表现实世界中他们彼此认识；

2)仅仅通过直接关注情况得来的信息量是片面的、有限的。

发明内容

针对上述技术问题，本发明所要解决的技术问题是提供一种基于社交网站平台，结合用户备注信息和150定律，能够分析找出更多在现实世界中彼此认识的基于SNS的个人社会关系数据挖掘方法。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于SNS的个人社会关系数据挖掘方法，包括如下步骤：

步骤001.在社交网站中任意选取一名用户，获取该用户在社交网站中关注用户的用户列表，作为一级用户列表；

步骤002.针对一级用户列表中的用户进行过滤，删除异常用户，更新一级用户列表；

步骤003.针对一级用户列表中的各个用户，分别采集各个用户在社交网站中关注用户的用户列表，分别作为二级用户列表；

步骤004.分别针对各个二级用户列表中的用户进行过滤，删除异常用户，分别更新各个二级用户列表；

步骤005.将一级用户列表和各个二级用户列表分别作为各个初级用户列表，分别针对各个初级用户列表中的用户按两两组合方式进行分组获得各个用户分组，其中，各个初级用户列表分别对应的用户分组的数量为n为对应初级用户列表中用户的数量；

步骤006.针对所有初级用户列表对应的各个用户分组，分别统计各个用户分组的数量，删除数量小于预设共同被关注次数阈值的用户分组；

步骤007.将剩余所有用户分组中的各个用户作为各个分析用户，分别针对各个分析用户，获得与分析用户位于同一用户分组、并且与分析用户对应同一用户分组的数量大于预设数量阈值的各个用户，该各个用户构成对应分析用户的用户分析列表；

步骤008.分别针对各个分析用户所对应的用户分析列表，分别计算获得用户分析列表中各个用户与对应分析用户之间的相识可信度，并将用户分析列表中的各个用户按其与对应分析用户之间相识可信度，由高至低进行排序；

步骤009.分别针对各个分析用户所对应的用户分析列表，判断用户分析列表中用户的数量是否大于150，是则删除第150个用户之后的所有用户，更新用户分析列表；否则不做任何操作；

步骤010.分别针对各个分析用户所对应的用户分析列表，分别判断用户分析列表中各个用户与对应分析用户之间相识可信度和预设相识度下限值、预设相识度上限值之间的关系，若相识可信度低于预设相识度下限值，则判定该相识可信度所对应用户与对应分析用户之间彼此认识的可能性小；若相识可信度高于预设相识度下限值，且低于预设相识度上限值，则判定该相识可信度所对应用户与对应分析用户之间彼此可能认识；若相识可信度高于预设相识度上限值，则判定该相识可信度所对应用户与对应分析用户之间彼此很可能认识。

作为本发明的一种优选技术方案：所述步骤002和步骤004中，分别针对一级用户列表中的用户和各个二级用户列表中的用户进行过滤的操作为判断若用户为粉丝数大于100000的用户，则将该用户作为异常用户进行删除，实现针对用户的过滤。

作为本发明的一种优选技术方案：所述步骤008中，分别计算获得用户分析列表中各个用户与对应分析用户之间的相识可信度，具体包括针对用户分析列表中各个用户分别执行如下步骤：

步骤00801.分别获取用户分析列表中用户的备注信息，以及用户分析列表对应的分析用户的备注信息，进入步骤00802；

步骤00802.判断该用户和该分析用户中是否存在一位用户备注信息中的各项属性全部为空，是则进入步骤00805；否则进入步骤00803；

步骤00803.针对该用户备注信息中各项属性与和该分析用户备注信息中各项属性分别对应进行比较，获得该用户与该分析用户在备注信息中各项属性上的比较结果，其中，若属性比较相同或相近，则该用户和该分析用户在该属性上的比较值为1，若属性比较不相同，则该用户和该分析用户在该属性上的比较值为0；进入步骤00804；

步骤00804.根据该用户与该分析用户在备注信息中各项属性上的比较结果，以及各项预设备注信息属性权重，进行加权计算获得该用户与该分析用户之间的相识可信度，该用户与该分析用户之间相识可信度的计算方法结束，其中，各项预设备注信息属性权重之和为1；

步骤00805.直接定义该用户与该分析用户之间的相识可信度为0.5，该用户与该分析用户之间相识可信度的计算方法结束。

作为本发明的一种优选技术方案：所述步骤00804中进行加权计算的模型如下：

其中，C为该用户与该分析用户之间相识可信度，b_i为该用户与该分析用户在第i个属性上的比较结果，a_i为第i个属性的预设备注信息属性权重，I为备注信息中属性的数量。

作为本发明的一种优选技术方案：所述备注信息包括如下属性：所属行业、所属院校、所在籍贯、当前年龄。

作为本发明的一种优选技术方案：其特征在于：所述预设备注信息属性权重中，所属行业的预设备注信息属性权重为0.4，所属院校的预设备注信息属性权重为0.3，所在籍贯的预设备注信息属性权重为0.2，当前年龄的预设备注信息属性权重为0.1。

本发明所述一种基于SNS的个人社会关系数据挖掘方法采用以上技术方案与现有技术相比，具有以下技术效果：本发明设计基于SNS的个人社会关系数据挖掘方法，逻辑清楚，易于实施，其中，以社交网站平台为基础，获取用户的关注信息、粉丝信息，以及用户的备注信息，计算获得两用户之间的相识可信度，并结合150定律，分析找出更多在现实世界中彼此认识的人，有效提高了个人社会关系数据挖掘的工作效率和准确性。

附图说明

图1为本发明设计基于SNS的个人社会关系数据挖掘方法的流程图；

图2为本发明设计中实施例示意图一；

图3为本发明设计中实施例示意图二；

图4为本发明设计中实施例示意图三；

图5为本发明设计中实施例示意图四。

具体实施方式

下面结合说明书附图针对本发明的具体实施方式作进一步详细的说明。

如图1所示，本发明设计的一种基于SNS的个人社会关系数据挖掘方法，包括如下步骤：

步骤001.在社交网站中任意选取一名用户，获取该用户在社交网站中关注用户的用户列表，作为一级用户列表。

步骤002.针对一级用户列表中的用户进行过滤，删除异常用户，更新一级用户列表，其中，判断若用户为粉丝数大于100000的用户，则将该用户作为异常用户进行删除。

步骤003.针对一级用户列表中的各个用户，分别采集各个用户在社交网站中关注用户的用户列表，分别作为二级用户列表。

步骤004.按照步骤002的用户过滤方法，分别针对各个二级用户列表中的用户进行过滤，删除异常用户，分别更新各个二级用户列表。

步骤005.将一级用户列表和各个二级用户列表分别作为各个初级用户列表，分别针对各个初级用户列表中的用户按两两组合方式进行分组获得各个用户分组，其中，各个初级用户列表分别对应的用户分组的数量为n为对应初级用户列表中用户的数量。

步骤006.针对所有初级用户列表对应的各个用户分组，分别统计各个用户分组的数量，删除数量小于预设共同被关注次数阈值的用户分组。

步骤007.将剩余所有用户分组中的各个用户作为各个分析用户，分别针对各个分析用户，获得与分析用户位于同一用户分组、并且与分析用户对应同一用户分组的数量大于预设数量阈值的各个用户，该各个用户构成对应分析用户的用户分析列表。

步骤008.分别针对各个分析用户所对应的用户分析列表，分别计算获得用户分析列表中各个用户与对应分析用户之间的相识可信度，并将用户分析列表中的各个用户按其与对应分析用户之间相识可信度，由高至低进行排序。

其中，分别计算获得用户分析列表中各个用户与对应分析用户之间的相识可信度，具体包括针对用户分析列表中各个用户分别执行如下步骤：

步骤00801.分别获取用户分析列表中用户的备注信息，以及用户分析列表对应的分析用户的备注信息，进入步骤00802。

步骤00802.判断该用户和该分析用户中是否存在一位用户备注信息中的各项属性全部为空，是则进入步骤00805；否则进入步骤00803。

步骤00803.针对该用户备注信息中各项属性与和该分析用户备注信息中各项属性分别对应进行比较，获得该用户与该分析用户在备注信息中各项属性上的比较结果，其中，若属性比较相同或相近，则该用户和该分析用户在该属性上的比较值为1，若属性比较不相同，则该用户和该分析用户在该属性上的比较值为0；进入步骤00804。

步骤00804.根据该用户与该分析用户在备注信息中各项属性上的比较结果，以及各项预设备注信息属性权重，按照如下模型进行加权计算获得该用户与该分析用户之间的相识可信度，该用户与该分析用户之间相识可信度的计算方法结束。

上述技术方案设计的基于SNS的个人社会关系数据挖掘方法，逻辑清楚，易于实施，其中，以社交网站平台为基础，获取用户的关注信息、粉丝信息，以及用户的备注信息，计算获得两用户之间的相识可信度，并结合150定律，分析找出更多在现实世界中彼此认识的人，有效提高了个人社会关系数据挖掘的工作效率和准确性。

本发明设计的基于SNS的个人社会关系数据挖掘方法在实际应用过程当中，如图1所示，具体可按如下步骤进行实施：

步骤001.如图2所示，在社交网站中选取用户1，获取用户1在社交网站中关注用户的用户列表{用户2，用户3，用户4，用户5}，作为一级用户列表。

步骤002.根据图3所示，用户5很可能不是普通人，比如演艺明星、公众账号、刻意养护的账号等，因此，针对一级用户列表中的用户进行过滤，删除用户5，更新一级用户列表{用户2，用户3，用户4}。

步骤004.按照步骤002的用户过滤方法，分别针对各个二级用户列表中的用户进行过滤，删除异常用户，分别更新各个二级用户列表，此时，所选取所有用户之间的关系如图4所示。

步骤005.根据图4所示，将一级用户列表和各个二级用户列表分别作为各个初级用户列表，分别针对各个初级用户列表中的用户按两两组合方式进行分组获得各个用户分组，其中，各个初级用户列表分别对应的用户分组的数量为n为对应初级用户列表中用户的数量，最终结果如图5所示，其中，例如用户分组<用户X，用户Y>表示用户X和用户Y共同被别人关注过一次。

步骤006.如图5所示，针对所有初级用户列表对应的各个用户分组，分别统计各个用户分组的数量，其中，除了<用户2，用户3>和<用户3，用户4>各出现两次，其它用户分组都是一次，表示用户2和用户3、用户3和用户4被别人同时关注过两次，删除数量小于预设共同被关注次数阈值为2的用户分组，则只剩下<用户2，用户3>和<用户3，用户4>，如图5所示。

步骤007.将剩余所有用户分组中的各个用户作为各个分析用户，分别针对各个分析用户，获得与分析用户位于同一用户分组、并且与分析用户对应同一用户分组的数量大于预设数量阈值的各个用户，该各个用户构成对应分析用户的用户分析列表，接着上述实施例，以用户3为例，提取<用户X，用户3>和<用户3，用户Y>信息的所有用户X和用户Y，得到与用户3位于同一用户分组、并且与分析用户对应同一用户分组的数量大于预设数量阈值为2的各个用户，即用户2和用户4，用户2和用户4构成对应分析用户的用户分析列表{用户2，用户4}。

C＝a₁·b₁+a₂·b₂+a₃·b₃+a₄·b₄

其中，C为该用户与该分析用户之间相识可信度，b₁为用户与分析用户在所属行业属性上的比较结果，b₂为用户与分析用户在所属院校属性上的比较结果，b₃为用户与分析用户在所在籍贯属性上的比较结果，b₄为用户与分析用户在当前年龄属性上的比较结果；a₁为所属行业的预设备注信息属性权重，a₂为所属院校的预设备注信息属性权重，a₃为所在籍贯的预设备注信息属性权重，a₄为当前年龄的预设备注信息属性权重，其中，a₁＝0.4，a₂＝0.3，a₂＝0.2，a₁＝0.1。

因此，同样紧接上述实施例，以用户3作为分析用户，其对应的用户分析列表为{用户2，用户4}，根据图3所示，按上述方法获得，用户2与用户3之间相识可信度为0.8；用户4与用户3之间相识可信度为0。

步骤009.分别针对各个分析用户所对应的用户分析列表，判断用户分析列表中用户的数量是否大于150，是则删除第150个用户之后的所有用户，更新用户分析列表；否则不做任何操作。对于上述实施例中用户3的用户分析列表{用户2，用户4}来说，因为现在只有用户2和用户4，所以此步骤处理后的用户列表仍为{用户2，用户4}。

步骤010.分别针对各个分析用户所对应的用户分析列表，分别判断用户分析列表中各个用户与对应分析用户之间相识可信度和预设相识度下限值0.3、预设相识度上限值0.7之间的关系，若相识可信度低于预设相识度下限值，则判定该相识可信度所对应用户与对应分析用户之间彼此认识的可能性小；若相识可信度高于预设相识度下限值，且低于预设相识度上限值，则判定该相识可信度所对应用户与对应分析用户之间彼此可能认识；若相识可信度高于预设相识度上限值，则判定该相识可信度所对应用户与对应分析用户之间彼此很可能认识。

因此，对于用户3的用户分析列表{用户2，用户4}，按上述方法进行判定，最终知道用户3与用户2之间彼此很可能认识；用户3与用户4之间彼此认识的可能性小。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于SNS的个人社会关系数据挖掘方法，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于SNS的个人社会关系数据挖掘方法，其特征在于：所述步骤002和步骤004中，分别针对一级用户列表中的用户和各个二级用户列表中的用户进行过滤的操作为判断若用户为粉丝数大于100000的用户，则将该用户作为异常用户进行删除，实现针对用户的过滤。

3.根据权利要求1所述一种基于SNS的个人社会关系数据挖掘方法，其特征在于：所述步骤008中，分别计算获得用户分析列表中各个用户与对应分析用户之间的相识可信度，具体包括针对用户分析列表中各个用户分别执行如下步骤：

4.根据权利要求3所述一种基于SNS的个人社会关系数据挖掘方法，其特征在于：所述步骤00804中进行加权计算的模型如下：

<mrow> <mi>C</mi> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>I</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

5.根据权利要求3所述一种基于SNS的个人社会关系数据挖掘方法，其特征在于：所述备注信息包括如下属性：所属行业、所属院校、所在籍贯、当前年龄。

6.根据权利要求5所述一种基于SNS的个人社会关系数据挖掘方法，其特征在于：所述预设备注信息属性权重中，所属行业的预设备注信息属性权重为0.4，所属院校的预设备注信息属性权重为0.3，所在籍贯的预设备注信息属性权重为0.2，当前年龄的预设备注信息属性权重为0.1。