CN107480217A

CN107480217A - 一种基于社交数据的信息处理方法和装置

Info

Publication number: CN107480217A
Application number: CN201710637962.1A
Authority: CN
Inventors: 李哲君; 卫华飞; 杨勋
Original assignee: Shaanxi Cognitive Logistics Information Polytron Technologies Inc
Current assignee: Shaanxi Cognitive Logistics Information Polytron Technologies Inc
Priority date: 2017-07-31
Filing date: 2017-07-31
Publication date: 2017-12-15

Abstract

本发明提供了一种基于社交数据的信息处理方法和装置，涉及计算机技术领域，所述方法包括：获得N个用户数据；根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；根据所述兴趣参数值确定第Q个用户；将所述第Q个用户列入第一目标用户组。解决了现有技术中由于无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题。达到了能够快速将大量具有多种兴趣的用户按照兴趣相似度，进行多维度聚类分析的技术效果。

Description

一种基于社交数据的信息处理方法和装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于社交数据的信息处理方法和装置。

背景技术

社交网络日益丰富着人们的日常生活，人们越来越习惯于通过网络来表达自己，越来越倾向于在网络中扩大自己的影响，通过关注自己感兴趣的好友、明星或者话题，参与活动，彼此之间形成互动，这也间接造就了各个社交网络特有的复杂图谱关系网络。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中由于各个社交网络关注关系形成了复杂的图谱关系，导致无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题。

发明内容

本发明实施例提供了一种基于社交数据的信息处理方法和装置，解决了现有技术中由于无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题。

鉴于上述问题，提出了本申请实施例以便提供一种基于社交数据的信息处理方法和装置。

第一方面，本发明提供了一种基于社交数据的信息处理方法，所述方法包括：获得N个用户数据；根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；根据所述兴趣参数值确定第Q个用户；将所述第Q个用户列入第一目标用户组，其中，所述M、N、P均为正整数，且所述N大于等于P。

优选的，所述根据所述兴趣参数值确定Q个用户，还包括：获得第一目标用户组的阈值；判断所述第P个用户的所述兴趣参数值是否满足所述阈值；如满足所述阈值，则确定为第Q个用户。

优选的，所述确定所述N个用户数据中的第P个用户的兴趣参数值，还包括：步骤1：获得K个用户为族中心；步骤2：将所述N个用户数据中的任一个数据分配到距离所述K个用户中最近的一个，获得K个族；步骤3：获得所述K个族中的距离均值，并确定与所述距离均值相同的用户为新的族中心；步骤4：重复上述步骤2和步骤3，直到所述K个族的中心位置确定。

优选的，所述方法还包括：在所述K个族的中心位置确定之后，确定所述K个族的用户。

优选的，所述根据所述N个用户数据确定所述N个用户数据的M个兴趣参数，还包括：根据所述N个用户，确定M个种子用户，所述种子用户具有兴趣参数；根据所述M个种子用户，确定所述M个兴趣参数。

第二方面，本发明提供了一种基于社交数据的信息处理装置，所述装置包括：

第一获得单元，所述第一获得单元用于获得N个用户数据；

第一确定单元，所述第一确定单元用于根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；

第二确定单元，所述第二确定单元用于根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；

第三确定单元，所述第三确定单元用于根据所述兴趣参数值确定第Q个用户；

第四确定单元，所述第四确定单元用于将所述第Q个用户列入第一目标用户组，其中，所述M、N、P均为正整数，且所述N大于等于P。

优选的，所述根据所述兴趣参数值确定Q个用户，还包括：

第二获得单元，所述第二获得单元用于获得第一目标用户组的阈值；

第一判断单元，所述第一判断单元用于判断所述第P个用户的所述兴趣参数值是否满足所述阈值；

第五确定单元，所述第五确定单元用于如满足所述阈值，则确定为第Q个用户。

优选的，所述确定所述N个用户数据中的第P个用户的兴趣参数值，还包括：

第三获得单元，所述第三获得单元用于获得K个用户为族中心；

第四获得单元，所述第四获得单元用于将所述N个用户数据中的任一个数据分配到距离所述K个用户中最近的一个，获得K个族；

第五获得单元，所述第五获得单元用于获得所述K个族中的距离均值，并确定与所述距离均值相同的用户为新的族中心；

第六确定单元，所述第六确定单元用于重复上述步骤2和步骤3，直到所述K个族的中心位置确定。

进一步的，所述方法还包括：

第七确定单元，所述第七确定单元用于在所述K个族的中心位置确定之后，确定所述K个族的用户。

进一步的，所述根据所述N个用户数据确定所述N个用户数据的M个兴趣参数，还包括：

第八确定单元，所述第八确定单元用于根据所述N个用户，确定M个种子用户，所述种子用户具有兴趣参数；

第九确定单元，所述第九确定单元用于根据所述M个种子用户，确定所述M个兴趣参数。

第三方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤：获得N个用户数据；根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；根据所述兴趣参数值确定第Q个用户；将所述第Q个用户列入第一目标用户组，其中，所述M、N、P均为正整数，且所述N大于等于P。

第四方面，本发明提供了一种基于社交数据的信息处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：获得N个用户数据；根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；根据所述兴趣参数值确定第Q个用户；将所述第Q个用户列入第一目标用户组，其中，所述M、N、P均为正整数，且所述N大于等于P。

本申请实施例中的上述一个或多个技术方案，至少具有如下一种或多种技术效果：

1.本申请实施例提供的一种基于社交数据的信息处理方法和装置，通过获得N个用户数据；根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；根据所述兴趣参数值确定第Q个用户；将所述第Q个用户列入第一目标用户组。解决了现有技术中由于无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题。达到了能够快速将大量具有多种兴趣的用户按照兴趣相似度，进行多维度聚类分析的技术效果。

2.本申请实施例通过步骤1：获得K个用户为族中心；步骤2：将所述N个用户数据中的任一个数据分配到距离所述K个用户中最近的一个，获得K个族；步骤3：获得所述K个族中的距离均值，并确定与所述距离均值相同的用户为新的族中心；步骤4：重复上述步骤2和步骤3，直到所述K个族的中心位置确定。进一步解决了现有技术中由于无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题。。进一步达到了通过确定各兴趣标签族的中心位置，从而能够准确确定各兴趣标签族的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

图1为本发明实施例中一种基于社交数据的信息处理方法的流程示意图；

图2为本发明实施例中一种基于社交数据的信息处理装置的结构示意图；

图3为本发明实施例中另一种基于社交数据的信息处理装置的结构示意图.

具体实施方式

本发明实施例提供了一种基于社交数据的信息处理方法和装置，用于解决现有技术中由于无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题，本发明提供的技术方案总体思路如下：

在本发明实施例的技术方案中，获得N个用户数据；根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；根据所述兴趣参数值确定第Q个用户；将所述第Q个用户列入第一目标用户组，其中，所述M、N、P均为正整数，且所述N大于等于P。解决了现有技术中由于无法对繁杂的兴趣标标签进行归类，从而不能对大量用户的兴趣特点进行多维度聚类分析的技术问题。达到了能够快速将大量具有多种兴趣的用户按照兴趣相似度，进行多维度聚类分析的技术效果。

下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本申请实施例以及实施例中的技术特征可以相互组合。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

实施例一

图1为本发明实施例中一种基于社交数据的信息处理方法的流程示意图。如图1所示，所述方法包括：

步骤110:获得N个用户数据；

具体而言，所述用户指在社交网络平台，如微博，微信，贴吧等平台中，具有关注其他用户，或者被其他用户关注能力的平台账号资源。所述N为大于0的正整数，所述N个用户数据即为本次聚类分析的群体对象。

步骤120:根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；

进一步的，所述根据所述N个用户数据确定所述N个用户数据的M个兴趣参数，还包括：根据所述N个用户，确定M个种子用户，所述种子用户具有兴趣参数；根据所述M个种子用户，确定所述M个兴趣参数。

具体而言，所述N个用户中的每个用户都具有一个或多个兴趣参数，所述兴趣参数就是每个用户的兴趣爱好，用户首次登陆社交平台时，可以选择自己感兴趣的类别，进行关注，其中，所述N个用户的兴趣参数有M个，M为大于0的正整数。所述M个种子用户，所述种子用户用于寻找社交关系圈的初始用户。寻找社交关系圈时，是以这些用户为关系链的起点来进行关系链延伸查找的。所述种子用户为具有较高关注度的用户，他们是社交用户关系网络中的重要节点，具有较高的用户社交平台权重。于是可以通过确定M个种子用户的的兴趣参数从而确定所述N个用户的兴趣参数。

步骤130:根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；

进一步的，所述确定所述N个用户数据中的第P个用户的兴趣参数值，还包括：

步骤131：获得K个用户为族中心；

具体而言，所述确定第P个用户的兴趣参数值可以通过下述方法计算获得：随机从所述N个用户中找出K个用户，所述族即为将所述N个用户分按照兴趣参数值的距离关系分为不同的聚类，一个聚类即所述一个族，所述族中心即所述一个族中所有用户中的核心用户。

步骤132：将所述N个用户数据中的任一个数据分配到距离所述K个用户中最近的一个，获得K个族；

具体而言，本申请实施例使用的聚类是K-Means聚类，K-Means聚类的任务是把所述N个用户分配到若干个族中，使得同一个族的用户聚集在一个族中心的周围，同一个组内的用户之间距离比较近；而不同簇族的用户之间的距离比较远。对于由数值型属性刻画的用户来说，这个距离通常指欧氏距离，除了欧氏距离，还有曼哈顿距离和闵可夫斯基距离。本申请对此不做任何限制，大致计算过程如下：

K-Means聚类就是把n个所述用户分配到k个所述族中(k≤n)，使得组内平方和最小。K-Means聚类的目标就是找到满足下式的聚类S_i：

常用的K-Means算法使用迭代优化，对于初始的k个均值点每个用户分配到所述族中，使得组内平方和达到最小，由于这一平方和就是平方后的欧式距离，所以很直观地把所述用户分配到离它最近的均值点即可。

其中每个x_p用户都被分配到一个确定的族的S^t中(尽管在理论上它可能被分配到2个或者更多的聚类)

步骤133：获得所述K个族中的距离均值，并确定与所述距离均值相同的用户为新的族中心；

具体而言，计算得到上一步得到族中每一族的圆心即所述族中心，作为新的族中心：由于采用最小二乘估计，这一步同样减少了目标函数组内平方和的值。

步骤134：重复上述步骤132和步骤133，直到所述K个族的中心位置确定。

进一步的，在所述K个族的中心位置确定之后，确定所述K个族的用户

具体而言，在所述族中心位置确定后，根据所述兴趣参数值之间的距离，确定出所述K个族中的用户。

步骤140:根据所述兴趣参数值确定第Q个用户；

进一步的，所述根据所述兴趣参数值确定Q个用户，还包括：获得第一目标用户组的阈值；判断所述第P个用户的所述兴趣参数值是否满足所述阈值；如满足所述阈值，则确定为第Q个用户。

具体而言，所述第一目标用户组即为一个族，所述阈值用于判断所述用户是否能够分配到所述第一目标用户组，所述阈值的计算公式为：

即皮尔逊相关系数，系数在-1到1之间，其值越大，表示数据相关性越好，通常情况下其取值范围与相关度：0.8-1.0表示极强相关，0.6-0.8表示强相关，0.4-0.6表示中等相关，0.2-0.4表示弱相关，0.0-0.2表示极弱相关或者无相关，所述阈值的大小可以根据实际需要进行确定，本申请实施例对此不作任何限制。

步骤150:将所述第Q个用户列入第一目标用户组。

具体而言，若所述用户达到所述阈值要求，即可分到所述第一目标用户组，反之则不能分配到所属第一目标用户组，举例来讲，现将对有关小说兴趣标签的族进行聚类，一个用户的兴趣标签为武侠小说，另一个用户的兴趣标签为篮球明星，通过计算两个用户与上述小说族的族中心的距离，计算出所述武侠小说用户与所述小说族的距离较近，而篮球明星用户与所述小说族的距离较远，不能达到所述阈值的要求，便将武侠小说用户分配到小说族内。从而达到对所述N个用户按照兴趣的相近程度进行分类，以达到能够快速将大量具有多种兴趣的用户按照兴趣相似度，进行多维度聚类分析的技术效果。

实施例2

基于与前述实施例中一种基于社交数据的信息处理方法同样的发明构思，本发明还提供一种基于社交数据的信息处理装置，如图2所示，包括：

第一获得单元11，所述第一获得单元11用于获得N个用户数据；

第一确定单元12，所述第一确定单元12用于根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；

第二确定单元13，所述第二确定单元13用于根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；

第三确定单元14，所述第三确定单元14用于根据所述兴趣参数值确定第Q个用户；

第四确定单元15，所述第四确定单元15用于将所述第Q个用户列入第一目标用户组。

优选的，所述根据所述兴趣参数值确定Q个用户，还包括：

进一步的，所述方法还包括：

前述图1实施例1中的一种基于关注关系的用户兴趣处理方法的各种变化方式和具体实例同样适用于本实施例的一种基于关注关系的用户兴趣处理装置，通过前述对一种基于关注关系的用户兴趣处理方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于关注关系的用户兴趣处理装置的实施方法，所以为了说明书的简洁，在此不再详述。

实施例3

基于与前述实施例中一种基于社交数据的信息处理方法同样的发明构思，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种基于关注关系的用户兴趣处理方法的任一方法的步骤。

其中，在图3中，总线架构(用总线300来代表)，总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于社交数据的信息处理方法，其特征在于，所述方法包括：

获得N个用户数据；

根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；

根据所述N个用户数据和M个兴趣参数，确定所述N个用户数据中的第P个用户的兴趣参数值；

根据所述兴趣参数值确定第Q个用户；

将所述第Q个用户列入第一目标用户组，其中，所述M、N、P、Q均为正整数，且所述N大于等于P。

2.如权利要求1所述的方法，其特征在于，所述根据所述兴趣参数值确定第Q个用户，还包括：

获得第一目标用户组的阈值；

判断所述第P个用户的所述兴趣参数值是否满足所述阈值；

如满足所述阈值，则确定为第Q个用户。

3.如权利要求1所述的方法，其特征在于，所述确定所述N个用户数据中的第P个用户的兴趣参数值，还包括：

步骤1：获得K个用户为族中心；

步骤2：将所述N个用户数据中的任一个数据分配到距离所述K个用户中最近的一个，获得K个族；

步骤3：获得所述K个族中的距离均值，并确定与所述距离均值相同的用户为新的族中心；

步骤4：重复上述步骤2和步骤3，直到所述K个族的中心位置确定。

4.如权利要求4所述的方法，其特征在于，所述方法还包括：

在所述K个族的中心位置确定之后，确定所述K个族的用户。

5.如权利要求1所述的方法，其特征在于，所述根据所述N个用户数据确定所述N个用户数据的M个兴趣参数，还包括：

根据所述N个用户，确定M个种子用户，所述种子用户具有兴趣参数；

根据所述M个种子用户，确定所述M个兴趣参数。

6.一种基于社交数据的信息处理装置，其特征在于，所述装置包括：

第一获得单元，所述第一获得单元用于获得N个用户数据；

第四确定单元，所述第四确定单元用于将所述第Q个用户列入第一目标用户组。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现以下步骤：

获得N个用户数据；

根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；

根据所述兴趣参数值确定第Q个用户；

将所述第Q个用户列入第一目标用户组。

8.一种基于社交数据的信息处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

获得N个用户数据；

根据所述N个用户数据确定所述N个用户数据的M个兴趣参数；

根据所述兴趣参数值确定第Q个用户；

将所述第Q个用户列入第一目标用户组。