CN105824813A

CN105824813A - 一种挖掘核心用户的方法及装置

Info

Publication number: CN105824813A
Application number: CN201510002653.8A
Authority: CN
Inventors: 戴洁; 郑建兵; 顾强; 陈宇阳
Original assignee: China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Group Jiangsu Co Ltd
Priority date: 2015-01-05
Filing date: 2015-01-05
Publication date: 2016-08-03
Anticipated expiration: 2035-01-05
Also published as: CN105824813B

Abstract

本发明涉及数据处理领域，特别是涉及一种挖掘核心用户的方法及装置，能够有效地识别需要消息的用户，避免了大量信息浪费，该方法为：获取用户历史操作数据，分别针对每一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户；分别针对每一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将每一个用户和对应的筛选后的其他用户组成关联用户组；分别在每一个关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户，因此极大地提高了信息发送的针对性。

Description

一种挖掘核心用户的方法及装置

技术领域

本发明涉及数据处理领域，特别是涉及一种挖掘核心用户的方法及装置。

背景技术

在通信业务中，需要通过推送消息给用户发送通知，但是，在实际的应用过程中，大量的消息都是发送给无关的用户，造成消息推送的浪费，不能实现有针对性推送消息给用户。

现有技术中，尽管对用户的关联度有一定了解，并基于用户间一定关联进行消息的推送，但是仍然不能实现对需要收到消息的用户进行有效推送，还是存在大量消息的非必要推送。例如，根据用户办理的家庭业务对用户按家庭属性进行分组，但是这种分组只能判断组中的用户可能存在家庭属性关联关系，对该组中的用户进行消息推送，仍然需要对多人发送短信，不能将消息有效地推送给需要该消息的用户。因此，由于无法识别需要该消息的用户，导致大量消息的无效发送，且发送消息的针对性较低。

发明内容

本发明实施例提供一种挖掘核心用户的方法及装置，用以解决现有技术中存在无法识别需要消息的用户以及消息推送针对性差的问题。

本发明实施例提供的具体技术方案如下：

一种挖掘核心用户的方法，包括：

获取用户历史操作数据，分别针对每一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户；

分别针对每一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将每一个用户和对应的筛选后的其他用户组成关联用户组；

分别在每一个关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户。

因此，采用本发明的方法，通过确定关联用户组中的核心用户，实现了有针对性的发送信息，避免了大量信息的浪费。

较佳的，获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与一个用户关联度最高的N位其他用户，包括：

获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与一个用户通话时间最长的N位其他用户，或者，筛选出与一个用户通话次数最多的N位其他用户，或者，筛选出与一个用户之间使用指定业务次数最多的N位其他用户。

较佳的，在获取用户历史操作数据之前，进一步包括：

在预处理阶段，确定若干测试用户，以及获取若干测试用户对应的海量数据样本，其中，若干测试用户中设定比例的用户之间的关联关系符合指定需求，且一个数据样本中记录有一个测试用户的基本信息或测试用户之间的至少一次业务行为；

将海量数据样本划分为训练集合和验证集合；

基于训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定各个业务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件；

采用验证集合包含的数据样本，对关联条件进行验证，确定验证通过后，对关联条件进行加载配置。

较佳的，基于训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定各个业务务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件，包括：

基于训练集合包含的数据样本对预设的M个业务属性特征进行检测，筛选出非显著业务属性特征，并删除非显著业务属性特征，其中，非显著业务属性特征包含有满足关联关系的至少两种取值，且至少两种取值的占比差达到设定阈值；

基于训练集合包含的数据样本在剩余的业务属性特征中进一步筛选出符合预设的特征选择标准的业务属性特征；

采用决策树算法筛选出P个业务属性特征作为测试用户的业务属性特征，将P个业务属性特征满足关联关系的取值设置为关联条件。

较佳的，针对任意一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将任意一个用户和对应的筛选后的其他用户组成关联用户组，具体包括：

针对任意一个用户，从其对应的N个其他用户中筛选出至少一个业务属性特征符合至少一条预设的关联条件的其他用户，以及将任意一个用户和对应的筛选后的其他用户组成关联用户组。

较佳的，在任意一关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户，具体包括：

在任意一关联用户组中，采用PageRank算法计算每一个用户在设定时长内的被呼叫等级，被呼叫等级表征呼叫用户的不同用户的数目，将被叫等级最高的用户确定为任意一关联用户组中的核心用户。

采用优化的PageRank算法降低了算法的空间复杂度和计算复杂度，提高了计算效率，并解决了存储问题。

较佳的，进一步包括：

将预设的推送消息发送给各个核心用户。

一种挖掘核心用户的装置，包括：

获取单元，用于获取用户历史操作数据，分别针对每一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户；

筛选单元，用于分别针对每一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将每一个用户和对应的筛选后的其他用户组成关联用户组；

确定单元，用于分别在每一个关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户。

较佳的，获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与一个用户关联度最高的N位其他用户，获取单元具体用于：

较佳的，进一步包括：

预处理单元，在获取用户历史操作数据之前，用于在预处理阶段，确定若干测试用户，以及获取若干测试用户对应的海量数据样本，其中，若干测试用户中设定比例的用户之间的关联关系符合指定需求，且一个数据样本中记录有一个测试用户的基本信息或测试用户之间的至少一次业务行为；

将海量数据样本划分为训练集合和验证集合；

较佳的，基于训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定各个业务务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件，预处理单元具体用于：

较佳的，针对任意一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将任意一个用户和对应的筛选后的其他用户组成关联用户组，筛选单元具体用于：

较佳的，在任意一关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户，确定单元具体用于：

较佳的，进一步包括：

发送单元，用于将预设的推送消息发送给各个核心用户。

附图说明

图1为本发明实施例中推送消息的概述流程图；

图2为本发明实施例中决策树的划分过程示意图；

图3为本发明实施例中推送消息的结构示意图。

具体实施方式

为了解决现有技术中存在消息推送针对性差的问题，本发明提供一种挖掘核心用户的方法及装置，获取用户历史操作数据，分别针对每一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户；分别针对每一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将每一个用户和对应的筛选后的其他用户组成关联用户组；分别在每一个关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户。

参阅图1所示，挖掘核心用户的具体实施过程如下：

在预处理阶段，在获取用户历史操作数据之前，确定若干测试用户，以及获取若干测试用户对应的海量数据样本，其中，若干测试用户中设定比例的用户之间的关联关系符合指定需求，且一个数据样本中记录有一个测试用户的基本信息或测试用户之间的至少一次业务行为。

例如，具有一定亲密朋友关系的测试用户和不具备亲密朋友关系的测试用户组成测试组，获取他们对应的海里数据样本，其中，具备亲密朋友关系的测试用户的比例确定，每个测试用户与其他测试用户之间的关联关系已知。一个数据样本中记录有一个测试用户的基本信息，例如用户A的身份证信息，或者记录测试用户之间的至少一次业务行为，例如用户A和用户B之间的通话时长。

进一步地，根据获取的测试用户的海量数据样本，将具有关联关系的测试用户作为目标组，不具备关联关系的测试用户作为对照组，将它们随机混合在一起。进一步地，将按关联关系整合后的数据样本划分为训练集合和验证集合，其中训练集为随机混合样本的较大比例，例如70％，验证集为随机混合样本的较小比例，例如30％。

在进行业务属性特征的抽取之前，还需对数据样本中的极值、空值和无效值进行处理，例如，某类数据的极值为大于所有同类数据样本的标准差的3倍，则将该数据进行剔除。这里的标准差的3倍为预设值，也可设置其他的倍率。

进一步地，对测试用户的基本信息进行衍生变量的处理，例如，将两个测试用户的身份证信息，衍生为业务属性特征，用户1和用户2的身份证是否相同，如表1所示，若相同则该项标记为1，若不同，则标记为0。

用户1
		用户2
身份证是否相同	1

表1

将海量数据样本划分为训练集合和验证集合之后，基于训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定各个业务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件，这里主要包括以下几步：

首先，设置M个可能的业务属性特征，作为最后确定为显著业务属性特征的备选项。

其次，基于训练集合包含的数据样本对预设的M个业务属性特征进行检测，筛选出非显著业务属性特征，并删除非显著业务属性特征，其中，非显著业务属性特征包含有满足关联关系的至少两种取值，且至少两种取值的占比差达到设定阈值。

在删除非显著业务属性特征时，主要通过分布图(针对分类变量)、直方图(针对数值类变量)以及变量相关系数等对输入的业务属性特征与关联关系之间的关系进行分析。若某一业务属性特征包含有满足关联关系的至少两种取值，且至少两种取值的占比相当，则认为该业务属性特征不具备与关联关系之间的显著关联，因此，该业务属性特征为非显著业务属性特征，需要将其删除。

再次，基于训练集合包含的数据样本在剩余的业务属性特征中进一步筛选出符合预设的特征选择标准的业务属性特征。

其中，特征选择标准包括缺失值的最大占比、单个类别中记录的最大百分比、作为记录百分比的最大类别数、最小变异系数、最小标准差中的一种或任意种的组合。

例如，缺失值的最大占比是指某一项业务属性特征在训练集合包含的数据样本中只占很少的比例，例如只有30％的用户登记了该项信息，或只有30％的用户使用了该项业务，因该特征不具备广泛性和普遍性，因此不能将该特征作为显著的业务属性特征，需要将其删除。

最后，对于剩下的业务属性特征，采用决策树算法筛选出P个业务属性特征作为测试用户的业务属性特征，将P个业务属性特征满足关联关系的取值设置为关联条件。

以决策树算法C5.0为例，首先计算剩余每一个业务属性特征的信息增益率，将信息增益率最大的业务属性特征作为根节点，分为满足关联关系，标记为1，和不满足关联关系，标记为0，接着在每个子节点上重复上述步骤，分别计算除根节点外的满足关联关系的样本和不满足关联关系的样本中，信息增益率最大的业务属性特征作为下一个节点，如此重复上述过程直至到达预设的最小样本量或样本中满足关联关系的占比低于设定的阈值，至此，建立关于该关联关系的决策树，并得到所需的业务属性特征及相应的满足关联关系的取值作为关联条件。例如，参阅图2所示，对于10000条用户的数据样本和剩余的6个业务属性特征A～F，针对每一个业务属性特征的计算信息增益率，其中信息增益率最大的业务属性特征A作为根节点，分为满足关联关系，标记为1，和不满足关联关系，标记为0，假设对应1的结果包括6000条样本，对应0的结果包括4000条样本，进一步地，对应1的结果包括6000条样本，继续计算每个业务属性特征的信息增益率，选取信息增益率最大的业务属性特征作为下一个节点；对应0的结果包括4000条样本，继续计算每个业务属性特征的信息增益率，选取信息增益率最大的业务属性特征作为下一个节点。在决策树的划分过程中，当样本数量低于设定的阈值(如1500条)，或样本中满足关联关系的占比低于设定阈值(如20％)时，停止样本的继续划分和业务属性特征的提取，将得到的节点作为最后筛选出的业务属性特征，并将业务属性特征满足关联关系的取值设置为关联条件。对于信息增益率的计算过程不是本发明的重点，这里不再赘述。

当业务属性特征的筛选及其关联条件确定后，采用验证集合包含的数据样本，基于确定的业务属性特征和关联条件对用户之间的关联关系进行判断，并与他们之间的真实关联关系进行比对，确定验证通过后，对关联条件进行加载配置。其中，采用验证集对关联条件的验证主要包括评估关联条件的准确率、命中率和提升率。

具体的，准确性是指关联关系预测值和实际值相同的样本量与所有样本量的比值。命中率是预测关联关系客户中实际关联关系客户的比例。提升度指识别关联关系的准确率与样本中家庭关系占比的比值。

下面基于以上海量数据样本获得的业务属性特征及其关联关系，对未知关联关系的用户进行分析，建立关联用户组并确定核心用户，具体的过程如下：

步骤100：获取用户历史操作数据，分别针对每一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户。

这里的用户历史操作数据，具体为用户的基本身份信息，业务办理信息以及用户的通话记录等。

获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户，其中，用户相关度的条件可以有多种，具体可以采用但不限于以下三种方式：

其一，筛选出在设定历史时段内与一个用户通话时间最长的N位其他用户。

其二，筛选出与一个用户通话次数最多的N位其他用户。

其三，筛选出与一个用户之间使用指定业务次数最多的N位其他用户。

步骤110：分别针对每一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将每一个用户和对应的筛选后的其他用户组成关联用户组。

例如，最后确定的业务属性特征为5个，但是用户A与用户B之间只具备3个业务属性特征，其中存在1个业务属性特征满足最终确定的关联条件，这时可以确定用户A和用户B的关联关系成立。

步骤120：分别在每一个关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户；

在任意一关联用户组中，利用PageRank算法计算每一个用户在设定时长内的被呼叫等级，被呼叫等级表征呼叫用户的不同用户的数目，这里不同用户的被呼叫等级不一样，对他呼叫的用户带来的被呼叫等级的影响也不一样，最后将被叫等级最高的用户确定为任意一关联用户组中的核心用户。

MASTER_MSISDN	主号
		SLAVE_MSISDN	副号
MASTER_PR	主号PR值
		SLAVE_PR	副号PR值

表2

其中，利用改进后的PageRank算法，即基于分解转移矩阵的PageRank迭代算法，根据关联用户组中用户之间的主被叫行为，计算关联用户组中每个用户的PR值，PR值的大小代表用户被叫等级的高低，PR值最大的设置为master_msisdn，该用户为核心用户，该号码为主号，PR值较小的设置为slave_msisdn，该用户不是核心用户，该号码为副号，参阅表2所示。

具体的，网页排名PageRank是搜索引擎技术的核心算法之一，用于计算每个网页的重要程度，并为每一个页面打分。它由LarryPage和SergeyBrin在20世纪90年代后期发明。PageRank算法将页面对页面的链接假设成一次投票，一个页面的“得票数”由所有链向它的页面的重要性决定，转到一个页面的超链接相当于对该页面投一票。一个页面的PR值是由所有链向它的页面的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级，相反如果一个页面没有任何链入页面，那么它没有等级。PageRank实现了根据链接指向计算出页面价值，改变了搜索结果随意排列的情况。此外，PageRank并不是唯一的链接相关的排名算法，只是最为广泛使用的一种，其他类似的算法还有小山顶(Hilltop)算法、专家排名(ExpertRank)算法、HITS4和信任排名算法(TrustRank)等。

采用PageRank算法，在数据量不大的情况下，可以将用户的通话记录完全展开，获得“最大用户数*最大用户数”的矩阵。但是，假设有1亿个通信用户的话，那么需要存储“1亿*1亿”的用户通信关系，假设每个通信关系对仅占用10byte的空间，那么所有的关系对存储下来需要88PB。对于这样的数据量，目前的主流系统难以存储和计算，即使勉强计算也将消耗大量的时间。

因此，基于通信领域跟互联网领域存在差异，本发明为优化后的PageRank算法。这里，用户的主被叫可以看作是网页的链入和链出，每一个用户与其所在关联用户组构成一个网络，本发明采用优化的PageRank算法计算关联用户组中的核心用户，具体方法如下：

基于分解转移矩阵的PageRank迭代计算公式如下：

X^(k+1)＝X^k·P″＝c·(X^k·P+X^k·D^T·I)+(1-c)(X^k·I^T)·Vp，

其中X^k表示k次迭代后用户的PR值，P表示用户间的初始主被叫构造的转移矩阵，为了处理关联用户组中的“孤岛页面集”造成的PageRank不收敛，(1-c)表示用户随机的呼叫一个用户的概率。

该迭代公式具体由三部分组成，分别以B、C和E项表示。

1、B＝X^k·P

这部分是处理主叫用户对被叫用户的贡献，该项为三项中最重要的一项。

B (i) = Σ_{j = 1}^{n} X_{j}^{k} P_{ji} = Σ_{j = 1, j &RightArrow; i}^{n} X_{j}^{k} / N (j)

N(j)＝Dig[n_jj](指用户j的出度)

其中，B(i)表示所有给用户i打电话的用户对用户i的PR值的贡献，用户i为被叫用户，共有n个用户给用户i打电话。

由上面公式可知，当没有用户主叫用户i时，B(i)＝0。

在一般情况下，B(i)是所有主叫i的用户的前一次迭代结果除以该用户的出度的结果累加。这里需要指某个用户的出度是指该用户主机的用户数，不是主叫的次数。

在每次迭代后，下次迭代前，把每个用户当前的PR值除以该用户的出度，得到一个新向量Y^k：

Y^k＝(y₁，...,y_n)，其中

y_{i} = \{\begin{matrix} X_{i}^{k} / N (i), & N (i) &NotEqual; 0 \\ 0, & otherwise \end{matrix},

从而，可利用如下公式求得向量B:

B＝X^k·P＝Y^k·A,其中，A＝[a_ij]，

2、C＝X^k·D^T·I

该部分针对从悬挂用户对其他用户贡献的处理。悬挂用户指该用户只有被叫，没有主叫。

C = X^{k} \cdot D^{T} \cdot I = I \cdot Σ_{i = 1}^{n} X_{i}^{k} \cdot d_{i} = I \cdot \frac{1}{n} Σ_{i = 1, N (i) &NotEqual; 0}^{n} X_{i}^{k} = I \cdot (σ / n)

其中，

σ = Σ_{i = 1, N (i) &NotEqual; 0}^{n} X_{i}^{k},

I是全为1行向量。

因此，对向量C的求解转化为对标量σ的求解，而σ为上次迭代结果中所有悬挂用户对应的PR值的累加和。

3、E＝(1-c)(X^k·I^T)·Vp

这部分是对随机呼叫的处理，即用户的误拨行为，为了避免迭代不收敛的情况。

由

X^{k} \cdot I^{T} = Σ_{i = 1}^{n} X_{i}^{k} = a,

Vp＝(1/n,...,1/n)，

可得，E＝(1-c)·a·Vp＝(1-c)(a/n,...,a/n)，特殊情况a＝n时，

E＝(1-c)(1,…,1)＝(1-c,…1-c)。

综合以上三个部分，用户k+1次迭代PR值公式化简如下：

X_{i}^{k + 1} = c (B (i) + σ / n) + (1 - c) = c (Σ y_{i}^{k} + σ / n) + (1 - c),

即每次迭代前，先计算出Y^k,σ/n和(1-c)，然后在迭代过程中，根据邻接矩阵把Y^k的分量累加起来，带入上面公式。

因此，一次迭代的计算复杂度为：

令n为用户总数，n_d为悬挂用户数，则计算量为：

(n-n_d+1)次除法+(16n+n_d)次加法，即计算复杂度为O(n)。

另外，在迭代计算过程中，为了保证计算效率，需要把PageRank向量、每个用户的主叫人数保存在内存中，每次从硬盘中根据索引读邻接矩阵的转置矩阵的一行(平均16个元素)。所以在迭代过程中，空间复杂度也为O(n)。

此外，针对各个关联用户组确定的核心用户，将预设的推送信息发送给各个核心用户。

具体的，将需要推送的消息发送各个主号。

本发明以家庭关系为例，对挖掘核心用户的具体流程进行详细说明：

在通信业务中，用户的家庭属性是非常重要的属性。对用户按照家庭属性进行分组并分析出家庭组中的核心人物能够实现有效地为核心人物发送相关信息，提高消息发送的效率，避免大量消息无意义的发送。

以办理亲情号业务的用户为测试用户，确定他们之间为家庭关系，获取测试用户对应的海量数据样本。

具体的，将与用户A具有家庭关系的用户作为目标组，不具备家庭关系的用户作为对照组，将它们随机混合在一起。进一步地，将海量数据样本划分为训练集合和验证集合，其中训练集为70％，验证集为30％。

在进行业务属性特征的抽取之前，对数据样本中的极值、空值和无效值进行处理，对测试用户的基本信息进行衍生变量的处理。

将海量数据样本划分为训练集合和验证集合之后，针对可能的业务属性特征设置M个业务属性特征的备选项。通过分布图(针对分类变量)、直方图(针对数值类变量)以及变量相关系数等对输入的业务属性特征与关联关系之间的关系进行分析，删除非显著业务属性特征。

进一步，在剩余的业务属性特征中筛选出符合预设的特征选择标准的业务属性特征。

其中，特征选择标准包括缺失值的最大占比(70％)、单个类别中记录的最大百分比(90％)、作为记录百分比的最大类别数(95％)、最小变异系数(0.1)、最小标准差(0.0)。

1	用户标识1
		2	用户标识2
3	身份证是否相同
		4	夜间常驻基站是否相同
5	近一年是否使用同一终端
		6	非工作日基站重合度
7	工作日下班时段通话天数
		8	总通话时长
9	总通话次数

表3

最后，对于剩下的业务属性特征，采用决策树算法最终得到的节点作为最后筛选出的业务属性特征，并将业务属性特征满足关联关系的取值设置为关联条件，这里将7个业务属性特征各自对应的满足家庭关系的取值设置为关联条件，如表3所示。

当业务属性特征的筛选及其关联条件确定后，采用验证集合包含的数据样本，对关联条件进行验证，采用验证集对关联条件的验证主要包括评估关联条件的准确率、命中率和提升率，确定验证通过后，对关联条件进行加载配置。

对于没有办理亲情号业务的用户，根据上面的结果判断他所在的家庭关系组和组中的核心用户。

具体的，获取用户B的历史操作数据，筛选出在3个月内与用户B在闲时通话总数最多的10个其他用户。

分别确定用户B与其他用户之间的业务属性特征，将结果输入到表3中，至少满足其中的1个业务属性特征就可以判断确定用户B与该用户的家庭关联关系成立，上述10次输入完成后，建立家庭用户组。

在该家庭用户组中，利用改进后的PageRank算法，根据关联用户组中用户之间的主被叫行为，计算关联用户组中每个用户的PR值，挑选出被叫等级最高的用户作为所在关联用户组的核心用户。PR值最大的设置为master_msisdn，该用户为核心用户，该号码为主号，则其他用户不是核心用户，他们的号码为副号。

最后，将需要发送的消息发送给各组的核心用户。

参阅图3所示，挖掘核心用户的装置，包括：

获取单元30，用于获取用户历史操作数据，分别针对每一个用户筛选出在设定历史时段内与相应用户关联度最高的N个其他用户；

筛选单元31，用于分别针对每一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将每一个用户和对应的筛选后的其他用户组成关联用户组；

确定单元32，用于分别在每一个关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户；

较佳的，获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与一个用户关联度最高的N位其他用户，获取单元30具体用于：

较佳的，进一步包括：

预处理单元33，在获取用户历史操作数据之前，用于在预处理阶段，确定若干测试用户，以及获取若干测试用户对应的海量数据样本，其中，若干测试用户中设定比例的用户之间的关联关系符合指定需求，且一个数据样本中记录有一个测试用户的基本信息或测试用户之间的至少一次业务行为；

将海量数据样本划分为训练集合和验证集合；

较佳的，基于训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定各个业务务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件，预处理单元33具体用于：

采用决策树算法计算每一个筛选出的业务属性特征的每一种取值的信息增益，并分别将每一个筛选出的业务属性特征对应的信息增益最大的取值作为相应业务属性特征的信息增益，以及将信道增益最大的P个业务属性特征作为测试用户的业务属性特征，将P个业务属性特征各自对应的信道增益最大的取值设置为关联条件。

较佳的，针对任意一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将任意一个用户和对应的筛选后的其他用户组成关联用户组，筛选单元31具体用于：

较佳的，在任意一关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户，确定单元32具体用于：

在任意一关联用户组中，计算每一个用户在设定时长内的被呼叫等级，被呼叫等级表征呼叫用户的不同用户的数目，将被叫等级最高的用户确定为任意一关联用户组中的核心用户。

较佳的，进一步包括：

发送单元34，用于将预设的推送信息发送给各个核心用户。

这里需要指出，确定关联用户组的核心用户之后，不限于给核心用户发送消息，还可以用来开展其他业务。

综上所述，采用本发明的方法，能够有针对性的发送信息，避免了大量信息的浪费，根据已知关联的海量数据抽取所需关联关系的业务属性特征及其关联条件，并依据该关联条件对未知关系的用户进行筛选，建立起关联用户组并通过优化的PageRank算法找到该组中的核心用户，并将消息发送给核心用户。

此外，优化的PageRank算法降低了算法的空间复杂度和计算复杂度，提高了计算效率，并解决了存储问题。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种挖掘核心用户的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与所述一个用户关联度最高的N位其他用户，包括：

获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与所述一个用户通话时间最长的N位其他用户，或者，筛选出与所述一个用户通话次数最多的N位其他用户，或者，筛选出与所述一个用户之间使用指定业务次数最多的N位其他用户。

3.如权利要求1或2所述的方法，其特征在于，在获取用户历史操作数据之前，进一步包括：

在预处理阶段，确定若干测试用户，以及获取所述若干测试用户对应的海量数据样本，其中，所述若干测试用户中设定比例的用户之间的关联关系符合指定需求，且一个数据样本中记录有一个测试用户的基本信息或测试用户之间的至少一次业务行为；

将所述海量数据样本按照关联关系整合划分为训练集合和验证集合；

基于所述训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定各个业务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件；

采用所述验证集合包含的数据样本，对关联条件进行验证，确定验证通过后，对所述关联条件进行加载配置。

4.如权利要求3所述的方法，其特征在于，基于所述训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定所述各个业务务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件，包括：

基于所述训练集合包含的数据样本对预设的M个业务属性特征进行检测，筛选出非显著业务属性特征，并删除所述非显著业务属性特征，其中，非显著业务属性特征包含有满足所述关联关系的至少两种取值，且所述至少两种取值的占比差达到设定阈值；

基于所述训练集合包含的数据样本在剩余的业务属性特征中进一步筛选出符合预设的特征选择标准的业务属性特征；

采用决策树算法筛选出P个业务属性特征作为测试用户的业务属性特征，将所述P个业务属性特征满足关联关系的取值设置为所述关联条件。

5.如权利要求1或2所述的方法，其特征在于，针对任意一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将所述任意一个用户和对应的筛选后的其他用户组成关联用户组，具体包括：

针对任意一个用户，从其对应的N个其他用户中筛选出至少一个业务属性特征符合至少一条预设的关联条件的其他用户，以及将所述任意一个用户和对应的筛选后的其他用户组成关联用户组。

6.如权利要求1或2所述的方法，其特征在于，在任意一关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户，具体包括：

在所述任意一关联用户组中，采用网页排名PageRank算法计算每一个用户在设定时长内的被呼叫等级，所述被呼叫等级表征呼叫用户的不同用户的数目，将被叫等级最高的用户确定为所述任意一关联用户组中的核心用户。

7.如权利要求1所述的方法，其特征在于，进一步包括：

将预设的推送消息发送给各个核心用户。

8.一种挖掘核心用户的装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，获取用户历史操作数据，分别针对一个用户筛选出在设定历史时段内与所述一个用户关联度最高的N位其他用户，所述获取单元具体用于：

10.如权利要求8或9所述的装置，其特征在于，进一步包括：

预处理单元，在获取用户历史操作数据之前，用于在预处理阶段，确定若干测试用户，以及获取所述若干测试用户对应的海量数据样本，其中，所述若干测试用户中设定比例的用户之间的关联关系符合指定需求，且一个数据样本中记录有一个测试用户的基本信息或测试用户之间的至少一次业务行为；

将所述海量数据样本划分为训练集合和验证集合；

11.如权利要求10所述的装置，其特征在于，基于所述训练集合包含的数据样本，提取出测试用户的业务属性特征，以及确定所述各个业务务属性特征在满足测试用户之间的关联关系的前提下所需满足的关联条件，所述预处理单元具体用于：

12.如权利要求8或9所述的装置，其特征在于，针对任意一个用户，从其对应的N个其他用户中筛选出业务属性特征符合预设关联条件的其他用户，以及将所述任意一个用户和对应的筛选后的其他用户组成关联用户组，所述筛选单元具体用于：

13.如权利要求8或9所述的装置，其特征在于，在任意一关联用户组中，挑选出被叫等级最高的用户作为所在关联用户组的核心用户，所述确定单元具体用于：

在所述任意一关联用户组中，采用PageRank算法计算每一个用户在设定时长内的被呼叫等级，所述被呼叫等级表征呼叫用户的不同用户的数目，将被叫等级最高的用户确定为所述任意一关联用户组中的核心用户。

14.如权利要求8所述的装置，其特征在于，进一步包括：

发送单元，用于将预设的推送消息发送给各个核心用户。