CN105825311B

CN105825311B - 一种套餐确定方法及系统

Info

Publication number: CN105825311B
Application number: CN201510002665.0A
Authority: CN
Inventors: 李少年
Original assignee: China Mobile Group Henan Co Ltd
Current assignee: China Mobile Group Henan Co Ltd
Priority date: 2015-01-05
Filing date: 2015-01-05
Publication date: 2020-08-14
Anticipated expiration: 2035-01-05
Also published as: CN105825311A

Abstract

本发明实施例提供了一种套餐确定方法及系统，根据用户自开户以来所使用套餐的更换频率及预设频率阈值，确定频繁更换套餐用户；针对频繁更换套餐用户当前使用的套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，确定该套餐对应的符合预设使用频度的属性；基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组；针对每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的对应属性的属性值作比对，根据比对结果确定该群属性组中用户适用的套餐。提高了系统处理效率。本发明涉及移动通信领域。

Description

一种套餐确定方法及系统

技术领域

本发明涉及移动通信技术领域，尤其涉及一种套餐确定及系统。

背景技术

为了能在激烈的市场竞争中处于优势地位，移动运营商搭建了客户综合经营分析平台，对每种套餐、每个用户等进行全方位评估。多样化的资费套餐业务给予了用户更多选择，但用户和营业员却只能主观地进行套餐选择。主观选择下签约的套餐不一定适合客户，可能导致用户频繁地更换套餐以满足自己的需求，频繁处理套餐更换业务使得系统负荷加重、处理效率降低。如何更智能地为客户选择更为适宜的套餐，减少客户套餐更换频率成为了一个亟待解决的技术难题。

发明内容

本发明实施例提供了一种套餐确定及系统，用以解决现有技术中用户凭主观进行套餐选择导致系统处理效率低的问题。

基于上述问题，本发明实施例提供的一种套餐确定方法，包括：

根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户；

针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定该套餐对应的符合预设使用频度的属性，其中，所述属性包括基本属性以及用户使用该套餐时的消费行为属性；

基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组；

针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐。

本发明实施例提供的一种套餐确定系统，包括：

频繁更换套餐用户确定模块，用于根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户；

频繁属性确定模块，用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定该套餐对应的符合预设使用频度的属性，其中，所述属性包括基本属性以及用户使用该套餐时的消费行为属性；

群属性组确定模块，用于基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组；

适用套餐确定模块，用于针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐。

本发明实施例的有益效果包括：

本发明实施例提供的一种套餐确定方法及系统，根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户；针对频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定该套餐对应的符合预设使用频度的属性；基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组；针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐。本发明实施例提供的套餐确定方法，首先确定出频繁更换套餐用户，再针对确定出的频繁更换套餐用户所使用套餐，确定套餐的各属性中符合预设使用频度的属性，进一步根据符合预设使用频度的属性的属性值确定由属性类似的用户群构成的群属性组，最后根据稳定套餐使用用户所使用套餐的对应属性的属性值，确定该套餐对应的该群属性组中用户适用的套餐，可见，本发明实施例提供的套餐确定方法，针对频繁更换套餐用户，通过对频繁更换套餐用户使用套餐的属性进行分析，确定出具有类似属性用户群构成的群属性组，也就是说同一群属性组中的频繁更换套餐用户具有类似的套餐使用需求，针对每个具有类似套餐使用需求的群属性组，从稳定套餐使用用户所使用的套餐中确定出群属性组中用户适用的套餐，并推荐给该用户，与现有技术用户通过主观进行套餐选择相比，本发明实施例确定的套餐更加符合频繁更换套餐用户的使用需求，那么频繁更换套餐用户使用本发明确定出来的套餐，会更加稳定，减少了套餐更换次数，减少了由于更换套餐而访问系统的次数，提高了系统处理效率。

附图说明

图1为本发明实施例提供一种套餐确定方法的流程图；

图2为本发明实施例1提供一种套餐确定方法的流程图；

图3为本发明实施例提供的属性筛选示意图；

图4为本发明实施例提供的群属性组划分过程示意图；

图5为本发明实施例提供的适用套餐确定示意图；

图6为本发明实施例提供的一种套餐确定系统结构示意图。

具体实施方式

本发明实施例提供了一种套餐确定方法及系统，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种套餐确定方法，如图1所示，包括：

S101、根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户。

S102、针对S101中确定的频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定该套餐对应的符合预设使用频度的属性，

其中，属性包括基本属性以及用户使用该套餐时的消费行为属性。

S103、基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组。

S104、针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐。

进一步地，本发明实施例中首先确定出频繁更换套餐的用户，再针对各频繁更换套餐的用户当前使用的所有套餐，执行步骤S102～步骤S104，针对每种套餐确定出该套餐对应的群属性组，并为每个群属性组中的用户确定适用的套餐。

下面结合附图，用具体实施例对本发明提供的方法及相关设备进行详细描述。

实施例1：

本发明实施例1中，提供一种套餐确定方法，如图2所示，具体包括如下步骤：

S201、根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户。

进一步地，本步骤中，采用如下方式确定预设频率阈值：

步骤一、获取用户自开户以来所使用套餐的更换记录。

步骤二、确定用户自开户以来套餐更换总次数g_s、用户近一年套餐更换次数g_o、用户平均每年套餐更换次数g_e。

步骤三、确定用户自开户以来套餐更换总统计值g＝g_s+g_o+g_e，得到所有用户的套餐更换总统计值集合G＝{g₁,g₂,…,g_A}，其中，A表征用户总数。

步骤四、确定g₁,g₂,…,g_A的平均值

和中值g′。

进一步地，本步骤中，中值为数值序列中位于中间位置的值。

步骤五、对g₁,g₂,…,g_A进行升序或降序排序，依次计算每两个相邻值之间的差值的绝对值q_i＝|g_i+1-g_i|(1≤i≤A-1)，确定得到的各差值的绝对值中的最大值q_max＝max{q₁,q₂,…,q_A-1}。

步骤六、确定计算出q_max的g'_i+1和g'_i。

步骤七、将

中的最大值

确定为预设频率阈值。

本步骤可以具体实施为：将自开户以来所使用套餐的更换频率大于预设频率阈值的用户，确定为频繁更换套餐用户。

S202、针对S201中确定的频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定该套餐对应的符合预设使用频度的属性，

进一步地，基本属性可以包括用户的年龄，用户使用该套餐时的消费行为属性可以包括账单收入、月均消费、网间通话总时长、漫游通话总时长等。

进一步地，本步骤可以具体实施为：

针对频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：

步骤一、针对该套餐对应的所有属性，将当前使用该套餐的每个频繁更换套餐用户的所有使用记录中，该属性的属性值均为零的属性确定为该套餐对应的稀疏属性。

进一步地，可以预先存储用户使用套餐的使用记录，该使用记录可以以预设时间段为单位，例如：月消费记录，在统计属性的属性值时可以以使用记录为单位而不是以用户为单位，例如，每个用户可以具有多条使用记录参与属性的属性值统计。假设某套餐具有5个属性，且使用该套餐的频繁更换套餐用户包括两个，两个用户分别具有2条使用记录和3条使用记录，那么，属性和使用记录的关系可以如表1所示：

表1

	属性1	属性2	属性3	属性4	属性5
						用户1记录1	2	12	25	33	0
用户1记录2	2	12	22	35	0
						用户2记录1	1	18	25	38	0
用户2记录2	5	16	29	33	0
						用户2记录3	2	20	25	33	0

以表1对应的属性和使用记录的关系为例，可以确定属性5为稀疏属性。

步骤二、确定该套餐对应的所有属性中除所述稀疏属性之外的该套餐对应的非稀疏属性。

步骤三、根据所述所有使用记录中所述非稀疏属性的各属性值，采用随机森林算法构建多个决策树，构成随机森林。

步骤四、针对每个非稀疏属性，采用如下公式确定该非稀疏属性的频率frequency(i)：

其中，i表征第i个非稀疏属性，t表征决策树序号，s表征决策树中的节点序号，treeNum表征决策树的数量，nodeNum表征决策树中的节点数量，c(t,s,i)表征权值，当第i个属性为构建的决策树中的根节点时，c(t,s,i)的值为第一权值，当第i个属性为构建的决策树中除根节点之外的其他节点时，c(t,s,i)的值为第二权值，且第一权值大于第二权值，当第i个属性未出现在决策树中时，c(t,s,i)的值为0。

进一步地，本步骤中，统计属性作为各决策树的节点的次数，次数越多的属性说明对用户影响越大，越重要，并且，由决策树的特点可知，作为根节点的属性比其他作为其他节点的属性重要，因此根节点的权值更大。不同的决策树节点的数量nodeNum可以不同。

步骤五、按照从大到小的顺序，对确定的各非稀疏属性的频率进行依次累加，直到累加和大于或等于预设百分比则停止累加。

较佳地，预设百分比可以为90％。

步骤六、将参与了累加的n个非稀疏属性确定为该套餐对应的符合预设使用频度的属性。

图3为进行属性筛选示意图，301为用户所有属性，302为去掉稀疏属性之后得到的非稀疏属性，303为采用随机森林算法进行筛选之后，得到的符合预设使用频度的属性。

进一步地，针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：

S203、针对S202中确定的该套餐对应的符合预设使用频度的属性中的每个属性，根据该属性的属性值，构建该属性对应的表征属性值分布情况的密集块。

进一步地，本步骤可以具体实施为：

步骤一、将确定的该套餐对应的符合预设使用频度的n个属性作为n个维度，标识为d₁,d₂,...,d_n。

进一步地，以表1为例，将属性1～属性5作为维度1～维度5。

步骤二、根据每个维度分别对应的属性值取值范围，按照预设划分方式，将每个维度划分成m个等长的区间：

其中，d_x表征维度x且1≤x≤n。

进一步地，接续表1的例子，假设属性1的取值范围为1～10，属性2的取值范围为11～20，属性3的取值范围为21～30，属性4的取值范围为31～40，属性5的取值范围为41～50。且符合预设使用频度的属性为属性1～属性4。可以将维度1～维度4分别划分为5各等长的区间：维度1的等长区间为：[1,2][3,4][5,6][7,8][9,10]，维度2～维度4的划分不再赘述。

步骤三、针对每个维度，根据当前使用该套餐的每个频繁更换套餐用户的所有使用记录，确定该维度对应的每个区间内包含的使用记录个数

其中，m'∈{1,2,...,m}。

进一步地，接续表1的例子，维度1对应的每个区间包含的使用记录数为：4,0,1,0,0；维度2对应的每个区间包含的使用记录数为：2,0,1,1,1；维度3对应的每个区间包含的使用记录数为：1,0,3,0,1；维度4对应的每个区间包含的使用记录数为：0,3,1,1,0。

步骤四、判断该维度是否存在区间

满足

其中，α＝N/m，N表征所述所有使用记录个数。

步骤五、若存在，则将满足

的j个区间确定为该维度对应的j个密集单元，标识为

进一步地，密集单元的定义可以为：若某一个区间所包含的数据点数量大于或等于某一阈值α，将该区间称之为密集单元。

进一步地，接续表1的例子，维度1对应的密集区间为：第一区间和第三区间；维度2对应的密集区间为：第一区间、第三区间、第四区间和第五区间；维度3对应的密集区间为：第一区间、第三区间、第五区间；维度4对应的密集区间为：第二区间、第三区间、第四区间。

步骤六、将j个密集单元中对应区间连续的密集单元合并为一个密集块，得到该维度对应的i个密集块，标识为

其中，i≤j。

进一步地，密集块的定义可以为：若某两个密集单元相邻或者多个密集单元连续相邻，则将它们连接起来，并合并成为一个大的密集单元，对于这个形成的大的密集单元，称之为密集块。记为

d_x表示密集块所处维度；i表示密集块的序号。

表示为密集块长度。

进一步地，接续表1的例子，针对维度1，第一区间和第三区间分别对应第一密集块

和第二密集块

针对维度2，第一区间对应第一密集块

第三区间～第五区间合并成第二密集块

针对维度3，第一区间、第三区间、第五区间分别对应第一密集块

第二密集块

和第三密集块

针对维度4，第二区间、第三区间、第四区间合并为第一密集块

S204、根据该套餐对应的符合预设使用频度的各属性分别对应的密集块，对当前使用该套餐的每个频繁更换套餐用户的使用记录进行初始归类。

进一步地，本步骤可以实施为：

步骤一、针对当前使用该套餐的每个频繁更换套餐用户的每条使用记录，根据得到的密集块将该使用记录标识为a₁a₂,...,a_n，

其中，1,2,...,n表征对应的维度d₁,d₂,...,d_n的编号，若该使用记录的维度d_i落在任一密集块中，则维度d_i对应的标识a_i的值为该密集块的标识，否则，维度d_i对应的标识a_i的值为0；i＝1,2,...,n。

进一步地，接续表1的例子，用户1记录1标识为

用户1记录2标识为

用户2记录1标识为

用户2记录2标识为

用户2记录3标识为

步骤二、将a₁a₂,...,a_n的取值全为0的使用记录确定为孤立点，并确定所述所有使用记录中除孤立点之外的使用记录。

步骤三、将标识a₁a₂,...,a_n完全相同的使用记录确定为同一个数据集合，并通过使用记录的标识a₁a₂,...,a_n对数据集合进行标识，得到一系列数据集合S₁,S₂,...,S_p。

进一步地，接续表1的例子，可以将用户2记录1和用户2记录3合并成一个数据集合，得到4个数据集合：S₁标识为

S₂标识为

S₃标识为

S₄标识为

步骤四、针对得到的每个数据集合，统计该数据集合包括的a₁a₂,...,a_n中为非零值的个数nozero(a₁a₂...a_n)。

进一步地，接续表1的例子，S₁～S₄中包括的a₁a₂,...,a_n中为非零值的个数均为4。

步骤五、将满足nozero(a₁a₂...a_n)＝k的数据集合标识为T₁,T₂,...,T_q，以及将满足nozero(a₁a₂...a_n)≥k的数据集合标识为Q₁,Q₂,...,Q_g，其中，q≤p且g≤p。

进一步地，接续表1的例子，假设k＝2，得到4个数据集合：Q₁标识为

Q₂标识为

Q₃标识为

Q₄标识为

进一步地，还可以针对每个具有相同nozero(a₁a₂...a_n)的数据集合，分别确定该数据集合包括的使用记录的个数；以便后续使用。

S205、基于初始归类得到的使用记录的归类结果，将使用记录进一步进行聚类处理，得到多个聚类集合，使得每个聚类集合对应一个群属性组。

进一步地，本步骤可以具体实施为：

步骤一、构建h个k-维容器C₁,C₂,…,C_h，其中，

且k-维容器C_i的标识为由0和1构成的n个数字，在构成C_i的标识的n个数字中，第i中排列方式对应的k个值所在位置取值为1，其余n-k个位置取值为0；i＝1,2,...,h，n为维度数；首次构建k-维容器时，k的值为随机确定的。

进一步地，k-维容器的定义可以为：在n个维度中，其中k个维度标识为"1"(表示该维度为密集的)，剩余的n-k个维度标识为"0"(表示该维度为稀疏的)。

进一步地，接续表1的例子，假设k＝2，那么，

即构建10个容器，容器的标识可以为5个数字，5个数字中，第i种排列方式对应的2个值取1，其余值取0,10个容器分别为：11000,10100,10010,10001,01100,01010,01001,00110,00101,00011。

步骤二、针对数据集合Q₁,Q₂,...,Q_g中的每个数据集合，将该数据集合在维度上密集块标识a₁a₂,...,a_n与k-维容器标识按位相与，若得到的结果与k-维容器的标识相同，则将该k-维容器确定为与该数据集合对应的k-维容器。

进一步地，接续表1的例子，针对Q₁～Q₄，均可以写入容器11000,10100,10010,01100,01010,01001,00110。

步骤三、根据预设的k-维容器个数阈值ε，当该数据集合对应的k-维容器个数不大于ε时，将该数据集合分别放入对应的k-维容器，否则，从该容器对应的k-维容器中，随机选择ε个k-维容器，并将该数据集合分别放入选择的ε个k-维容器，其中，

步骤四、针对h个k-维容器中的h'个非空k-维容器，分别确定h'个k-维容器中包含的数据集合个数γ₁,γ₂,…,γ_h'，以及包含的使用记录个数υ₁,υ₂,…,υ_h'。

步骤五、针对确定的n个维度中的每个维度，确定该维度对应的使用过该套餐的每个频繁更换套餐用户的所有使用记录中，该维度对应的属性值不为空的使用记录数与所有使用记录数的比值，n个维度得到的n个比值标识为

进一步地，接续表1的例子，针对5个维度，每个维度的比值均为5/5＝100％。

步骤五、将

分别确定为对应维度的权值。

步骤六、针对每个k-维容器，将该k-维容器标识非0位对应的k个维度的权值之和确定为

得到h'个k-维容器分别对应权值

进一步地，接续表1的例子，以容器11000和10100为例，容器11000的2个维度即维度1和维度2的权值之和为100％+100％，容器10100的2个维度即维度1和维度3的权值之和为100％+100％。

步骤七、基于γ₁,γ₂,…,γ_h'、υ₁,υ₂,…,υ_h'和

三组参数，按照最大值最小距离方法从h'个容器C₁,C₂,…，C_h'中将距离最小k-维容器确定为当前最优的k-维容器C_i，其中，i∈{1,2,…,h'}。

进一步地，本步骤中，最大值最小距离方法可以包括：确定γ₁,γ₂,…,γ_h'中的最大值γ_max，υ₁,υ₂,…,υ_h'中的最大值υ_max，以及中的最大值按照公式

确定每组γ_i，υ_i，i∈{1,2,…,h'}与对应最大值的距离，将距离最小的即L值最小的一组γ_i，υ_i，值对应的k-维容器确定为当前最优的k- 维容器C_i。

步骤八、从确定出的当前最优k-维容器C_i包含的数据集合中，确定符合如下预设条件的数据集合：该数据集合的与所在当前最优k-维容器C_i的标识中非0位对应的k个维度的k-维密集块标识相同。

进一步地，接续表1的例子，以容器11000为例，对容器11000为例，容器11000对应的2个维度为维度1和维度2，那么只要至少维度1和维度2的标识不为0的数据集合即可放入容器11000，也就是说，维度1和维度2不为0的集合，维度1、维度2、维度3均不为0的集合等，本步骤中，需要从放入容器11000中的数据集合中确定出仅维度1和维度2的标识相同的集合，对于容器11000来说，Q₁(标识为

)和Q₂(标识为

)为维度1和维度2的标识相同(

和

)的集合，对于容器10100来说，Q₁(标识为

)和Q₃(标识为

)为维度1和维度3的标识相同(

和

)的集合。

步骤九、将k-维密集块标识相同数据集合放入同一个k-维立方块，并将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识。

进一步地，k-维密集立方块可以定义为：若某k-维空间块中的所有数据点的坐标在该k个维度上的坐标都处于相同的密集块中，则称这样的空间块为k-维密集立方块。密集立方块体积为

其中，

为数据点集在k个维度所处密集块的密集块长度。

步骤十、针对每个k-维立方块，记录该k-维立方块中包含的使用记录个数、该k-维立方块空间大小、以及该k-维立方块的密度；其中，该k-维立方块空间大小等参数可以在后续作为贪心算法的输入使用。

步骤十一、若当前得到的所有k-维立方块中未包含所有使用记录，则重复执行如下步骤，直到当前得到的所有k-维立方块中包含了所有使用记录：针对h'个非空k-维容器中除已确定出的当前最优的k-维容器之外的剩余k-维容器，从按照最大值最小距离方法为剩余k-维容器确定的距离中，确定距离最小k-维容器，并将当前距离最小k-维容器确定为当前最优的k-维容器；从确定出的当前最优k-维容器包含的数据集合中，确定符合所述预设条件的数据集合；并将k-维密集块标识相同数据集合放入同一个k-维立方块，将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；

经过上述处理，得到多个k-维立方块D₁,D₂,…,D_w。

进一步地，假设步骤七中确定出的最优k-维容器中未包含所有使用记录，那么可以针对除该最优k-维容器之外的各k-维容器重复执行步骤七至步骤十一，直到多次确定出的最优k-维容器包括了所有使用记录。

步骤十二、针对得到的k-维立方块D₁,D₂,…,D_w中的非空k-维立方块D₁,D₂,…,D_w'，使用贪心算法，将k-维密集块标识所标识的k个维度区间中任意维度区间连续的非空k-维立方块合并，并更新合并后得到的k-维立方块的使用记录个数、该合并后得到的k-维立方块空间大小、以及该合并后得到的k-维立方块的密度。

进一步地，本步骤中，假设两个k-维立方块的k-维密集块标识存在任一相同维度标识均不为0，且该相同维度标识表征的维度区间为连续的区间，则将该两个k-维立方块合并。

步骤十三、将合并后的每个k-维立方块分别作为一个超立方体，得到w″个超立方体D₁,D₂,…,D_w″，其中，w″<w'。

步骤十四、若不满足||J(t+1)-J(t)||>σ，则重复执行如下步骤，直到得到的超立方体满足||J(t+1)-J(t)||>σ：更新k值，且t＝t+1，使用更新的k值，重新构建h个k-维容器C₁,C₂,…,C_h，并执行上述步骤重新得到w″个超立方体D₁,D₂,…,D_w″，

其中，

x_jl表示归属于第i个超立方体的第j条客户记录的第l个属性，

表示第i个超立方体第l维的平均值。

进一步地，本实施例中首次取的k值可以为随机选取的，取的k值是否合理，需要通过本步骤中的条件进行验证，如果不满足||J(t+1)-J(t)||>σ，则说明前面所去的k值不合理，需要对k值进行更新，通常可以更新为k+1，重新执行步骤一构建k-维容器，直到满足||J(t+1)-J(t)||>σ。

步骤十五、针对w″个超立方体D₁,D₂,…,D_w″，将每个超立方体包含的使用记录对应的用户确定为同一个群属性组中的用户，超立方体的k-维密集块标识所标识的维度对应的属性为该超立方体对应群属性组的属性。

图4为本发明实施例提供的群属性组划分过程示意图。如图4所示，(a)为以两个属性(假设横向表征一个属性，纵向表征另一个属性)为参照的原始的用户分布图；(b)为经过区间划分之后的用户分布图；(c)为经过密集块构建之后的用户分布图，图中的每个灰块表征一个密集块；(d)为经过聚合之后最后得到的用户分群的用户分布图，图中每个灰块表征一个客户群。

S206、针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐。

进一步地，本步骤可以具体实施为：

步骤一、针对所有套餐，确定该套餐的稳定套餐使用用户的使用该套餐时的使用记录。

进一步地，稳定套餐使用用户可以为从未更换过该套餐的用户，以及将套餐更换为该套餐之后预设时间内未更换过套餐的用户。

步骤二、针对频繁更换套餐用户当前使用的套餐中的每种套餐的每个群属性组，从所有套餐中确定符合如下条件的套餐：

该套餐的稳定套餐使用用户的预设使用记录中的、与该群属性组的k-维密集块标识所标识的维度对应的属性分别对应的属性值，分别对应属于该群属性组的k-维密集块标识所标识的维度区间。

进一步地，本步骤中，预设使用记录可以为预设时间段内(例如：三个月内)的使用记录，各属性值可以为预设时间段内使用记录的该属性属性值的平均值。针对与某群属性组的k-维密集块标识所标识的维度对应的属性分别对应的属性值，若统计的该套餐的对应属性的属性值均落在该群属性组的k-维密集块标识所标识的维度区间内，则确定该套餐为该群属性组包含的用户候选的套餐。

步骤三、将符合条件的套餐预估为该群属性组的适用套餐。

进一步地，经过上述步骤能够为每个群属性组确定出至少一个候选套餐，预估为该属性组的适用套餐。

步骤四、针对每种预估的适用套餐，确定使用该适用套餐的稳定用户的比例x％、使用该适用套餐后趋于稳定的用户的比例y％。

步骤五、从该适用套餐对应的群属性组中，随机确定预设数量的用户。

进一步地，由于群属性组中包含的用户数量较多，可以随机确定一部分用户，即预设数量的用户进行后续步骤。

步骤六、分别确定步骤五中确定的用户当前使用套餐的各预设业务的平均使用量u_t，其中，t∈[1,r]，r表征预设业务个数_。

进一步地，本步骤中，针对用户当前使用套餐的每种预设业务，确定该业务的平均使用量。

步骤七、根据该适用套餐的预设业务的额定业务量U_t，确定平均使用量与额定业务量之间的相异程度

步骤八、从当前使用该适用套餐的用户中抽样，统计使用该适用套餐的抽样用户套餐平均更换次数b。

步骤九、通过相对差异长度F评估适用套餐与该适用套餐对应的群属性组中的用户的匹配程度：

其中，x_max表征该群属性组对应的所有适用套餐对应的稳定用户比例中的最大值，y_max表征该群属性组对应的所有适用套餐对应的使用该适用套餐后趋于稳定的用户的比例中的最大值，z_min表征随机抽取的用户中分别与所有适用套餐相异程度中的最小值，b_min表示所有适用套餐平均更换次数中的最小值，其中，i为1至该群属性组对应的适用套餐数量；

将F值最小的适用套餐确定为最适合该适用套餐对应的群属性组中用户的最佳套餐。

进一步地，在确定出最佳套餐之后可以通过预设方式(例如：短信等)向用户推荐。

图5为本发明实施例提供的适用套餐确定示意图，如图5所示，本地套餐58元档为某群属性组中的用户当前使用的套餐，外围的商旅套餐58元档、上网套餐58元档、本地套餐88元档、商旅套餐88元档、上网套餐88元档等均为通过本发明实施例提供的一种套餐确定方法确定的该某群属性组中用户的适用套餐，可以从这些外围套餐中确定出F值最小的适用套餐，并确定为最佳套餐。

基于同一发明构思，本发明实施例还提供了一种套餐确定系统，由于这些系统所解决问题的原理与前述套餐确定方法相似，因此该系统的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供的一种套餐确定系统，如图6所示，包括：

频繁更换套餐用户确定模块601，用于根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户；

频繁属性确定模块602，用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定该套餐对应的符合预设使用频度的属性，其中，所述属性包括基本属性以及用户使用该套餐时的消费行为属性；

群属性组确定模块603，用于基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组；

适用套餐确定模块604，用于针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐。

进一步地，所述频繁更换套餐用户确定模块601，具体用于采用如下方式确定预设频率阈值：获取用户自开户以来所使用套餐的更换记录；确定用户自开户以来套餐更换总次数g_s、用户近一年套餐更换次数g_o、用户平均每年套餐更换次数g_e；确定用户自开户以来套餐更换总统计值g＝g_s+g_o+g_e，得到所有用户的套餐更换总统计值集合G＝{g₁,g₂,…,g_A}，其中，A表征用户总数；确定g₁,g₂,…,g_A的平均值

和中值g′；对g₁,g₂,…,g_A进行升序或降序排序，依次计算每两个相邻值之间的差值的绝对值q_i＝|g_i+1-g_i|(1≤i≤A-1)，确定得到的各差值的绝对值中的最大值q_max＝max{q₁,q₂,…,q_A-1}；并确定计算出q_max的g'_i+1和g'_i；将

中的最大值

确定为预设频率阈值；以及将自开户以来所使用套餐的更换频率大于所述预设频率阈值的用户，确定为频繁更换套餐用户。

进一步地，所述频繁属性确定模块602，具体用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：针对该套餐对应的所有属性，将当前使用该套餐的每个频繁更换套餐用户的所有使用记录中，该属性的属性值均为零的属性确定为该套餐对应的稀疏属性；确定该套餐对应的所有属性中除所述稀疏属性之外的该套餐对应的非稀疏属性；根据所述所有使用记录中所述非稀疏属性的各属性值，采用随机森林算法构建多个决策树，构成随机森林；针对每个非稀疏属性，采用如下公式确定该非稀疏属性的频率 frequency(i)：

其中，i表征第i个非稀疏属性，t表征决策树序号，s表征决策树中的节点序号，treeNum表征决策树的数量，nodeNum表征决策树中的节点数量，c(t,s,i)表征权值，当第i个属性为构建的决策树中的根节点时，c(t,s,i)的值为第一权值，当第i个属性为构建的决策树中除根节点之外的其他节点时，c(t,s,i)的值为第二权值，且第一权值大于第二权值，当第i个属性未出现在决策树中时，c(t,s,i)的值为0；按照从大到小的顺序，对确定的各非稀疏属性的频率进行依次累加，直到累加和大于或等于预设百分比则停止累加；将参与了累加的n个非稀疏属性确定为该套餐对应的符合预设使用频度的属性。

进一步地，所述群属性组确定模块603，具体用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：针对确定的该套餐对应的符合预设使用频度的属性中的每个属性，根据该属性的属性值，构建该属性对应的表征属性值分布情况的密集块；根据该套餐对应的符合预设使用频度的各属性分别对应的密集块，对当前使用该套餐的每个频繁更换套餐用户的使用记录进行初始归类；基于初始归类得到的使用记录的归类结果，将所述使用记录进一步进行聚类处理，得到多个聚类集合，使得每个聚类集合对应一个群属性组。

进一步地，所述群属性组确定模块603，具体用于将确定的该套餐对应的符合预设使用频度的n个属性作为n个维度，标识为d₁,d₂,...,d_n；根据每个维度分别对应的属性值取值范围，按照预设划分方式，将每个维度划分成m个等长的区间：

其中，d_x表征维度x且1≤x≤n；针对每个维度，根据当前使用该套餐的每个频繁更换套餐用户的所有使用记录，确定该维度对应的每个区间内包含的使用记录个数

其中，m'∈{1,2,...,m}；判断该维度是否存在区间

满足

其中，α＝N/m，N表征所述所有使用记录个数；若存在，则将满足

的j个区间确定为该维度对应的j个密集单元，标识为

以及将j个密集单元中对应区间连续的密集单元合并为一个密集块，得到该维度对应的i个密集块，标识为

其中，i≤j。

进一步地，所述群属性组确定模块503，具体用于针对当前使用该套餐的每个频繁更换套餐用户的每条使用记录，根据得到的密集块将该使用记录标识为a₁a₂,...,a_n，其中，1,2,...,n表征对应的维度d₁,d₂,...,d_n的编号，若该使用记录的维度d_i落在任一密集块中，则维度d_i对应的标识a_i的值为该密集块的标识，否则，维度d_i对应的标识a_i的值为0；i＝1,2,...,n；将a₁a₂,...,a_n的取值全为0的使用记录确定为孤立点，并确定所述所有使用记录中除孤立点之外的使用记录；将标识a₁a₂,...,a_n完全相同的使用记录确定为同一个数据集合，并通过使用记录的标识a₁a₂,...,a_n对数据集合进行标识，得到一系列数据集合S₁,S₂,...,S_p；针对得到的每个数据集合，统计该数据集合包括的a₁a₂,...,a_n中为非零值的个数nozero(a₁a₂...a_n)；将满足nozero(a₁a₂...a_n)≥k的数据集合标识为Q₁,Q₂,...,Q_g，其中，g≤p。

进一步地，所述群属性组确定模块603，具体用于构建h个k-维容器C₁,C₂,…,C_h，其中，

且k-维容器C_i的标识为由0和1构成的n个数字，在构成C_i的标识的n个数字中，第i中排列方式对应的k个值所在位置取值为1，其余n-k个位置取值为0；i＝1,2,...,h，n为维度数；首次构建k-维容器时，k的值为随机确定的；针对数据集合Q₁,Q₂,...,Q_g中的每个数据集合，将该数据集合在维度上密集块标识a₁a₂,...,a_n与k-维容器标识按位相与，若得到的结果与k-维容器的标识相同，则将该k-维容器确定为与该数据集合对应的k-维容器；根据预设的k-维容器个数阈值ε，当该数据集合对应的k-维容器个数不大于ε时，将该数据集合分别放入对应的k-维容器，否则，从该容器对应的k-维容器中，随机选择ε个k-维容器，并将该数据集合分别放入选择的ε个k-维容器，其中，

针对h个k-维容器中的h'个非空k-维容器，分别确定h'个k-维容器中包含的数据集合个数γ₁,γ₂,…,γ_h'，以及包含的使用记录个数υ₁,υ₂,…,υ_h'；针对确定的n个维度中的每个维度，确定该维度对应的使用过该套餐的每个频繁更换套餐用户的所有使用记录中，该维度对应的属性值不为空的使用记录数与所有使用记录数的比值，n个维度得到的n个比值标识为

将

分别确定为对应维度的权值；针对每个k-维容器，将该k-维容器标识非0位对应的k个维度的权值之和确定为

得到h'个k-维容器分别对应权值

基于γ₁,γ₂,…,γ_h'、υ₁,υ₂,…,υ_h'和

三组参数，按照最大值最小距离方法从h'个容器C₁,C₂,…,C_h'中将距离最小k-维容器确定为当前最优的k-维容器C_i，其中，i∈{1,2,…,h'}；从确定出的当前最优k-维容器C_i包含的数据集合中，确定符合如下预设条件的数据集合：该数据集合的与所在当前最优k-维容器C_i的标识中非0位对应的k个维度的k-维密集块标识相同；将k-维密集块标识相同数据集合放入同一个k-维立方块，并将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；针对每个k-维立方块，记录该k-维立方块中包含的使用记录个数、该k-维立方块空间大小、以及该k-维立方块的密度；若当前得到的所有k-维立方块中未包含所有使用记录，则重复执行如下步骤，直到当前得到的所有k-维立方块中包含了所有使用记录：针对h'个非空k-维容器中除已确定出的当前最优的k-维容器之外的剩余k-维容器，从按照最大值最小距离方法为剩余k-维容器确定的距离中，确定距离最小k-维容器，并将当前距离最小k-维容器确定为当前最优的k-维容器；从确定出的当前最优k-维容器包含的数据集合中，确定符合所述预设条件的数据集合；并将k-维密集块标识相同数据集合放入同一个k-维立方块，将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；经过上述处理，得到多个k-维立方块D₁,D₂,…,D_w；针对得到的k-维立方块D₁,D₂,…,D_w中的非空k-维立方块D₁,D₂,…,D_w'，使用贪心算法，将k-维密集块标识所标识的k个维度区间中任意维度区间连续的非空k-维立方块合并，并更新合并后得到的k-维立方块的使用记录个数、该合并后得到的k-维立方块空间大小、以及该合并后得到的k-维立方块的密度；将合并后的每个k-维立方块分别作为一个超立方体，得到w″个超立方体D₁,D₂,…,D_w″，其中，w″<w'；若不满足||J(t+1)-J(t)||>σ，则重复执行如下步骤，直到得到的超立方体满足||J(t+1)-J(t)||>σ：更新k值，且t＝t+1，使用更新的k值，重新构建h个k-维容器C₁,C₂,…,C_h，并执行上述步骤重新得到w″个超立方体D₁,D₂,…,D_w″，其中，

x_jl表示归属于第i个超立方体的第j条客户记录的第l个属性，

表示第i个超立方体第l维的平均值；针对w″个超立方体D₁,D₂,…,D_w″，将每个超立方体包含的使用记录对应的用户确定为同一个群属性组中的用户，超立方体的k-维密集块标识所标识的维度对应的属性为该超立方体对应群属性组的属性。

进一步地，所述适用套餐确定模块604，具体用于针对所有套餐，确定该套餐的稳定套餐使用用户的使用该套餐时的使用记录；针对所述频繁更换套餐用户当前使用的套餐中的每种套餐的每个群属性组，从所有套餐中确定符合如下条件的套餐：该套餐的稳定套餐使用用户的预设使用记录中的、与该群属性组的k-维密集块标识所标识的维度对应的属性分别对应的属性值，分别对应属于该群属性组的k-维密集块标识所标识的维度区间；将符合条件的套餐预估为该群属性组的适用套餐；针对每种预估的适用套餐，确定使用该适用套餐的稳定用户的比例x％、使用该适用套餐后趋于稳定的用户的比例y％；以及从该适用套餐对应的群属性组中，随机确定预设数量的用户；分别确定所述用户当前使用套餐的各预设业务的平均使用量u_t，其中，t∈[1,r]，r表征预设业务个数；根据该适用套餐的所述预设业务的额定业务量U_t，确定所述平均使用量与额定业务量之间的相异程度从当前使用该适用套餐的用户中抽样，统计使用该适用套餐的抽样用户套餐平均更换次数b；通过相对差异长度F评估适用套餐与该适用套餐对应的群属性组中的用户的匹配程度：

其中，x_max表征该群属性组对应的所有适用套餐对应的稳定用户比例中的最大值，y_max表征该群属性组对应的所有适用套餐对应的使用该适用套餐后趋于稳定的用户的比例中的最大值，z_min表征随机抽取的用户中分别与所有适用套餐相异程度中的最小值，b_min表示所有适用套餐平均更换次数中的最小值，其中，i为1至该群属性组对应的适用套餐数量；将F值最小的适用套餐确定为最适合该适用套餐对应的群属性组中用户的最佳套餐。

上述各单元的功能可对应于图1至图2所示流程中的相应处理步骤，在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种套餐确定方法，其特征在于，包括：

针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐；

其中，基于确定的该套餐对应的符合预设使用频度的属性的属性值，按照预设类似属性确定方式，确定由属性类似的用户群构成的该套餐对应的群属性组，具体包括：

针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：针对确定的该套餐对应的符合预设使用频度的属性中的每个属性，根据该属性的属性值，构建该属性对应的表征属性值分布情况的密集块；根据该套餐对应的符合预设使用频度的各属性分别对应的密集块，对当前使用该套餐的每个频繁更换套餐用户的使用记录进行初始归类；基于初始归类得到的使用记录的归类结果，将所述使用记录进一步进行聚类处理，得到多个聚类集合，使得每个聚类集合对应一个群属性组。

2.如权利要求1所述的方法，其特征在于，采用如下方式确定预设频率阈值：

获取用户自开户以来所使用套餐的更换记录；

确定用户自开户以来套餐更换总次数g_s、用户近一年套餐更换次数g_o、用户平均每年套餐更换次数g_e；

确定用户自开户以来套餐更换总统计值g＝g_s+g_o+g_e，得到所有用户的套餐更换总统计值集合G＝{g₁,g₂,…,g_A}，其中，A表征用户总数；

确定g₁,g₂,…,g_A的平均值

和中值g′；

对g₁,g₂,…,g_A进行升序或降序排序，依次计算每两个相邻值之间的差值的绝对值q_i＝g_i+1-g_i(1≤i≤A-1)，确定得到的各差值的绝对值中的最大值q_max＝max{q₁,q₂,…,q_A-1}，其中，i表示用户序号，g_i为第i个用户的套餐更换总统计值，g_i+1为第i+1个用户的套餐更换总统计值；并

确定计算出q_max的g'_i+1和g'_i；

将g'_i+1,g'_i,

g′中的最大值

确定为预设频率阈值；

根据用户自开户以来所使用套餐的更换频率，以及预设频率阈值，确定频繁更换套餐用户，具体包括：

将自开户以来所使用套餐的更换频率大于所述预设频率阈值的用户，确定为频繁更换套餐用户。

3.如权利要求1所述的方法，其特征在于，针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，根据当前使用该套餐的每个频繁更换套餐用户在每个预设时间段内的使用记录，从用户的属性中确定符合预设使用频度的属性，具体包括：

针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：

针对该套餐对应的所有属性，将当前使用该套餐的每个频繁更换套餐用户的所有使用记录中，该属性的属性值均为零的属性确定为该套餐对应的稀疏属性；

确定该套餐对应的所有属性中除所述稀疏属性之外的该套餐对应的非稀疏属性；

根据所述所有使用记录中所述非稀疏属性的各属性值，采用随机森林算法构建多个决策树，构成随机森林；

针对每个非稀疏属性，采用如下公式确定该非稀疏属性的频率frequency(i)：

其中，i表征第i个非稀疏属性，t表征决策树序号，s表征决策树中的节点序号，treeNum表征决策树的数量，nodeNum表征决策树中的节点数量，c(t,s,i)表征权值，当第i个属性为构建的决策树中的根节点时，c(t,s,i)的值为第一权值，当第i个属性为构建的决策树中除根节点之外的其他节点时，c(t,s,i)的值为第二权值，且第一权值大于第二权值，当第i个属性未出现在决策树中时，c(t,s,i)的值为0；

按照从大到小的顺序，对确定的各非稀疏属性的频率进行依次累加，直到累加和大于或等于预设百分比则停止累加；

将参与了累加的n个非稀疏属性确定为该套餐对应的符合预设使用频度的属性。

4.如权利要求1所述的方法，其特征在于，构建密集块，具体包括：

将确定的该套餐对应的符合预设使用频度的n个属性作为n个维度，标识为d₁,d₂,...,d_n；

根据每个维度分别对应的属性值取值范围，按照预设划分方式，将每个维度划分成m个等长的区间：

其中，d_x表征维度x且1≤x≤n；

针对每个维度，根据当前使用该套餐的每个频繁更换套餐用户的所有使用记录，确定该维度对应的每个区间内包含的使用记录个数

其中，m'∈{1,2,...,m}；

判断该维度是否存在区间

满足

其中，α＝N/m，N表征所述所有使用记录个数；

若存在，则将满足

的j个区间确定为该维度对应的j个密集单元，标识为

以及

将j个密集单元中对应区间连续的密集单元合并为一个密集块，得到该维度对应的i个密集块，标识为

其中，i≤j。

5.如权利要求4所述的方法，其特征在于，根据该套餐对应的符合预设使用频度的各属性分别对应的密集块，对当前使用该套餐的每个频繁更换套餐用户的使用记录进行初始归类，具体包括：

针对当前使用该套餐的每个频繁更换套餐用户的每条使用记录，根据得到的密集块将该使用记录标识为a₁a₂,...,a_n，

其中，1,2,...,n表征对应的维度d₁,d₂,...,d_n的编号，若该使用记录的维度d_i落在任一密集块中，则维度d_i对应的标识a_i的值为该密集块的标识，否则，维度d_i对应的标识a_i的值为0；i＝1,2,...,n；

将a₁a₂,...,a_n的取值全为0的使用记录确定为孤立点，并确定所述所有使用记录中除孤立点之外的使用记录；

将标识a₁a₂,...,a_n完全相同的使用记录确定为同一个数据集合，并通过使用记录的标识a₁a₂,...,a_n对数据集合进行标识，得到一系列数据集合S₁,S₂,...,S_p；

针对得到的每个数据集合，统计该数据集合包括的a₁a₂,...,a_n中为非零值的个数nozero(a₁a₂...a_n)；

将满足nozero(a₁a₂...a_n)≥k的数据集合标识为Q₁,Q₂,...,Q_g，其中，k为维度区间的数量，g≤p。

6.如权利要求5所述的方法，其特征在于，基于初始归类得到的使用记录的归类结果，将所述使用记录进一步进行聚类处理，得到多个聚类集合，使得每个聚类集合对应一个群属性组，具体包括：

构建h个k-维容器C₁,C₂,…,C_h，其中，

且k-维容器C_i的标识为由0和1构成的n个数字，在构成C_i的标识的n个数字中，第i中排列方式对应的k个值所在位置取值为1，其余n-k个位置取值为0；i＝1,2,...,h，n为维度数；首次构建k-维容器时，k的值为随机确定的；

针对数据集合Q₁,Q₂,...,Q_g中的每个数据集合，将该数据集合在维度上密集块标识a₁a₂,...,a_n与k-维容器标识按位相与，若得到的结果与k-维容器的标识相同，则将该k-维容器确定为与该数据集合对应的k-维容器；

根据预设的k-维容器个数阈值ε，当该数据集合对应的k-维容器个数不大于ε时，将该数据集合分别放入对应的k-维容器，否则，从该容器对应的k-维容器中，随机选择ε个k-维容器，并将该数据集合分别放入选择的ε个k-维容器，其中，

针对h个k-维容器中的h'个非空k-维容器，分别确定h'个k-维容器中包含的数据集合个数γ₁,γ₂,…,γ_h'，以及包含的使用记录个数υ₁,υ₂,…,υ_h'；

针对确定的n个维度中的每个维度，确定该维度对应的使用过该套餐的每个频繁更换套餐用户的所有使用记录中，该维度对应的属性值不为空的使用记录数与所有使用记录数的比值，n个维度得到的n个比值标识为

将

分别确定为对应维度的权值；

针对每个k-维容器，将该k-维容器标识非0位对应的k个维度的权值之和确定为

得到h'个k-维容器分别对应权值

基于γ₁,γ₂,…,γ_h'、υ₁,υ₂,…,υ_h'和

三组参数，按照最大值最小距离方法从h'个容器C₁,C₂,…,C_h'中将距离最小k-维容器确定为当前最优的k-维容器C_i，其中，i∈{1,2,…,h'}；

从确定出的当前最优k-维容器C_i包含的数据集合中，确定符合如下预设条件的数据集合：该数据集合的与所在当前最优k-维容器C_i的标识中非0位对应的k个维度的k-维密集块标识相同；

将k-维密集块标识相同数据集合放入同一个k-维立方块，并将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；

针对每个k-维立方块，记录该k-维立方块中包含的使用记录个数、该k-维立方块空间大小、以及该k-维立方块的密度；

若当前得到的所有k-维立方块中未包含所有使用记录，则重复执行如下步骤，直到当前得到的所有k-维立方块中包含了所有使用记录：针对h'个非空k-维容器中除已确定出的当前最优的k-维容器之外的剩余k-维容器，从按照最大值最小距离方法为剩余k-维容器确定的距离中，确定距离最小k-维容器，并将当前距离最小k-维容器确定为当前最优的k-维容器；从确定出的当前最优k-维容器包含的数据集合中，确定符合所述预设条件的数据集合；并将k-维密集块标识相同数据集合放入同一个k-维立方块，将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；

经过上述处理，得到多个k-维立方块D₁,D₂,…,D_w；

针对得到的k-维立方块D₁,D₂,…,D_w中的非空k-维立方块D₁,D₂,…,D_w'，使用贪心算法，将k-维密集块标识所标识的k个维度区间中任意维度区间连续的非空k-维立方块合并，并更新合并后得到的k-维立方块的使用记录个数、该合并后得到的k-维立方块空间大小、以及该合并后得到的k-维立方块的密度；

将合并后的每个k-维立方块分别作为一个超立方体，得到w”个超立方体D₁,D₂,…,D_w”，其中，w”<w'；

若不满足||J(t+1)-J(t)||＞σ，则重复执行如下步骤，直到得到的超立方体满足||J(t+1)-J(t)||＞σ：更新k＝k+1，且t＝t+1，使用更新的k值，重新构建h个k-维容器C₁,C₂,…,C_h，并执行上述步骤重新得到w”个超立方体D₁,D₂,…,D_w”，

其中，

x_jl表示归属于第i个超立方体的第j条客户记录的第l个属性，

表示第i个超立方体第l维的平均值，σ为参数；

针对w”个超立方体D₁,D₂,…,D_w”，将每个超立方体包含的使用记录对应的用户确定为同一个群属性组中的用户，超立方体的k-维密集块标识所标识的维度对应的属性为该超立方体对应群属性组的属性。

7.如权利要求6所述的方法，其特征在于，针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐，具体包括：

针对所有套餐，确定该套餐的稳定套餐使用用户的使用该套餐时的使用记录；

针对所述频繁更换套餐用户当前使用的套餐中的每种套餐的每个群属性组，从所有套餐中确定符合如下条件的套餐：

该套餐的稳定套餐使用用户的预设使用记录中的、与该群属性组的k-维密集块标识所标识的维度对应的属性分别对应的属性值，分别对应属于该群属性组的k-维密集块标识所标识的维度区间；

将符合条件的套餐预估为该群属性组的适用套餐；

针对每种预估的适用套餐，确定使用该适用套餐的稳定用户的比例x％、使用该适用套餐后趋于稳定的用户的比例y％；以及

从该适用套餐对应的群属性组中，随机确定预设数量的用户；

分别确定所述用户当前使用套餐的各预设业务的平均使用量u_t，其中，t∈[1,r]，r表征预设业务个数；

根据该适用套餐的所述预设业务的额定业务量U_t，确定所述平均使用量与额定业务量之间的相异程度

从当前使用该适用套餐的用户中抽样，统计使用该适用套餐的抽样用户套餐平均更换次数b；

通过相对差异长度F评估适用套餐与该适用套餐对应的群属性组中的用户的匹配程度：

8.一种套餐确定系统，其特征在于，包括：

适用套餐确定模块，用于针对该套餐对应的每个群属性组，将该群属性组中用户具有的类似属性的属性值与稳定套餐使用用户所使用套餐的使用记录中的对应属性的属性值作比对，根据比对结果确定该套餐对应的该群属性组中用户适用的套餐；

所述群属性组确定模块，具体用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：针对确定的该套餐对应的符合预设使用频度的属性中的每个属性，根据该属性的属性值，构建该属性对应的表征属性值分布情况的密集块；根据该套餐对应的符合预设使用频度的各属性分别对应的密集块，对当前使用该套餐的每个频繁更换套餐用户的使用记录进行初始归类；基于初始归类得到的使用记录的归类结果，将所述使用记录进一步进行聚类处理，得到多个聚类集合，使得每个聚类集合对应一个群属性组。

9.如权利要求8所述的系统，其特征在于，所述频繁更换套餐用户确定模块，具体用于采用如下方式确定预设频率阈值：获取用户自开户以来所使用套餐的更换记录；确定用户自开户以来套餐更换总次数g_s、用户近一年套餐更换次数g_o、用户平均每年套餐更换次数g_e；确定用户自开户以来套餐更换总统计值g＝g_s+g_o+g_e，得到所有用户的套餐更换总统计值集合G＝{g₁,g₂,…,g_A}，其中，A表征用户总数；确定g₁,g₂,…,g_A的平均值

和中值g′；对g₁,g₂,…,g_A进行升序或降序排序，依次计算每两个相邻值之间的差值的绝对值q_i＝|g_i+1-g_i|(1≤i≤A-1)，确定得到的各差值的绝对值中的最大值q_max＝max{q₁,q₂,…,q_A-1}，，其中，i表示用户序号，g_i为第i个用户的套餐更换总统计值，g_i+1为第i+1个用户的套餐更换总统计值；并确定计算出q_max的g'_i+1和g'_i；将g'_i+1,g'_i,

g′中的最大值

10.如权利要求8所述的系统，其特征在于，所述频繁属性确定模块，具体用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：针对该套餐对应的所有属性，将当前使用该套餐的每个频繁更换套餐用户的所有使用记录中，该属性的属性值均为零的属性确定为该套餐对应的稀疏属性；确定该套餐对应的所有属性中除所述稀疏属性之外的该套餐对应的非稀疏属性；根据所述所有使用记录中所述非稀疏属性的各属性值，采用随机森林算法构建多个决策树，构成随机森林；针对每个非稀疏属性，采用如下公式确定该非稀疏属性的频率frequency(i)：

11.如权利要求8所述的系统，其特征在于，所述群属性组确定模块，具体用于针对所述频繁更换套餐用户当前使用的套餐中的每种套餐，执行如下操作：针对确定的该套餐对应的符合预设使用频度的属性中的每个属性，根据该属性的属性值，构建该属性对应的表征属性值分布情况的密集块；根据该套餐对应的符合预设使用频度的各属性分别对应的密集块，对当前使用该套餐的每个频繁更换套餐用户的使用记录进行初始归类；基于初始归类得到的使用记录的归类结果，将所述使用记录进一步进行聚类处理，得到多个聚类集合，使得每个聚类集合对应一个群属性组。

12.如权利要求11所述的系统，其特征在于，所述群属性组确定模块，具体用于将确定的该套餐对应的符合预设使用频度的n个属性作为n个维度，标识为d₁,d₂,...,d_n；根据每个维度分别对应的属性值取值范围，按照预设划分方式，将每个维度划分成m个等长的区间：

其中，m'∈{1,2,...,m}；判断该维度是否存在区间

满足

的j个区间确定为该维度对应的j个密集单元，标识为

其中，i≤j。

13.如权利要求8所述的系统，其特征在于，所述群属性组确定模块，具体用于构建h个k-维容器C₁,C₂,…,C_h，其中，

将

得到h'个k-维容器分别对应权值

基于γ₁,γ₂,…,γ_h'、υ₁,υ₂,…,υ_h'和

三组参数，按照最大值最小距离方法从h'个容器C₁,C₂,…,C_h'中将距离最小k-维容器确定为当前最优的k-维容器C_i，其中，i∈{1,2,…,h'}；从确定出的当前最优k-维容器C_i包含的数据集合中，确定符合如下预设条件的数据集合：该数据集合的与所在当前最优k-维容器C_i的标识中非0位对应的k个维度的k-维密集块标识相同；将k-维密集块标识相同数据集合放入同一个k-维立方块，并将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；针对每个k-维立方块，记录该k-维立方块中包含的使用记录个数、该k-维立方块空间大小、以及该k-维立方块的密度；若当前得到的所有k-维立方块中未包含所有使用记录，则重复执行如下步骤，直到当前得到的所有k-维立方块中包含了所有使用记录：针对h'个非空k-维容器中除已确定出的当前最优的k-维容器之外的剩余k-维容器，从按照最大值最小距离方法为剩余k-维容器确定的距离中，确定距离最小k-维容器，并将当前距离最小k-维容器确定为当前最优的k-维容器；从确定出的当前最优k-维容器包含的数据集合中，确定符合所述预设条件的数据集合；并将k-维密集块标识相同数据集合放入同一个k-维立方块，将该k-维立方块中数据集合的k-维密集块标识作为该k-维立方块的标识；经过上述处理，得到多个k-维立方块D₁,D₂,…,D_w；

针对得到的k-维立方块D₁,D₂,…,D_w中的非空k-维立方块D₁,D₂,…,D_w'，使用贪心算法，将k-维密集块标识所标识的k个维度区间中任意维度区间连续的非空k-维立方块合并，并更新合并后得到的k-维立方块的使用记录个数、该合并后得到的k-维立方块空间大小、以及该合并后得到的k-维立方块的密度；将合并后的每个k-维立方块分别作为一个超立方体，得到w”个超立方体D₁,D₂,…,D_w”，其中，w”<w'；若不满足||J(t+1)-J(t)||＞σ，则重复执行如下步骤，直到得到的超立方体满足||J(t+1)-J(t)||＞σ：更新k＝k+1，且t＝t+1，使用更新的k值，重新构建h个k-维容器C₁,C₂,…,C_h，并执行上述步骤重新得到w”个超立方体D₁,D₂,…,D_w”，其中，

x_jl表示归属于第i个超立方体的第j条客户记录的第l个属性，

表示第i个超立方体第l维的平均值，σ为参数；针对w”个超立方体D₁,D₂,…,D_w”，将每个超立方体包含的使用记录对应的用户确定为同一个群属性组中的用户，超立方体的k-维密集块标识所标识的维度对应的属性为该超立方体对应群属性组的属性。

14.如权利要求13所述的系统，其特征在于，所述适用套餐确定模块，具体用于针对所有套餐，确定该套餐的稳定套餐使用用户的使用该套餐时的使用记录；针对所述频繁更换套餐用户当前使用的套餐中的每种套餐的每个群属性组，从所有套餐中确定符合如下条件的套餐：该套餐的稳定套餐使用用户的预设使用记录中的、与该群属性组的k-维密集块标识所标识的维度对应的属性分别对应的属性值，分别对应属于该群属性组的k-维密集块标识所标识的维度区间；将符合条件的套餐预估为该群属性组的适用套餐；针对每种预估的适用套餐，确定使用该适用套餐的稳定用户的比例x％、使用该适用套餐后趋于稳定的用户的比例y％；以及从该适用套餐对应的群属性组中，随机确定预设数量的用户；分别确定所述用户当前使用套餐的各预设业务的平均使用量u_t，其中，t∈[1,r]，r表征预设业务个数；根据该适用套餐的所述预设业务的额定业务量U_t，确定所述平均使用量与额定业务量之间的相异程度

从当前使用该适用套餐的用户中抽样，统计使用该适用套餐的抽样用户套餐平均更换次数b；通过相对差异长度F评估适用套餐与该适用套餐对应的群属性组中的用户的匹配程度：