CN103793513B

CN103793513B - 基于邻近海量数据快速分析的电信套餐优化系统与方法

Info

Publication number: CN103793513B
Application number: CN201410046626.6A
Authority: CN
Inventors: 王琳; 杨波
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2014-02-10
Filing date: 2014-02-10
Publication date: 2017-04-05
Anticipated expiration: 2034-02-10
Also published as: CN103793513A

Abstract

本发明公开了基于邻近海量数据快速分析的电信套餐优化系统与方法，系统包括参数输入模块，参数输入模块将参数信息分别传输给数据生成模块和套餐优化模块，数据生成模块将数据传输给套餐优化模块，参数输入模块和数据生成模块均从客户信息数据库中提取数据；套餐优化模块用于根据参考历史数据、目标历史数据以及参数设置进行套餐优化；所述进化算法模块用于根据适应值不断产生新的可行套餐并对套餐进行优化；所述套餐适应值评估模块采用基于邻近数据的快速分析法，用于评价每一款可行套餐的好坏；所述相似度计算模块用于度量两个向量之间的向量相似度。本发明能够实现对海量电信数据的自动化高速处理，得到与目标用户群体需求高度匹配的套餐方案。

Description

基于邻近海量数据快速分析的电信套餐优化系统与方法

技术领域

本发明涉及电信技术以及数据挖掘领域，具体的讲，涉及基于邻近海量数据快速分析的电信套餐优化系统与方法。

背景技术

电信行业在国民经济中占有重要地位，并且渗透到人们生活的方方面面。一方面，电信运营商在推出新业务套餐时，不同的用户群体具有不同的需求，导致用户需求的多样性和复杂性。另一方面，由于电信运营商的高渗透率以及信息交换与采集的高频繁度，其拥有的数据量极为庞大。电信运营商拥有海量的用户数据、信令数据、日志数据、流量数据、位置数据等。因此，急需一种自动化的优化设计技术，使得可以根据已有的海量数据，针对目标用户群生成具有针对性的可靠的套餐组合。

然而，由于电信数据的数据量庞大、数据关系复杂、数据属性多样化，数据之间的隐含关系难以通过常规技术发现。此外，海量数据带来的严重弊端是，其建模与仿真的时间复杂度较高，运算时间很长，在有限的时间内难以得到令人满意的结果。目前基于复杂算法的建模方法因其高时间复杂度，难以被直接应用到套餐优化；而人工分析法、基于线性回归法与指数平滑法等简单模型得到的结果则与用户群体需求的匹配度不高。

因此，需要解决的问题是如何对海量电信数据进行快速分析处理，才能最短的时间内实现套餐的优化设计，并得到与目标用户群体需求高度匹配的可靠的套餐方案。

发明内容

本发明的目的就是为了解决上述问题，提供一种基于邻近海量数据快速分析的电信套餐优化系统与方法，它具有能够实现对海量电信数据的自动化高速处理，得到与目标用户群体需求高度匹配的套餐方案，避免因采用复杂模型来建模海量数据所引起的高时间复杂度难题，并提高优化结果的可靠性优点。

为了实现上述目的，本发明采用如下技术方案：

基于邻近海量数据快速分析的电信套餐优化系统，包括

参数输入模块，所述参数输入模块将参数信息分别传输给数据生成模块和套餐优化模块，所述数据生成模块将数据传输给套餐优化模块，所述参数输入模块和数据生成模块均从数据库中提取数据；

所述参数输入模块用于接收、存储及传输使用者输入的参数；

所述数据生成模块用于生成进行套餐优化所必需的参考历史数据和目标历史数据；

所述套餐优化模块用于根据参考历史数据、目标历史数据以及参数设置进行套餐优化；

所述套餐优化模块包括彼此通信的进化算法模块和套餐适应值评估模块，所述套餐适应值评估模块内包括相似度计算模块；

所述进化算法模块用于根据适应值不断产生新的可行套餐并对套餐进行优化；

所述套餐适应值评估模块用于评价每一款可行套餐的好坏；所述套餐适应值评估模块采用基于邻近数据的快速分析法，通过向量相似度测量筛选参考用户来预测目标用户接收可行套餐的概率，从而实现对用户套餐选择概率的快速分析；

所述相似度计算模块用于度量两个向量之间的向量相似度。

所述参数输入模块包括目标用户选择模块、数据参数输入模块和算法参数输入模块；

所述目标用户选择模块用于接收、存储及传输系统使用者从数据库中选择的代表性目标用户；

所述数据参数输入模块，用于接受、存储及传输系统使用者设置的时间长度及数据大小；

所述算法参数输入模块，用于接受、存储及传输系统使用者设置的进化算法参数及套餐。

所述数据生成模块包括参考历史数据生成模块、目标历史数据生成模块和特征向量提取模块。

所述参考历史数据生成模块用于接收参数输入模块传输来的参数，生成并传输参考历史数据。

所述目标历史数据生成模块用于接收参数输入模块传输来的参数，生成并传输目标历史数据。

所述特征向量提取模块，接收参考历史数据生成模块和目标历史数据生成模块的数据，用于从客户信息数据库中提取特征向量。

所述参数输入模块允许是计算机、手机、平板电脑和掌上上网设备。

所述数据库中存储有用户数据信息、套餐数据信息。

基于邻近海量数据快速分析的电信套餐优化系统的工作方法，包括如下步骤：

步骤（1）：通过输入设备输入数据参数和算法参数，根据目标用户群体选定代表性目标用户、设定套餐的搜索范围、设定时间长度、设定参考数据大小、设定进化算法的计算参数；所述输入设备包括计算机、手机、平板电脑和掌上上网设备；

步骤（2）：根据步骤（1）中选定的代表性目标用户，计算机以应用时间点之前设定时间长度内的用户数据及其对应的套餐数据形成原始目标数据；计算机进一步针对原始目标数据，提取每个用户特征向量，形成目标历史数据；

步骤（3）：根据步骤（1）中设定的参考数据大小，计算机随机地从整个数据库范围内提取距离应用时间点之前设定时间长度内的用户数据及其对应的套餐数据作为参考，形成原始参考数据；计算机进一步针对原始参考数据，提取每个用户特征向量，形成参考历史数据；

步骤（4）：第一步，计算机首先对进化算法的种群进行初始化；第二步，对当前种群中的所有个体执行适应值评估来评价每一款可行套餐的好坏，其中采用相似度测量发现邻近数据来预测用户接收可行套餐的概率并据此进一步计算可行套餐的适应值；第三步，基于得到的适应值，根据进化算法中的种群更新策略对种群进行更新；第四步，返回第二步继续执行，直到寻找到一款使得适应值针对目标用户群体达到最大值的套餐方案。

所述步骤（1）所提及的套餐搜索范围包括套餐配置中各个项的期望范围、及套餐资费的期望范围。

所述步骤（2）和步骤（3）所提及的用户特征向量均由用户月度通信习惯、用户月度消费、用户所用套餐配置、用户所用套餐资费组成；

所述用户月度通信习惯是用户按月统计的特征，包括用户月均通话时长、用户月均短信数目、用户月均上网流量；

所述用户所用套餐配置特征为套餐中包含的各个项的配置情况，包括月通话时长、月短信数目、月上网流量。

所述步骤（2）和步骤（3）的各特征向量在提取时需进行标准化。

所述步骤（1）和步骤（4）的进化算法包括进化计算家族的各种优化算法，包括遗传算法、粒子群算法、分布式估计算法等。

所述步骤（4）包括如下步骤：

步骤A1：随机初始化进化算法的种群，种群中每一个体对应一个可行套餐；

步骤A2：计算每一个可行套餐的适应值；

步骤A3：根据当前采用的进化算法中的种群更新策略重新生成新的可行套餐种群；

步骤A4：若满足结束条件则退出并输出最优套餐方案；否则返回步骤A2；

所述步骤A2包括如下步骤：

步骤B1：针对每一个目标用户，执行下述步骤：

B1.1：计算参考数据中通信习惯、月度消费形成的向量和该目标用户的通信习惯、月度消费形成的向量之间的向量相似度；筛选出相似度优于设定阈值的参考用户记录，并记录下筛选后的参考用户的记录数M；

B1.2：计算筛选后数据中所有所用套餐配置、所用套餐资费形成的向量与当前可行套餐的套餐配置、套餐资费形成的向量之间的向量相似度；从M条记录范围中筛选出相似度优于设定阈值的参考用户记录，记录筛选后的记录数N；

B1.3：计算N/M作为该目标用户使用该可行套餐的概率P。

步骤B2：汇总每个目标用户使用该可行套餐的概率。将每个目标用户使用该款套餐的概率乘以每个目标用户的月均花费C，然后针对所有目标用户进行求和，得到并返回该可行套餐的适应值。设目标用户数为TDN，则适应值计算公式如下：

其中，P_i代表第i个目标用户选择该可行套餐的概率，C_i代表第i个目标用户的月均花费，TDN代表目标用户数，Fitness代表适应值。

所述步骤B1.1和B1.2中所提及的向量相似度包括各种向量相似度的测量方法：向量距离、Jaccard系数、余弦相似度等。

本发明的有益效果：

1、本发明通过凝练特征向量、限定时间范围，并将数据进一步划分为目标数据和参考数据，实现了对原有复杂的海量数据的细分与约减，增强了优化套餐的针对性；

2、本发明采用进化计算方法直接基于已有数据进行运算，不需要考虑有参的数学模型，也不需要人工参与，避免了复杂的参数估计与模型误差，也避免了决策者的主观经验的影响，提高了套餐优化结果的可靠性；

3、本发明只对用户的邻近数据进行分析，采用向量相似度测量筛选参考用户来预测目标用户接收可行套餐的概率，从而实现了对用户套餐选择概率的快速分析，避免了海量数据分析带来的高时间复杂度，提高了运算速度，减少了运行时间，使得系统可以在较短时间内优化出高度匹配目标用户群体的套餐方案。

附图说明

图1为本发明所提出装置的模块构造与关系图；

图2为本发明所采用的主要方法的流程图；

图3为本发明中计算可行套餐适应值的流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

基于GPU与邻近海量数据快速分析的电信套餐优化系统的工作方法，包括如下步骤：

所述步骤（4）的进化算法中涉及的各种向量相似度的测量方法，包括向量距离、Jaccard系数、余弦相似度等。

结合图1、图2、图3与三个具体实施例，说明本发明的具体实施步骤：

基于粒子群算法和余弦相似度测量方法的具体实施例一

（1）使用者输入相关参数

步骤（101）：使用者针对目标用户群体，从客户信息数据库中选择出代表性目标用户1000人。

步骤（102）：设定期望套餐包含通话时长范围在100分钟至200分钟之间，包含短信范围在50条至100条之间，包含流量范围在10M至20M之间，套餐资费标准在30元至40元之间。

步骤（103）：设定时间长度为近1年的数据。

步骤（104）：设定参考数据大小为10万条用户记录。

步骤（105）：设定种群大小为20，最大迭代次数为1000代。

（2）计算机进行自动套餐优化

步骤（106）：提取出目标用户群体的用户记录最近1年的原始目标数据。

步骤（107）：从原始目标数据中为每个用户提取特征向量（用户月均通话时长，用户月均短信数目，用户月均上网流量，用户月度消费，套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费），得到目标历史数据，其中每用户一条记录。

步骤（108）：随机从客户信息数据库中抽取10万条用户记录最近1年的数据作为原始参考数据。

步骤（109）：从原始参考数据中为每个用户提取特征向量（用户月均通话时长，用户月均短信数目，用户月均上网流量，用户月度消费，套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费），得到参考历史数据，其中每用户一条记录。

步骤（110）：在设定的期望套餐的搜索范围内，随机初始化粒子群算法每个粒子的位置向量，种群中每一粒子的位置向量即为一个可行套餐（套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费）。然后随机初始化每个粒子的速度向量。

步骤（111）：由种群中取出下一个可行套餐。

步骤（112）：由目标历史数据中取出下一个目标用户。

步骤（113）：计算参考历史数据中每一用户的（用户月均通话时长，用户月均短信数目，用户月均上网流量，用户月度消费）和当前目标用户的（用户月均通话时长，用户月均短信数目，用户月均上网流量，用户月度消费）两个向量之间的余弦相似度。

其中X代表参考历史数据中每一用户的向量（用户月均通话时长，用户月均短信数目，用户月均上网流量，用户月度消费），Y代表当前目标用户的向量（用户月均通话时长，用户月均短信数目，用户月均上网流量，用户月度消费）。

步骤（114）：从计算结果中筛选出余弦相似度大于0.7的参考用户，并记录总记录数M。

步骤（115）：从筛选出的参考用户中，计算其每一用户的（套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费）和当前可行套餐的（套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费）两个向量之间的余弦相似度。

其中X’代表筛选出的参考用户中每一用户的向量（套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费），Y’代表当前可行套餐的向量（套餐月通话时长，套餐月短信数目，套餐月上网流量，套餐资费）。

步骤（116）：从计算结果中筛选出余弦相似度大于0.7的参考用户，并记录总记录数N。

步骤（117）：该目标用户选择该款可行套餐的概率为P=N/M。

步骤（118）：还有目标用户？是则转步骤（112）；否则转步骤（119）。

步骤（119）：得到所有目标用户的概率P。

步骤（120）：将结果进行汇总，利用适应值计算公式，得到当前可行套餐的适应值。

步骤（121）：种群中还有可行套餐？是则转步骤（111）；否则转步骤（122）。

步骤（122）：根据新计算出的适应值，针对种群中每一个粒子，若个体当前位置的适应值大于该粒子的历史最大适应值，则将该粒子的历史最佳位置向量pbest更新为粒子当前位置向量。

步骤（123）：根据新计算出的适应值，针对种群中每一个粒子，若粒子当前位置的适应值大于整个种群的历史最大适应值，则整个种群的历史最佳位置向量gbest更新为粒子当前位置向量。

步骤（124）：针对所有粒子，根据下述公式更新粒子的位置向量和速度向量。若粒子的位置向量超过期望套餐的搜索范围，则反复执行下述公式，直到得到的粒子的位置向量不超过期望套餐的搜索范围为止。得到新的可行套餐种群

其中vⁱ代表粒子的速度向量的第i个分量；xⁱ代表粒子的位置向量的第i个分量；和为常数，此处各取为2.0；r为一在[0,1]范围内随机取值的随机数；gbestⁱ为种群的历史最佳位置向量的第i个分量；pbestⁱ为粒子的历史最佳位置向量的第i个分量。

步骤（125）：达到最大迭代次数1000次？是则转步骤（126）；否则转步骤（111）。

步骤（126）：输出适应值最佳的套餐方案。

所述实施例一的进化算法采用的是粒子群算法，所述实施例一的相似度测量方法采用的是余弦相似度。

基于遗传算法和向量距离测量方法的具体实施例二

（1）使用者输入相关参数

步骤（201）：使用者针对目标用户群体，从客户信息数据库中选择出代表性目标用户100人。

步骤（202）：设定期望套餐包含通话时长小于100分钟，包含短信范围小于50条，不包含流量，套餐资费标准在10元至20元之间。

步骤（203）：设定时间长度为近2年的数据。

步骤（204）：设定参考数据大小为1万条用户记录。

步骤（205）：设定种群大小为50，最大迭代次数为10000代。

（2）计算机进行自动套餐优化

步骤（206）：提取出目标用户群体的用户记录最近2年的原始目标数据。

步骤（207）：从原始目标数据中为每个用户提取特征向量（用户月均通话时长，用户月均短信数目，用户月度消费，套餐月通话时长，套餐月短信数目，套餐资费），得到目标历史数据，其中每用户一条记录。

步骤（208）：随机从客户信息数据库中抽取1万条用户记录最近2年的数据作为原始参考数据。

步骤（209）：从原始参考数据中为每个用户提取特征向量（用户月均通话时长，用户月均短信数目，用户月度消费，套餐月通话时长，套餐月短信数目，套餐资费），得到参考历史数据，其中每用户一条记录。

步骤（210）：在设定的期望套餐的搜索范围内，随机初始化遗传算法的种群，种群中每一染色体即为一个可行套餐（套餐月通话时长，套餐月短信数目，套餐资费）。

步骤（211）：由种群中取出下一个可行套餐。

步骤（212）：由目标历史数据中取出下一个目标用户。

步骤（213）：计算参考历史数据中每一用户的（用户月均通话时长，用户月均短信数目，用户月度消费）和当前目标用户的（用户月均通话时长，用户月均短信数目，用户月度消费）两个向量之间的欧式距离。

欧式距离＝||X-Y||

其中X代表参考历史数据中每一用户的向量（用户月均通话时长，用户月均短信数目，用户月度消费），Y代表当前目标用户的向量（用户月均通话时长，用户月均短信数目，用户月度消费）。

步骤（214）：从计算结果中筛选出欧式距离小于30的参考用户，并记录总记录数M。

步骤（215）：从筛选出的参考用户中，计算其每一用户的（套餐月通话时长，套餐月短信数目，套餐资费）和当前可行套餐的（套餐月通话时长，套餐月短信数目，套餐资费）两个向量之间的欧式距离。

欧式距离＝||X′-Y′||

其中X’代表筛选出的参考用户中每一用户的向量（套餐月通话时长，套餐月短信数目，套餐资费），Y’代表当前可行套餐的向量（套餐月通话时长，套餐月短信数目，套餐资费）。

步骤（216）：从计算结果中筛选出欧式距离小于30的参考用户，并记录总记录数N。

步骤（217）：该目标用户选择该款可行套餐的概率为P=N/M。

步骤（218）：还有目标用户？是则转步骤（212）；否则转步骤（219）。

步骤（219）：得到当前线程分配到的所有目标用户的概率P。

步骤（220）：将结果进行汇总，利用适应值计算公式，得到当前可行套餐的适应值。

步骤（221）：种群中还有可行套餐？是则转步骤（211）；否则转步骤（222）。

步骤（222）：采用锦标赛选择算子，根据得到的适应值，生成新的种群。在锦标赛选择算子中，每次随机从整个原种群范围内取出2个染色体，将其中适应值最大的染色体放入新种群，该步骤反复执行，直到新种群大小达到50。

步骤（223）：对新种群采用交叉算子。在交叉算子中，以0.6的概率决定种群中的每个染色体是否参与交叉。对所有被选中参与交叉的染色体，随机两两组队，然后随机的互相交换两个染色体的部分信息，若交换信息后得到的染色体对应的可行套餐超过了期望套餐的搜索范围，则上述步骤重新执行，直到得到的染色体对应的可行套餐不超过期望套餐的搜索范围为止。

步骤（224）：对新种群采用变异算子。在变异算子中，以0.05的概率决定种群中的每个染色体是否进行变异。若某染色体被选中进行变异，则随机从其染色体向量上选择一维，在期望套餐的搜索范围内随机取一新值。

步骤（225）：达到最大迭代次数10000次？是则转步骤（226）；否则转步骤（211）。

步骤（226）：输出适应值最大的套餐方案。

所述实施例二的进化算法采用的是遗传算法，所述实施例二的相似度测量方法采用的是向量距离测量方法。

基于分布式估计算法和Jaccard系数测量方法的具体实施例三

（1）使用者输入相关参数

步骤（301）：使用者针对目标用户群体，从客户信息数据库中选择出代表性目标用户100人。

步骤（302）：设定期望套餐包含短信范围在30条至50条之间，包含流量范围在5M至10M之间，不包含通话，套餐资费标准在10元至20元之间。

步骤（303）：设定时间长度为近3年的数据。

步骤（304）：设定参考数据大小为10万条用户记录。

步骤（305）：设定种群大小为100，最大迭代次数为3000代。

（2）计算机进行自动套餐优化

步骤（306）：提取出目标用户群体的用户记录最近3年的原始目标数据。

步骤（307）：从原始目标数据中为每个用户提取特征向量（用户月均短信数目，用户月均上网流量，用户月度消费，套餐月短信数目，套餐月上网流量，套餐资费），得到目标历史数据，其中每用户一条记录。

步骤（308）：随机从客户信息数据库中抽取10万条用户记录最近3年的数据作为原始参考数据。

步骤（309）：从原始参考数据中为每个用户提取特征向量（用户月均短信数目，用户月均上网流量，用户月度消费，套餐月短信数目，套餐月上网流量，套餐资费），得到参考历史数据，其中每用户一条记录。

步骤（310）：在设定的期望套餐的搜索范围内，随机初始化分布式估计算法的种群，种群中每一个体即为一个可行套餐（套餐月短信数目，套餐月上网流量，套餐资费）。

步骤（311）：由种群中取出下一个可行套餐。

步骤（312）：由目标历史数据中取出下一个目标用户。

步骤（313）：计算参考历史数据中每一用户的（用户月均短信数目，用户月均上网流量，用户月度消费）和当前目标用户的（用户月均短信数目，用户月均上网流量，用户月度消费）两个向量之间的广义Jaccard系数。

其中X代表参考历史数据中每一用户的向量（用户月均短信数目，用户月均上网流量，用户月度消费），Y代表当前目标用户的向量（用户月均短信数目，用户月均上网流量，用户月度消费）。

步骤（314）：从计算结果中筛选出广义Jaccard系数大于0.9的参考用户，并记录总记录数M。

步骤（315）：从筛选出的参考用户中，计算其每一用户的（套餐月短信数目，套餐月上网流量，套餐资费）和当前可行套餐的（套餐月短信数目，套餐月上网流量，套餐资费）两个向量之间的广义Jaccard系数。

其中X’代表筛选出的参考用户中每一用户的向量（套餐月短信数目，套餐月上网流量，套餐资费），Y’代表当前可行套餐的向量（套餐月短信数目，套餐月上网流量，套餐资费）。

步骤（316）：从计算结果中筛选出广义Jaccard系数大于0.9的参考用户，并记录总记录数N。

步骤（317）：该目标用户选择该款可行套餐的概率为P=N/M。

步骤（318）：还有目标用户？是则转步骤（312）；否则转步骤（319）。

步骤（319）：得到当前线程分配到的所有目标用户的概率P。

步骤（320）：将结果进行汇总，利用适应值计算公式，得到当前可行套餐的适应值。

步骤（321）：种群中还有可行套餐？是则转步骤（311）；否则转步骤（322）。

步骤（322）：从种群中选择适应值较大的前50个个体作为父代，从这50个父代个体，统计每一维取值的概率分布。

步骤（323）：在设定的期望套餐的搜索范围内，根据统计出的概率分布重新随机采样生成100个新的可行套餐作为下一代种群，并替换原有种群。

步骤（324）：达到最大迭代次数3000次？是则转步骤（325）；否则转步骤（311）。

步骤（325）：输出适应值最佳的套餐方案。

所述实施例三的进化算法采用的是分布式估计算法，所述实施例三的相似度测量方法采用的是Jaccard系数测量方法。

本发明步骤（1）和步骤（4）所涉及的进化算法的任意一种算法可以与所述步骤（4）采用的任意一种相似度测量方法组合使用。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于邻近海量数据快速分析的电信套餐优化系统，其特征是，包括

所述参数输入模块用于接收、存储及传输用户输入的参数；

所述套餐适应值评估模块用于评价每一款可行套餐的好坏；

所述套餐适应值评估模块通过以下步骤实现适应值的计算及根据适应值进行套餐选取：

步骤A2：计算每一个可行套餐的适应值；

所述步骤A2包括如下步骤：

步骤B1：针对每一个目标用户，执行下述步骤：

B1.3：计算N/M作为该目标用户使用该可行套餐的概率P；

步骤B2：汇总每个目标用户使用该可行套餐的概率；将每个目标用户使用该可行套餐的概率乘以每个目标用户的月均花费C，然后针对所有目标用户进行求和，得到并返回该可行套餐的适应值；设目标用户数为TDN，则适应值计算公式如下：

F i t n e s s = Σ_{i = 1}^{T D N} P_{i} \times C_{i};

其中，P_i代表第i个目标用户选择该可行套餐的概率，C_i代表第i个目标用户的月均花费，TDN代表目标用户数，Fitness代表适应值；

所述相似度计算模块用于度量两个向量之间的向量相似度；所述步骤B1.1和B1.2中所提及的向量相似度包括各种向量相似度的测量方法：向量距离、Jaccard系数、余弦相似度。

2.如权利要求1所述的基于邻近海量数据快速分析的电信套餐优化系统，其特征是，

3.如权利要求1所述的基于邻近海量数据快速分析的电信套餐优化系统，其特征是，

所述数据生成模块包括参考历史数据生成模块、目标历史数据生成模块和特征向量提取模块；

所述参考历史数据生成模块用于接收参数输入模块传输来的参数，生成并传输参考历史数据；

所述目标历史数据生成模块用于接收参数输入模块传输来的参数，生成并传输目标历史数据；

4.如权利要求1所述的基于邻近海量数据快速分析的电信套餐优化系统，其特征是，

5.如权利要求1所述的基于邻近海量数据快速分析的电信套餐优化系统，其特征是，

所述数据库存储有用户数据信息、套餐数据信息。

6.如上述任一权利要求所述的基于邻近海量数据快速分析的电信套餐优化系统的工作方法，其特征是，包括如下步骤：

步骤(1)：通过输入设备输入数据参数和算法参数，根据目标用户群体选定代表性目标用户、设定套餐的搜索范围、设定时间长度、设定参考数据大小、设定进化算法的计算参数；所述输入设备包括计算机、手机、平板电脑和掌上上网设备；

步骤(2)：根据步骤(1)中选定的代表性目标用户，计算机以应用时间点之前设定时间长度内的用户数据及其对应的套餐数据形成原始目标数据；计算机进一步针对原始目标数据，提取每个用户特征向量，形成目标历史数据；

步骤(3)：根据步骤(1)中设定的参考数据大小，计算机随机地从整个数据库范围内提取距离应用时间点之前设定时间长度内的用户数据及其对应的套餐数据作为参考，形成原始参考数据；计算机进一步针对原始参考数据，提取每个用户特征向量，形成参考历史数据；

步骤(4)：

第一步，计算机首先对进化算法的种群进行初始化；

第二步，对当前种群中的所有个体执行适应值评估来评价每一款可行套餐的好坏，其中采用相似度测量发现邻近数据来预测用户接收可行套餐的概率并据此进一步计算可行套餐的适应值；

第三步，基于得到的适应值，根据进化算法中的种群更新策略对种群进行更新；

第四步，返回第二步继续执行，直到寻找到一款使得适应值针对目标用户群体达到最大值的套餐方案。

7.如权利要求6所述的方法，其特征是，

所述步骤(1)所提及的套餐搜索范围包括套餐配置中各个项的期望范围、及套餐资费的期望范围；

所述步骤(2)和步骤(3)的各特征向量在提取时需进行标准化；

所述步骤(1)和步骤(4)的进化算法包括进化计算家族的各种优化算法。

8.如权利要求6所述的方法，其特征是，

所述步骤(2)和步骤(3)所提及的用户特征向量均由用户月度通信习惯、用户月度消费、用户所用套餐配置、用户所用套餐资费组成；