CN115858719B

CN115858719B - 一种基于大数据分析的sim卡活跃度预测方法及系统

Info

Publication number: CN115858719B
Application number: CN202310138680.2A
Authority: CN
Inventors: 方楠
Original assignee: Sichuan Yonghe Technology Co ltd
Current assignee: Sichuan Yonghe Technology Co ltd
Priority date: 2023-02-21
Filing date: 2023-02-21
Publication date: 2023-05-23
Anticipated expiration: 2043-02-21
Also published as: CN115858719A

Abstract

本发明公开了一种基于大数据分析的SIM卡活跃度预测方法及系统，涉及大数据分析技术领域；基于SIM卡业务大数据和模糊匹配方式对多源数据进行相似性比较，搜索并删除相似重复的数据，将剩余所有字段转化成标准数据格式用于SIM卡使用活跃度的预测；通过令对数回归模型在动态环境下进行更新，基于强化学习对历史业务数据和新鲜数据进行学习和预测，保障了预测数据的准确性，形成自动化分析系统的内核，帮助平台决策者更好地进行SIM卡业务使用的预测和推广模式的制定；不仅令对数回归模型强化学习进行动态预测，还对输入对数回归模型的数据进行预处理剔除相似性检测重复的数据以减轻对数回归模型的负担，提高对数回归模型的预测准确度。

Description

一种基于大数据分析的SIM卡活跃度预测方法及系统

技术领域

本发明涉及大数据分析技术领域，具体涉及一种基于大数据分析的SIM卡活跃度预测方法及系统。

背景技术

第三方手机应用商店活跃用户规模已达4.44亿，随着手机APP的广泛应用，越来越多的用户会下载各类APP，通过手机SIM卡来实时观看信息；但是随着APP的大幅增长，该如何向用户推广匹配的SIM卡业务成为重要的问题。

随着各级平台的SIM卡业务数据来源多样化，且无行业标准，其存储形式、报表格式、使用的变量都不统一，现有的自动化分析软件很难对非标准化数据进行统一的分析，例如SPSS等通用数据分析统计工具做数据分析，数据的来源主要是不同的信息系统，变量字段都不相同，会缺少对业务的针对性，在实际业务推荐场景中显得繁琐且不直观，极其影响数据分析时的效率。

发明内容

本发明所要解决的技术问题是：大数据的来源主要是不同的信息系统，变量字段都不相同，会缺少对业务的针对性，在实际应用在SIM卡活跃度预测场景中显得繁琐且不直观，极其影响数据分析时的效率和准确度。本发明目的在于提供一种基于大数据分析的SIM卡活跃度预测方法及系统，实现多源数据的分析、统计最后实现SIM卡活跃度的预测，解决了多源非标准化数据的分析，并提供了基于大数据的SIM卡活跃度趋势的预测的方法，形成自动化分析系统的内核，帮助平台决策者更好地进行SIM卡使用活跃度的分析和推广模式的制定。

本发明通过下述技术方案实现：

本方案提供一种基于大数据分析的SIM卡活跃度预测方法，包括：

采集SIM卡业务大数据；

对SIM卡业务大数据进行预处理得到标准数据：基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行数据模糊匹配，再在相似公共字段内对数据进行相似性检测；剔除相似性检测重复的数据后，将所有公共字段组成标准数据；

基于标准数据进行活跃度特征计算；

将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习，动态预测出SIM卡活跃度。

本方案工作原理：随着手机APP的广泛应用，SIM卡业务数据量海量增长，已建立起业务大数据库，巨大的业务数据量，仅靠先验知识和传统经验流程难以充分发挥大数据优势，因此基于业务大数据探索适用于SIM卡业务推广的新方法来预测SIM卡活跃度趋势具有重要的理论和应用价值。

大数据的来源主要是不同的信息系统，变量字段都不相同，会缺少对业务的针对性，在实际应用在SIM卡活跃度预测场景中显得繁琐且不直观，极其影响数据分析时的效率和准确度。本方案通过对SIM卡业务大数据的字段进行解析，用模糊匹配方式对不同数据源中的数据进行相似性比较，能够搜索并删除相似重复的数据，最终将剩余所有字段组成可用的标准数据格式用于SIM卡活跃度的预测。对数回归模型在预测过程中，SIM卡推广数据的有效性和时间相关，因为业务数据的更新频率会比较快，导致SIM卡活跃度预测值的准确度也变化较大，历史数据学习得到的模型在一段时间后会失效，因此对数回归模型需要在动态环境下进行更新，本方案基于强化学习对历史业务数据和新鲜数据进行动态学习和预测，保障了预测数据的准确性，形成自动化分析系统的内核，帮助平台决策者更好地进行SIM卡业务使用的预测和推广模式的制定。

SIM卡业务大数据环境下，数据源分散，不同类型的SIM卡数据相关性不大，因而不同类型的SIM卡若出现相似重复的数据，会需要对数回归模型进行多次重复强化学习，进而缩短了对数回归模型的有效期，影响数据预测精度；一方面本方案令对数回归模型强化学习进行动态预测，另一方面，对数回归模型还对输入对数回归模型的数据进行预处理：在相似公共字段内对数据进行相似性检测，剔除重复的数据以减轻对数回归模型的负担，提高对数回归模型的预测准确度。

进一步优化方案为，所述预处理包括方法：

从SIM卡业务大数据中获取对应于关键字段的数据集；

构建数据集的q-gram集合倒排索引；

基于q-gram集合倒排索引构建外存倒排索引结构；所述外存倒排索引结构包括内存 Gram树和外存索引；其中Gram 树的每个叶节点保存一个 q-gram集合及该 q-gram集合的倒排表在外存索引中存储的地址；

在外存倒排索引结构中加入各字符串的长度参数和位置参数。

进一步优化方案为，所述q-gram集合倒排索引的构建方法包括：

对于数据集A，a为属于数据集A中的字符串，在字符串a的前后分别添加q-1个字符b和字符c构成新的字符串a1；

以字符串a1中长度为q的子串组成字符串a的q-gram子串集合Z；

将具有相同q-gram子串的ID按出现顺序保存到该子串对应的列表中得到该子串的倒排表；所有倒排表数据集A的倒排索引。

进一步优化方案为，在外存倒排索引结构中加入各字符串的长度参数和位置参数的方法包括：

在构建字符串a的q-gram子串集合Z时，在每个元素中加入字符串a和q-gram子串的位置：

其中Z_i为字符串a的第i个q-gram子串，0≤i≤|a|+q-2；|a|表示字符串a。

为提高匹配效率，本方案在索引结构中加入长度参数置参数，以减少参与匹配的候选 q-gram子串表数，由于位置参数加入剔除，字符相似、长度和位置相邻的 q-gram 子串可以同时读取到内存中，因此，外存倒排索引结构将这样的倒排表存储在相邻的外存磁盘中，可以将整个外存储块同时读入。本方案基于8B的字符串地址，在增加磁盘空间的微小代价下，极大节省大数据下的内存开销，使更多的内存用于后续的字符串模糊匹配处理。

进一步优化方案为，数据模糊匹配方法包括：

获取各类型SIM卡的业务属性信息，当发现业务属性信息中与相似公共字段相匹配的字段，就通过对应关系找到业务属性信息的业务类型；当有多条业务属性信息被匹配到，产生业务类型冲突时，以业务留存数量最多的业务类型为默认类型。

所述业务属性信息表示SIM卡的某一业务类型中所涉及到的服务项的信息，所述服务项即为流量服务、通话服务、彩铃服务、短信服务等基本服务，还包括类似于定期分配给不同APP的流量、定期分配给不同区域分配的免费流量等的指定服务。

首先针相似公共字段需要在整个原始SIM业务大数据中搜索的特性，本方案基于外存倒排索引结构快速模糊匹配，以满足搜索时间和效率的要求，然后在公共字段内进一步对数据进行相似性检测，发现相似重复的可疑数据及时剔除。

进一步优化方案为，所述活跃度特征计算包括：

从标准数据中获取SIM卡的类型m，并计算T_i时间段的各类型SIM卡活跃度总和

：

全部周期各种卡活跃度总和P_total：

其中：

T_i时间段j型业务的总活跃度估计为：

；

N(T_i)表示 T_i时间段的业务总数量，

为j型业务的 T_i 时间段活跃度估计；

所述业务包括：SIM卡终端应用的耗费流量和耗费时间、SIM卡流量的充值量和充值次数、SIM卡话费的充值量和充值次数、及SIM卡留存率和SIM卡使用率。

进一步优化方案为，对数回归模型中强化学习的过程包括：

设置特征参数及活跃度特征矩阵，构建对数回归预测模型；

设置各项特征的参数为w_i={w_i1，w_i2，...，w_im}，活跃度特征矩阵表示为X_im的矩阵；则对数回归预测模型为：

其中exp(*)表示以自然常数e为底的指数函数；

将活跃度特征矩阵和待测新鲜数据输入对数回归预测模型进行动态预测：

以对数回归预测模型第t次强化学习的预测结果作为状态S，评价状态S得到奖励V，评价第t次强化学习预测模型的调整得到奖励R；

根据状态S和奖励R来决策第t+1次预测模型的调整策略A_t+1；根据调整策略A_t+1调整第t+1次强化学习的对数回归预测模型，基于调整后对数回归预测模型进行第t+1次强化学习得到状态S_t+1，评价第t+1次的对数回归预测模型的调整得到奖励R_t+1；

每次强化学习的预测结果输出为SIM卡活跃度预测结果。

进一步优化方案为，奖励V和奖励R的获取方法包括：

计算第t-1次强化学习预测模型的调整价值Q_t-1：

其中/>

为状态误差，/>

，/>

表示第t-1次强化学习的参考状态；γ为奖励V的折扣因子；α为学习率；(1-α)Q_t-2(S_t-2，A_t-1)是Q_t-2(S_t-2，A_t-1)在新迭代的Q_t-1(S_t-1，A)中的比重；调整价值Q_t-1(S_t-1，A)为调整价值Q_t-1关于状态S_t-1和调整策略A的函数表达式；

根据调整价值Q_t-1(S_t-1，A)计算状态S的奖励V(S)：

V(S)=E(Q_t-1(S_t-1，A))

基于状态误差

计算出奖励R：/>

；E（*）表示计算*的数学期望。当第t次强化学习预测模型的预测越准确，奖励R值会增大；当状态变化后，如果奖励越多，说明这些状态越有效。

进一步优化方案为，调整策略A_t+1为：

其中，/>

表示第t次预测模型的特征参数，

表示第t+1次预测模型的特征参数；η表示回归模型参数变化的学习率；X表示活跃度特征矩阵。

本方案还提供一种基于大数据分析的SIM卡活跃度预测系统，用于实现上述方案所述的基于大数据分析的SIM卡活跃度预测方法，包括：

采集模块，用于采集SIM卡业务大数据；

预处理模块，用于对SIM卡业务大数据进行预处理得到标准数据：基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行段内数据模糊匹配，再在相似公共字段内对数据进行相似性检测；剔除相似性检测重复的数据后，将所有公共字段组成标准数据；

计算模块，用于基于标准数据进行活跃度特征计算；

预测模块，用于将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习，动态预测出SIM卡活跃度。

本发明提供的一种基于大数据分析的SIM卡活跃度预测方法及系统；通过对SIM卡业务大数据的字段进行解析，用模糊匹配方式对不同数据源中的数据进行相似性比较，搜索并删除相似重复的数据，最终将剩余所有字段组成可用的标准数据格式用于SIM卡活跃度的预测；通过令对数回归模型在动态环境下进行更新，基于强化学习对历史业务数据和新鲜数据进行学习和预测，保障了预测数据的准确性，形成自动化分析系统的内核，帮助平台决策者更好地进行SIM卡使用活跃度的预测和推广模式的制定；一方面本方案令对数回归模型强化学习进行动态预测，另一方面，本方案还对输入对数回归模型的数据进行预处理：在相似公共字段内对数据进行相似性检测，剔除相似性检测重复的数据，以减轻对数回归模型的负担，提高对数回归模型的预测准确度。

附图说明

为了更清楚地说明本发明示例性实施方式的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。在附图中：

图1为基于大数据的SIM卡业务活跃度预测方法流程示意图；

图2为外存倒排索引结构示意图；

图3为活跃度特征计算过程示意图；

图4为实施例2的预测模块强化学习流程示意图。

实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

本实施例提供一种基于大数据分析的SIM卡活跃度预测方法，如图1所示，包括：

采集SIM卡业务大数据；

基于标准数据进行活跃度特征计算；

所述预处理包括方法：

从SIM卡业务大数据中获取对应于关键字段的数据集；

构建数据集的q-gram集合倒排索引；

基于q-gram集合倒排索引构建外存倒排索引结构；如图2所示，所述外存倒排索引结构包括内存 Gram树和外存索引；其中Gram 树的每个叶节点保存一个 q-gram集合及该q-gram集合的倒排表在外存索引中存储的地址；

所述q-gram集合倒排索引的构建方法包括：

以字符串a1中长度为q的子串组成字符串a的q-gram子串集合Z；

在外存倒排索引结构中加入各字符串的长度参数和位置参数的方法包括：

本实施例的数据集A中包括字符串Pi、ic、Ji、Jo、oc、#P、#J、#B、oo和C*，对应的地址为0、0/2、10、20、20/30、0、0/10、30、30和0/10/20/30；数据集A得到的倒排索引如图2中的外存索引结构所示。

所述数据模糊匹配方法包括：

获取各类型SIM卡的业务属性信息，当发现业务属性信息中与相似公共字段相匹配的字段，就通过对应关系找到业务属性信息的业务类型；当有多条业务属性信息被匹配到，产生·业务类型冲突时，以业务留存数量最多的业务类型为默认类型。

如图3所示，所述活跃度特征计算包括：

从标准数据中获取SIM卡的类型m，并计算T_i时间段的各类型SIM卡活跃度总和sum_ p^Ti：

全部周期各种卡活跃度总和P_total：

其中：

T_i时间段j型业务的总活跃度估计为：

；

N(T_i)表示 T_i时间段的业务总数量，

为j型业务的 T_i时间段活跃度估计；如图3中，j型业务的T_i时间段（T_i月）活跃度估计值p_card根据j型业务对应的业务条款、激活业务信息和留存业务信息进行条款匹配获得，总活跃度估计sum_p_card还需要考虑T_i时间段（T_i月）的新业务数量和留存业务数量，留存业务数量为以往时间段激活业务数量减去注销业务数量。

所述业务包括：SIM卡终端应用的耗费流量和耗费时间、SIM卡流量的充值量和充值次数、SIM卡话费的充值量和充值次数、SIM卡留存率和SIM卡使用率。

对数回归模型中强化学习的过程包括：

设置特征参数及活跃度特征矩阵，构建对数回归预测模型；

每次强化学习的预测结果输出为SIM卡活跃度预测结果。

奖励V和奖励R的获取方法包括：

计算第t-1次强化学习预测模型的调整价值Q_t-1：

其中/>

为状态误差，/>

，/>

根据调整价值Q_t-1(S_t-1，A)计算状态S 的奖励V(S)：

V(S)=E(Q_t-1(S_t-1，A))

基于状态误差

计算出奖励R：/>

；E（*）表示计算*的数学期望。

调整策略A_t+1为：

其中，/>

表示第t次预测模型的特征参数，

实施例2

本实施例提供一种基于大数据分析的SIM卡活跃度预测系统，用于实现上一实施例所述的基于大数据分析的SIM卡活跃度预测方法，包括：

采集模块，用于采集SIM卡业务大数据；

计算模块，用于基于标准数据进行活跃度特征计算；

预测模块的强化学习流程如图4所示，状态S的计算就是对数回归模型的输出（业务活跃度的预测值）；A表示对对数回归模型进行的调整策略（对应图中的预测模型调整策略），也就是参数权重的变化方式，本实施例中为梯度下降模式。 “智能体”表示决策模块，用于根据状态S和奖励R来决策下一次预测模型的调整策略A；“环境”对应模型的结构参数和优化策略，用于对状态S和预测模型给出评价。

实施例3

在提取出所需的SIM卡业务大数据后，按照已经构建好的手机卡业务数据分析数学模型，进行软件程序的相关编写，带入有关数据，进行纵向统计每月订购SIM卡的数目等信息，横向进行SIM卡类别的筛选，并进行充值金额和套餐使用数目等的比较，从而具体分析出每月留存数量的变化和趋势，手机卡的类型和留存率的关系，预测SIM卡使用活跃度预测。

通过MATLAB+Java的应用，实现了具体软件程序对问题和模型的求解，收集联通反馈的每月套餐使用数据、系统订单数据，将两者中的SIM卡数量、活跃度进行预测，并以此为基础构建出了相应的综合软件系统，目前系统可统计每月手机卡的留存总数量、新开卡数量、流失卡数量；已出佣月份的留存率和使用率统计、不同种类卡的效能占比统计以及使用卡的地区转化率、用户年龄占比等多因素比对；实现各月消费、活跃度的统计和预测。

通过MATLAB+Java的软件应用，和混合程序系统编写，基本完成了SIM卡数据分析模型的构建和求解，并根据推广需求，从手机卡数量变化，套餐使用对比，效能估计以及趋势分析等方面，预测各月留存、使用率统计和业务使用活跃度预估等多种功能，为精准预测远期的投放转化，以此为基础进行策略推荐、渠道推荐，为业务提供数据基础，将能够为企业建立多源多渠道的业务适配提供系统全面科学的解决方案。

本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中，该程序在执行时，包括如下步骤：采集SIM卡业务大数据；对SIM卡业务大数据进行预处理得到标准数据：基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行数据模糊匹配，再在相似公共字段内对数据进行相似性检测；剔除相似性检测重复的数据后，将所有公共字段组成标准数据；基于标准数据进行活跃度特征计算；将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习，动态预测出SIM卡活跃度。所述的存储介质可以是ROM/RAM、磁碟、光盘等等。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。