CN115858719B - 一种基于大数据分析的sim卡活跃度预测方法及系统 - Google Patents

一种基于大数据分析的sim卡活跃度预测方法及系统 Download PDF

Info

Publication number
CN115858719B
CN115858719B CN202310138680.2A CN202310138680A CN115858719B CN 115858719 B CN115858719 B CN 115858719B CN 202310138680 A CN202310138680 A CN 202310138680A CN 115858719 B CN115858719 B CN 115858719B
Authority
CN
China
Prior art keywords
sim card
data
big data
activity
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310138680.2A
Other languages
English (en)
Other versions
CN115858719A (zh
Inventor
方楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonghe Technology Co ltd
Original Assignee
Sichuan Yonghe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonghe Technology Co ltd filed Critical Sichuan Yonghe Technology Co ltd
Priority to CN202310138680.2A priority Critical patent/CN115858719B/zh
Publication of CN115858719A publication Critical patent/CN115858719A/zh
Application granted granted Critical
Publication of CN115858719B publication Critical patent/CN115858719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于大数据分析的SIM卡活跃度预测方法及系统,涉及大数据分析技术领域;基于SIM卡业务大数据和模糊匹配方式对多源数据进行相似性比较,搜索并删除相似重复的数据,将剩余所有字段转化成标准数据格式用于SIM卡使用活跃度的预测;通过令对数回归模型在动态环境下进行更新,基于强化学习对历史业务数据和新鲜数据进行学习和预测,保障了预测数据的准确性,形成自动化分析系统的内核,帮助平台决策者更好地进行SIM卡业务使用的预测和推广模式的制定;不仅令对数回归模型强化学习进行动态预测,还对输入对数回归模型的数据进行预处理剔除相似性检测重复的数据以减轻对数回归模型的负担,提高对数回归模型的预测准确度。

Description

一种基于大数据分析的SIM卡活跃度预测方法及系统
技术领域
本发明涉及大数据分析技术领域,具体涉及一种基于大数据分析的SIM卡活跃度预测方法及系统。
背景技术
第三方手机应用商店活跃用户规模已达4.44亿,随着手机APP的广泛应用,越来越多的用户会下载各类APP,通过手机SIM卡来实时观看信息;但是随着APP的大幅增长,该如何向用户推广匹配的SIM卡业务成为重要的问题。
随着各级平台的SIM卡业务数据来源多样化,且无行业标准,其存储形式、报表格式、使用的变量都不统一,现有的自动化分析软件很难对非标准化数据进行统一的分析,例如SPSS等通用数据分析统计工具做数据分析,数据的来源主要是不同的信息系统,变量字段都不相同,会缺少对业务的针对性,在实际业务推荐场景中显得繁琐且不直观,极其影响数据分析时的效率。
发明内容
本发明所要解决的技术问题是:大数据的来源主要是不同的信息系统,变量字段都不相同,会缺少对业务的针对性,在实际应用在SIM卡活跃度预测场景中显得繁琐且不直观,极其影响数据分析时的效率和准确度。本发明目的在于提供一种基于大数据分析的SIM卡活跃度预测方法及系统,实现多源数据的分析、统计最后实现SIM卡活跃度的预测,解决了多源非标准化数据的分析,并提供了基于大数据的SIM卡活跃度趋势的预测的方法,形成自动化分析系统的内核,帮助平台决策者更好地进行SIM卡使用活跃度的分析和推广模式的制定。
本发明通过下述技术方案实现:
本方案提供一种基于大数据分析的SIM卡活跃度预测方法,包括:
采集SIM卡业务大数据;
对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测重复的数据后,将所有公共字段组成标准数据;
基于标准数据进行活跃度特征计算;
将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。
本方案工作原理:随着手机APP的广泛应用,SIM卡业务数据量海量增长,已建立起业务大数据库,巨大的业务数据量,仅靠先验知识和传统经验流程难以充分发挥大数据优势,因此基于业务大数据探索适用于SIM卡业务推广的新方法来预测SIM卡活跃度趋势具有重要的理论和应用价值。
大数据的来源主要是不同的信息系统,变量字段都不相同,会缺少对业务的针对性,在实际应用在SIM卡活跃度预测场景中显得繁琐且不直观,极其影响数据分析时的效率和准确度。本方案通过对SIM卡业务大数据的字段进行解析,用模糊匹配方式对不同数据源中的数据进行相似性比较,能够搜索并删除相似重复的数据,最终将剩余所有字段组成可用的标准数据格式用于SIM卡活跃度的预测。对数回归模型在预测过程中,SIM卡推广数据的有效性和时间相关,因为业务数据的更新频率会比较快, 导致SIM卡活跃度预测值的准确度也变化较大,历史数据学习得到的模型在一段时间后会失效,因此对数回归模型需要在动态环境下进行更新,本方案基于强化学习对历史业务数据和新鲜数据进行动态学习和预测,保障了预测数据的准确性,形成自动化分析系统的内核,帮助平台决策者更好地进行SIM卡业务使用的预测和推广模式的制定。
SIM卡业务大数据环境下,数据源分散,不同类型的SIM卡数据相关性不大,因而不同类型的SIM卡若出现相似重复的数据,会需要对数回归模型进行多次重复强化学习,进而缩短了对数回归模型的有效期,影响数据预测精度;一方面本方案令对数回归模型强化学习进行动态预测,另一方面,对数回归模型还对输入对数回归模型的数据进行预处理:在相似公共字段内对数据进行相似性检测,剔除重复的数据以减轻对数回归模型的负担,提高对数回归模型的预测准确度。
进一步优化方案为,所述预处理包括方法:
从SIM卡业务大数据中获取对应于关键字段的数据集;
构建数据集的q-gram集合倒排索引;
基于q-gram集合倒排索引构建外存倒排索引结构;所述外存倒排索引结构包括内存 Gram树和外存索引;其中Gram 树的每个叶节点保存一个 q-gram集合及该 q-gram集合的倒排表在外存索引中存储的地址;
在外存倒排索引结构中加入各字符串的长度参数和位置参数。
进一步优化方案为,所述q-gram集合倒排索引的构建方法包括:
对于数据集A,a为属于数据集A中的字符串,在字符串a的前后分别添加q-1个字符b和字符c构成新的字符串a1;
以字符串a1中长度为q的子串组成字符串a的q-gram子串集合Z;
将具有相同q-gram子串的ID按出现顺序保存到该子串对应的列表中得到该子串的倒排表;所有倒排表数据集A的倒排索引。
进一步优化方案为,在外存倒排索引结构中加入各字符串的长度参数和位置参数的方法包括:
在构建字符串a的q-gram子串集合Z时,在每个元素中加入字符串a和q-gram子串的位置:
Figure SMS_1
其中Zi为字符串a的第i个q-gram子串,0≤i≤|a|+q-2;|a|表示字符串a。
为提高匹配效率,本方案在索引结构中加入长度参数置参数,以减少参与匹配的候选 q-gram子串表数,由于位置参数加入剔除,字符相似、长度和位置相邻的 q-gram 子串可以同时读取到内存中,因此,外存倒排索引结构将这样的倒排表存储在相邻的外存磁盘中,可以将整个外存储块同时读入。本方案基于8B的字符串地址,在增加磁盘空间的微小代价下,极大节省大数据下的内存开销,使更多的内存用于后续的字符串模糊匹配处理。
进一步优化方案为,数据模糊匹配方法包括:
获取各类型SIM卡的业务属性信息,当发现业务属性信息中与相似公共字段相匹配的字段,就通过对应关系找到业务属性信息的业务类型;当有多条业务属性信息被匹配到,产生业务类型冲突时,以业务留存数量最多的业务类型为默认类型。
所述业务属性信息表示SIM卡的某一业务类型中所涉及到的服务项的信息,所述服务项即为流量服务、通话服务、彩铃服务、短信服务等基本服务,还包括类似于定期分配给不同APP的流量、定期分配给不同区域分配的免费流量等的指定服务。
首先针相似公共字段需要在整个原始SIM业务大数据中搜索的特性,本方案基于外存倒排索引结构快速模糊匹配,以满足搜索时间和效率的要求,然后在公共字段内进一步对数据进行相似性检测,发现相似重复的可疑数据及时剔除。
进一步优化方案为,所述活跃度特征计算包括:
从标准数据中获取SIM卡的类型m,并计算Ti 时间段的各类型SIM卡活跃度总和
Figure SMS_2
Figure SMS_3
全部周期各种卡活跃度总和Ptotal
Figure SMS_4
其中:
Ti时间段j型业务的总活跃度估计为:
Figure SMS_5
N(Ti)表示 Ti时间段的业务总数量,
Figure SMS_6
为j型业务的 Ti 时间段活跃度估计;
所述业务包括:SIM卡终端应用的耗费流量和耗费时间、SIM卡流量的充值量和充值次数、SIM卡话费的充值量和充值次数、及SIM卡留存率和SIM卡使用率。
进一步优化方案为,对数回归模型中强化学习的过程包括:
设置特征参数及活跃度特征矩阵,构建对数回归预测模型;
设置各项特征的参数为wi={wi1,wi2,...,wim},活跃度特征矩阵表示为Xim的矩阵;则对数回归预测模型为:
Figure SMS_7
其中exp(*)表示以自然常数e为底的指数函数;
将活跃度特征矩阵和待测新鲜数据输入对数回归预测模型进行动态预测:
以对数回归预测模型第t次强化学习的预测结果作为状态S,评价状态S得到奖励V,评价第t次强化学习预测模型的调整得到奖励R;
根据状态S和奖励R来决策第t+1次预测模型的调整策略At+1;根据调整策略At+1调整第t+1次强化学习的对数回归预测模型,基于调整后对数回归预测模型进行第t+1次强化学习得到状态St+1,评价第t+1次的对数回归预测模型的调整得到奖励Rt+1
每次强化学习的预测结果输出为SIM卡活跃度预测结果。
进一步优化方案为,奖励V和奖励R的获取方法包括:
计算第t-1次强化学习预测模型的调整价值Qt-1
Figure SMS_8
其中/>
Figure SMS_9
为状态误差,/>
Figure SMS_10
,/>
Figure SMS_11
表示第t-1次强化学习的参考状态;γ为奖励V的折扣因子;α为学习率;(1-α)Qt-2(St-2,At-1)是Qt-2(St-2,At-1)在新迭代的Qt-1(St-1,A)中的比重;调整价值Qt-1(St-1,A)为调整价值Qt-1关于状态St-1和调整策略A的函数表达式;
根据调整价值Qt-1(St-1,A)计算状态S的奖励V(S):
V(S)=E(Qt-1(St-1,A))
基于状态误差
Figure SMS_12
计算出奖励R:/>
Figure SMS_13
;E(*)表示计算*的数学期望。当第t次强化学习预测模型的预测越准确,奖励R值会增大;当状态变化后,如果奖励越多,说明这些状态越有效。
进一步优化方案为,调整策略At+1为:
Figure SMS_14
其中,/>
Figure SMS_15
表示第t次预测模型的特征参数,
Figure SMS_16
表示第t+1次预测模型的特征参数;η表示回归模型参数变化的学习率;X表示活跃度特征矩阵。
本方案还提供一种基于大数据分析的SIM卡活跃度预测系统,用于实现上述方案所述的基于大数据分析的SIM卡活跃度预测方法,包括:
采集模块,用于采集SIM卡业务大数据;
预处理模块,用于对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行段内数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测重复的数据后,将所有公共字段组成标准数据;
计算模块,用于基于标准数据进行活跃度特征计算;
预测模块,用于将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。
本发明提供的一种基于大数据分析的SIM卡活跃度预测方法及系统;通过对SIM卡业务大数据的字段进行解析,用模糊匹配方式对不同数据源中的数据进行相似性比较,搜索并删除相似重复的数据,最终将剩余所有字段组成可用的标准数据格式用于SIM卡活跃度的预测;通过令对数回归模型在动态环境下进行更新,基于强化学习对历史业务数据和新鲜数据进行学习和预测,保障了预测数据的准确性,形成自动化分析系统的内核,帮助平台决策者更好地进行SIM卡使用活跃度的预测和推广模式的制定;一方面本方案令对数回归模型强化学习进行动态预测,另一方面,本方案还对输入对数回归模型的数据进行预处理:在相似公共字段内对数据进行相似性检测,剔除相似性检测重复的数据,以减轻对数回归模型的负担,提高对数回归模型的预测准确度。
附图说明
为了更清楚地说明本发明示例性实施方式的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。在附图中:
图1为基于大数据的SIM卡业务活跃度预测方法流程示意图;
图2为外存倒排索引结构示意图;
图3为活跃度特征计算过程示意图;
图4为实施例2的预测模块强化学习流程示意图。
实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
本实施例提供一种基于大数据分析的SIM卡活跃度预测方法,如图1所示,包括:
采集SIM卡业务大数据;
对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测重复的数据后,将所有公共字段组成标准数据;
基于标准数据进行活跃度特征计算;
将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。
所述预处理包括方法:
从SIM卡业务大数据中获取对应于关键字段的数据集;
构建数据集的q-gram集合倒排索引;
基于q-gram集合倒排索引构建外存倒排索引结构;如图2所示,所述外存倒排索引结构包括内存 Gram树和外存索引;其中Gram 树的每个叶节点保存一个 q-gram集合及该q-gram集合的倒排表在外存索引中存储的地址;
在外存倒排索引结构中加入各字符串的长度参数和位置参数。
所述q-gram集合倒排索引的构建方法包括:
对于数据集A,a为属于数据集A中的字符串,在字符串a的前后分别添加q-1个字符b和字符c构成新的字符串a1;
以字符串a1中长度为q的子串组成字符串a的q-gram子串集合Z;
将具有相同q-gram子串的ID按出现顺序保存到该子串对应的列表中得到该子串的倒排表;所有倒排表数据集A的倒排索引。
在外存倒排索引结构中加入各字符串的长度参数和位置参数的方法包括:
在构建字符串a的q-gram子串集合Z时,在每个元素中加入字符串a和q-gram子串的位置:
Figure SMS_17
其中Zi为字符串a的第i个q-gram子串,0≤i≤|a|+q-2;|a|表示字符串a。
本实施例的数据集A中包括字符串Pi、ic、Ji、Jo、oc、#P、#J、#B、oo和C*,对应的地址为0、0/2、10、20、20/30、0、0/10、30、30和0/10/20/30;数据集A得到的倒排索引如图2中的外存索引结构所示。
所述数据模糊匹配方法包括:
获取各类型SIM卡的业务属性信息,当发现业务属性信息中与相似公共字段相匹配的字段,就通过对应关系找到业务属性信息的业务类型;当有多条业务属性信息被匹配到,产生·业务类型冲突时,以业务留存数量最多的业务类型为默认类型。
所述业务属性信息表示SIM卡的某一业务类型中所涉及到的服务项的信息,所述服务项即为流量服务、通话服务、彩铃服务、短信服务等基本服务,还包括类似于定期分配给不同APP的流量、定期分配给不同区域分配的免费流量等的指定服务。
如图3所示,所述活跃度特征计算包括:
从标准数据中获取SIM卡的类型m,并计算Ti 时间段的各类型SIM卡活跃度总和sum_ pTi
Figure SMS_18
全部周期各种卡活跃度总和Ptotal
Figure SMS_19
其中:
Ti 时间段j型业务的总活跃度估计为:
Figure SMS_20
N(Ti)表示 Ti时间段的业务总数量,
Figure SMS_21
为j型业务的 Ti 时间段活跃度估计;如图3中,j型业务的Ti时间段(Ti月)活跃度估计值p_card根据j型业务对应的业务条款、激活业务信息和留存业务信息进行条款匹配获得,总活跃度估计sum_p_card还需要考虑Ti 时间段(Ti月)的新业务数量和留存业务数量,留存业务数量为以往时间段激活业务数量减去注销业务数量。
所述业务包括:SIM卡终端应用的耗费流量和耗费时间、SIM卡流量的充值量和充值次数、SIM卡话费的充值量和充值次数、SIM卡留存率和SIM卡使用率。
对数回归模型中强化学习的过程包括:
设置特征参数及活跃度特征矩阵,构建对数回归预测模型;
将活跃度特征矩阵和待测新鲜数据输入对数回归预测模型进行动态预测:
以对数回归预测模型第t次强化学习的预测结果作为状态S,评价状态S得到奖励V,评价第t次强化学习预测模型的调整得到奖励R;
根据状态S和奖励R来决策第t+1次预测模型的调整策略At+1;根据调整策略At+1调整第t+1次强化学习的对数回归预测模型,基于调整后对数回归预测模型进行第t+1次强化学习得到状态St+1,评价第t+1次的对数回归预测模型的调整得到奖励Rt+1
每次强化学习的预测结果输出为SIM卡活跃度预测结果。
奖励V和奖励R的获取方法包括:
计算第t-1次强化学习预测模型的调整价值Qt-1
Figure SMS_22
其中/>
Figure SMS_23
为状态误差,/>
Figure SMS_24
,/>
Figure SMS_25
表示第t-1次强化学习的参考状态;γ为奖励V的折扣因子;α为学习率;(1-α)Qt-2(St-2,At-1)是Qt-2(St-2,At-1)在新迭代的Qt-1(St-1,A)中的比重;调整价值Qt-1(St-1,A)为调整价值Qt-1关于状态St-1和调整策略A的函数表达式;
根据调整价值Qt-1(St-1,A)计算状态S 的奖励V(S):
V(S)=E(Qt-1(St-1,A))
基于状态误差
Figure SMS_26
计算出奖励R:/>
Figure SMS_27
;E(*)表示计算*的数学期望。
调整策略At+1为:
Figure SMS_28
其中,/>
Figure SMS_29
表示第t次预测模型的特征参数,
Figure SMS_30
表示第t+1次预测模型的特征参数;η表示回归模型参数变化的学习率;X表示活跃度特征矩阵。
实施例2
本实施例提供一种基于大数据分析的SIM卡活跃度预测系统,用于实现上一实施例所述的基于大数据分析的SIM卡活跃度预测方法,包括:
采集模块,用于采集SIM卡业务大数据;
预处理模块,用于对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行段内数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测重复的数据后,将所有公共字段组成标准数据;
计算模块,用于基于标准数据进行活跃度特征计算;
预测模块,用于将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。
预测模块的强化学习流程如图4所示,状态S的计算就是对数回归模型的输出(业务活跃度的预测值);A表示对对数回归模型进行的调整策略(对应图中的预测模型调整策略),也就是参数权重的变化方式,本实施例中为梯度下降模式。 “智能体”表示决策模块,用于根据状态S和奖励R来决策下一次预测模型的调整策略A;“环境”对应模型的结构参数和优化策略,用于对状态S和预测模型给出评价。
实施例3
在提取出所需的SIM卡业务大数据后,按照已经构建好的手机卡业务数据分析数学模型,进行软件程序的相关编写,带入有关数据,进行纵向统计每月订购SIM卡的数目等信息,横向进行SIM卡类别的筛选,并进行充值金额和套餐使用数目等的比较,从而具体分析出每月留存数量的变化和趋势,手机卡的类型和留存率的关系,预测SIM卡使用活跃度预测。
通过MATLAB+Java的应用,实现了具体软件程序对问题和模型的求解,收集联通反馈的每月套餐使用数据、系统订单数据,将两者中的SIM卡数量、活跃度进行预测,并以此为基础构建出了相应的综合软件系统,目前系统可统计每月手机卡的留存总数量、新开卡数量、流失卡数量;已出佣月份的留存率和使用率统计、不同种类卡的效能占比统计以及使用卡的地区转化率、用户年龄占比等多因素比对;实现各月消费、活跃度的统计和预测。
通过MATLAB+Java的软件应用,和混合程序系统编写,基本完成了SIM卡数据分析模型的构建和求解,并根据推广需求,从手机卡数量变化,套餐使用对比,效能估计以及趋势分析等方面,预测各月留存、使用率统计和业务使用活跃度预估等多种功能,为精准预测远期的投放转化,以此为基础进行策略推荐、渠道推荐,为业务提供数据基础,将能够为企业建立多源多渠道的业务适配提供系统全面科学的解决方案。
本领域普通技术人员可以理解实现上述事实和方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,涉及的程序或者所述的程序可以存储于一计算机所可读取存储介质中,该程序在执行时,包括如下步骤:采集SIM卡业务大数据;对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测重复的数据后,将所有公共字段组成标准数据;基于标准数据进行活跃度特征计算;将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。所述的存储介质可以是ROM/RAM、磁碟、光盘等等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,包括:
采集SIM卡业务大数据;
对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测判定为重复的数据后,将所有公共字段组成标准数据;
基于标准数据进行活跃度特征计算;
将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。
2.根据权利要求1所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,所述预处理包括方法:
从SIM卡业务大数据中获取对应于关键字段的数据集;
构建数据集的q-gram集合倒排索引;
基于q-gram集合倒排索引构建外存倒排索引结构;所述外存倒排索引结构包括内存Gram树和外存索引;其中Gram树的每个叶节点保存一个 q-gram及该 q-gram的倒排表在外存索引中存储的地址;
在外存倒排索引结构中加入各字符串的长度参数和位置参数。
3.根据权利要求2所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,
所述q-gram集合倒排索引的构建方法包括:
对于数据集A,a为属于数据集A中的字符串,在字符串a前添加q-1个字符b,在字符串a后添加q-1个字符c构成新的字符串a1;
以字符串a1中长度为q的子串组成字符串a的q-gram子串集合Z;
将具有相同q-gram子串的ID按出现顺序保存到该子串对应的列表中得到该子串的倒排表;所有倒排表组成数据集A的倒排索引。
4.根据权利要求3所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,在外存倒排索引结构中加入各字符串的长度参数和位置参数的方法包括:
在构建字符串a的q-gram子串集合Z时,在每个元素中加入字符串a和q-gram子串的位置:
Figure QLYQS_1
其中Zi为字符串a的第i个q-gram子串,0≤i≤|a|+q-2;|a|表示字符串a的长度。
5.根据权利要求1所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,数据模糊匹配方法包括:
获取各类型SIM卡的业务属性信息,当发现业务属性信息中与相似公共字段相匹配的字段,就通过对应关系找到业务属性信息的业务类型;当有多条业务属性信息被匹配到,产生业务类型冲突时,以业务留存数量最多的业务类型为默认类型。
6.根据权利要求1所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,所述活跃度特征计算包括:
从标准数据中获取SIM卡的类型数量m,并计算Ti 时间段的各类型SIM卡活跃度总和sum _ pTi
Figure QLYQS_2
全部周期各种卡活跃度总和Ptotal
Figure QLYQS_3
其中:
Ti 时间段j型业务的总活跃度估计为:
Figure QLYQS_4
N(Ti)表示 Ti时间段的业务总数量,
Figure QLYQS_5
为j型业务的 Ti 时间段活跃度估计;
所述业务包括:SIM卡终端应用的耗费流量和耗费时间、SIM卡流量的充值量和充值次数、SIM卡话费的充值量和充值次数、及SIM卡留存率和SIM卡使用率。
7.根据权利要求1所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,
对数回归模型中强化学习的过程包括:
设置特征参数及活跃度特征矩阵,构建对数回归预测模型;
将活跃度特征矩阵和待测新鲜数据输入对数回归预测模型进行动态预测:
以对数回归预测模型第t次强化学习的预测结果作为状态S,评价状态S得到奖励V,评价第t次强化学习预测模型的调整得到奖励R;
根据状态S和奖励R来决策第t+1次预测模型的调整策略At+1;根据调整策略At+1调整第t+1次强化学习的对数回归预测模型,基于调整后对数回归预测模型进行第t+1次强化学习得到状态St+1,评价第t+1次的对数回归预测模型的调整得到奖励Rt+1
每次强化学习的预测结果输出为SIM卡活跃度预测结果。
8.根据权利要求7所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,奖励V和奖励R的获取方法包括:
计算第t-1次强化学习预测模型的调整价值Qt-1
Figure QLYQS_6
其中
Figure QLYQS_7
为状态误差,/>
Figure QLYQS_8
,/>
Figure QLYQS_9
表示第t-1次强化学习的参考状态;γ为奖励V的折扣因子;α为学习率;(1-α)Qt-2(St-2,At-1)是Qt-2(St-2,At-1)在新迭代的Qt-1(St-1,A)中的比重;调整价值Qt-1(St-1,A)为调整价值Qt-1关于状态St-1和调整策略A的函数表达式;
根据调整价值Qt-1(St-1,A)计算状态S的奖励V(S):
V(S)=E(Qt-1(St-1,A))
基于状态误差
Figure QLYQS_10
计算出奖励R:/>
Figure QLYQS_11
;E(*)表示计算*的数学期望。
9.根据权利要求8所述的一种基于大数据分析的SIM卡活跃度预测方法,其特征在于,调整策略At+1为:
Figure QLYQS_12
其中,/>
Figure QLYQS_13
表示第t次预测模型的特征参数,
Figure QLYQS_14
表示第t+1次预测模型的特征参数;η表示回归模型参数变化的学习率;X表示活跃度特征矩阵;At+1表示第t+1次预测模型的调整策略;Qt(S,At+1) 为调整价值Qt关于状态S和调整策略At+1的函数表达式。
10.一种基于大数据分析的SIM卡活跃度预测系统,其特征在于,用于实现权利要求1-9任意一项所述的基于大数据分析的SIM卡活跃度预测方法,包括:
采集模块,用于采集SIM卡业务大数据;
预处理模块,用于对SIM卡业务大数据进行预处理得到标准数据:基于模糊匹配方法先搜索出SIM卡业务大数据中的相似公共字段并进行段内数据模糊匹配,再在相似公共字段内对数据进行相似性检测;剔除相似性检测重复的数据后,将所有公共字段组成标准数据;
计算模块,用于基于标准数据进行活跃度特征计算;
预测模块,用于将活跃度特征计算结果和待测新鲜数据输入对数回归模型中强化学习,动态预测出SIM卡活跃度。
CN202310138680.2A 2023-02-21 2023-02-21 一种基于大数据分析的sim卡活跃度预测方法及系统 Active CN115858719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310138680.2A CN115858719B (zh) 2023-02-21 2023-02-21 一种基于大数据分析的sim卡活跃度预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310138680.2A CN115858719B (zh) 2023-02-21 2023-02-21 一种基于大数据分析的sim卡活跃度预测方法及系统

Publications (2)

Publication Number Publication Date
CN115858719A CN115858719A (zh) 2023-03-28
CN115858719B true CN115858719B (zh) 2023-05-23

Family

ID=85658455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310138680.2A Active CN115858719B (zh) 2023-02-21 2023-02-21 一种基于大数据分析的sim卡活跃度预测方法及系统

Country Status (1)

Country Link
CN (1) CN115858719B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116383511B (zh) * 2023-05-29 2023-08-04 四川邕合科技有限公司 基于产业链分析的园区招商推荐方法、系统、终端及介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508807A (zh) * 2018-07-26 2019-03-22 云数信息科技(深圳)有限公司 彩票用户活跃度预测方法、系统及终端设备、存储介质
CN111079006A (zh) * 2019-12-09 2020-04-28 腾讯科技(深圳)有限公司 一种消息推送方法、装置、电子设备及介质
CN111612280A (zh) * 2020-06-16 2020-09-01 腾讯科技(深圳)有限公司 一种数据分析方法和装置
CN112633573A (zh) * 2020-12-21 2021-04-09 北京达佳互联信息技术有限公司 活跃状态的预测方法以及活跃度阈值的确定方法
CN112785344A (zh) * 2021-02-01 2021-05-11 北京达佳互联信息技术有限公司 广告投放方法、装置、电子设备和存储介质
WO2021174944A1 (zh) * 2020-10-12 2021-09-10 平安科技(深圳)有限公司 基于目标对象活跃度的消息推送方法及相关设备
CN114661549A (zh) * 2022-03-09 2022-06-24 国网山东省电力公司信息通信公司 基于随机森林的系统活跃度预测方法及系统
CN114943278A (zh) * 2022-04-27 2022-08-26 浙江大学 基于强化学习的持续在线群体激励方法、装置及存储介质
CN115115074A (zh) * 2021-03-18 2022-09-27 腾讯科技(深圳)有限公司 一种电子资源消耗信息预测方法、装置、设备及存储介质
CN115297016A (zh) * 2022-05-07 2022-11-04 国网江苏省电力有限公司淮安供电分公司 一种基于深度学习的电力网络活跃度评价和预测方法
CN115563571A (zh) * 2022-12-07 2023-01-03 中国西安卫星测控中心 一种基于深度神经网络的定姿回归模型的构建方法
CN115660086A (zh) * 2022-10-20 2023-01-31 河北工业大学 基于逻辑规则与强化学习的知识图谱推理方法
CN115688019A (zh) * 2022-09-23 2023-02-03 西安电子科技大学 基于异构数据关联挖掘与度量学习的智能体轨迹预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11562382B2 (en) * 2016-11-11 2023-01-24 Jpmorgan Chase Bank, N.A. System and method for providing data science as a service
JP2021523504A (ja) * 2018-05-06 2021-09-02 ストロング フォース ティエクス ポートフォリオ 2018,エルエルシーStrong Force Tx Portfolio 2018,Llc エネルギー、コンピュータ、ストレージ、及びその他のリソースの、スポット市場及び先物市場における分散型元帳及びその他のトランザクションの実行を自動化する、機械及びシステムを改善するための方法及びシステム

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508807A (zh) * 2018-07-26 2019-03-22 云数信息科技(深圳)有限公司 彩票用户活跃度预测方法、系统及终端设备、存储介质
CN111079006A (zh) * 2019-12-09 2020-04-28 腾讯科技(深圳)有限公司 一种消息推送方法、装置、电子设备及介质
CN111612280A (zh) * 2020-06-16 2020-09-01 腾讯科技(深圳)有限公司 一种数据分析方法和装置
WO2021174944A1 (zh) * 2020-10-12 2021-09-10 平安科技(深圳)有限公司 基于目标对象活跃度的消息推送方法及相关设备
CN112633573A (zh) * 2020-12-21 2021-04-09 北京达佳互联信息技术有限公司 活跃状态的预测方法以及活跃度阈值的确定方法
CN112785344A (zh) * 2021-02-01 2021-05-11 北京达佳互联信息技术有限公司 广告投放方法、装置、电子设备和存储介质
CN115115074A (zh) * 2021-03-18 2022-09-27 腾讯科技(深圳)有限公司 一种电子资源消耗信息预测方法、装置、设备及存储介质
CN114661549A (zh) * 2022-03-09 2022-06-24 国网山东省电力公司信息通信公司 基于随机森林的系统活跃度预测方法及系统
CN114943278A (zh) * 2022-04-27 2022-08-26 浙江大学 基于强化学习的持续在线群体激励方法、装置及存储介质
CN115297016A (zh) * 2022-05-07 2022-11-04 国网江苏省电力有限公司淮安供电分公司 一种基于深度学习的电力网络活跃度评价和预测方法
CN115688019A (zh) * 2022-09-23 2023-02-03 西安电子科技大学 基于异构数据关联挖掘与度量学习的智能体轨迹预测方法
CN115660086A (zh) * 2022-10-20 2023-01-31 河北工业大学 基于逻辑规则与强化学习的知识图谱推理方法
CN115563571A (zh) * 2022-12-07 2023-01-03 中国西安卫星测控中心 一种基于深度神经网络的定姿回归模型的构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Assisting Telecommunication Fraud Prediction: Detect Individuals Carrying Multiple Phones Based on Trajectory Data Mining;Y.Ruihong 等;《2020 information communication Technologies Conference(ICTC)》;158-165 *
审计大数据下模糊匹配审计证据获取方法研究;林俊 等;《计算机与数字工程》;第46卷(第4期);758-763+778 *
德阳移动公司高价值客户流失分析及对策;黄河;《中国优秀硕士学位论文全文数据库 (经济与管理科学辑)》;J155-120 *

Also Published As

Publication number Publication date
CN115858719A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN106022708A (zh) 一种预测员工离职的方法
CN115858719B (zh) 一种基于大数据分析的sim卡活跃度预测方法及系统
CN109118155B (zh) 一种生成操作模型的方法及装置
CN112650743B (zh) 一种漏斗数据分析方法、系统、电子设备及存储介质
CN113592156B (zh) 电厂煤量调度方法、装置、终端设备及存储介质
CN111510368B (zh) 家庭群组识别方法、装置、设备及计算机可读存储介质
CN105589917A (zh) 浏览器日志信息的分析方法和装置
CN112529477A (zh) 信用评估变量筛选方法、装置、计算机设备及存储介质
CN112651618A (zh) 用于计量数据在线审计的审计维度模型的构建方法
CN110968564A (zh) 一种数据处理方法及数据状态预测模型的训练方法
CN113850630B (zh) 满意度预测方法及装置、存储介质、电子设备
CN111861004B (zh) 日收入产量的自动佣金预测方法、系统、设备及存储介质
CN112329822A (zh) 一种提高支持向量机分类精度的方法、系统、设备及介质
CN115545960B (zh) 一种电子信息数据交互系统及方法
CN111026863A (zh) 客户行为预测方法、装置、设备及介质
CN115904728A (zh) 一种内存消耗值预估方法、装置、终端设备及存储介质
CN113886360B (zh) 数据表分区方法、装置、计算机可读介质及电子设备
CN114138743A (zh) 基于机器学习的etl任务自动配置方法及装置
CN114912668A (zh) 基金价格预测系统及应用
CN112685456A (zh) 一种用户访问数据的处理方法、装置及计算机系统
CN110705736A (zh) 宏观经济预测方法、装置、计算机设备及存储介质
CN111985721A (zh) 一种基于季节性时间序列的企业开票金额预测方法
CN114092265B (zh) 提高保单新业务价值确定效率的方法、装置及存储介质
CN112508303B (zh) 一种od客流预测方法、装置、设备及可读存储介质
CN111309766B (zh) 业务特征构造方法以及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant