CN117150389A - 模型训练方法、运营商号卡激活预测方法及其设备 - Google Patents
模型训练方法、运营商号卡激活预测方法及其设备 Download PDFInfo
- Publication number
- CN117150389A CN117150389A CN202310870076.9A CN202310870076A CN117150389A CN 117150389 A CN117150389 A CN 117150389A CN 202310870076 A CN202310870076 A CN 202310870076A CN 117150389 A CN117150389 A CN 117150389A
- Authority
- CN
- China
- Prior art keywords
- model
- data
- activation
- carrier card
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000004913 activation Effects 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 97
- 238000012549 training Methods 0.000 title claims abstract description 74
- 238000007637 random forest analysis Methods 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 23
- 238000003860 storage Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 10
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000008439 repair process Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 12
- 238000001994 activation Methods 0.000 description 94
- 230000002159 abnormal effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 235000012054 meals Nutrition 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/18—Processing of user or subscriber data, e.g. subscribed services, user preferences or user profiles; Transfer of user or subscriber data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种基于运营商号卡激活预测的模型训练方法、运营商号卡激活预测方法、终端设备以及计算机可读存储介质。该模型训练方法包括:采集与运营商号卡激活相关的历史数据;从所述历史数据中提取影响程度最高的预设类型数量的特征数据;将所述特征数据输入随机森林模型,获取随机森林模型的预测结果;利用所述运营商号卡激活的真实结果和预测结果的差异训练所述随机森林模型,得到运营商号卡激活预测模型。通过提供一种基于运营商号卡激活预测的模型训练方法,利用机器学习算法,通过对大量历史数据的训练和分析,能够更准确地预测号卡的激活情况,机器学习模型可以发现数据中的潜在模式和关联关系,从而提高预测的准确性。
Description
技术领域
本申请涉及运营商行业技术领域,特别是涉及一种基于运营商号卡激活预测的模型训练方法、运营商号卡激活预测方法、终端设备以及计算机可读存储介质。
背景技术
随着移动互联网的快速发展,运营商号卡业务已经成为移动互联网的基础设施之一,它是用户使用移动网络和通信服务的必要条件。在运营商的业务运营中,号卡激活率是一项重要的指标,它直接影响到运营商的业务收入和用户体验。
当前,运营商号卡激活预测主要依靠经验和规律进行判断,传统的预测方法常常受限于数据量小、特征维度数据不够丰富、人工经验有限等问题,预测结果存在一定的主观性和不准确性。因此,需要一种基于机器学习的方法,能够充分利用历史数据,准确预测运营商号卡的激活情况,对于优化运营商业务运营和提高用户体验具有重要的意义。
发明内容
本申请提供了一种基于运营商号卡激活预测的模型训练方法、运营商号卡激活预测方法、终端设备以及计算机可读存储介质。
本申请提供了一种基于运营商号卡激活预测的模型训练方法,所述模型训练方法包括:
采集与运营商号卡激活相关的历史数据;
从所述历史数据中提取影响程度最高的预设类型数量的特征数据;
将所述特征数据输入随机森林模型,获取随机森林模型的预测结果;
利用所述运营商号卡激活的真实结果和预测结果的差异训练所述随机森林模型,得到运营商号卡激活预测模型。
其中,所述采集与运营商号卡激活相关的历史数据,包括:
利用埋点技术,和/或API接口调用采集与运营商号卡激活相关的历史数据;
其中,所述历史数据包括:运营商品牌、号卡类型、套餐类型、销售渠道、销售触点、下单时间、激活时间、激活地点和/或用户属性。
其中,所述采集与运营商号卡激活相关的历史数据之后,所述模型训练方法还包括:
对所述历史数据执行:数据清洗、数据去重、数据填充、数据修复、数据格式转换中的一种或多种数据处理流程。
其中,所述从所述历史数据中提取影响程度最高的预设类型数量的特征数据,包括:
计算所述历史数据中每一类型的特征数据与激活预测变量的相关性;
选择相关性排序高于预设序号的预设类型数量的特征数据。
其中,所述选择相关性排序高于预设序号的预设类型数量的特征数据,包括:
利用方差选择算法选择所述历史数据中方差排序高于预设序号的预设类型数量的特征数据;
获取方差选择算法选择的特征数据,以及相关性分析算法选择的特征数据中相同类型的特征数据。
其中,所述将所述特征数据输入随机森林模型,获取随机森林模型的预测结果,包括:
利用scikit-learn学习库中ensemble模块中model_selection函数将所述特征数据划分为训练集和测试集;
将所述训练集输入随机森林模型,获取随机森林模型的预测结果;
其中,所述测试集用于测试所述运营商号卡激活预测模型的训练效果。
其中,所述将所述特征数据输入随机森林模型,获取随机森林模型的预测结果之前,所述模型训练方法还包括:
实例化一个随机森林模型对象模型,并设置相关的超参数;
其中,所述超参数包括决策树的数量、树的最大深度、特征的最大数量。
本申请还提供了一种运营商号卡激活预测方法,所述运营商号卡激活预测方法包括:
将运营商号卡的购买信息输入预先训练的运营商号卡激活预测模型;
获取所述运营商号卡激活预测模型输出的预测激活结果;
其中,所述运营商号卡激活预测模型通过上述的模型训练方法训练所得。
本申请还提供了一种终端设备,所述终端设备包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现如上述的模型训练方法,和/或运营商号卡激活预测方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现上述的模型训练方法,和/或运营商号卡激活预测方法。
本申请的有益效果是:终端设备采集与运营商号卡激活相关的历史数据;从所述历史数据中提取影响程度最高的预设类型数量的特征数据;将所述特征数据输入随机森林模型,获取随机森林模型的预测结果;利用所述运营商号卡激活的真实结果和预测结果的差异训练所述随机森林模型,得到运营商号卡激活预测模型。通过提供一种基于运营商号卡激活预测的模型训练方法,利用机器学习算法,通过对大量历史数据的训练和分析,能够更准确地预测号卡的激活情况,机器学习模型可以发现数据中的潜在模式和关联关系,从而提高预测的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
图1是本申请提供的基于运营商号卡激活预测的模型训练方法一实施例的流程示意图;
图2是本申请提供的基于运营商号卡激活预测方法的整体流程示意图;
图3是图1所示的模型训练方法的步骤S12的具体流程示意图;
图4是本申请提供的运营商号卡激活预测方法一实施例的流程示意图;
图5是本申请提供的终端设备一实施例的结构示意图;
图6是本申请提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随机森林模型算法:随机森林是一种集成学习算法,用于解决分类和回归问题。它通过构建多个决策树,并根据这些树的投票结果来进行预测。在预测号卡激活的示例中,使用该算法来建立一个模型,该模型可以根据一些特征预测一个号卡是否会被激活。
scikit-learn:针对Python编程语言的机器学习库。
RandomForestClassifier:随机森林分类器,用于随机森林分类建模。
均方根误差:是一种用于衡量预测值与实际值之间差异的统计量,通常用于评估预测模型的准确性。
平均绝对误差:是指所有预测误差的绝对值的平均值。它是一个衡量预测结果与真实值之间差异的指标。这个值越小,说明预测结果越接近真实值。
基于上述技术名词解释,本申请提供了一种基于机器学习的运营商号卡激活预测方法及系统。该方法通过对大量历史数据进行分析和建模,利用机器学习和统计学算法,能够准确预测运营商号卡的激活数据,并提供决策支持和优化建议,以提高运营商的业务效益和用户体验。
具体请参阅图1和图2,图1是本申请提供的基于运营商号卡激活预测的模型训练方法一实施例的流程示意图,图2是本申请提供的基于运营商号卡激活预测方法的整体流程示意图。
其中,本申请的模型训练方法应用于一种终端设备,其中,本申请的终端设备可以为服务器或本地终端等,也可以为由服务器和本地终端相互配合的系统。相应地,终端设备包括的各个部分,例如各个单元、子单元、模块、子模块可以全部设置于服务器中,也可以分别设置于服务器和本地终端中。
进一步地,上述服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,如分布式系统、云端等,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块,例如用来提供分布式服务器的软件或软件模块,也可以实现成单个软件或软件模块,在此不做具体限定。在一些可能的实现方式中,本申请实施例的模型训练方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
如图1所示,本申请实施例的基于运营商号卡激活预测的模型训练方法具体包括以下步骤:
步骤S11:采集与运营商号卡激活相关的历史数据。
在本申请实施例中,终端设备收集与运营商号卡激活相关的大规模历史数据,包括运营商品牌、号卡类型、套餐类型、销售渠道、销售触点、下单时间、激活时间、激活地点、用户属性等信息。
数据来源包括运营商的数据库、用户填写的表单、API接口数据等。终端设备可以利用采用自动化的方式收集数据,利用埋点技术、API接口调用,提高数据采集的效率和准确性。
进一步地,终端设备完成数据采集后,对采集到的数据进行预处理,预处理方式包括但不限于以下方式:数据清洗、数据去重、数据填充、数据修复、数据格式转换、数据标准化处理。
具体地,去除重复数据:在数据采集过程中,可能存在重复的数据记录,对于包含单列数据的数据集,可以使用集合(Set)或哈希表(Hash Table)的特性来快速去除重复项;对于包含多列数据的数据集,可以将多列数据组合成一个唯一的标识,然后使用集合或哈希表的特性进行去重来确保数据的唯一性。
在一种具体实施例中,终端设备使用集合(Set):创建一个空的Set集合,遍历数据集中的每个数据项,将每个数据项添加到集合中,由于集合的特性保证了元素的唯一性,重复的数据项将自动被去除,最后,集合中剩下的数据项就是去除重复项后的数据集。
在另一种具体实施例中,终端设备使用哈希表(Hash Table):创建一个空的哈希表,遍历数据集中的每个数据项,将每个数据项作为键(key)存储到哈希表中,并给予一个任意的值(可以是空值),由于哈希表的特性保证了键的唯一性,重复的数据项将自动被去除,最后,哈希表中剩下的键就是去除重复项后的数据集。
处理缺失值:采集到的数据中可能存在缺失值,使用均值插值、中位数插值、线性插值的插补方法填充缺失值,确保数据的完整性。
修复异常值:异常值可能会对模型的训练和预测产生不良影响,因此需要进行异常值检测和修复,如果异常值对整体的数据集影响较小可以直接删除,反之,则使用截断法将异常值限制在一个合理的范围内,或者使用均值插值、中位数插值、线性插值的插补方法替换异常值,以确保数据的准确性和可靠性。
特征转换和生成:对于某些特征,可以进行转换或生成新的特征。时间特征提取,从号卡激活时间中提取出年份、月份、季节、星期几等时间相关的特征;地理位置特征提取,从号卡激活地理位置提取省份,地址,区/县;历史统计特征提取,基于历史数据计算出一些统计特征,比如过去一周的激活数量、过去一个月的激活数量,这些都可以作为生成的新特征供模型提取。
步骤S12:从历史数据中提取影响程度最高的预设类型数量的特征数据。
在本申请实施例中,终端设备提取与号卡激活相关的特征。包括激活时间的季节性、激活号卡套餐类型、激活地点的人口密度、激活人群的年龄分布、销售渠道的用户质态等。终端设备从采集到的数据中选择与激活预测相关的特征,通过统计方法、相关性分析、领域知识进行选择。重要特征的选择有助于提高模型的预测能力和效果。
具体地,终端设备可以采用相关性分析和方差选择两种特征选择算法或者其中一种特征选择,剔除冗余和无关的特征,并选择出对激活预测有重要影响的特征。具体请继续参阅图3,图3是图1所示的模型训练方法的步骤S12的具体流程示意图。
如图3所示,本申请实施例的基于运营商号卡激活预测的模型训练方法步骤S12具体包括以下步骤:
步骤S121:计算历史数据中每一类型的特征数据与激活预测变量的相关性。
在本申请实施例中,相关性分析是一种通过计算特征与目标变量之间的相关性来选择特征的方法。它可以帮助我们确定与目标变量高度相关的特征,以及剔除与目标变量相关性较低的特征。
实现过程:假设我们要预测号卡的激活情况,有以下特征可供选择:号卡类型、套餐价格、销售渠道(抖音、天猫、京东、拼多多等)、所属地区(省/市)、套餐流量(30G、50G、100G、155G、210G等)、网络类型(3G、4G、5G)和上个月激活率。
终端设备根据统计方法计算每个特征与目标变量之间的相关性,可以得到如下结果:
号卡类型:相关性低(0.2)
套餐价格:相关性较高(0.7)
销售渠道:相关性中等(0.5)
所属地区:相关性高(0.8)
套餐流量:相关性非常高(0.9)
网络类型:相关性低(-0.1)
上个月激活率:相关性非常高(0.9)
步骤S122:选择相关性排序高于预设序号的预设类型数量的特征数据。
在本申请实施例中,终端设备根据相关性分析的结果越接近1相关性越高的原则,可以选择上个月激活率、所属地区、套餐价格和套餐流量这四个特征作为最具影响力的特征,因为它们与目标变量的相关性较高。
步骤S123:利用方差选择算法选择历史数据中方差排序高于预设序号的预设类型数量的特征数据。
在本申请实施例中,方差选择算法和相关性分析选择算法类似,只是统计方法有区别,再根据方差选择算法选择出上月激活率、套餐价格、套餐流量三个最具影响力的特征。
步骤S124:获取方差选择算法选择的特征数据,以及相关性分析算法选择的特征数据中相同类型的特征数据。
在本申请实施例中,终端设备把两种选择算法计算结果中都包含的最具影响力的特征提取出来,即上月激活率、套餐价格、套餐流量三个特征。
步骤S13:将特征数据输入随机森林模型,获取随机森林模型的预测结果。
在本申请实施例中,终端设备使用可视化工具绘制数据图表对大量的历史数据进行探索性分析,了解历史数据分布、数据趋势、数据相关性和特征重要性,并为特征工程和模型选择提供依据。将历史数据集划分为训练集和测试集。采用70%的数据作为训练集,30%的数据作为测试集。利用随机森林模型算法建立激活预测模型,根据硬件资源的性能选定决策树数量、并配置好每棵树的最大深度,调用相应的机器学习库scikit-learn,使用RandomForestClassifier进行建模,并使用训练集数据来训练模型。
具体地,终端设备使用Python的scikit-learn学习库中ensemble模块中model_selection函数将数据集划分为训练集和测试集,分别设定参数test_size=0.3指定测试集占30%,设定train_size=0.7指定训练集占70%。
在训练之前,终端设备需要创建模型对象。具体地,终端设备实例化一个随机森林模型对象model,并设置相关的超参数。超参数包括但不限于:决策树的数量、树的最大深度、特征的最大数量。终端设备需要从相应的库中导入随机森林模型的类,使用Python的scikit-learn学习库中ensemble模块中的RandomForestClassifier类进行建模。
本申请选用的是随机森林模型,随机森林模型作为一种通用的集成学习方法,在模型训练过程中没有具体的发明点。它是基于决策树的集成模型,通过对多个决策树的集体决策来进行预测。随机森林的主要思想是通过随机选择特征子集和样本子集来构建多个决策树,并利用集体决策来提高模型的准确性和稳定性。
步骤S14:利用运营商号卡激活的真实结果和预测结果的差异训练随机森林模型,得到运营商号卡激活预测模型。
在本申请实施例中,终端设备使用划分的训练集的特征和目标变量对随机森林模型进行训练,通过调用model模型对象的fit方法来实现模型训练。
具体地,RandomForestClassifier类是随机森林分类器的实现类,这个类包含的fit(X,y)方法是随机森林模型中用于对模型进行训练的一个方法。
其中,上述的方法参数:
X:训练集的特征数据,通常是一个二维数组或矩阵,形状为(n_samples,n_features)。其中,n_samples表示样本的数量,n_features表示每个样本的特征数量。比如,在特征选择过程中提取出上月激活率、套餐价格、套餐流量三个重要特征,对应的训练集样本数据可以用二维数组定义变量为:X_train=[[30%,29,150],[25%,19,90],[32%,29,155],[28%,39,210]],其中第一列代表上月激活率,第二列代表套餐价格,第三列套餐流量,样本的数量为4。
y:训练集的目标数据,通常是一个一维数组,形状为(n_samples,)。其中,n_samples表示样本的数量,与特征数据X的样本数量相对应。对应上面X特征数据y的样本数据定义变量为:y_train=[1,0,1,1],1代表已激活,0代表未激活,样本数量与X_train相同,也为4。
使用该方法在训练过程中,模型将根据提供的特征数据X_train和对应的目标数据y_train来学习特征与目标之间的关系,并生成一个预测模型。
在本申请实施例中,终端设备根据训练后的模型,使用测试数据集对模型进行验证,并使用均方根误差(RMSE)和平均绝对误差(MAE)两种评估指标评估模型的预测准确性。根据评估结果,通过调整算法参数对模型进行调整和优化。
具体地,使用训练好的随机森林模型对测试集进行预测,通过调用model模型对象的predict方法实现测试集数据的预测。然后,使用均方根误差和平均绝对误差两种评估指标来评估模型的预测准确性。
具体地,RandomForestClassifier类中的predict方法根据训练好的随机森林模型,对新的样本数据进行分类预测。它将新的样本数据作为输入,通过模型学习到的规律,预测出每个目标样本的类别标签。
其中,上述的方法参数:
X:待预测的样本特征数据,通常是一个二维数组或矩阵。每一行代表一个样本,每一列代表一个特征。比如,定义一组测试集样本数据可以用二维数组变量为:X_test=[[22%,39,120],[27%,19,60],[35%,29,203],[29%,59,210]],其中第一列代表上月激活率,第二列代表套餐价格,第三列套餐流量,样本的数量为4。
返回值:预测结果,通常是一个一维数组,表示每个样本的类别标签。预测结果的数量与输入样本数量相同。比如,定义一个预测结果的一维数组变量为:y_pred,并把调用predict方法后的返回值赋予该变量,即y_pred=model.predict(X_test),打印出y_pred的结果为:y_pred=[0,1,0,1],(1代表已激活,0代表未激活),这组数据就是对X_test测试样本数据的预测结果值。
在得到预测值后,可以通过调用均方根误差和平均绝对误差对应的评估函数,将真实值和模型预测值作为输入,分别使用sklearn.metrics模块中的mean_squared_error函数和mean_absolute_error函数进行均方根误差和平均绝对误差的计算,即可得到评估结果。
比如,y_pred为测试样本数据的预测结果值,y_true为测试样本数据的真实结果值;定义变量rmse为均方根误差计算结果,函数示例:rmse=mean_squared_error(y_true,y_pred);定义变量mae为平均绝对误差计算结果,函数示例:mae=mean_absolute_error(y_true,y_pred);通过计算,rmse和mae的值越小代表真实值和预测值的误差越小,也代表预测模型准确性越高。
进一步地,终端设备将训练好的模型部署到生产环境中,接收新的号卡数据进行实时预测。建立监控机制,定期检查模型的性能和稳定性,包括模型的预测准确率和实时性,并根据监控结果,进行必要的模型更新、维护和迭代,以确保模型的持续有效性。
基于图1所示的基于运营商号卡激活预测的模型训练方法,本申请还提供一种运营商号卡激活预测方法,具体请参阅图4,图4是本申请提供的运营商号卡激活预测方法一实施例的流程示意图。
如图4所示,本申请实施例的运营商号卡激活预测方法具体包括以下步骤:
步骤S21:将运营商号卡的购买信息输入预先训练的运营商号卡激活预测模型。
步骤S22:获取运营商号卡激活预测模型输出的预测激活结果。
在本申请实施例中,终端设备通过可视化方式呈现号卡激活预测结果和相关分析报告,为运营商业务决策者提供直观的数据展示。利用报表、图表、仪表盘等方式展示实时预测结果数据,帮助决策者全面了解运营情况并进行决策。
请参阅图2,本申请建立基于上述方法的运营商号卡激活预测系统。系统包括数据采集模块、数据预处理模块、特征工程模块、模型训练与优化模块、可视化与报告模块。系统可以在运营商的数据中心或云平台上部署,为运营商提供稳定、高效的号卡激活预测服务。
传统的号卡激活预测方法通常基于经验和简单的统计分析,准确性有限。而本申请利用机器学习算法,通过对大量历史数据的训练和分析,能够更准确地预测号卡的激活情况。机器学习模型可以发现数据中的潜在模式和关联关系,从而提高预测的准确性。
多特征提取:传统方法往往只考虑少数几个特征对激活的影响,无法全面把握激活情况的复杂性。而本申请综合考虑了多种跟激活相关的特征,并在基础特征上转换或生成新的相关性特征,通过对这些特征进行全面分析和建模,提高了预测的准确性和可靠性。
实时性和自动化:传统方法往往需要人工参与数据收集、处理和分析过程,耗时耗力且效率低下。而本申请采用实时数据采集和处理技术,能够实时监测和分析各种相关因素的变化,并自动更新预测结果。这使得运营商可以及时调整策略和采取措施,提高号卡的激活率,并节省大量的时间和人力成本。
决策支持和优化:本申请提供了基于预测结果的决策支持功能。运营商可以根据预测结果制定相应的策略和决策,以提升号卡的激活率。通过不断监测和反馈,系统可以持续优化预测模型,使其适应市场变化和用户行为的变化,从而进一步提升激活率。
可扩展性:该系统具有良好的可扩展性。无论是小规模的业务代理商还是大规模的运营商,都可以灵活地应用本申请和系统来预测号卡的激活。系统设计的灵活性使其能够根据实际需求和数据量的增长进行扩展和优化,满足不同业务方的需求。
总之,本申请利用机器学习技术提供了一种高准确性、实时性和可扩展性的运营商号卡激活预测方法和系统。它为运营商或业务代理商提供了有价值的决策支持,并能够显著提高运营效率和经济效益。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
为实现上述实施例的模型训练方法,和/或运营商号卡激活预测方法,本申请还提出了一种终端设备,具体请参阅图5,图5是本申请提供的终端设备一实施例的结构示意图。
本申请实施例的终端设备500包括存储器51和处理器52,其中,存储器51和处理器52耦接。
存储器51用于存储程序数据,处理器52用于执行程序数据以实现上述实施例所述的模型训练方法,和/或运营商号卡激活预测方法。
在本实施例中,处理器52还可以称为CPU(Central Processing Unit,中央处理单元)。处理器52可能是一种集成电路芯片,具有信号的处理能力。处理器52还可以是通用处理器、数字信号处理器(DSP,Digital Signal Process)、专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、现场可编程门阵列(FPGA,Field Programmable GateArray)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器52也可以是任何常规的处理器等。
为实现上述实施例的模型训练方法,和/或运营商号卡激活预测方法,本申请还提供了一种计算机可读存储介质,如图6所示,计算机可读存储介质600用于存储程序数据61,程序数据61在被处理器执行时,用以实现如上述实施例所述的模型训练方法,和/或运营商号卡激活预测方法。
本申请还提供一种计算机程序产品,其中,上述计算机程序产品包括计算机程序,上述计算机程序可操作来使计算机执行如本申请实施例所述的模型训练方法,和/或运营商号卡激活预测方法。该计算机程序产品可以为一个软件安装包。
本申请上述实施例所述的模型训练方法,和/或运营商号卡激活预测方法,在实现时以软件功能单元的形式存在并作为独立的产品销售或使用时,可以存储在装置中,例如一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种基于运营商号卡激活预测的模型训练方法,其特征在于,所述模型训练方法包括:
采集与运营商号卡激活相关的历史数据;
从所述历史数据中提取影响程度最高的预设类型数量的特征数据;
将所述特征数据输入随机森林模型,获取随机森林模型的预测结果;
利用所述运营商号卡激活的真实结果和预测结果的差异训练所述随机森林模型,得到运营商号卡激活预测模型。
2.根据权利要求1所述的模型训练方法,其特征在于,
所述采集与运营商号卡激活相关的历史数据,包括:
利用埋点技术,和/或API接口调用采集与运营商号卡激活相关的历史数据;
其中,所述历史数据包括:运营商品牌、号卡类型、套餐类型、销售渠道、销售触点、下单时间、激活时间、激活地点和/或用户属性。
3.根据权利要求1或2所述的模型训练方法,其特征在于,
所述采集与运营商号卡激活相关的历史数据之后,所述模型训练方法还包括:
对所述历史数据执行:数据清洗、数据去重、数据填充、数据修复、数据格式转换中的一种或多种数据处理流程。
4.根据权利要求1所述的模型训练方法,其特征在于,
所述从所述历史数据中提取影响程度最高的预设类型数量的特征数据,包括:
计算所述历史数据中每一类型的特征数据与激活预测变量的相关性;
选择相关性排序高于预设序号的预设类型数量的特征数据。
5.根据权利要求4所述的模型训练方法,其特征在于,
所述选择相关性排序高于预设序号的预设类型数量的特征数据,包括:
利用方差选择算法选择所述历史数据中方差排序高于预设序号的预设类型数量的特征数据;
获取方差选择算法选择的特征数据,以及相关性分析算法选择的特征数据中相同类型的特征数据。
6.根据权利要求1所述的模型训练方法,其特征在于,
所述将所述特征数据输入随机森林模型,获取随机森林模型的预测结果,包括:
利用scikit-learn学习库中ensemble模块中model_selection函数将所述特征数据划分为训练集和测试集;
将所述训练集输入随机森林模型,获取随机森林模型的预测结果;
其中,所述测试集用于测试所述运营商号卡激活预测模型的训练效果。
7.根据权利要求1或6所述的模型训练方法,其特征在于,
所述将所述特征数据输入随机森林模型,获取随机森林模型的预测结果之前,所述模型训练方法还包括:
实例化一个随机森林模型对象模型,并设置相关的超参数;
其中,所述超参数包括决策树的数量、树的最大深度、特征的最大数量。
8.一种运营商号卡激活预测方法,其特征在于,所述运营商号卡激活预测方法包括:
将运营商号卡的购买信息输入预先训练的运营商号卡激活预测模型;
获取所述运营商号卡激活预测模型输出的预测激活结果;
其中,所述运营商号卡激活预测模型通过权利要求1-7任一项所述的模型训练方法训练所得。
9.一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有程序数据,所述处理器用于执行所述程序数据以实现如权利要求1至7任一项所述的模型训练方法,和/或权利要求8所述的运营商号卡激活预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序数据,所述程序数据在被处理器执行时,用以实现权利要求1至7任一项所述的模型训练方法,和/或权利要求8所述的运营商号卡激活预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310870076.9A CN117150389B (zh) | 2023-07-14 | 2023-07-14 | 模型训练方法、运营商号卡激活预测方法及其设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310870076.9A CN117150389B (zh) | 2023-07-14 | 2023-07-14 | 模型训练方法、运营商号卡激活预测方法及其设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117150389A true CN117150389A (zh) | 2023-12-01 |
CN117150389B CN117150389B (zh) | 2024-04-12 |
Family
ID=88899512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310870076.9A Active CN117150389B (zh) | 2023-07-14 | 2023-07-14 | 模型训练方法、运营商号卡激活预测方法及其设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117150389B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135630A (zh) * | 2019-04-25 | 2019-08-16 | 武汉数澎科技有限公司 | 基于随机森林回归和多步寻优的短期负荷需求预测方法 |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112037009A (zh) * | 2020-08-06 | 2020-12-04 | 百维金科(上海)信息科技有限公司 | 一种基于随机森林算法的消费信贷场景的风险评估方法 |
CN113240518A (zh) * | 2021-07-12 | 2021-08-10 | 广州思迈特软件有限公司 | 基于机器学习的银行对公客户流失预测方法 |
CN113743453A (zh) * | 2021-07-21 | 2021-12-03 | 东北大学 | 一种基于随机森林的人口数量预测方法 |
CN114612132A (zh) * | 2022-02-23 | 2022-06-10 | 中国人寿保险股份有限公司 | 基于机器学习的客户续保预测方法及相关设备 |
US20230162051A1 (en) * | 2020-04-17 | 2023-05-25 | The Fourth Paradigm (Beijing) Tech Co Ltd | Method, device and apparatus for execution of automated machine learning process |
CN116308450A (zh) * | 2022-12-19 | 2023-06-23 | 杭州萤石软件有限公司 | 一种信息生成、模型训练方法、电子设备及存储介质 |
-
2023
- 2023-07-14 CN CN202310870076.9A patent/CN117150389B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135630A (zh) * | 2019-04-25 | 2019-08-16 | 武汉数澎科技有限公司 | 基于随机森林回归和多步寻优的短期负荷需求预测方法 |
US20230162051A1 (en) * | 2020-04-17 | 2023-05-25 | The Fourth Paradigm (Beijing) Tech Co Ltd | Method, device and apparatus for execution of automated machine learning process |
AU2020100709A4 (en) * | 2020-05-05 | 2020-06-11 | Bao, Yuhang Mr | A method of prediction model based on random forest algorithm |
CN112037009A (zh) * | 2020-08-06 | 2020-12-04 | 百维金科(上海)信息科技有限公司 | 一种基于随机森林算法的消费信贷场景的风险评估方法 |
CN113240518A (zh) * | 2021-07-12 | 2021-08-10 | 广州思迈特软件有限公司 | 基于机器学习的银行对公客户流失预测方法 |
CN113743453A (zh) * | 2021-07-21 | 2021-12-03 | 东北大学 | 一种基于随机森林的人口数量预测方法 |
CN114612132A (zh) * | 2022-02-23 | 2022-06-10 | 中国人寿保险股份有限公司 | 基于机器学习的客户续保预测方法及相关设备 |
CN116308450A (zh) * | 2022-12-19 | 2023-06-23 | 杭州萤石软件有限公司 | 一种信息生成、模型训练方法、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王明师: "《Python编程实战》", 北京航空航天大学出版社, pages: 297 - 301 * |
Also Published As
Publication number | Publication date |
---|---|
CN117150389B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chacoff et al. | Interaction frequency, network position, and the temporal persistence of interactions in a plant–pollinator network | |
CN113435602A (zh) | 确定机器学习样本的特征重要性的方法及系统 | |
WO2007078814A2 (en) | Apparatus and method for strategy map validation and visualization | |
US20150161545A1 (en) | Visualization of spare parts inventory | |
CN116757297A (zh) | 用于选择机器学习样本的特征的方法及系统 | |
CN114723287A (zh) | 一种基于企业特征和经营行为对风险形成的量化统计方法 | |
US20170154268A1 (en) | An automatic statistical processing tool | |
Chen et al. | Extracting performance rules of suppliers in the manufacturing industry: an empirical study | |
CN111489201A (zh) | 一种客户价值分析的方法、设备、存储介质 | |
US20140337274A1 (en) | System and method for analyzing big data in a network environment | |
CN116882520A (zh) | 针对预定预测问题的预测方法及系统 | |
CN108022123B (zh) | 一种业务模型的自动调整方法及装置 | |
Mortensen et al. | Predicting and defining B2B sales success with machine learning | |
CN114219562A (zh) | 模型的训练方法、企业信用评估方法和装置、设备、介质 | |
CN114328277A (zh) | 一种软件缺陷预测和质量分析方法、装置、设备及介质 | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
Gowtham Sethupathi et al. | Efficient rainfall prediction and analysis using machine learning techniques | |
CN117150389B (zh) | 模型训练方法、运营商号卡激活预测方法及其设备 | |
Zhao et al. | An analysis of factors affecting agricultural tractors’ reliability using random survival forests based on warranty data | |
CN113127465A (zh) | 一种数据融合方法及系统 | |
AU2020201689A1 (en) | Cognitive forecasting | |
CN111753992A (zh) | 筛选方法和筛选系统 | |
Šitova et al. | Approach to integration of data mining techniques in simulation results analysis | |
Ines et al. | Customer Success Analysis and Modeling in Digital Marketing | |
US20220237484A1 (en) | Forecasting technology phase using unsupervised clustering with wardley maps |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |