CN108846695A - 终端更换周期的预测方法及装置 - Google Patents
终端更换周期的预测方法及装置 Download PDFInfo
- Publication number
- CN108846695A CN108846695A CN201810578220.0A CN201810578220A CN108846695A CN 108846695 A CN108846695 A CN 108846695A CN 201810578220 A CN201810578220 A CN 201810578220A CN 108846695 A CN108846695 A CN 108846695A
- Authority
- CN
- China
- Prior art keywords
- user
- prediction
- prediction model
- replacement cycle
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Abstract
本发明提供一种终端更换周期的预测方法及装置,所述方法包括:获取待预测用户的特征信息,将所述特征信息分别输入到T个预测模型中,预测得到T个预测结果,根据所述T个预测结果,获取所述待预测用户的终端更换周期。本发明提供一种终端更换周期的预测方法及装置,由于预测模型在建立过程中考虑了大量用户的历史数据,使得根据该预测模型得到的用户的终端更换周期更加准确。另外,通过将待预测用户的特征信息分别输入到多个预测模型中,将多个预测模型的预测结果进行综合考虑,获取用户的终端更换周期,进一步提高了终端更换周期的预测准确率。
Description
技术领域
本发明涉及大数据技术领域,尤其涉及一种终端更换周期的预测方法及装置。
背景技术
随着互联网技术的发展,移动用户数量已经趋于饱和,增长速度较慢。但是,目前统计数据显示,移动终端的更新换代速度正在不断加快,因此,用户更换终端的频率在加快。如果能够准确预测用户的终端更换周期,则可以在合适的时机为用户提供终端换机方案,提高运营商的服务质量,因此需要一种对用户终端的更换周期进行预测的方法。
相关技术中,在对用户终端的更换周期进行预测时,通常根据用户的上次购机时间以及该用户的历史换机周期,对该用户即将换机的概率进行预测。
然而,采用上述方法预测得到的换机概率准确性不高。
发明内容
本发明提供一种终端更换周期的预测方法及装置,通过对海量的用户数据进行训练得到预测模型,利用该预测模型实现对终端更换周期的预测,提高了预测准确率,从而运营商能够在准确的时机向用户提供终端换机方案,提高运营商的服务质量。
第一方面,本发明提供的终端更换周期的预测方法,包括:
获取待预测用户的特征信息,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息;
将所述特征信息分别输入到T个预测模型中,所述T个预测模型用于根据所述特征信息对所述待预测用户的终端更换周期进行预测,得到T个预测结果;
根据所述T个预测结果,获取所述待预测用户的终端更换周期;
其中,T为大于1的自然数。
可选的,所述获取待预测用户的特征信息之前,还包括:
从至少一个数据仓库存储的用户数据中,提取用户的特征信息,生成用户样本集;
基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型。
可选的,所述基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型,包括:
按照预设的比例将所述用户样本集划分为训练样本集和测试样本集;
对所述训练样本集中的全部或者部分样本分别采用所述T个不同的机器学习算法进行训练建模,得到T个第一预测模型;
使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型。
可选的,所述按照预设的比例将所述用户样本集划分为训练样本集和测试样本集,包括:
对所述用户样本集中的数据进行预处理,所述预处理包括:数据转换、数据过滤、数据标准化和数据属性规约;
按照预设的比例将预处理后的所述用户样本集划分为训练样本集和测试样本集。
可选的,所述使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型,包括:
针对每个所述第一预测模型,将所述测试样本集中的特征信息输入所述第一预测模型,获取所述第一预测模型对应的预测准确率;
根据所述第一预测模型对应的预测准确率,采用网格搜索算法对所述第一预测模型的参数进行修正,得到第二预测模型;若所述第二预测模型对应的预测准确率大于等于预设值,则将所述第二预测模型作为所述预测模型。
可选的,所述方法还包括:
若所述第二预测模型对应的预测准确率小于预设值,则返回执行对所述用户样本集中的数据进行预处理。
可选的,所述T为大于等于3的自然数,所述T个不同的机器学习算法至少包括:逻辑回归算法、决策树算法和随机森林算法。
第二方面,本发明提供的终端更换周期的预测装置,包括:
获取模块,用于获取待预测用户的特征信息,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息;
预测模块,用于将所述特征信息分别输入到T个预测模型中,所述T个预测模型用于根据所述特征信息对所述待预测用户的终端更换周期进行预测,得到T个预测结果;其中,T为大于1的自然数;
处理模块,用于根据所述T个预测结果,获取所述待预测用户的终端更换周期。
可选的,所述装置还包括:
建立模块,用于从至少一个数据仓库存储的用户数据中,提取用户的特征信息,生成用户样本集;
基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型。
可选的,所述建立模块,具体用于按照预设的比例将所述用户样本集划分为训练样本集和测试样本集;
对所述训练样本集中的全部或者部分样本分别采用所述T个不同的机器学习算法进行训练建模,得到T个第一预测模型;
使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型。
可选的,所述建立模块,具体用于对所述用户样本集中的数据进行预处理,所述预处理包括:数据转换、数据过滤、数据标准化和数据属性规约;
按照预设的比例将预处理后的所述用户样本集划分为训练样本集和测试样本集。
可选的,所述建立模块,具体用于针对每个所述第一预测模型,将所述测试样本集中的特征信息输入所述第一预测模型,获取所述第一预测模型对应的预测准确率;
根据所述第一预测模型对应的预测准确率,采用网格搜索算法对所述第一预测模型的参数进行修正,得到第二预测模型;若所述第二预测模型对应的预测准确率大于等于预设值,则将所述第二预测模型作为所述预测模型。
可选的,所述建立模块,具体用于若所述第二预测模型对应的预测准确率小于预设值,则返回执行对所述用户样本集中的数据进行预处理。
可选的,所述T为大于等于3的自然数,所述T个不同的机器学习算法至少包括:逻辑回归算法、决策树算法和随机森林算法。
第三方面,本发明提供的终端更换周期的预测装置,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面任一项所述的方法。
第四方面,本发明提供的计算机可读存储介质,其上存储有计算机程序;所述计算机程序被处理器执行以实现如第一方面任一项所述的方法。
本发明提供的终端更换周期的预测方法及装置,通过获取待预测用户的特征信息,将所述特征信息分别输入到T个预测模型中,预测得到T个预测结果,根据所述T个预测结果,获取所述待预测用户的终端更换周期。由于预测模型在建立过程中考虑了大量用户的历史数据,使得根据该预测模型得到的用户的终端更换周期更加准确。另外,通过将待预测用户的特征信息分别输入到多个预测模型中,将多个预测模型的预测结果进行综合考虑,获取用户的终端更换周期,进一步提高了终端更换周期的预测准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的终端更换周期的预测方法实施例一的流程图;
图2为本发明提供的终端更换周期的预测方法实施例二的流程图;
图3为本发明提供的终端更换周期的预测方法实施例三的流程图;
图4为本发明实施三中对第一预测模型进行修正过程的流程图;
图5为本发明提供的终端更换周期的预测装置实施例一的结构示意图;
图6为本发明提供的终端更换周期的预测装置实施例二的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如前所述,相关技术中,在对用户终端的更换周期进行预测时,通常根据用户的上次购机时间以及该用户的历史换机周期,对该用户即将换机的概率进行预测。然而,采用上述方法预测得到的换机概率准确性不高。
本发明提供的终端更换周期的预测方法及装置,通过对海量的用户数据进行训练得到预测模型,利用该预测模型实现对终端更换周期的预测,提高了预测准确率,从而运营商能够在准确的时机向用户提供终端换机方案,提高运营商的服务质量。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图1为本发明提供的终端更换周期的预测方法实施例一的流程图,本实施例的执行主体可以为终端更换周期的预测装置,如图1所示,本实施例的方法包括:
S11:获取待预测用户的特征信息,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息。
S12:将所述特征信息分别输入到T个预测模型中,所述T个预测模型用于根据所述特征信息对所述待预测用户的终端更换周期进行预测,得到T个预测结果,其中,T为大于1的自然数。
S13:根据所述T个预测结果,获取所述待预测用户的终端更换周期。
本实施例示例的是在已获取T个预测模型的基础上,使用该T个预测模型对待预测用户的终端更换周期进行预测的过程。其中,所述T个预测模型为事先根据海量用户的历史数据进行训练建模得到的预测模型,用于对用户的终端更换周期进行预测。
具体的,用户的终端更换周期通常与用户的特征信息具有一定的相关性,例如:从事某些职业的用户换机周期较短,从事某些职业的用户换机周期较长;较年轻的用户换机周期较短,较年老的用户换机周期较长;刷机频率高的用户换机周期较短,刷机频率低的用户换机周期较长。
因此,本实施例中可以根据待预测用户的历史数据,获取待预测用户的特征信息,包括但不限于:基本信息、用机信息、行为信息、消费信息和流量信息。
其中,基本信息可以包括性别、年龄、职业等信息;用机信息可以包括当前终端使用信息和历史终端使用信息,例如,当前终端的启用时间、当前终端的维修历史、历史终端的品牌、历史终端的更换周期等;行为信息可以包括用户在当前终端的操作记录,例如:用户的刷机行为、用户使用预设APP频率和时长等;消费信息可以包括用户的月账单、账户余额、当前套餐等信息;流量信息可以包括用户的流量业务办理信息、流量使用信息等。
需要说明的是,上述获取的特征信息应当理解为可能会对终端更换周期有影响的特征。另外,可以理解的,所述T个预测模型也是根据上述同样的特征信息进行建模得到的。
获取到待预测用户的特征信息后,将所述特征信息分别输入到已训练好的T个预测模型中,可以预测得到T个预测结果,例如,T等于3时,得到三个预测结果可以为:12个月、14个月、10个月。然后根据所述T个预测结果,获取该用户的终端更换周期,具体的,可以将T个预测结果进行加权平均得到该用户的终端更换周期。
本实施例中,通过获取待预测用户的特征信息,将所述特征信息分别输入到T个预测模型中,预测得到T个预测结果,根据所述T个预测结果,获取所述待预测用户的终端更换周期。由于预测模型在建立过程中考虑了大量用户的历史数据,使得根据该预测模型得到的用户的终端更换周期更加准确。另外,本实施例中,将待预测用户的特征信息分别输入到多个预测模型中,将多个预测模型的预测结果进行综合考虑,获取用户的终端更换周期,进一步提高了终端更换周期的预测准确率。
图2为本发明提供的终端更换周期的预测方法实施例二的流程图,本实施例的执行主体可以为终端更换周期的预测装置,在上述实施例的基础上,如图2所示,本实施例的方法可以包括:
S21:从至少一个数据仓库存储的用户数据中,提取用户的特征信息,生成用户样本集,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息。
通常,运营商会对用户数据进行存储,存储在一个或多个数据仓库中,所述数据仓库包括但不限于:数据库、HDFS、hive等。例如:运营商可能会将一个省或者一个市的用户数据存储在一个数据仓库中,不同省/市的用户数据存储在不同的数据仓库中。
本实施例中,根据多个数据仓库的用户数据,生成用户样本集,使得用户样本集中的样本数量更大、分布更广泛,例如:用户样本集中可以包括全国所有的用户数据,根据该用户样本集得到的预测模型,对于终端更换周期的预测结果更加准确。
针对用户样本集中的每个样本,获取该样本的特征信息,基于该用户样本集中的所有样本的特征信息进行训练建模,得到预测模型。其中,样本的特征信息可参见实施例一中的详细描述,此处不再赘述。
S22:基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到T个预测模型,所述T个预测模型用于对用户的终端更换周期进行预测,其中,T为大于1的自然数。
具体的,所述用户样本集中的样本可能来自不同的数据仓库,且不同的特征信息可能存储在不同的数据文件中,例如:用户的基本信息存储在文件1中,而用户的行为信息存储在文件2中。进一步的,每个特征信息中还可以包括多个不同的字段,所述多个字段也可能来自不同的数据表,例如:用户的用机信息中包括当前终端的启用时间、当前终端的维修时间、历史终端的品牌、历史终端更换周期等字段,这些字段可能需要从不同的数据表中获取。
因此,本实施例中在对用户样本集进行训练和建模时,采用基于spark的大数据处理技术,可以满足对上述分布式的、大数据处理的需求,并且,spark技术是一种基于内存的数据处理技术,相比现有技术中的基于硬盘的处理技术,数据处理速度更快。
可选的,所述T为大于等于3的自然数,所述T个不同的机器学习算法至少包括:逻辑回归算法、决策树算法和随机森林算法。
S23:获取待预测用户的特征信息。
S24:将所述待预测用户的特征信息分别输入到所述T个预测模型中,得到T个预测结果。
S25:根据所述T个预测结果,获取所述待预测用户的终端更换周期。
本实施例中,S23-S25的具体实施方式可参见实施例一的详细描述,此处不再赘述。
本实施例中,通过从至少一个数据仓库存储的用户数据中,提取用户的特征信息,生成用户样本集,基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型,使得本实施例中的用户样本集中的样本数量更大、分布更广泛,进而根据该用户样本集得到的预测模型,对于终端更换周期的预测结果更加准确。另外,基于spark技术对用户样本集进行训练建模,能够对用户样本集进行基于内存的大数据处理,提高预测模型的训练建模速度。
图3为本发明提供的终端更换周期的预测方法实施例三的流程图,在上述实施例的基础上,本实施例对所述T个预测模型的建立过程进行详细描述,如图3所示,本实施例的方法包括:
S31:对所述用户样本集中的数据进行预处理,所述预处理包括:数据转换、数据过滤、数据标准化和数据属性规约。
具体的,从不同的数据仓库提取到所述用户样本集中的数据后,可以对所述用户样本集中的数据采用spark-SQL进行整合处理,将数据统一存储在HDFS中,以便后续训练建模过程中减少对用户样本集数据的读取次数,加快处理速度。
在对用户样本集的数据进行训练建模之前,需要对数据进行预处理,所述预处理包括但不限于:数据转换、数据过滤、数据标准化和数据属性规约。
具体的,数据转换是指对用户样本集中的数据类型进行转换,例如:用户样本集中的有些字段为非整形类型,比如“年龄”字段通常会以字符串的形式存储,而在对数据进行训练建模时,可能需要该字段为整形类型,因此,在预处理过程中需要对该字段进行数据类型的转换。
数据过滤是指对用户样本集中存在缺失值或异常值的样本进行过滤,例如:某一样本的“历史终端的更换周期”字段为缺失值,由于该字段为训练过程中较为重要的字段,为了保证训练模型的准确性,可以将该样本过滤删除。
数据标准化是指在不改变用户样本集中的原始数据分布的前提下,对数据进行伸缩变换处理以使不同度量之间的特征具有可比性,例如,把具有不同取值范围的数据映射为0至1范围内。
数据属性规约是指对用户样本集中的数据重新进行特征选择,将不相关或者弱相关的字段删除,以使根据经过属性规约处理后的数据得到的预测模型的准确率得到提升。
S32:按照预设的比例将预处理后的所述用户样本集划分为训练样本集和测试样本集。
需要说明的是,本发明对于训练样本集和测试样本集所占的比例并不作具体限定。例如:可以通过随机选择的方式,将所述用户样本集中的70%的样本作为训练样本集,剩余30%的样本作为测试样本集;或者,还可以将80%的样本作为训练样本集,剩余20%的样本作为测试样本集。
S33:对所述训练样本集中的全部或者部分样本分别采用所述T个不同的机器学习算法进行训练建模,得到T个第一预测模型。
具体的,以T等于3为例,三个不同的机器学习算法可以分别为:逻辑回归算法、决策树算法和随机森林算法。
其中一种可选的实施方式为,将训练样本集中的样本分为10个子集,随机选择其中的8个子集,对所选择的8个子集分别采用逻辑回归算法、决策树算法和随机森林算法进行训练,得到三个第一预测模型。本实施例中,只选择训练样本集中的部分样本进行训练,可以防止过拟合现象,提高训练模型的准确性。
另外,可以理解的,具体训练过程中,将训练样本的历史终端更换周期作为输出,其他特征作为输入进行训练,得到第一预测模型。该第一预测模型可用于根据待预测用户的特征信息预测该用户的终端更换周期,也就是说,向该第一预测模型输入用户的特征信息,该第一预测模型可以预测并输出该用户的终端更换周期。
S34:使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型。
该步骤中,使用测试样本集中的样本对该第一预测模型的准确率进行验证,若准确率较低,则需要对所述第一预测模型进行修正,以保证最终得到的预测模型的准确率较高。
图4为本发明实施三中对第一预测模型进行修正过程的流程图,如图4所示,修正过程可以包括:
S341:将所述测试样本集中的特征信息输入所述第一预测模型,获取所述第一预测模型对应的预测准确率。
具体的,测试样本集的每个样本中,已经包括了历史终端更换周期的信息,将测试样本集中的特征信息输入到第一预测模型,可以得到预测结果,将该预测结果与该样本中的历史终端更换周期进行比对,可以获取该第一预测模型的预测准确率。
S342:根据所述第一预测模型对应的预测准确率,采用网格搜索算法对所述第一预测模型的参数进行修正,得到第二预测模型;
具体的,若该第一预测模型的预测准确率较低,则可以采用网格搜索算法对第一预测模型的参数进行修正,例如,假设第一预测模型中包括参数A和参数B,其中A的取值范围为1至10,B的取值范围为0.1至1,则可以获取该第一预测模型在A和B分别取不同值的情况下,该第一预测模型的预测准确率,将预测准确率最高的第一预测模型作为第二预测模型。
S343:若所述第二预测模型对应的预测准确率大于等于预设值,则将所述第二预测模型作为所述预测模型。
S344:若所述第二预测模型对应的预测准确率小于预设值,则返回执行S31,即对用户样本集中的数据重新进行数据属性规约。
可以理解的,若经过S342的参数修正过程得到的第二预测模型的预测准确率较高,大于期望的准确率,则停止建模过程,将该第二预测模型作为最终的预测模型,用于对待预测用户的终端更换周期的预测。
若经过S342的参数修正过程得到的第二预测模型的预测准确率依然较低,没有达到期望的准确率,则需要对该用户样本集中的数据重新进行训练,具体的,返回执行图3中的S31,将与终端更换周期不相关或者弱相关的特征删除,然后重新执行如图3所示的训练建模过程,直到预测模型的准确率达到期望的准确率。
图5为本发明提供的终端更换周期的预测装置实施例一的结构示意图,如图5所示,本实施例的预测装置500可以包括:获取模块501、预测模块502和处理模块503。
获取模块501,用于获取待预测用户的特征信息,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息。
预测模块502,用于将所述特征信息分别输入到T个预测模型中,所述T个预测模型用于根据所述特征信息对所述待预测用户的终端更换周期进行预测,得到T个预测结果;其中,T为大于1的自然数。
处理模块503,用于根据所述T个预测结果,获取所述待预测用户的终端更换周期。
可选的,如图5所示,本实施例的预测装置500还可以包括建立模块504。
建立模块504,用于从至少一个数据仓库存储的用户数据中,提取用户的特征信息,生成用户样本集;基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型。
可选的,建立模块504,具体用于按照预设的比例将所述用户样本集划分为训练样本集和测试样本集;对所述训练样本集中的全部或者部分样本分别采用所述T个不同的机器学习算法进行训练建模,得到T个第一预测模型;使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型。
可选的,建立模块504,具体用于对所述用户样本集中的数据进行预处理,所述预处理包括:数据转换、数据过滤、数据标准化和数据属性规约;按照预设的比例将预处理后的所述用户样本集划分为训练样本集和测试样本集。
可选的,建立模块504,具体用于针对每个所述第一预测模型,将所述测试样本集中的特征信息输入所述第一预测模型,获取所述第一预测模型对应的预测准确率;根据所述第一预测模型对应的预测准确率,采用网格搜索算法对所述第一预测模型的参数进行修正,得到第二预测模型;若所述第二预测模型对应的预测准确率大于等于预设值,则将所述第二预测模型作为所述预测模型。
可选的,建立模块504,具体用于若所述第二预测模型对应的预测准确率小于预设值,则返回执行对所述用户样本集中的数据进行预处理。
可选的,所述T为大于等于3的自然数,所述T个不同的机器学习算法至少包括:逻辑回归算法、决策树算法和随机森林算法。
本实施例的终端更换周期的预测装置,可用于执行上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明提供的终端更换周期的预测装置实施例二的结构示意图,如图6所示,本实施例的预测装置600可以包括:存储器601、处理器602和计算机程序。
其中,所述计算机程序存储在存储器601中,并被配置为由处理器602执行以实现如上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行,可以实现上述任一方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在上述网络设备或者终端设备的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:ApplicationSpecific Integrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种终端更换周期的预测方法,其特征在于,包括:
获取待预测用户的特征信息,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息;
将所述特征信息分别输入到T个预测模型中,所述T个预测模型用于根据所述特征信息对所述待预测用户的终端更换周期进行预测,得到T个预测结果;
根据所述T个预测结果,获取所述待预测用户的终端更换周期;
其中,T为大于1的自然数。
2.根据权利要求1所述的预测方法,其特征在于,所述获取待预测用户的特征信息之前,还包括:
从至少一个数据仓库存储的用户数据中,提取用户的特征信息,生成用户样本集;
基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型。
3.根据权利要求2所述的预测方法,其特征在于,所述基于spark技术对所述用户样本集采用T个不同的机器学习算法进行训练建模,得到所述T个预测模型,包括:
按照预设的比例将所述用户样本集划分为训练样本集和测试样本集;
对所述训练样本集中的全部或者部分样本分别采用所述T个不同的机器学习算法进行训练建模,得到T个第一预测模型;
使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型。
4.根据权利要求3所述的预测方法,其特征在于,所述按照预设的比例将所述用户样本集划分为训练样本集和测试样本集,包括:
对所述用户样本集中的数据进行预处理,所述预处理包括:数据转换、数据过滤、数据标准化和数据属性规约;
按照预设的比例将预处理后的所述用户样本集划分为训练样本集和测试样本集。
5.根据权利要求4所述的预测方法,其特征在于,所述使用所述测试样本集对所述T个第一预测模型进行修正,得到所述T个预测模型,包括:
针对每个所述第一预测模型,将所述测试样本集中的特征信息输入所述第一预测模型,获取所述第一预测模型对应的预测准确率;
根据所述第一预测模型对应的预测准确率,采用网格搜索算法对所述第一预测模型的参数进行修正,得到第二预测模型;若所述第二预测模型对应的预测准确率大于等于预设值,则将所述第二预测模型作为所述预测模型。
6.根据权利要求5所述的预测方法,其特征在于,还包括:
若所述第二预测模型对应的预测准确率小于预设值,则返回执行对所述用户样本集中的数据进行预处理。
7.根据权利要求2-6任一项所述的预测方法,其特征在于,所述T为大于等于3的自然数,所述T个不同的机器学习算法至少包括:逻辑回归算法、决策树算法和随机森林算法。
8.一种终端更换周期的预测装置,其特征在于,包括:
获取模块,用于获取待预测用户的特征信息,所述特征信息包括下述信息中的一种或其组合:基本信息、用机信息、行为信息、消费信息和流量信息;
预测模块,用于将所述特征信息分别输入到T个预测模型中,所述T个预测模型用于根据所述特征信息对所述待预测用户的终端更换周期进行预测,得到T个预测结果;其中,T为大于1的自然数;
处理模块,用于根据所述T个预测结果,获取所述待预测用户的终端更换周期。
9.一种终端更换周期的预测装置,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序;
所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578220.0A CN108846695A (zh) | 2018-06-07 | 2018-06-07 | 终端更换周期的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810578220.0A CN108846695A (zh) | 2018-06-07 | 2018-06-07 | 终端更换周期的预测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108846695A true CN108846695A (zh) | 2018-11-20 |
Family
ID=64210518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810578220.0A Pending CN108846695A (zh) | 2018-06-07 | 2018-06-07 | 终端更换周期的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108846695A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583949A (zh) * | 2018-11-22 | 2019-04-05 | 中国联合网络通信集团有限公司 | 一种用户换机预测方法及系统 |
CN109635962A (zh) * | 2018-12-17 | 2019-04-16 | 广州甘来信息科技有限公司 | 基于自贩机的检修时间预测方法、装置、设备及存储介质 |
CN109739750A (zh) * | 2018-12-17 | 2019-05-10 | 北京三快在线科技有限公司 | 研发团队的质量预测模型的确定方法和装置 |
CN110443374A (zh) * | 2019-08-14 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种资源信息处理方法、装置及设备 |
WO2021003608A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳市欢太科技有限公司 | 数据分析方法及相关产品 |
CN113538025A (zh) * | 2020-04-14 | 2021-10-22 | 中国移动通信集团浙江有限公司 | 终端设备的更换预测方法及装置 |
CN113905078A (zh) * | 2021-09-27 | 2022-01-07 | 中国联合网络通信集团有限公司 | 信息推送方法、装置、设备及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951982A (zh) * | 2017-02-24 | 2017-07-14 | 北京邮电大学 | 基于svm算法的输变电设备的有功功率预测方法及装置 |
CN107194736A (zh) * | 2017-05-25 | 2017-09-22 | 重庆汇集源科技有限公司 | 一种基于随机森林的房地产估价方法、系统及存储介质 |
CN107590569A (zh) * | 2017-09-25 | 2018-01-16 | 山东浪潮云服务信息科技有限公司 | 一种数据预测方法及装置 |
CN107657267A (zh) * | 2017-08-11 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 产品潜在用户挖掘方法及装置 |
CN107729555A (zh) * | 2017-11-07 | 2018-02-23 | 太原理工大学 | 一种海量大数据分布式预测方法及系统 |
-
2018
- 2018-06-07 CN CN201810578220.0A patent/CN108846695A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106951982A (zh) * | 2017-02-24 | 2017-07-14 | 北京邮电大学 | 基于svm算法的输变电设备的有功功率预测方法及装置 |
CN107194736A (zh) * | 2017-05-25 | 2017-09-22 | 重庆汇集源科技有限公司 | 一种基于随机森林的房地产估价方法、系统及存储介质 |
CN107657267A (zh) * | 2017-08-11 | 2018-02-02 | 百度在线网络技术(北京)有限公司 | 产品潜在用户挖掘方法及装置 |
CN107590569A (zh) * | 2017-09-25 | 2018-01-16 | 山东浪潮云服务信息科技有限公司 | 一种数据预测方法及装置 |
CN107729555A (zh) * | 2017-11-07 | 2018-02-23 | 太原理工大学 | 一种海量大数据分布式预测方法及系统 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109583949A (zh) * | 2018-11-22 | 2019-04-05 | 中国联合网络通信集团有限公司 | 一种用户换机预测方法及系统 |
CN109635962A (zh) * | 2018-12-17 | 2019-04-16 | 广州甘来信息科技有限公司 | 基于自贩机的检修时间预测方法、装置、设备及存储介质 |
CN109739750A (zh) * | 2018-12-17 | 2019-05-10 | 北京三快在线科技有限公司 | 研发团队的质量预测模型的确定方法和装置 |
WO2021003608A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳市欢太科技有限公司 | 数据分析方法及相关产品 |
CN113841175A (zh) * | 2019-07-05 | 2021-12-24 | 深圳市欢太科技有限公司 | 数据分析方法及相关产品 |
CN110443374A (zh) * | 2019-08-14 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种资源信息处理方法、装置及设备 |
CN113538025A (zh) * | 2020-04-14 | 2021-10-22 | 中国移动通信集团浙江有限公司 | 终端设备的更换预测方法及装置 |
CN113538025B (zh) * | 2020-04-14 | 2024-03-22 | 中国移动通信集团浙江有限公司 | 终端设备的更换预测方法及装置 |
CN113905078A (zh) * | 2021-09-27 | 2022-01-07 | 中国联合网络通信集团有限公司 | 信息推送方法、装置、设备及可读存储介质 |
CN113905078B (zh) * | 2021-09-27 | 2023-07-04 | 中国联合网络通信集团有限公司 | 信息推送方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108846695A (zh) | 终端更换周期的预测方法及装置 | |
KR100816934B1 (ko) | 문서검색 결과를 이용한 군집화 시스템 및 그 방법 | |
CN110163723A (zh) | 基于产品特征的推荐方法、装置、计算机设备及存储介质 | |
CN105701120B (zh) | 确定语义匹配度的方法和装置 | |
WO2016101628A1 (zh) | 一种数据建模中的数据处理方法及装置 | |
CN113935434A (zh) | 一种数据分析处理系统及自动建模方法 | |
CN109522556A (zh) | 一种意图识别方法及装置 | |
CN103744928B (zh) | 一种基于历史访问记录的网络视频分类方法 | |
CN107704871A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN108898476A (zh) | 一种贷款客户信用评分方法和装置 | |
CN109583468A (zh) | 训练样本获取方法,样本预测方法及对应装置 | |
CN110956272A (zh) | 实现数据处理的方法和系统 | |
CN106503863A (zh) | 基于决策树模型的年龄特征的预测方法、系统及终端 | |
CN109598307A (zh) | 数据筛选方法、装置、服务器及存储介质 | |
CN109582849A (zh) | 一种基于知识图谱的网络资源智能检索方法 | |
CN110263979A (zh) | 基于强化学习模型预测样本标签的方法及装置 | |
CN107679549A (zh) | 生成机器学习样本的组合特征的方法及系统 | |
CN107368526A (zh) | 一种数据处理方法及装置 | |
CN109241278A (zh) | 科研知识管理方法及系统 | |
CN110166289A (zh) | 一种识别目标信息资产的方法及装置 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN110263136B (zh) | 基于强化学习模型向用户推送对象的方法和装置 | |
CN114219562A (zh) | 模型的训练方法、企业信用评估方法和装置、设备、介质 | |
CN107871055A (zh) | 一种数据分析方法和装置 | |
CN109977979A (zh) | 定位种子用户的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181120 |