CN114066529A - 一种终端换机预测方法、装置及存储介质 - Google Patents
一种终端换机预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114066529A CN114066529A CN202111424375.7A CN202111424375A CN114066529A CN 114066529 A CN114066529 A CN 114066529A CN 202111424375 A CN202111424375 A CN 202111424375A CN 114066529 A CN114066529 A CN 114066529A
- Authority
- CN
- China
- Prior art keywords
- terminal
- target
- data
- value
- characteristic data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 60
- 238000012545 processing Methods 0.000 claims description 58
- 230000008859 change Effects 0.000 claims description 29
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000006399 behavior Effects 0.000 description 10
- 238000012360 testing method Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2155—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种终端换机预测方法、装置及存储介质,涉及通信技术领域,解决了现有的终端换机预测的准确性较低的技术问题。该终端换机预测方法包括:获取待预测终端的第一终端信息和第一业务信息;根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机;预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括待预测终端的训练终端进行模型训练得到的模型。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种终端换机预测方法、装置及存储介质。
背景技术
随着我国移动网络的发展,第四代移动通信技术(4th Generation MobileCommunication Technology,4G)、第五代移动通信技术(5th Generation MobileCommunication Technology,5G)的普及,智能手机市场发展迅猛。
手机终端换机市场份额现如今变得巨大,用户换机频率明显增强,运营商如何利用自己掌握的海量用户业务数据,精准向用户营销手机成为运营商拓展市场的战略中心。
现有的终端换机预测方法通常是基于用户的历史通话行为和流量行为数据,预测用户是否在将来某时段更换终端。而根据市场调研结果,用户的历史通话行为和流量行为与用户是否在未来某一时段更换终端两者间是弱相关的,从而导致终端换机预测的准确性较低。
发明内容
本申请实施例提供一种终端换机预测方法、装置及存储介质,解决了现有的终端换机预测的准确性较低的技术问题。
为达到上述目的,本申请实施例采用如下技术方案:
第一方面,提供一种终端换机预测方法,包括:
获取待预测终端的第一终端信息和第一业务信息;
根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机;预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括待预测终端的训练终端进行模型训练得到的模型。
可选的,终端换机预测还包括:
获取训练终端的第二终端信息和第二业务信息;训练终端包括目标类终端和非目标类终端;
确定训练终端的第一特征数据;第一特征数据包括第二终端信息的特征数据和第二业务信息的特征数据;第一特征数据包括目标类终端的特征数据和非目标类终端的特征数据;
根据无监督学习算法和第一特征数据,训练得到多个无监督聚类学习模型;
基于第一特征数据和多个无监督聚类学习模型,确定满足预设条件的非目标类终端;
从第一特征数据中去除满足预设条件的非目标类终端的特征数据,以得到第二特征数据;
根据有监督学习算法和第二特征数据,训练得到监督分类学习模型,并将监督分类学习模型确定为终端换机预测模型。
可选的,第一特征数据包括:标签型特征数据、连续型特征数据和离散型特征数据;
确定训练终端的第一特征数据,包括:
去除第二终端信息和第二业务信息中的异常数据,以得到待处理数据;待处理数据包括标签型的待处理数据、连续型的待处理数据和离散型的待处理数据;
对待处理数据执行特征工程处理,以得到待处理数据的特征数据;待处理数据的特征数据包括:标签型特征数据、待处理的连续型特征数据和待处理的离散型特征数据;
对待处理的连续型特征数据执行归一化处理,以得到连续型特征数据;
对待处理的离散型特征数据执行虚拟变量转换处理,以得到离散型特征数据。
可选的,标签型特征数据包括训练终端的网络类型特征数据;多个无监督聚类学习模型包括多个分类簇;
基于第一特征数据和多个无监督聚类学习模型,确定满足预设条件的非目标类终端,包括:
根据网络类型特征数据,确定目标类终端在训练终端的第一占比;
确定目标类终端在多个分类簇中的每个分类簇中的第二占比;
从第二占比中,选取将大于第一占比的第二占比对应的分类簇确定为第一分类簇集合;
根据网络类型特征数据,确定第一非目标类终端集合;
从第一分类簇集合中,选取第一非目标类终端集合中的每个非目标类终端所属的分类簇,以得到第二分类簇集合;
对第二分类簇集合中的每个分类簇对应的第二占比进行求和,以得到每个非目标类终端的异类目标值;
从每个非目标类终端的异类目标值中,选取大于预设异类目标值的异类目标值对应的非目标类终端,以得到第二非目标类终端集合;
根据第二非目标类终端集合、第一占比和预设去除阈值,确定第三非目标类终端集合,并将第三非目标类终端集合中的非目标类终端确定为满足预设条件的非目标类终端。
可选的,根据第二非目标类终端集合、第一占比和预设去除阈值,确定第三非目标类终端集合,包括:
确定数值集合;数值集合包括:第一数值、第二数值和第三数值;第一数值为第二非目标类终端集合中的非目标类终端的数量;第二数值为第一非目标类终端集合中的非目标类终端的数量与第一占比的乘积;第三数值为第一非目标类终端集合中的非目标类终端的数量与预设去除阈值的乘积;
当第一数值为数值集合中的最小数值时,将第二非目标类终端集合确定为第三非目标类终端集合;
当第二数值为数值集合中的最小数值时,将第二非目标类终端集合中的非目标类终端的数量,与第二数值倒数的乘积确定为第一待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第一待去除数值的非目标类终端确定为第三非目标类终端集合;
当第三数值为数值集合中的最小数值时,将第二非目标类终端集合中的非目标类终端的数量,与第三数值倒数的乘积确定为第二待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第二待去除数值的非目标类终端确定为第三非目标类终端集合。
可选的,根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机,包括:
确定待预测终端的第三特征数据;第三特征数据包括第一终端信息的特征数据和第一业务信息的特征数据;
从第三特征数据中,选取目标特征数据;目标特征数据包括待预测终端的连续型特征数据和离散型特征数据;
将目标特征数据输入到终端换机预测模型中,以得到初始概率值;
当初始概率值大于预设概率值时,根据初始概率值和第三特征数据,确定待预测终端在目标时间段是否换机。
可选的,根据初始概率值和第三特征数据,确定待预测终端在目标时间段是否换机,包括:
根据初始概率值和第三特征数据,确定目标概率值;
初始概率值、第三特征数据和目标概率值满足下述公式:
其中,Y1为目标概率值,Y2为初始概率值,a为待预测终端的使用天数的特征数据;b为待预测终端对应的用户在n天内拥有的终端数量;n为正整数;
当目标概率值大于或者等于预设概率值时,确定待预测终端在目标时间段换机;
当目标概率值小于预设概率值时,确定待预测终端在目标时间段不换机。
第二方面,提供一种终端换机预测装置,该终端换机预测装置包括:获取单元和处理单元;
获取单元,用于获取待预测终端的第一终端信息和第一业务信息;
处理单元,用于根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机;预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括待预测终端的训练终端进行模型训练得到的模型。
可选的,获取单元,还用于获取训练终端的第二终端信息和第二业务信息;训练终端包括目标类终端和非目标类终端;
处理单元,还用于确定训练终端的第一特征数据;第一特征数据包括第二终端信息的特征数据和第二业务信息的特征数据;第一特征数据包括目标类终端的特征数据和非目标类终端的特征数据;
处理单元,还用于根据无监督学习算法和第一特征数据,训练得到多个无监督聚类学习模型;
处理单元,还用于基于第一特征数据和多个无监督聚类学习模型,确定满足预设条件的非目标类终端;
处理单元,还用于从第一特征数据中去除满足预设条件的非目标类终端的特征数据,以得到第二特征数据;
处理单元,还用于根据有监督学习算法和第二特征数据,训练得到监督分类学习模型,并将监督分类学习模型确定为终端换机预测模型。
可选的,第一特征数据包括:标签型特征数据、连续型特征数据和离散型特征数据;
处理单元,具体用于:
去除第二终端信息和第二业务信息中的异常数据,以得到待处理数据;待处理数据包括标签型的待处理数据、连续型的待处理数据和离散型的待处理数据;
对待处理数据执行特征工程处理,以得到待处理数据的特征数据;待处理数据的特征数据包括:标签型特征数据、待处理的连续型特征数据和待处理的离散型特征数据;
对待处理的连续型特征数据执行归一化处理,以得到连续型特征数据;
对待处理的离散型特征数据执行虚拟变量转换处理,以得到离散型特征数据。
可选的,标签型特征数据包括训练终端的网络类型特征数据;多个无监督聚类学习模型包括多个分类簇;
处理单元,具体用于:
根据网络类型特征数据,确定目标类终端在训练终端的第一占比;
确定目标类终端在多个分类簇中的每个分类簇中的第二占比;
从第二占比中,选取将大于第一占比的第二占比对应的分类簇确定为第一分类簇集合;
根据网络类型特征数据,确定第一非目标类终端集合;
从第一分类簇集合中,选取第一非目标类终端集合中的每个非目标类终端所属的分类簇,以得到第二分类簇集合;
对第二分类簇集合中的每个分类簇对应的第二占比进行求和,以得到每个非目标类终端的异类目标值;
从每个非目标类终端的异类目标值中,选取大于预设异类目标值的异类目标值对应的非目标类终端,以得到第二非目标类终端集合;
根据第二非目标类终端集合、第一占比和预设去除阈值,确定第三非目标类终端集合,并将第三非目标类终端集合中的非目标类终端确定为满足预设条件的非目标类终端。
可选的,处理单元,具体用于:
确定数值集合;数值集合包括:第一数值、第二数值和第三数值;第一数值为第二非目标类终端集合中的非目标类终端的数量;第二数值为第一非目标类终端集合中的非目标类终端的数量与第一占比的乘积;第三数值为第一非目标类终端集合中的非目标类终端的数量与预设去除阈值的乘积;
当第一数值为数值集合中的最小数值时,将第二非目标类终端集合确定为第三非目标类终端集合;
当第二数值为数值集合中的最小数值时,将第二非目标类终端集合中的非目标类终端的数量,与第二数值倒数的乘积确定为第一待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第一待去除数值的非目标类终端确定为第三非目标类终端集合;
当第三数值为数值集合中的最小数值时,将第二非目标类终端集合中的非目标类终端的数量,与第三数值倒数的乘积确定为第二待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第二待去除数值的非目标类终端确定为第三非目标类终端集合。
可选的,处理单元,具体用于:
确定待预测终端的第三特征数据;第三特征数据包括第一终端信息的特征数据和第一业务信息的特征数据;
从第三特征数据中,选取目标特征数据;目标特征数据包括待预测终端的连续型特征数据和离散型特征数据;
将目标特征数据输入到终端换机预测模型中,以得到初始概率值;
当初始概率值大于预设概率值时,根据初始概率值和第三特征数据,确定待预测终端在目标时间段是否换机。
可选的,处理单元,具体用于:
根据初始概率值和第三特征数据,确定目标概率值;
初始概率值、第三特征数据和目标概率值满足下述公式:
其中,Y1为目标概率值,Y2为初始概率值,a为待预测终端的使用天数的特征数据;b为待预测终端对应的用户在n天内拥有的终端数量;n为正整数;
当目标概率值大于或者等于预设概率值时,确定待预测终端在目标时间段换机;
当目标概率值小于预设概率值时,确定待预测终端在目标时间段不换机。
第三方面,提供一种终端换机预测装置,包括存储器和处理器。存储器用于存储计算机执行指令,处理器与存储器通过总线连接。当终端换机预测装置运行时,处理器执行存储器存储的计算机执行指令,以使终端换机预测装置执行第一方面所述的终端换机预测方法。
该终端换机预测装置可以是网络设备,也可以是网络设备中的一部分装置,例如网络设备中的芯片系统。该芯片系统用于支持网络设备实现第一方面及其任意一种可能的实现方式中所涉及的功能,例如,接收、确定、分流上述终端换机预测方法中所涉及的数据和/或信息。该芯片系统包括芯片,也可以包括其他分立器件或电路结构。
第四方面,提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得该计算机执行第一方面所述的终端换机预测方法。
第五方面,提供一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如第一方面及其任一种可能的设计方式所述的终端换机预测方法。
需要说明的是,上述计算机指令可以全部或者部分存储在第一计算机存储介质上。其中,第一计算机存储介质可以与终端换机预测装置的处理器封装在一起的,也可以与终端换机预测装置的处理器单独封装,本申请实施例对此不作限定。
本发明中第二方面、第三方面、第四方面以及第五方面的描述,可以参考第一方面的详细描述;并且,第二方面、第三方面、第四方面以及第五方面的有益效果,可以参考第一方面的有益效果分析,此处不再赘述。
在本申请实施例中,上述终端换机预测装置的名字对设备或功能模块本身不构成限定,在实际实现中,这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本发明类似,属于本发明权利要求及其等同技术的范围之内。
本发明的这些方面或其他方面在以下的描述中会更加简明易懂。
本申请提供的技术方案至少带来以下有益效果:
本申请中,终端换机预测装置可以在获取待预测终端的第一终端信息和第一业务信息后,通过第一终端信息、所述第一业务信息和预先训练好的终端换机预测模型,确定所述待预测终端是否换机。由于预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括所述待预测终端的训练终端进行模型训练得到的模型,因此,终端换机预测装置可以通过分析待预测终端的整体需求(例如业务信息、终端信息等)与待预测终端当前实际所使用终端的匹配成度,从而预测待预测终端的换机需求,从而快速、准确、合理地预测终端是否换机,解决了现有的终端换机预测的准确性较低的技术问题。
附图说明
图1为本申请实施例提供的一种终端换机预测装置的硬件结构示意图;
图2为本申请实施例提供的又一种终端换机预测装置的硬件结构示意图;
图3为本申请实施例提供的一种训练终端换机预测模型的流程示意图;
图4为本申请实施例提供的一种终端换机预测方法的流程示意图;
图5为本申请实施例提供的一种终端换机预测装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本申请实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
为了便于清楚描述本申请实施例的技术方案,在本申请实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不是在对数量和执行次序进行限定。
如背景技术所描述,现有的终端换机预测方法通常是基于用户的历史通话行为和流量行为数据,预测用户是否在将来某时段更换终端。而根据市场调研结果,用户的历史通话行为和流量行为与用户是否在未来某一时段更换终端两者间是弱相关的,从而导致终端换机预测的准确性较低。
针对上述问题,本申请实施例提供了一种终端换机预测方法,终端换机预测装置可以在获取待预测终端的第一终端信息和第一业务信息后,通过第一终端信息、所述第一业务信息和预先训练好的终端换机预测模型,确定所述待预测终端是否换机。由于预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括所述待预测终端的训练终端进行模型训练得到的模型,因此,终端换机预测装置可以通过分析待预测终端的整体需求(例如业务信息、终端信息等)与待预测终端当前实际所使用终端的匹配成度,从而预测待预测终端的换机需求,从而快速、准确、合理地预测终端是否换机,解决了现有的终端换机预测的准确性较低的技术问题。
上述终端换机预测装置可以为用于对目标端口对应的设备和线路的性能进行预测的设备,也可以为该设备中的芯片,还可以为该设备中的片上系统。
可选的,该设备可以是物理机,例如:台式电脑,又称台式机或桌面机(desktopcomputer)、手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等终端设备。
可选的,上述终端换机预测装置也可以通过部署在物理机上的虚拟机(virtualmachine,VM),实现上述终端换机预测装置所要实现的功能。
为了便于理解,下面对本申请实施例中的终端换机预测装置的结构进行描述。
图1示出了本申请实施例提供的终端换机预测装置的一种硬件结构示意图。如图1所示,该终端换机预测装置包括处理器11,存储器12、通信接口13、总线14。处理器11,存储器12以及通信接口13之间可以通过总线14连接。
处理器11是终端换机预测装置的控制中心,可以是一个处理器,也可以是多个处理元件的统称。例如,处理器11可以是一个通用中央处理单元(central processing unit,CPU),也可以是其他通用处理器等。其中,通用处理器可以是微处理器或者是任何常规的处理器等。
作为一种实施例,处理器11可以包括一个或多个CPU,例如图1中所示的CPU 0和CPU 1。
存储器12可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
一种可能的实现方式中,存储器12可以独立于处理器11存在,存储器12可以通过总线14与处理器11相连接,用于存储指令或者程序代码。处理器11调用并执行存储器12中存储的指令或程序代码时,能够实现本发明实施例提供的终端换机预测方法。
另一种可能的实现方式中,存储器12也可以和处理器11集成在一起。
通信接口13,用于与其他设备通过通信网络连接。所述通信网络可以是以太网,无线接入网,无线局域网(wireless local area networks,WLAN)等。通信接口13可以包括用于接收数据的接收单元,以及用于发送数据的发送单元。
总线14,可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图1中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
需要指出的是,图1示出的结构并不构成对该终端换机预测装置的限定。除图1所示部件之外,该终端换机预测装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
图2示出了本申请实施例中终端换机预测装置的另一种硬件结构。如图2所示,通信装置可以包括处理器21以及通信接口22。处理器21与通信接口22耦合。
处理器21的功能可以参考上述处理器11的描述。此外,处理器21还具备存储功能,可以参考上述存储器12的功能。
通信接口22用于为处理器21提供数据。该通信接口22可以是通信装置的内部接口,也可以是终端换机预测装置对外的接口(相当于通信接口13)。
需要指出的是,图1(或图2)中示出的结构并不构成对终端换机预测装置的限定,除图1(或图2)所示部件之外,该终端换机预测装置可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合附图对本申请实施例提供的终端换机预测方法进行详细介绍。
本申请实施例提供的终端换机预测方法包括:终端换机预测装置根据训练终端的特征数据和预设算法,训练得到终端换机预测模型(简称为“终端换机预测模型训练流程”)和终端换机预测装置确定待预测终端是否换机的流程(简称为“终端换机预测流程”)。
下面先对“终端换机预测模型训练流程”进行描述。
如图3所示,“终端换机预测模型训练流程”包括:
S301、终端换机预测装置获取训练终端的第二终端信息和第二业务信息。
其中,训练终端包括目标类终端和非目标类终端。
具体的,终端换机预测装置在训练得到终端换机预测模型时,需要大量的训练数据作为训练集和测试集。因此,终端换机预测装置可以获取训练终端的第二终端信息和第二业务信息。
可选的,训练终端的第二终端信息可以是终端换机预测装置从运营商数据库中获取到的B域(business support system)运营商数据,训练终端的第二业务信息可以是终端换机预测装置从运营商数据库中获取到的O域(operation support system)运营商数据。
O域(运营域)、B域(业务域)、M域(管理域)特指电信行业大数据领域的三大数据域。
B域运营商数据有用户数据,比如用户的消费习惯、终端信息、ARPU的分组、业务内容,业务受众人群等。主要是建设一些业务支撑系统,用来保障电信运营商能够正常支撑他的业务。
O域运营商数据有业务数据,比如信令、告警、故障、网络资源等。主要是对网络侧的信令、开通指令、网络资源设备的管理、资源使用情况等相关的业务支撑系统的建设。
本申请实施例中,B域运营商数据为用户的计费侧数据,数据内容主要包含用户的自然属性信息(例如性别、年龄等)、计费相关信息(例如套餐信息、欠费信息等)、终端信息(例如当前使用终端品牌、历史换机记录等)。O域运营商数据为用户的核心网侧采集数据,数据内容主要包含用户的上网行为(例如APP使用流量、APP浏览时长等)、通话行为(例如通时长、通话次数等)。
可选的,终端换机预测装置获取训练终端的第二终端信息和第二业务信息时,可以通过安全文件传送协议(Secret File Transfer Protocol,SFTP)方式从B域数据平台和O域数据平台获取。
需要说明的是,终端换机预测装置还可以通过其他数据传输方式获取训练终端的第二终端信息和第二业务信息,本申请实施例对此不作限定。
可选的,在获取训练终端的第二终端信息和第二业务信息后,终端换机预测装置还可以将获取到的数据录入海杜普(Hadoop)集群。
需要说明的是,终端换机预测装置还可以通过其他数据存储方式存储训练终端的第二终端信息和第二业务信息,本申请实施例对此不作限定。
可选的,训练终端的第二终端信息和第二业务信息可以是预设时间段内的终端信息和业务信息。
示例性的,终端换机预测装置可以获取起始日期为t0,结束日期为t1的时间段内的第二终端信息和第二业务信息。
在实际应用中,t1可以是当前日期,且t1-t0≥7。
S302、终端换机预测装置确定训练终端的第一特征数据。
具体的,在获取训练终端的第二终端信息和第二业务信息后,为了便于后续快速训练得到模型,终端换机预测装置可以确定训练终端的第一特征数据。
其中,第一特征数据包括第二终端信息的特征数据和第二业务信息的特征数据;第一特征数据包括目标类终端的特征数据和非目标类终端的特征数据。
目标类终端和非目标类终端为预设的类别终端。
可选的,目标类终端可以是5G终端。在实际应用中,目标类终端也可以根据场景和需求定义不同的目标类终端(例如高游戏性能终端、高拍照功能终端等)。
可选的,终端换机预测装置确定训练终端的第一特征数据的方法具体包括:
S3021、终端换机预测装置去除第二终端信息和第二业务信息中的异常数据,以得到待处理数据。
其中,待处理数据包括标签型的待处理数据、连续型的待处理数据和离散型的待处理数据。
可选的,异常数据包括:不规范的用户数据、特征填充为空值的用户数据等。
可选的,终端换机预测装置可以通过三西格马定律(three-sigma rule ofthumb),去除第二终端信息和第二业务信息中的连续性的异常数据,以得到待处理数据。
S3022、终端换机预测装置对待处理数据执行特征工程处理,以得到待处理数据的特征数据。
其中,待处理数据的特征数据包括:标签型特征数据、待处理的连续型特征数据和待处理的离散型特征数据。
S3023、终端换机预测装置对待处理的连续型特征数据执行归一化处理,以得到连续型特征数据。
待处理的连续型特征数据和连续型特征数据满足下述公式:
其中,xi为待处理的连续型特征数据,xj为连续型特征数据,μxi为待处理的连续型特征数据的数学期望,σxi为待处理的连续型特征数据的标准差。
S3024、终端换机预测装置对待处理的离散型特征数据执行虚拟变量转换处理,以得到离散型特征数据。
示例性的,对于待处理的离散型特征数据X{a,b,c,d},可以将其执行虚拟变量转换处理,以得到离散型特征数据:Xa={1,0},Xb={1,0},Xc={1,0}。
示例性的,第二终端信息的特征数据以及特征解释如表1所示。
需要说明的是,下述各个表格中的用户为持有训练终端的用户。
表1
示例性的,第二业务信息的特征数据以及特征解释如表2所示。
表2
第二业务信息 | 特征解释 |
X<sub>14</sub> | 用户手机号 |
X<sub>15</sub> | 用户年龄 |
X<sub>16</sub> | 用户性别 |
X<sub>17</sub> | 用户当前套餐价格 |
X<sub>18</sub> | 用户当前套餐网络类型 |
X<sub>19</sub> | 用户当前累计欠费 |
X<sub>20</sub> | 用户过去n天中累计拥有终端数量 |
X<sub>21</sub> | 用户当前终端品牌 |
X<sub>22</sub> | 用户当前终端价格区域 |
X<sub>23</sub> | 用户当前终端使用天数 |
X<sub>24</sub> | 用户当前终端网络类型 |
此外,结合S301中的示例,表2中的特征数据可以只根据当前日期t1构建,不用考虑起始日期t0。
可选的,在确定包括第二终端信息的特征数据和第二业务信息的特征数据的第一特征数据后,终端换机预测装置可以将第二终端信息的特征数据和第二业务信息的特征数据进行融合,并以X0、X14为key值,通过等值连接(inner join)的方式的关联合并第二终端信息的特征数据和第二业务信息的特征数据,key值最后留下X0。
可选的,在确定第一特征数据后,可以将第一特征数据划分为三类特征数据,具体包括:标签型特征数据、连续型特征数据和离散型特征数据。
示例性的,标签型特征数据以及特征解释如表3所示。
表3
连续型特征数据以及特征解释如表4所示。
表4
连续型特征数据 | 特征解释 |
X<sub>1</sub> | 用户使用社交类APP总天数 |
X<sub>2</sub> | 用户使用社交类APP总时长 |
X<sub>3</sub> | 用户使用社交类APP总流量 |
X<sub>4</sub> | 用户使用游戏类APP总天数 |
X<sub>5</sub> | 用户使用游戏类APP总时长 |
X<sub>6</sub> | 用户使用游戏类APP总流量 |
X<sub>7</sub> | 用户使用视频类APP总天数 |
X<sub>8</sub> | 用户使用视频类APP总时长 |
X<sub>9</sub> | 用户使用视频类APP总流量 |
X<sub>10</sub> | 用户使用购物类APP总天数 |
X<sub>11</sub> | 用户使用购物类APP总时长 |
X<sub>12</sub> | 用户使用购物类APP总流量 |
X<sub>13</sub> | 用户使用APP总数量 |
X<sub>15</sub> | 用户年龄 |
X<sub>17</sub> | 用户当前套餐价格 |
X<sub>19</sub> | 用户当前累计欠费 |
X<sub>20</sub> | 用户过去n天中累计拥有终端数量 |
离散型特征数据以及特征解释如表5所示。
表5
S303、终端换机预测装置根据无监督学习算法和第一特征数据,训练得到多个无监督聚类学习模型。
具体的,在确定训练终端的第一特征数据后,终端换机预测装置可以根据无监督学习算法和第一特征数据,训练得到多个无监督聚类学习模型。
可选的,无监督学习算法包括:K-Means算法、Hierarchical算法、Spectral算法、Agglomerative算法、DBSCAN算法、Fuzzy C-Means算法、Mean Shift算法、GMM算法等。
示例性的,以无监督学习算法为K-Means算法为例,终端换机预测装置可以将第一特征数据中的连续型特征数据和离散型特征数据作为训练无监督聚类学习模型的训练集。
具体的,终端换机预测装置可以设定一个k值(聚类数参数)的范围。
k的取值范围一般为2k训练集数据量。在实际应用中k值范围一般设置为[3,10。以下以k=[3,10为例继续说明。
终端换机预测装置可以设置K-Means模型参数,具体为:
1)lusters:3,4,…,10(聚类数k为3,4,…,10)。
2)init:k-means++(初始聚类质心算法使用K-Means++)。
3)n_init:10(初始聚类质心算法的运行次数为10,并根据inertia选出最优质心组)。
4)max_iter:2000(模型最大迭代次数为2000)。
在实际应用中,可根据场景和需求对以上参数进行调整。
后续,终端换机预测装置分别以k=3,4,…,10训练出8个K-Means模型,共聚类出3+4+…+10=52个分类簇,并用Ci,i=1,2,…,52表示。
需要说明的是,因为训练了8个无监督聚类学习模型,所以每个训练终端都会出现在8个不同的Ci中。
S304、终端换机预测装置基于第一特征数据和多个无监督聚类学习模型,确定满足预设条件的非目标类终端。
具体的,在训练得到多个无监督聚类学习模型后,终端换机预测装置可以根据多个无监督聚类学习模型的模型输出结果,通过确定异类目标值的方法,从第一特征数据中剔除被多次聚类到高密度目标类终端分类簇中的非目标类终端(即满足预设条件的非目标类终端)。
可选的,标签型特征数据包括训练终端的网络类型特征数据;多个无监督聚类学习模型包括多个分类簇;终端换机预测装置基于第一特征数据和多个无监督聚类学习模型,确定满足预设条件的非目标类终端的方法具体包括:
S3041、终端换机预测装置根据网络类型特征数据,确定目标类终端在训练终端的第一占比。
示例性的,以目标类终端为5G终端,非目标类终端为非5G终端为例。结合上述表3,通过标签型特征数据X24(X24=1表示该训练终端为5G终端;X24=0表示该训练终端为非5G终端),计算出第一特征数据中目标类终端(5G终端)占比,得到Pα=p(x24=1)。
S3042、终端换机预测装置确定目标类终端在多个分类簇中的每个分类簇中的第二占比。
S3043、终端换机预测装置从第二占比中,选取将大于第一占比的第二占比对应的分类簇确定为第一分类簇集合。
S3044、终端换机预测装置根据网络类型特征数据,确定第一非目标类终端集合。
结合上述示例,终端换机预测装置可以筛选出非目标类终端(非5G终端),得到第一非目标类终端集合Xβ={xo|x24=0}。
S3045、终端换机预测装置从第一分类簇集合中,选取第一非目标类终端集合中的每个非目标类终端所属的分类簇,以得到第二分类簇集合。
S3046、终端换机预测装置对第二分类簇集合中的每个分类簇对应的第二占比进行求和,以得到每个非目标类终端的异类目标值。
S3047、终端换机预测装置从每个非目标类终端的异类目标值中,选取大于预设异类目标值的异类目标值对应的非目标类终端,以得到第二非目标类终端集合。
S3048、终端换机预测装置根据第二非目标类终端集合、第一占比和预设去除阈值,确定第三非目标类终端集合,并将第三非目标类终端集合中的非目标类终端确定为满足预设条件的非目标类终端。
可选的,终端换机预测装置根据第二非目标类终端集合、第一占比和预设去除阈值,确定第三非目标类终端集合的方法具体包括:
S30481、终端换机预测装置确定数值集合。
其中,数值集合包括:第一数值、第二数值和第三数值;第一数值为第二非目标类终端集合中的非目标类终端的数量;第二数值为第一非目标类终端集合中的非目标类终端的数量与第一占比的乘积;第三数值为第一非目标类终端集合中的非目标类终端的数量与预设去除阈值的乘积。
结合上述示例,终端换机预测装置定义|Xβ+|=N1(第一非目标类终端集合Xβ中的非目标类终端数)、|Xβ|×Pα=N2、|Xβ|×Ptop=N3。
其中,N1为第一数值,N2为第二数值,N3为第三数值。Ptop为非目标类终端的预设去除阈值(一般来讲Ptop和Pα成反比,且Ptop≤0.3,实际应用中可根据场景和需求调整参数Ptop)。
S30482、当第一数值为数值集合中的最小数值时,终端换机预测装置将第二非目标类终端集合确定为第三非目标类终端集合。
S30483、当第二数值为数值集合中的最小数值时,终端换机预测装置将第二非目标类终端集合中的非目标类终端的数量,与第二数值倒数的乘积确定为第一待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第一待去除数值的非目标类终端确定为第三非目标类终端集合。
S30484、当第三数值为数值集合中的最小数值时,终端换机预测装置将第二非目标类终端集合中的非目标类终端的数量,与第三数值倒数的乘积确定为第二待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第二待去除数值的非目标类终端确定为第三非目标类终端集合。
结合上述示例,第三非目标类终端集合Xcfd、第二非目标类终端集合Xβ+,第一数值N1、第二数值N2和第三数值N3满足下述公式:
S305、终端换机预测装置从第一特征数据中去除满足预设条件的非目标类终端的特征数据,以得到第二特征数据。
S306、终端换机预测装置根据有监督学习算法和第二特征数据,训练得到监督分类学习模型,并将监督分类学习模型确定为终端换机预测模型。
可选的,有监督学习算法包括:XGBoost算法、Logistic Regression算法、Decision Trees算法、K-NN算法、SVM、Naive Bayes算法、Random Forest算法、AdaBoost算法、LightGBM算法、Neural Networks算法等。
示例性的,以有监督学习算法为XGBoost算法为例,终端换机预测装置可以将第二特征数据中的连续型特征数据和离散型特征数据作为训练无监督聚类学习模型的输入特征数据data2_x,并使用第二特征数据中的标签型特征数据X23作为模型输出标签数据data2_y,将数据以7:3的比例随机分配成训练集和测试集:data2_x_train、data2_y_train、data2_x_test、data2_y_test。
终端换机预测装置可以设置XGBoost模型参数,具体为:
1)booster:gbtree(模型提升方法使用梯度提升树)。
2)objective:binary logistic(模型的目标函数基于二分类逻辑回归):
3)eval_metric:auc(模型的评价指标使用AUC)。
4)n_estimators:1000(模型迭代次数为1000)。
5)eta:0.3(模型更新过程的收缩步长为0.3)。
6)gamma:0.5(模型中节点分裂所需的最小损失函数下降值为0.5)。
7)maxdepth:6(模型中树的最大深度为6)。
8)min_child_weight:1(模型中最小叶子节点样本权重和为1)。
9)subsample:0.7(模型每棵树的数据(行)随机采样的比例为0.7)。
10)colsample_bytree:0.7(模型每棵树的特征(列)随机采样的比例为0.7)。
11)lambda:1(模型L2正则化项的权重值为1)。
12)alpha:0(模型L1正则化项的权重值为0)。
13)scale_pos_weight:w(第二特征数据中目标类终端的数量与非目标类终端的数量的比值)
在实际应用中,可根据场景和需求对以上参数进行调整。
终端换机预测装置可以使用测试集data2_x_train、data2_y_train训练XGBoost模型,然后通过测试集data2_x_test、data2_y_test评估模型表现,并在模型收敛时得到监督分类学习模型。
接下来对“终端换机预测流程”进行描述。
采用上述方法训练好终端换机预测模型之后,可以根据待预测终端的第一终端信息和第一业务信息,以及训练好的终端换机预测模型,确定待预测终端是否换机。
如图4所示,“终端换机预测流程”的方法具体包括:
S401、终端换机预测装置获取待预测终端的第一终端信息和第一业务信息。
终端换机预测装置获取待预测终端的第一终端信息和第一业务信息的方法,具体可以参考S301中,终端换机预测装置获取训练终端的第二终端信息和第二业务信息的方法,在此不再赘述。
S402、终端换机预测装置根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机。
其中,预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括待预测终端的训练终端进行模型训练得到的模型。
可选的,终端换机预测装置根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机的方法具体包括:
S4021、终端换机预测装置确定待预测终端的第三特征数据。
其中,第三特征数据包括第一终端信息的特征数据和第一业务信息的特征数据。
终端换机预测装置确定待预测终端的第三特征数据的方法,具体可以参考S302中,终端换机预测装置确定训练终端的第一特征数据的方法,在此不再赘述。
S4022、终端换机预测装置从第三特征数据中,选取目标特征数据。
其中,目标特征数据包括待预测终端的连续型特征数据和离散型特征数据。
示例性的,终端换机预测装置可以从第三特征数据中,筛选出来非目标类终端(非5G终端)的连续型特征数据和离散型特征数据,作为终端换机预测模型的输入特征数据。
S4023、终端换机预测装置将目标特征数据输入到终端换机预测模型中,以得到初始概率值。
结合上述示例,终端换机预测装置可以将非目标类终端(非5G终端)的连续型特征数据和离散型特征数据,输入到上述S306中训练得到的XGBoost模型,得到非目标类终端(非5G终端)转换为目标类终端(5G终端)的初始概率值Yp。
S4024、当初始概率值大于预设概率值时,终端换机预测装置根据初始概率值和第三特征数据,确定待预测终端在目标时间段是否换机。
具体的,终端换机预测装置可以设置预设概率值ythr。
示例性的,当Yp≥ythr时,非目标类终端(非5G终端)被定义为潜在的目标类终端(潜在5G终端),即待预测终端将要换机。
可选的,终端换机预测装置根据初始概率值和第三特征数据,确定待预测终端在目标时间段是否换机,包括:
终端换机预测装置根据初始概率值和第三特征数据,确定目标概率值。
初始概率值、第三特征数据和目标概率值满足下述公式:
其中,Y1为目标概率值,Y2为初始概率值,a为待预测终端的使用天数的特征数据;b为待预测终端对应的用户在n天内拥有的终端数量;n为正整数。
由上述公式可知,当用户现有终端使用天数与其过去n天内平均每个终端使用天数的比值越小时,结合时间因素的待预测终端的目标概率值相对于初始概率值的折损就越大。
当目标概率值大于或者等于预设概率值时,终端换机预测装置确定待预测终端在目标时间段换机。
当目标概率值小于预设概率值时,终端换机预测装置确定待预测终端在目标时间段不换机。
示例性的,结合标签型特征数据X23(用户当前终端使用天数)和连续型特征数据X20(用户过去n天中累计拥有终端数量,一般情况下n≥730),根据上述公式可以得到结合时间因素后的待预测终端的目标概率值Yp_。
本申请实施例提供了一种终端换机预测方法,终端换机预测装置可以在获取待预测终端的第一终端信息和第一业务信息后,通过第一终端信息、所述第一业务信息和预先训练好的终端换机预测模型,确定所述待预测终端是否换机。由于预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括所述待预测终端的训练终端进行模型训练得到的模型,因此,终端换机预测装置可以通过分析待预测终端的整体需求(例如业务信息、终端信息等)与待预测终端当前实际所使用终端的匹配成度,从而预测待预测终端的换机需求,从而快速、准确、合理地预测终端是否换机,解决了现有的终端换机预测的准确性较低的技术问题。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请实施例可以根据上述方法示例对终端换机预测装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图5所示,为本申请实施例提供的一种终端换机预测装置的结构示意图。该终端换机预测装置包括:获取单元501和处理单元502;
获取单元501,用于获取待预测终端的第一终端信息和第一业务信息;
处理单元502,用于根据第一终端信息、第一业务信息和预先训练好的终端换机预测模型,确定待预测终端是否换机;预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括待预测终端的训练终端进行模型训练得到的模型。
可选的,获取单元501,还用于获取训练终端的第二终端信息和第二业务信息;训练终端包括目标类终端和非目标类终端;
处理单元502,还用于确定训练终端的第一特征数据;第一特征数据包括第二终端信息的特征数据和第二业务信息的特征数据;第一特征数据包括目标类终端的特征数据和非目标类终端的特征数据;
处理单元502,还用于根据无监督学习算法和第一特征数据,训练得到多个无监督聚类学习模型;
处理单元502,还用于基于第一特征数据和多个无监督聚类学习模型,确定满足预设条件的非目标类终端;
处理单元502,还用于从第一特征数据中去除满足预设条件的非目标类终端的特征数据,以得到第二特征数据;
处理单元502,还用于根据有监督学习算法和第二特征数据,训练得到监督分类学习模型,并将监督分类学习模型确定为终端换机预测模型。
可选的,第一特征数据包括:标签型特征数据、连续型特征数据和离散型特征数据;
处理单元502,具体用于:
去除第二终端信息和第二业务信息中的异常数据,以得到待处理数据;待处理数据包括标签型的待处理数据、连续型的待处理数据和离散型的待处理数据;
对待处理数据执行特征工程处理,以得到待处理数据的特征数据;待处理数据的特征数据包括:标签型特征数据、待处理的连续型特征数据和待处理的离散型特征数据;
对待处理的连续型特征数据执行归一化处理,以得到连续型特征数据;
对待处理的离散型特征数据执行虚拟变量转换处理,以得到离散型特征数据。
可选的,标签型特征数据包括训练终端的网络类型特征数据;多个无监督聚类学习模型包括多个分类簇;
处理单元502,具体用于:
根据网络类型特征数据,确定目标类终端在训练终端的第一占比;
确定目标类终端在多个分类簇中的每个分类簇中的第二占比;
从第二占比中,选取将大于第一占比的第二占比对应的分类簇确定为第一分类簇集合;
根据网络类型特征数据,确定第一非目标类终端集合;
从第一分类簇集合中,选取第一非目标类终端集合中的每个非目标类终端所属的分类簇,以得到第二分类簇集合;
对第二分类簇集合中的每个分类簇对应的第二占比进行求和,以得到每个非目标类终端的异类目标值;
从每个非目标类终端的异类目标值中,选取大于预设异类目标值的异类目标值对应的非目标类终端,以得到第二非目标类终端集合;
根据第二非目标类终端集合、第一占比和预设去除阈值,确定第三非目标类终端集合,并将第三非目标类终端集合中的非目标类终端确定为满足预设条件的非目标类终端。
可选的,处理单元502,具体用于:
确定数值集合;数值集合包括:第一数值、第二数值和第三数值;第一数值为第二非目标类终端集合中的非目标类终端的数量;第二数值为第一非目标类终端集合中的非目标类终端的数量与第一占比的乘积;第三数值为第一非目标类终端集合中的非目标类终端的数量与预设去除阈值的乘积;
当第一数值为数值集合中的最小数值时,将第二非目标类终端集合确定为第三非目标类终端集合;
当第二数值为数值集合中的最小数值时,将第二非目标类终端集合中的非目标类终端的数量,与第二数值倒数的乘积确定为第一待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第一待去除数值的非目标类终端确定为第三非目标类终端集合;
当第三数值为数值集合中的最小数值时,将第二非目标类终端集合中的非目标类终端的数量,与第三数值倒数的乘积确定为第二待去除数值,并从第二非目标类终端集合中,按照异类目标值从大到小的顺序,选取第二待去除数值的非目标类终端确定为第三非目标类终端集合。
可选的,处理单元502,具体用于:
确定待预测终端的第三特征数据;第三特征数据包括第一终端信息的特征数据和第一业务信息的特征数据;
从第三特征数据中,选取目标特征数据;目标特征数据包括待预测终端的连续型特征数据和离散型特征数据;
将目标特征数据输入到终端换机预测模型中,以得到初始概率值;
当初始概率值大于预设概率值时,根据初始概率值和第三特征数据,确定待预测终端在目标时间段是否换机。
可选的,处理单元502,具体用于:
根据初始概率值和第三特征数据,确定目标概率值;
初始概率值、第三特征数据和目标概率值满足下述公式:
其中,Y1为目标概率值,Y2为初始概率值,a为待预测终端的使用天数的特征数据;b为待预测终端对应的用户在n天内拥有的终端数量;n为正整数;
当目标概率值大于或者等于预设概率值时,确定待预测终端在目标时间段换机;
当目标概率值小于预设概率值时,确定待预测终端在目标时间段不换机。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令。当计算机执行指令在计算机上运行时,使得计算机执行如上述实施例提供的终端换机预测方法中,终端换机预测装置执行的各个步骤。
本申请实施例还提供一种计算机程序产品,该计算机程序产品可直接加载到存储器中,并含有软件代码,该计算机程序产品经由计算机载入并执行后能够实现上述实施例提供的终端换机预测方法中,终端换机预测装置执行的各个步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (16)
1.一种终端换机预测方法,其特征在于,包括:
获取待预测终端的第一终端信息和第一业务信息;
根据所述第一终端信息、所述第一业务信息和预先训练好的终端换机预测模型,确定所述待预测终端是否换机;所述预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括所述待预测终端的训练终端进行模型训练得到的模型。
2.根据权利要求1所述的终端换机预测方法,其特征在于,还包括:
获取所述训练终端的第二终端信息和第二业务信息;所述训练终端包括目标类终端和非目标类终端;
确定所述训练终端的第一特征数据;所述第一特征数据包括所述第二终端信息的特征数据和所述第二业务信息的特征数据;所述第一特征数据包括所述目标类终端的特征数据和所述非目标类终端的特征数据;
根据所述无监督学习算法和所述第一特征数据,训练得到多个无监督聚类学习模型;
基于所述第一特征数据和所述多个无监督聚类学习模型,确定满足预设条件的非目标类终端;
从所述第一特征数据中去除满足所述预设条件的非目标类终端的特征数据,以得到第二特征数据;
根据所述有监督学习算法和所述第二特征数据,训练得到监督分类学习模型,并将所述监督分类学习模型确定为所述终端换机预测模型。
3.根据权利要求2所述的终端换机预测方法,其特征在于,所述第一特征数据包括:标签型特征数据、连续型特征数据和离散型特征数据;
所述确定所述训练终端的第一特征数据,包括:
去除所述第二终端信息和所述第二业务信息中的异常数据,以得到待处理数据;所述待处理数据包括标签型的待处理数据、连续型的待处理数据和离散型的待处理数据;
对所述待处理数据执行特征工程处理,以得到所述待处理数据的特征数据;所述待处理数据的特征数据包括:所述标签型特征数据、待处理的连续型特征数据和待处理的离散型特征数据;
对所述待处理的连续型特征数据执行归一化处理,以得到所述连续型特征数据;
对所述待处理的离散型特征数据执行虚拟变量转换处理,以得到所述离散型特征数据。
4.根据权利要求3所述的终端换机预测方法,其特征在于,所述标签型特征数据包括所述训练终端的网络类型特征数据;所述多个无监督聚类学习模型包括多个分类簇;
所述基于所述第一特征数据和所述多个无监督聚类学习模型,确定满足预设条件的非目标类终端,包括:
根据所述网络类型特征数据,确定所述目标类终端在所述训练终端的第一占比;
确定所述目标类终端在所述多个分类簇中的每个分类簇中的第二占比;
从所述第二占比中,选取将大于所述第一占比的第二占比对应的分类簇确定为第一分类簇集合;
根据所述网络类型特征数据,确定第一非目标类终端集合;
从所述第一分类簇集合中,选取所述第一非目标类终端集合中的每个非目标类终端所属的分类簇,以得到第二分类簇集合;
对所述第二分类簇集合中的每个分类簇对应的第二占比进行求和,以得到所述每个非目标类终端的异类目标值;
从所述每个非目标类终端的异类目标值中,选取大于预设异类目标值的异类目标值对应的非目标类终端,以得到第二非目标类终端集合;
根据所述第二非目标类终端集合、所述第一占比和预设去除阈值,确定第三非目标类终端集合,并将所述第三非目标类终端集合中的非目标类终端确定为满足所述预设条件的非目标类终端。
5.根据权利要求4所述的终端换机预测方法,其特征在于,所述根据所述第二非目标类终端集合、所述第一占比和预设去除阈值,确定第三非目标类终端集合,包括:
确定数值集合;所述数值集合包括:第一数值、第二数值和第三数值;所述第一数值为所述第二非目标类终端集合中的非目标类终端的数量;所述第二数值为所述第一非目标类终端集合中的非目标类终端的数量与所述第一占比的乘积;所述第三数值为所述第一非目标类终端集合中的非目标类终端的数量与所述预设去除阈值的乘积;
当所述第一数值为所述数值集合中的最小数值时,将所述第二非目标类终端集合确定为所述第三非目标类终端集合;
当所述第二数值为所述数值集合中的最小数值时,将所述第二非目标类终端集合中的非目标类终端的数量,与所述第二数值倒数的乘积确定为第一待去除数值,并从所述第二非目标类终端集合中,按照所述异类目标值从大到小的顺序,选取所述第一待去除数值的非目标类终端确定为所述第三非目标类终端集合;
当所述第三数值为所述数值集合中的最小数值时,将所述第二非目标类终端集合中的非目标类终端的数量,与所述第三数值倒数的乘积确定为第二待去除数值,并从所述第二非目标类终端集合中,按照所述异类目标值从大到小的顺序,选取所述第二待去除数值的非目标类终端确定为所述第三非目标类终端集合。
6.根据权利要求1-5任一项所述的终端换机预测方法,其特征在于,所述根据所述第一终端信息、所述第一业务信息和预先训练好的终端换机预测模型,确定所述待预测终端是否换机,包括:
确定所述待预测终端的第三特征数据;所述第三特征数据包括所述第一终端信息的特征数据和所述第一业务信息的特征数据;
从所述第三特征数据中,选取目标特征数据;所述目标特征数据包括所述待预测终端的连续型特征数据和离散型特征数据;
将所述目标特征数据输入到所述终端换机预测模型中,以得到初始概率值;
当所述初始概率值大于预设概率值时,根据所述初始概率值和所述第三特征数据,确定所述待预测终端在目标时间段是否换机。
8.一种终端换机预测装置,其特征在于,包括:获取单元和处理单元;
所述获取单元,用于获取待预测终端的第一终端信息和第一业务信息;
所述处理单元,用于根据所述第一终端信息、所述第一业务信息和预先训练好的终端换机预测模型,确定所述待预测终端是否换机;所述预先训练好的终端换机预测模型为根据无监督学习算法和有监督学习算法,对包括所述待预测终端的训练终端进行模型训练得到的模型。
9.根据权利要求8所述的终端换机预测装置,其特征在于,
所述获取单元,还用于获取所述训练终端的第二终端信息和第二业务信息;所述训练终端包括目标类终端和非目标类终端;
所述处理单元,还用于确定所述训练终端的第一特征数据;所述第一特征数据包括所述第二终端信息的特征数据和所述第二业务信息的特征数据;所述第一特征数据包括所述目标类终端的特征数据和所述非目标类终端的特征数据;
所述处理单元,还用于根据所述无监督学习算法和所述第一特征数据,训练得到多个无监督聚类学习模型;
所述处理单元,还用于基于所述第一特征数据和所述多个无监督聚类学习模型,确定满足预设条件的非目标类终端;
所述处理单元,还用于从所述第一特征数据中去除满足所述预设条件的非目标类终端的特征数据,以得到第二特征数据;
所述处理单元,还用于根据所述有监督学习算法和所述第二特征数据,训练得到监督分类学习模型,并将所述监督分类学习模型确定为所述终端换机预测模型。
10.根据权利要求9所述的终端换机预测装置,其特征在于,所述第一特征数据包括:标签型特征数据、连续型特征数据和离散型特征数据;
所述处理单元,具体用于:
去除所述第二终端信息和所述第二业务信息中的异常数据,以得到待处理数据;所述待处理数据包括标签型的待处理数据、连续型的待处理数据和离散型的待处理数据;
对所述待处理数据执行特征工程处理,以得到所述待处理数据的特征数据;所述待处理数据的特征数据包括:所述标签型特征数据、待处理的连续型特征数据和待处理的离散型特征数据;
对所述待处理的连续型特征数据执行归一化处理,以得到所述连续型特征数据;
对所述待处理的离散型特征数据执行虚拟变量转换处理,以得到所述离散型特征数据。
11.根据权利要求10所述的终端换机预测装置,其特征在于,所述标签型特征数据包括所述训练终端的网络类型特征数据;所述多个无监督聚类学习模型包括多个分类簇;
所述处理单元,具体用于:
根据所述网络类型特征数据,确定所述目标类终端在所述训练终端的第一占比;
确定所述目标类终端在所述多个分类簇中的每个分类簇中的第二占比;
从所述第二占比中,选取将大于所述第一占比的第二占比对应的分类簇确定为第一分类簇集合;
根据所述网络类型特征数据,确定第一非目标类终端集合;
从所述第一分类簇集合中,选取所述第一非目标类终端集合中的每个非目标类终端所属的分类簇,以得到第二分类簇集合;
对所述第二分类簇集合中的每个分类簇对应的第二占比进行求和,以得到所述每个非目标类终端的异类目标值;
从所述每个非目标类终端的异类目标值中,选取大于预设异类目标值的异类目标值对应的非目标类终端,以得到第二非目标类终端集合;
根据所述第二非目标类终端集合、所述第一占比和预设去除阈值,确定第三非目标类终端集合,并将所述第三非目标类终端集合中的非目标类终端确定为满足所述预设条件的非目标类终端。
12.根据权利要求11所述的终端换机预测装置,其特征在于,所述处理单元,具体用于:
确定数值集合;所述数值集合包括:第一数值、第二数值和第三数值;所述第一数值为所述第二非目标类终端集合中的非目标类终端的数量;所述第二数值为所述第一非目标类终端集合中的非目标类终端的数量与所述第一占比的乘积;所述第三数值为所述第一非目标类终端集合中的非目标类终端的数量与所述预设去除阈值的乘积;
当所述第一数值为所述数值集合中的最小数值时,将所述第二非目标类终端集合确定为所述第三非目标类终端集合;
当所述第二数值为所述数值集合中的最小数值时,将所述第二非目标类终端集合中的非目标类终端的数量,与所述第二数值倒数的乘积确定为第一待去除数值,并从所述第二非目标类终端集合中,按照所述异类目标值从大到小的顺序,选取所述第一待去除数值的非目标类终端确定为所述第三非目标类终端集合;
当所述第三数值为所述数值集合中的最小数值时,将所述第二非目标类终端集合中的非目标类终端的数量,与所述第三数值倒数的乘积确定为第二待去除数值,并从所述第二非目标类终端集合中,按照所述异类目标值从大到小的顺序,选取所述第二待去除数值的非目标类终端确定为所述第三非目标类终端集合。
13.根据权利要求8-12任一项所述的终端换机预测装置,其特征在于,所述处理单元,具体用于:
确定所述待预测终端的第三特征数据;所述第三特征数据包括所述第一终端信息的特征数据和所述第一业务信息的特征数据;
从所述第三特征数据中,选取目标特征数据;所述目标特征数据包括所述待预测终端的连续型特征数据和离散型特征数据;
将所述目标特征数据输入到所述终端换机预测模型中,以得到初始概率值;
当所述初始概率值大于预设概率值时,根据所述初始概率值和所述第三特征数据,确定所述待预测终端在目标时间段是否换机。
15.一种终端换机预测装置,其特征在于,包括存储器和处理器;所述存储器用于存储计算机执行指令,所述处理器与所述存储器通过总线连接;
当所述终端换机预测装置运行时,所述处理器执行所述存储器存储的所述计算机执行指令,以使所述终端换机预测装置执行如权利要求1-7任一项所述的终端换机预测方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机执行指令,当所述计算机执行指令在计算机上运行时,使得所述计算机执行如权利要求1-7任一项所述的终端换机预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424375.7A CN114066529A (zh) | 2021-11-26 | 2021-11-26 | 一种终端换机预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111424375.7A CN114066529A (zh) | 2021-11-26 | 2021-11-26 | 一种终端换机预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114066529A true CN114066529A (zh) | 2022-02-18 |
Family
ID=80276905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111424375.7A Pending CN114066529A (zh) | 2021-11-26 | 2021-11-26 | 一种终端换机预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114066529A (zh) |
-
2021
- 2021-11-26 CN CN202111424375.7A patent/CN114066529A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503006B (zh) | 应用App中子应用的排序方法及装置 | |
CN108804567A (zh) | 提高智能客服应答率的方法、设备、存储介质及装置 | |
CN113379301A (zh) | 通过决策树模型对用户进行分类的方法、装置和设备 | |
CN108520471B (zh) | 重叠社区发现方法、装置、设备及存储介质 | |
CN109190930A (zh) | 一种指标生成方法及装置 | |
CN111931053A (zh) | 一种基于聚类和矩阵分解的事项推送方法和装置 | |
CN111047425A (zh) | 一种行为预测方法及装置 | |
CN108205570A (zh) | 一种数据检测方法和装置 | |
CN112085615A (zh) | 图神经网络的训练方法及装置 | |
CN111310834B (zh) | 数据处理方法及装置、处理器、电子设备、存储介质 | |
CN113656699A (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN114816738A (zh) | 算力节点的确定方法、装置、设备及计算机可读存储介质 | |
CN110532448B (zh) | 基于神经网络的文档分类方法、装置、设备及存储介质 | |
CN110489175A (zh) | 服务处理方法、装置、服务器及存储介质 | |
CN113609409A (zh) | 一种推荐浏览信息的方法及其系统、电子设备、存储介质 | |
CN107659982B (zh) | 一种无线网络接入点的分类方法及装置 | |
CN112887371A (zh) | 边缘计算方法、装置、计算机设备及存储介质 | |
CN114066529A (zh) | 一种终端换机预测方法、装置及存储介质 | |
CN115375453A (zh) | 系统资源分配方法及装置 | |
CN110210884A (zh) | 确定用户特征数据的方法、装置、计算机设备及存储介质 | |
CN113205231A (zh) | 一种离网预测方法及装置 | |
CN113934612A (zh) | 用户画像更新方法、装置、存储介质及电子设备 | |
CN113935407A (zh) | 一种异常行为识别模型确定方法及装置 | |
CN112054926A (zh) | 集群管理方法、装置、电子设备及存储介质 | |
CN118301212B (zh) | 消息推送方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |