CN114765772B - 终端信息的输出方法、装置及可读存储介质 - Google Patents
终端信息的输出方法、装置及可读存储介质 Download PDFInfo
- Publication number
- CN114765772B CN114765772B CN202110001507.9A CN202110001507A CN114765772B CN 114765772 B CN114765772 B CN 114765772B CN 202110001507 A CN202110001507 A CN 202110001507A CN 114765772 B CN114765772 B CN 114765772B
- Authority
- CN
- China
- Prior art keywords
- field
- terminal
- target
- value
- classifier
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012216 screening Methods 0.000 claims description 83
- 238000010276 construction Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 230000000694 effects Effects 0.000 abstract description 7
- 230000011218 segmentation Effects 0.000 description 17
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 101100129590 Schizosaccharomyces pombe (strain 972 / ATCC 24843) mcp5 gene Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 241000251730 Chondrichthyes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Abstract
本申请提供一种终端信息的输出方法、装置及可读存储介质,其中,该方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集;根据第二数据集中多个字段中的第一字段的信息价值IV值,构建与第一字段对应的第一分类器;其中,第一字段与第一终端的属性信息相关;根据第一分类器的输出结果构建第二分类器;输出第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,第一目标结果用于指示第一数据集中待使用第一终端的对象。通过本申请,解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
Description
技术领域
本申请实施例涉及数据处理技术领域,尤其涉及一种终端信息的输出方法、装置及可读存储介质。
背景技术
2020年是5G正式进入我们生活中的商用化元年,运营商基于用户基本信息、套餐订购、终端使用情况、交往圈终端、终端换机时间、DPI及数字内容数据,形成用户统一的字段宽表数据,利用统一的字段构建决策树等二分类器算法识别5G终端换机用户。然而,对于新业务市场比如5G市场,普遍存在两种问题,1)部分字段存在时间和空间不稳定性,导致识别终端换机用户的方式鲁棒性较差;2)正负样本不平衡,导致识别终端换机用户效果较差。
发明内容
本申请实施例提供一种终端信息的输出方法、装置及可读存储介质,以解决现有技术中由于正负样本不平衡和部分字段存在时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
为解决上述问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种终端信息的输出方法,由设备执行,所述方法包括:按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;根据所述第一分类器的输出结果构建第二分类器;输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。
第二方面,本申请实施例提供了一种终端信息的输出装置,所述装置包括:第一提取模块,用于按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;第一构建模块,用于根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;第二构建模块,用于根据所述第一分类器的输出结果构建第二分类器;输出模块,用于输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。
第六方面,本申请实施例还提供一种可读存储介质,用于存储程序,所述程序被处理器执行时实现如前述第一方面所述方法中的步骤。
在本申请实施例中,对于第一数据集中的正样本和负样本,是根据预设比例进行提取正负样本的分布比较均匀的第二数据集从而使整个数据集中正负样本比较平衡,另外,根据IV值构建分类器,并将输出结果重新融合新的分类器,进而输出待使用第一终端的对象的结果,多个模型整合时,将每个模型的输出结果作为特征编码重新建立分类器,从而得到最终的输出结果,保证了输出结果的准确度;如果是以5G用户终端为例,则输出第一数据集中待使用5G终端的对象,从而解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的终端信息的输出方法的流程图;
图2是本申请实施例提供的识别潜在5G终端用户方法示意图;
图3是本申请实施提供的终端信息的输出装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。此外,本申请中使用“和/或”表示所连接对象的至少其中之一,例如A和/或B和/或C,表示包含单独A,单独B,单独C,以及A和B都存在,B和C都存在,A和C都存在,以及A、B和C都存在的7种情况。
以下对本申请实施例提供的终端信息的输出方法进行说明。
参见图1,图1是本申请实施例提供的终端信息的输出方法的流程示意图。图1所示的终端信息的输出方法可以由设备执行。
如图1所示,终端信息的输出方法可以包括以下步骤:
步骤101,按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;正样本为第一数据集中多个字段指示当前正在使用第一终端的数据,负样本为第一数据集中多个字段指示当前之前的预设时长内已换成第二终端的数据;
步骤102,根据第二数据集中多个字段中的第一字段的信息价值IV值,构建与第一字段对应的第一分类器;其中,第一字段与第一终端的属性信息相关;
步骤103,根据第一分类器的输出结果构建第二分类器;
步骤104,输出第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,第一目标结果用于指示第一数据集中待使用第一终端的对象。
通过上述步骤101至步骤104,对于第一数据集中的正样本和负样本,是根据预设比例进行提取正负样本的分布比较均匀的第二数据集从而使整个数据集中正负样本比较平衡,另外,根据IV值构建分类器,并将输出结果重新融合新的分类器,进而输出待使用第一终端的对象的结果,多个模型整合时,将每个模型的输出结果作为特征编码重新建立分类器,从而得到最终的输出结果,保证了输出结果的准确度;如果是以5G用户终端为例,则输出第一数据集中待使用5G终端的对象,从而解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
示例性的,第一数据集可以通过如下数学公式表示:其中,Xi,Yi,Vi,Mi表示不同的字段,具体地,Xi∈Rn为样本字段,Yi∈{0,1}为样本中用户类别标签,1表示用户已经使用5G终端,0表示用户现在没有使用5G终端。Mi∈{0,1}中1表示用户M月换手机,0表示M月用户没有换手机。Vi∈{0,1...31}表示第i个省。可见,上述Xi为第一字段。在具体应用场景中,该Xi字段可以指示以下内容:
1)基础特征,例如,用户标识、省分类编码、省份、性别、年龄等;
2)订购特征,例如,是否订购5G套餐等;
3)位置类特征,例如,周末白天5G基站停留时间,周末黑夜5G基站停留时间,非周末白天5G基站停留时间,非周末黑夜5G基站停留时间,周末白天5G基站比例,周末黑夜5G基站比例,非周末白天5G基站比例,非周末黑夜5G基站比例等;
4)消费类特征,例如,近三个月流量消费、近三个月实际缴费、近三个月通话时长等语音和流量以及APRU值类的特征;
5)终端信息特征,例如,当前手机使用时长、当前手机品牌,历史手机使用平均时长,历史手机品牌、历史手机价格区间,家庭朋友圈top5手机品牌、家庭朋友圈手机价格区间等;
6)上网行为特征,例如,白天上网时长等;
7)家庭特征,例如,宽带使用M数等;
8)朋友圈特征,例如,近一月家庭V网通话时长等;
9)APP偏好特征,例如,视频app流量消耗等。
上述Xi字段指示的内容仅仅是举例说明,可以根据实际情况进行相应的增加和删减。
需要说明的是,上述多个字段仅仅是举例说明,可以根据实际情况进行相应字段的增加。另外,上述以5G终端为例,如果以后5G终端已经普遍使用后,本申请实施例也可以对6G,7G以及之后的终端适用,上述仅仅是举例说明。此外,M月表示当前月,如果当前月为1月,则Mi=0表示当前的1月没有换手机,Mi=1表示用户当前1月换过手机。
此外,本申请实施例中的预设比例可以是1:1,1:2或1:3,具体可以根据实际情况进行相应的设置。本申请实施例中的第一分类器和第二分类器可以是树状分类器、支持向量机(Support Vector Machines,SVM)、逻辑回归(Logistic Regression,LR)、深度神经网络等的二分类器,也可以是其他类型的分类器,具体可以根据实际情况进行相应的选择。
在本申请实施例的可选实施方式中,对于步骤101中涉及到的按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集的方式进一步可以包括:
步骤11,根据多个字段从目标区域内的多个行政区内分别获取对应的目标数据;
步骤12,从目标数据中剔除出无效数据,将剔除无效数据后的多个行政区的目标数据组合为第一数据集;其中,第一数据集中字段内容相同的行政区所对应的数据具有相同的标识;
步骤13,按照预设比例对第一数据集中的正样本和负样本进行提取;
步骤14,根据标识对提取结果中的数据进行分类,其中,每一个分类结果对应一个第二数据集。
对于上述步骤11和步骤14,可以以我国的省级行政区为例进行说明,获取31个省级行政区中5G终端用户的数据,并从中删除无效数据,例如,中离网用户和测试卡、虚拟卡、临时等非正常资费、物联网卡、无线座机、M2M、数据卡、TD无线固话用户以及状态非正常的用户等,该无效数据还可以是字段全为空的数据。
此外,根据标识对提取结果中的数据进行分类是指,由于31个省级行政区每个区域内的5G终端使用情况不一样,因此,每一个省级行政区获取到的字段内容是不一样的,例如,经济发达的省份的字段内容更加丰富,经济落后的省份的字段内容相对较少,因此,根据字段内容以及有内容的字段的数量,对31个省份进行分类,将字段内容相同的省份划分一类。
可见,通过上述步骤11和步骤14,根据各省发展水平划分不同群体,并在用户特征上新增一列省分类编码标识,根据省分类编码标识提取每个群体正负样本,并使用下采样的方法控制每个群体正负样本比例。这样就得到一份在每个群体的分布均匀的正负样本数据集,从而使整个数据集中标签类别平衡。
在本申请实施例的另一个可选实施方式中,对于步骤102中涉及到的根据第二数据集中多个字段中的第一字段的信息价值IV值,构建与第一字段对应的第一分类器的方式,进一步可以包括:
步骤21,将第二数据集中第一字段的空值率大于第二预设阈值的字段设置为私有字段;
步骤22,将第二数据集中第一字段的空值率小于或等于第二预设阈值的字段设置为共有字段;
步骤23,使用第一IV值筛选方式对共有字段进行筛选得到第一筛选结果,其中,第一筛选结果用于指示第一字段中共有字段的IV值大于第三预设阈值的第一目标字段;
其中,该步骤23进一步可以是:提取共有字段中的第一共有字段,并对第一共有字段进行分箱;统计每一分箱中正样本的数据与第一数据集中的正样本的第一比值;统计每一分箱中负样本的数据与第一数据集中的负样本的第二比值;根据第一比值与第二比值的和确定第一共有字段的IV值;从共有字段中筛选出IV值大于第三预设阈值的第一共有字段,得到第一筛选结果。
需要说明的是,该第一IV值筛选方式可以是指传统IV值筛选方式,在具体应用场景中,该步骤23中的第一字段以上述Xi为,则首先提取待测特征Xi(比如9类特征其中一个)和标签Y(正样本1代表用户使用5G手机,负样本0代表用户没有使用5G手机)。
进而,将Xi进行粗分箱,得到特征Xi取值的分段点。针对离散型特征直接用特征每个取值作为粗分箱的分段点,针对连续特征一般采用等频分箱或者等距分箱得到特征Xi的粗分箱的分段点。即输出(x1,x2),(x2,x3)…,x1<x2<x3…。每一个分段(xi,xi+1)称为一个分箱,n代表粗分箱的个数。
3统计特征Xi每一分箱对应标签中正样本的用户个数占整个样本数据集中正样本的用户个数的比例,设为pyi,i=1,2,3,...n。统计特征Xi每一分箱对应标签中负样本的用户个数占整个样本数据集中负样本的用户个数的比例,设为pni,i=1,2,3,...n。按照下列公式计算IV值:
步骤24,使用第二IV值筛选方式对私有字段进行筛选得到第二筛选结果,其中,第二筛选结果用于指示第一字段中私有字段的IV值大于第四预设阈值的第二目标字段;
其中,该步骤24进一步可以包括:提取私有字段中的第一私有字段,以及第一私有字段对应的标识;根据标识对第一私有字段进行分类,并对分类后的每一类第一私有字段进行分箱;统计每一分箱中正样本的数据与第一数据集中的正样本的第三比值,以及统计每一分箱中正样本的数据与第一数据集中的正样本的第四比值;根据第三比值和第四比值确定分类后的每一类第一私有字段的IV值;从IV值中筛选出大于第四预设阈值的第一私有字段,得到第二筛选结果。
需要说明的是,该第二IV值筛选方式可以是指改进后的IV值筛选方式,在具体应用场景中,该步骤24中的第一字段以上述Xi为,在具体应用场景中可以是:提取待测特征Xi(比如9类特征其中一个),省分类标识,取值范围为1,2…31和标签Y(正样本1代表用户使用5G手机,负样本0代表用户没有使用5G手机)。为了介绍方便,不妨设省分类编码Vx取值只有1,2,3。
筛选出省分类标识Vx=1的用户SV1,提取这批用户对应的Xi和标签Y。若Xi全是空值,无法进行粗分箱,则输出IV值为0。
将省分类标识Vx=1的用户SV1对应的特征Xi的空值填充特殊符号比如-9999后再进行粗分箱,输出省分类编码Vx=1的用户SV1对应的Xi取值的分段点。
统计用户SV1下特征Xi每一分箱对应标签中正样本的用户个数占用户SV1中正样本的用户个数的比例,设为pyi,i=1,2,3,...n。统计特征Xi每一分箱对应标签中负样本的用户个数占用户SV1中负样本的用户个数的比例,设为pni,i=1,2,3,...n。按照下列公式计算IV值:
按照同样方法统计省分类标识Vx=2的用户SV2的IV值,以及省分类标识Vx=3的用户SV3的IV值。
取省分类标识Vx=1的用户SV1的IV1值、省分类标识Vx=2的用户SV2的IV2值、省分类标识Vx=3的用户SV3的IV3值,这3个数值中最大的值作为特征Xi的最终IV值记为IV_Z。若特征Xi的IV_Z低于阈值thread3,则被删掉。
步骤25,基于第一目标字段和第二目标字段中字段为空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器;
步骤26,基于第一目标字段和第二目标字段中字段为空值的正样本与第一数据集中的正样本的比值小于或等于第五预设阈值的字段,构建第二目标分类器;其中,第一分类器包括第一目标分类器和第二目标分类器。
通过上述步骤21至步骤26,对第二数据集中的字段进行筛选后得到较为重要的字段,进而以较为重要的字段构建分类器,得到对应的输出结果,并根据输出结果再次融合构建分类器,得到潜在的第一终端的用户,如果是以5G终端为例,则得到的是潜在的5G终端用户。
在本申请实施例中,对于上述步骤25中涉及到的基于第一目标字段和第二目标字段中字段为空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器的方式进一步可以包括:
步骤31,从第一目标字段和第二目标字段中字段空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段中,筛选出IV值大于第六预设阈值的字段,以构建第一子目标分类器;
步骤32,从第一目标字段和第二目标字段中字段空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段中,筛选出IV值小于第七预设阈值的字段,以构建第二子目标分类器;
步骤33,从第一目标字段和第二目标字段中字段空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段中,筛选出IV值大于第六预设阈值且小于第七预设阈值的字段,以构建第三子目标分类器;
其中,第七预设阈值大于第六预设阈值,第一目标分类器包括:第一子目标分类器、第二子目标分类器和第三子目标分类器。
通过上述步骤31至步骤33,得到不同的分类器的输出结果,将该输出结果与第二目标分类器的输出结果构建第二分类器,步骤103中涉及到的根据第一分类器的输出结果构建第二分类器的方式,进一步可以包括:
步骤41,获取第一子目标分类器的第一输出结果;
步骤42,获取第二子目标分类器的第二输出结果;
步骤43,获取第三子目标分类器的第三输出结果;
步骤44,获取第二目标分类器的第四输出结果;
步骤45,根据第一输出结果、第二输出结果、第三输出结果、第四输出结果以及标识构建第二分类器。
通过上述步骤41至步骤45,可以将第一分类器的输出结果再次进行融合以构建第二分类器,得到第二分类器的输出结果。在本申请实施例中,多个分类器的整合,将每个分类器的预测结果作为特征编码重新建立分类器,从而得到最终的预测结果,保证了输出结果的准确度。
在本申请实施例中,在输出第二分类器的输出结果中大于第一预设阈值的第一目标结果之后,本申请实施例的方法还可以包括:
步骤55,从第一目标结果中提取出第一终端的终端信息;
步骤56,根据终端信息从第一目标结果中筛选出第二目标结果,其中,第二目标结果为第一终端的上一终端品牌不为空的第一用户数量;
步骤57,对第二目标结果中不同品牌的用户数进行排序,并从中筛选出排序靠前的第一预设数量的终端品牌。
通过上述步骤55至步骤57,在得到第一目标结果后,从中筛选输出第一终端的上一终端品牌不为空的数据,进而可以从中确定出当前用户受欢迎的终端品牌,如果以5G终端为例,则可以确定当前受欢迎的5G终端的品牌。也就是说,在本申请中在确定出潜在的5G终端用户后,还可以确定出5G终端的品牌,进一步提升了对终端用户的识别。
在本申请实施例的另一个可选实施方式中,在对第二目标结果中不同品牌的用户数进行排序,并从中筛选出排序靠前的第一预设数量的终端品牌之后,本申请实施例的方法还可以包括:
步骤61,统计第一目标结果中每一个终端品牌的第一值和第二值;其中,第二用户数量与第一用户数量的比值为第一值;第二用户数量为第一目标结果中当前终端品牌与上一终端品牌不一致的用户数量;第二值是指第一目标结果中上一终端的同一品牌的数量中变为其他品牌数量的比值;
步骤62,从第一目标结果中筛选出第一值和第二值满足预设条件的终端品牌以及对应的终端价格。
其中,该步骤62中涉及到的从第一目标结果中筛选出第一值和第二值满足预设条件的终端品牌以及对应的终端价格的方式,进一步可以包括:
步骤71,根据终端信息对第一目标结果中第一终端进行分类;其中,分类结果包括第一分类结果,第二分类结果和第三分类结果;第一分类结果是指当前终端品牌与上一终端品牌相同的用户,第二分类结果是指当前终端之前上一终端为空的用户,第三分类结果是指当前终端品牌与上一终端品牌不相同的用户;
步骤72,从第一分类中输出对应的第一终端品牌;
步骤73,从第二分类中输出第二终端品牌,其中,第二终端品牌包括:在当前终端品牌的第一值大于第八预设阈值的情况下的当前终端品牌,或在当前终端品牌的第一值小于或等于第八预设阈值的情况下的当前终端品牌和第一预设数量的终端品牌;
步骤74,从第三分类中输出第三终端品牌,其中,第三终端品牌包括当前终端品牌和根据第二值确定的排序靠前的第二预设数量的终端品牌;
步骤75,输出以下至少一项:第一终端品牌和第一终端品牌对应的价格区间的组合、第二终端品牌和第二终端品牌对应的价格区间的组合、第三终端品牌和第三终端品牌对应的价格区间的组合。
通过上述步骤71至步骤75可知,可以对第一目标结果中的终端用户进行分类,针对每一类终端用户筛选出较为受欢迎的终端品牌及其对应的价格,本申请实施例中的价格,可以是当前手机价格,历史手机价格平均值,家庭朋友圈手机价格平均值,取这三个值的最小值和最大值作为终端的最终价格区间。
本申请实施例中介绍的多种可选的实施方式,在彼此不冲突的情况下可以相互结合实现,也可以单独实现,对此本申请实施例不作限定。
为方便理解,下面结合本申请实施例的具体实施方式对本申请进行解释说明。
在本具体实施方式中,先利用拼接技术增加正样本,利用嫁接式树状集成模块兼容字段变化性,根据正负比例选择合适降低不平衡性的训练方法,利用特征的IV值的不同将特征分类训练多个分类器输出预测值并将其进行特征编码,重新融合新的模型,输出5G手机使用概率。最后将超过换机概率的用户接入推荐模块,输出用户匹配的5G机型,结合图2,本具体实施方式中的方法步骤包括:
步骤201,无效用户和字段剔除;
其中,输入数据集其中Xi∈Rn为样本字段,Yi∈{0,1}为样本中用户类别标签,1表示用户已经使用5G手机,0表示用户现在没有使用5G手机。Mi∈{0,1}中1表示用户M月换手机,0表示M月用户没有换手机。Vi∈{0,1...31}表示第i个省。
对数据集做如下处理:删除样本中离网用户和测试卡、虚拟卡、临时等非正常资费、物联网卡、无线座机、M2M、数据卡、TD无线固话用户以及状态非正常的用户等,以及删除Xi中全为空或者全为一样的字段。
步骤202,正样本拼接;
其中,主要采用拼接和下采样相结合的方式增加正样本,降低负样本从而达到标签类别的平衡性。即根据各省发展水平划分不同群体,并在用户特征上新增一列省分类编码特征Vx,根据省分类编码特征提取每个群体正负样本,并使用下采样的方法控制每个群体正负样本比例。这样就得到一份在每个群体的分布均匀的正负样本数据集,从而使整个数据集中标签类别平衡;
具体过程包括:
步骤81,将31个省字段相同的省划分为同一个群体,比如:群体1,群体2…并在用户特征维度上增加一列省分类编码属于群体1,则省分类编码为1,依次类推。
步骤82,提取31个省使用5G手机为正样本以及M月换4G手机用户成为负样本1,然后随机等额或者1:2或者1:3等抽取与负样本1不重合的4G用户手机,保证样本总量符合建模需求,得到数据集
步骤83,将每个群体的正样本和负样本数据集分成K份,分别在K份正负样本中选择1份样本作为测试数据集,其余K-1份样本作为训练数据集,将每个群体的训练集合在一起作为训练集,将每个群体的测试集合在一起作为测试集。
步骤203,对特征进行处理,以选择出重要特征;
其中,利用每一个特征的空值比例跟阈值thread2相比较,将用户统一字段分为两类:共有字段和私有字段。共有字段利用传统IV值筛选特征,私有字段利用改进版IV值筛选特征。将两者的得到的特征合并输入到下一模块。
步骤91,输入模块2得到用户数据集其中,X为31个省特征并集,在具体应用场景中字段类别可以是上述Xi中的1)~9)中的特征。
步骤92,利用空值率将用户所有字段分为:共有字段和私有字段。即将9类特征空值用特殊字符填充比如T,当空值率高于阈值thread2时,为私有字段否则为共有字段。共有字段利用传统IV值筛选特征,私有字段利用改进版IV值筛选特征。
其中,传统IV值筛选过程为:
首先,提取待测特征Xi(比如9类特征其中一个)和标签Y(正样本1代表用户使用5G手机,负样本0代表用户没有使用5G手机)。
其次,将Xi进行粗分箱,得到特征Xi取值的分段点。针对离散型特征直接用特征每个取值作为粗分箱的分段点,针对连续特征一般采用等频分箱或者等距分箱得到特征Xi的粗分箱的分段点。即输出(x1,x2),(x2,x3)…,x1<x2<x3…。每一个分段(xi,xi+1)称为一个分箱,n代表粗分箱的个数。
进而,统计特征Xi每一分箱对应标签中正样本的用户个数占整个样本数据集中正样本的用户个数的比例,设为pyi,i=1,2,3,...n。统计特征Xi每一分箱对应标签中负样本的用户个数占整个样本数据集中负样本的用户个数的比例,设为pni,i=1,2,3,...n。按照下列公式计算IV值:
最后,若特征Xi的IV值低于阈值thread3,则被删掉,从中选择出IV值高于阈值thread3的特征Xi。
下面以连续字段年龄,采用等频方法进行粗分箱计算特征年龄的IV值。
比如整个样本数据集共3000用户,正样本用户1000,负样本用户2000,阈值thread3为0.2。
其中,年龄采用等频分段方式得到粗分箱的个数n=3,即得到年龄取值的3个分箱(0,27),(27,40),(40,100),在这3个分箱中用户的个数都是1000,在(0,27)中有正样本用户100,那么这个分箱中py1=100/1000=0.1,在(0,27)中有负样本用户900,pn1=900/2000=9/20;在(27,40)中有正样本用户700,那么这个分箱中py2=700/1000=0.7,在(27,40)中有负样本用户300,pn2=300/2000=3/20;在(40,100)中有正样本用户500,那么这个分箱中py3=500/1000=0.5,在(40,100)中有负样本用户500,pn3=500/2000=5/20
则IV=(0.1-0.45)*ln(0.1/0.45)+(0.7-0.15)*ln(0.7/0.15)+(0.5-0.25)*ln(0.5/0.25)=1.54,可见,IV值大于thread3值。
对于改进版IV值筛选方式:
首先,提取待测特征Xi(比如9类特征其中一个),省分类编码Vx,取值范围为1,2…31和标签Y(正样本1代表用户使用5G手机,负样本0代表用户没有使用5G手机)。为了介绍方便,不妨设省分类编码Vx取值只有1,2,3。
其次,筛选出省分类编码Vx=1的用户SV1,提取这批用户对应的Xi和标签Y。若Xi全是空值,无法进行粗分箱(参考传统IV值筛选特征工程粗分箱方法),则输出IV值为0。
进而,将省分类编码Vx=1的用户SV1对应的特征Xi的空值填充特殊符号比如-9999后再进行粗分箱,输出省分类编码Vx=1的用户SV1对应的Xi取值的分段点。
以及,统计用户SV1下特征Xi每一分箱对应标签中正样本的用户个数占用户SV1中正样本的用户个数的比例,设为pyi,i=1,2,3,...n。统计特征Xi每一分箱对应标签中负样本的用户个数占用户SV1中负样本的用户个数的比例,设为pni,i=1,2,3,...n。按照下列公式1计算IV值:
需要说明的是,按照同样方法统计省分类编码Vx=2的用户SV2的IV值,以及省分类编码Vx=3的用户SV3的IV值。
最后,取省分类编码Vx=1的用户SV1的IV1值、省分类编码Vx=2的用户SV2的IV2值、省分类编码Vx=3的用户SV3的IV3值,这3个数值中最大的值作为特征Xi的最终IV值记为IV_Z。其中,若特征Xi的IV_Z低于阈值thread3,则被删掉;选择出IV值大于thread3的特征Xi。
对此,在本申请实施例中以以下示例进行举例说明:
用户数共9000,正样本3000,负样本6000。省分类编码Vx有3种取值:Vx1,Vx2,Vx3,其中省分类编码Vx取值为Vx1时候正样本用户1000,负样本用户2000,省分类编码Vx取值为Vx2时候正样本用户1000,负样本用户2000,省分类编码Vx取值为Vx3时候正样本用户1000,负样本用户2000,thread3值为0.2。
省分类编码Vx取值为1时候特征周末黑夜5G基站停留时间等频分箱后,粗分箱个数n=3,即得到3个分箱(0,100),(100,1400),(1400,2000),在这3个分箱中用户的个数都是1000,在(0,100)中有正样本用户100,那么这个分箱中py1=100/1000=0.1,在(0,100)中有负样本用户900,pn1=900/2000=0.45;在(100,1400)中有正样本用户700,那么这个分箱中py2=700/1000=0.7,在(100,1400)中有负样本用户300,pn2=300/2000=3/20;在(1400,2000)中有正样本用户500,那么这个分箱中py3=500/1000=0.5,在(1400,2000)中有负样本用户500,pn3=500/2000=0.25则省分类编码Vx取值为1时候:IV1=(0.1-0.45)*ln(0.1/0.45)+(0.7-0.15)*ln(0.7/0.15)+(0.5-0.25)*ln(0.5/0.25)=1.54
省分类编码Vx取值为2时候,特征周末黑夜5G基站停留时间全为空,无法进行粗分箱,则输出IV2=0。省分类编码Vx取值为3时候,特征周末黑夜5G基站停留时间全为空,无法进行粗分箱,则输出IV3=0。
特征周末黑夜5G基站停留时间IV_Z=max(1.54,0,0)=1.54,大于阈值thread3取值0.2。
步骤204,采用嫁接式树状集成方式训练模型得到每个用户换5G手机的概率。大于阈值thread5用户作为潜在5G手机用户。
其中,具体流程如下:
步骤111,判断每一个字段所属模型类型,即不妨设整个用户群中,正样本用户num1,负样本个数num2,接收上一个模块输入特征集合XS,提取每一个属于XS的特征Xi和标签Y(正样本1代表用户使用5G手机,负样本0代表用户没有使用5G手机),当Xi为空值时候Y取值为1的用户数除以整个样本正样本用户num1,当大于阈值thread4进入右子模型,否则进入左子模型。
步骤112,若字段属于左子模型,先将属于左子模型的特征对应IV值进行降序排序,分为三类排名靠前(特征值IV高于IV阈值1)、排名中间(特征值IV低于IV阈值1且高于IV阈值2)、排名靠后(特征值IV低于IV阈值2)分别以符号x1i,i=1,2,3,4...g;x2i,i=1,2,3,4...m,x3i,i=1,2,3,4...k代表,其中,g,m,k分别表示每类特征个数。
步骤113,以特征x1i,i=1,2,3,4...g和标签Y构建分类器1输出用户换5G手机预测概率值pre1(预测值1),其中,分类器不局限于树状分类器、SVM、LR、深度神经网络等的二分类器;
步骤114,以特征x2i,i=1,2,3,4...m和标签Y构建分类器2输出用户换5G手机预测概率值pre2(预测值2),其中,分类器不局限于树状分类器、SVM、LR、深度神经网络等的二分类器;
步骤115,以特征x3i,i=1,2,3,4...k和标签Y构建分类器3输出用户换5G手机预测概率值pre3(预测值3),其中,分类器不局限于树状分类器、SVM、LR、深度神经网络等的二分类器;
步骤116,若属于右子模型特征x4i,i=1,2,3,4...l,其中l为特征个数。则选出对应标签全是正样本的用户提取特征x4i,i=1,2,3,4...l,利用x4i,i=1,2,3,4...l构建分类器4输出用户换5G手机预测概率值pre4(预测值4),其中,分类器不局限于孤立点森林,单分类SVM等单分类器。
步骤117,提取用户的概率值pre1,pre2,pre3,pre4,以及省分类编码Vx作为用户5个新的特征,并将这5个新特征和标签放在一起重新构建新的分类器5,输出用户换5G手机的概率值pre5(图2中模型融合后的输出结果),pre5则为用户最终的换5G手机概率值,其中,分类器不局限于树状分类器、SVM、LR、深度神经网络等的二分类器。
步骤101,将pre5大于阈值thread5的用户作为潜在5G手机用户,用符号S8代表这类用户。
步骤205,给换5G概率高的用户推荐合适的手机机型;
其中,具体步骤包括:
步骤121,提取潜在5G手机用户S8的当前手机品牌,当前手机价格,历史手机品牌、历史手机价格平均值等手机信息;以及提取手机厂商在售5G手机清单,清单包括:5G手机品牌,5G手机价格,5G手机型号。
步骤122,从31省筛选出当前手机品牌不为空并且上一个手机品牌也不为空的用户群S9,设用户数为num3。
步骤123,统计每一个手机品牌brandi,i=1,2,3…的忠诚度,即当上一个手机品牌为brandi时候当前手机品牌也为brandi的用户数设为num4;num4除以num3即为手机品牌brandi的忠诚度。
步骤124,统计每一个手机品牌brandi,i=1,2,3…的变化度,即当上一个手机品牌为brandi时候当前手机品牌为brandj,j不等于i设用户数为num5j,j不等于i,将num5j进行降序排列,取排名前3的手机品牌brandj,j不等于i,则排名前3的手机品牌brandj,j不等于i为手机品牌brandi,i=1,2,3…的变化度。
例如,设上一个是手机品牌是品牌A的用户总数是1000,其中当上一个是手机品牌是品牌A,当前手机品牌为品牌B用户数是200;当上一个是手机品牌是品牌A,当前手机品牌为品牌D用户数是100;当上一个是手机品牌是品牌A,当前手机品牌为品牌C用户数是110;当上一个是手机品牌是品牌A,当前手机品牌为黑鲨用户数是10;则手机品牌是品牌A变化度为品牌B、品牌C、品牌D。
步骤125,统计最受欢迎的top5手机品牌vamBrandi,i=1,2,3,4,5,即统计用户群S9每一个手机品牌用户数并进行降序排列,取排名前5的手机品牌。
步骤126,计算潜在5G手机用户S8的偏好手机品牌;
其中,具体流程为:用户群体S8按照下面方式划分为三类,分别记为B11,B12,B2,即上一个手机品牌跟当前手机品牌一样用户B11,当前手机品牌有值上一个手机品牌为空的用户B12。上一个手机品牌跟当前手机品牌不一样用户划分为B2。
针对B11用户输出手机品牌用户偏好手机品牌为1个即当前手机品牌mbrand;3)针对B12用户判断当前手机品牌mbrand的忠诚度是否大于阈值thread6,若大于阈值thread6输出用户偏好手机品牌为1个即mbrand;否则输出用户偏好手机品牌为6个即最受欢迎的top5手机品牌和mbrand;针对B2用户输出手机品牌用户偏好手机品牌为4个即mbrand变化度和mbrand。
步骤127,计算潜在5G手机用户S8的偏好手机价格区间;
其中,具体方式可以是,提取计算潜在5G手机用户S8的当前手机价格,历史手机价格平均值,家庭朋友圈手机价格平均值,取这三个值的最小值和最大值作为用户手机价格的偏好区间。
步骤128,潜在5G手机用户S8手机品牌偏好,手机价格偏好区间与手机厂商在售5G手机清单中5G手机品牌,5G手机价格,5G手机型号信息,以手机品牌为关键词进行关联,输出在用户价格偏好区间的5G手机机型。
需要说明的是,本实施例作为与上述方法实施例对应的装置的实施方式,因此,可以参见上述方法实施例中的相关说明,且可以达到相同的有益效果。为了避免重复说明,在此不再赘述。
参见图3,图3是本申请实施例提供的终端信息的输出装置的结构图。如图3所示,终端信息的输出装置300包括:
第一提取模块31,用于按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;正样本为第一数据集中多个字段指示使用第一终端的数据,负样本为第一数据集中多个字段指示当前之前的预设时长内已换成第二终端的数据;
第一构建模块32,用于根据第二数据集中多个字段中的第一字段的信息价值IV值,构建与第一字段对应的第一分类器;其中,第一字段与第一终端的属性信息相关;
第二构建模块33,用于根据第一分类器的输出结果构建第二分类器;
输出模块34,用于输出第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,第一目标结果用于指示第一数据集中待使用第一终端的对象。
可选地,本申请实施例中的第一提取模块31进一步可以包括:获取单元,用于根据多个字段从目标区域内的多个行政区内分别获取对应的目标数据;处理单元,用于从目标数据中剔除出无效数据,将剔除无效数据后的多个行政区的目标数据组合为第一数据集;其中,第一数据集中字段内容相同的行政区所对应的数据具有相同的标识;提取单元,用于按照预设比例对第一数据集中的正样本和负样本进行提取;第一分类单元,用于根据标识对提取结果中的数据进行分类,其中,每一个分类结果对应一个第二数据集。
对于第一数据集中的正样本和负样本,是根据预设比例进行提取正负样本的分布比较均匀的第二数据集从而使整个数据集中正负样本比较平衡,另外,根据IV值构建分类器,并将输出结果重新融合新的分类器,进而输出待使用第一终端的对象的结果,多个模型整合时,将每个模型的输出结果作为特征编码重新建立分类器,从而得到最终的输出结果,保证了输出结果的准确度;如果是以5G用户终端为例,则输出第一数据集中待使用5G终端的对象,从而解决了现有技术中由于正负样本不平衡和部分字段时间和空间不稳定性,导致识别终端换机用户效果较差和鲁棒性较差的问题。
可选地,本申请实施例中的第一构建模块32进一步可以包括:第一设置单元,用于将第二数据集中第一字段的空值率大于第二预设阈值的字段设置为私有字段;第二设置单元,用于将第二数据集中第一字段的空值率小于或等于第二预设阈值的字段设置为共有字段;第一筛选单元,用于使用第一IV值筛选方式对共有字段进行筛选得到第一筛选结果,其中,第一筛选结果用于指示第一字段中共有字段的IV值大于第三预设阈值的第一目标字段;第二筛选单元,用于使用第二IV值筛选方式对私有字段进行筛选得到第二筛选结果,其中,第二筛选结果用于指示第一字段中私有字段的IV值大于第四预设阈值的第二目标字段;第一构建单元,用于基于第一目标字段和第二目标字段中字段为空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器;第二构建单元,用于基于第一目标字段和第二目标字段中字段为空值的正样本与第一数据集中的正样本的比值小于或等于第五预设阈值的字段,构建第二目标分类器;其中,第一分类器包括第一目标分类器和第二目标分类器。
可选地,本申请实施例中的第一筛选单元进一步可以包括:第一提取子单元,用于提取共有字段中的第一共有字段,并对第一共有字段进行分箱;第一统计子单元,用于统计每一分箱中正样本的数据与第一数据集中的正样本的第一比值;第二统计子单元,用于统计每一分箱中负样本的数据与第一数据集中的负样本的第二比值;第一确定子单元,用于根据第一比值与第二比值的和确定第一共有字段的IV值;第一筛选子单元,用于从共有字段中筛选出IV值大于第三预设阈值的第一共有字段,得到第一筛选结果。
可选地,本申请实施例中的第二筛选单元进一步可以包括:第二提取子单元,用于提取私有字段中的第一私有字段,以及第一私有字段对应的标识;分类子单元,用于根据标识对第一私有字段进行分类,并对分类后的每一类第一私有字段进行分箱;第三统计子单元,用于统计每一分箱中正样本的数据与第一数据集中的正样本的第三比值,以及统计每一分箱中正样本的数据与第一数据集中的正样本的第四比值;第二确定子单元,用于根据第三比值和第四比值确定分类后的每一类第一私有字段的IV值;第二筛选子单元,用于从IV值中筛选出大于第四预设阈值的第一私有字段,得到第二筛选结果。
可选地,本申请实施例中的第一构建单元进一步可以包括:第一构建子单元,用于从第一目标字段和第二目标字段中字段空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段中,筛选出IV值大于第六预设阈值的字段,以构建第一子目标分类器;第二构建子单元,用于从第一目标字段和第二目标字段中字段空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段中,筛选出IV值小于第七预设阈值的字段,以构建第二子目标分类器;第三构建子单元,用于从第一目标字段和第二目标字段中字段空值的正样本与第一数据集中的正样本的比值大于第五预设阈值的字段中,筛选出IV值大于第六预设阈值且小于第七预设阈值的字段,以构建第三子目标分类器;其中,第七预设阈值大于第六预设阈值,第一目标分类器包括:第一子目标分类器、第二子目标分类器和第三子目标分类器。
可选地,本申请实施例中的第二构建模块进一步可以包括:第一获取单元,用于获取第一子目标分类器的第一输出结果;第二获取单元,用于获取第二子目标分类器的第二输出结果;第三获取单元,用于获取第三子目标分类器的第三输出结果;第四获取单元,用于获取第二目标分类器的第四输出结果;第三构建单元,用于根据第一输出结果、第二输出结果、第三输出结果、第四输出结果以及标识构建第二分类器。
可选地,本申请实施例中的装置进一步可以包括:第二提取模块,用于在输出第二分类器的输出结果中大于第一预设阈值的第一目标结果之后,从第一目标结果中提取出第一终端的终端信息;第一筛选模块,用于根据终端信息从第一目标结果中筛选出第二目标结果,其中,第二目标结果为第一终端的上一终端品牌不为空的第一用户数量;处理模块,用于对第二目标结果中不同品牌的用户数进行排序,并从中筛选出排序靠前的第一预设数量的终端品牌。
可选地,本申请实施例中的装置进一步可以包括:统计模块,用于在对第二目标结果中不同品牌的用户数进行排序,并从中筛选出排序靠前的第一预设数量的终端品牌之后,统计第一目标结果中每一个终端品牌的第一值和第二值;其中,第二用户数量与第一用户数量的比值为第一值;第二用户数量为第一目标结果中当前终端品牌与上一终端品牌不一致的用户数量;第二值是指第一目标结果中上一终端的同一品牌的数量中变为其他品牌数量的比值;第二筛选模块,用于从第一目标结果中筛选出第一值和第二值满足预设条件的终端品牌以及对应的终端价格。
可选地,本申请实施例中的第二筛选模块包括:第二分类单元,用于根据终端信息对第一目标结果中第一终端进行分类;其中,分类结果包括第一分类结果,第二分类结果和第三分类结果;第一分类结果是指当前终端品牌与上一终端品牌相同的用户,第二分类结果是指当前终端之前上一终端为空的用户,第三分类结果是指当前终端品牌与上一终端品牌不相同的用户;第一输出单元,用于从第一分类中输出对应的第一终端品牌;第二输出单元,用于从第二分类中输出第二终端品牌,其中,第二终端品牌包括:在当前终端品牌的第一值大于第八预设阈值的情况下的当前终端品牌,或在当前终端品牌的第一值小于或等于第八预设阈值的情况下的当前终端品牌和第一预设数量的终端品牌;第三输出单元,用于从第三分类中输出第三终端品牌,其中,第三终端品牌包括当前终端品牌和根据第二值确定的排序靠前的第二预设数量的终端品牌;第四输出单元,用于输出以下至少一项:第一终端品牌和第一终端品牌对应的价格区间的组合、第二终端品牌和第二终端品牌对应的价格区间的组合、第三终端品牌和第三终端品牌对应的价格区间的组合。
本领域普通技术人员可以理解实现上述实施例方法的全部或者部分步骤是可以通过程序指令相关的硬件来完成,所述的程序可以存储于一可读取介质中。本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可实现上述图1对应的方法实施例中的任意步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
所述的存储介质,如只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
以上所述是本申请实施例的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (12)
1.一种终端信息的输出方法,由设备执行,其特征在于,所述方法包括:
按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;
根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;
根据所述第一分类器的输出结果构建第二分类器;
输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。
2.根据权利要求1所述的方法,其特征在于,所述按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集包括:
根据所述多个字段从目标区域内的多个行政区内分别获取对应的目标数据;
从所述目标数据中剔除出无效数据,将剔除无效数据后的所述多个行政区的目标数据组合为所述第一数据集;其中,所述第一数据集中字段个数相同的行政区所对应的数据具有相同的标识;
按照所述预设比例对所述第一数据集中的正样本和负样本进行提取;
根据所述标识对提取结果中的数据进行分类,其中,每一个分类结果对应一个所述第二数据集。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器,包括:
将所述第二数据集中第一字段的空值率大于第二预设阈值的字段设置为私有字段;
将所述第二数据集中第一字段的空值率小于或等于所述第二预设阈值的字段设置为共有字段;
使用第一IV值筛选方式对所述共有字段进行筛选得到第一筛选结果,其中,所述第一筛选结果用于指示所述第一字段中所述共有字段的IV值大于第三预设阈值的第一目标字段;
使用第二IV值筛选方式对所述私有字段进行筛选得到第二筛选结果,其中,所述第二筛选结果用于指示所述第一字段中所述私有字段的IV值大于第四预设阈值的第二目标字段;
基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器;
基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值小于或等于所述第五预设阈值的字段,构建第二目标分类器;其中,所述第一分类器包括第一目标分类器和第二目标分类器。
4.根据权利要求3所述的方法,其特征在于,所述使用第一IV值筛选方式对所述共有字段进行筛选得到第一筛选结果,包括:
提取所述共有字段中的第一共有字段,并对所述第一共有字段进行分箱;
统计每一分箱中正样本的数据与所述第一数据集中的正样本的第一比值;
统计每一分箱中负样本的数据与所述第一数据集中的负样本的第二比值;
根据所述第一比值与所述第二比值的和确定所述第一共有字段的IV值;
从所述共有字段中筛选出所述IV值大于所述第三预设阈值的第一共有字段,得到所述第一筛选结果。
5.根据权利要求3所述的方法,其特征在于,所述使用第二IV值筛选方式对所述私有字段进行筛选得到第二筛选结果,包括:
提取所述私有字段中的第一私有字段,以及所述第一私有字段对应的所述标识;
根据所述标识对所述第一私有字段进行分类,并对分类后的每一类第一私有字段进行分箱;
统计每一分箱中正样本的数据与所述第一数据集中的正样本的第三比值,以及统计每一分箱中正样本的数据与所述第一数据集中的正样本的第四比值;
根据所述第三比值和所述第四比值确定分类后的每一类第一私有字段的IV值;
从所述IV值中筛选出大于所述第四预设阈值的第一私有字段,得到所述第二筛选结果。
6.根据权利要求3所述的方法,其特征在于,所述基于所述第一目标字段和所述第二目标字段中字段为空值的正样本与所述第一数据集中的正样本的比值大于第五预设阈值的字段,构建第一目标分类器包括:
从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预设阈值的字段中,筛选出IV值大于第六预设阈值的字段,以构建第一子目标分类器;
从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预设阈值的字段中,筛选出IV值小于第七预设阈值的字段,以构建第二子目标分类器;
从所述第一目标字段和所述第二目标字段中字段空值的正样本与所述第一数据集中的正样本的比值大于所述第五预设阈值的字段中,筛选出IV值大于所述第六预设阈值且小于所述第七预设阈值的字段,以构建第三子目标分类器;
其中,所述第七预设阈值大于所述第六预设阈值,所述第一目标分类器包括:所述第一子目标分类器、所述第二子目标分类器和所述第三子目标分类器。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一分类器的输出结果构建第二分类器,包括:
获取所述第一子目标分类器的第一输出结果;
获取所述第二子目标分类器的第二输出结果;
获取所述第三子目标分类器的第三输出结果;
获取所述第二目标分类器的第四输出结果;
根据所述第一输出结果、所述第二输出结果、所述第三输出结果、所述第四输出结果以及所述标识构建所述第二分类器。
8.根据权利要求2所述的方法,其特征在于,在输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果之后,所述方法还包括:
从所述第一目标结果中提取出所述第一终端的终端信息;
根据所述终端信息从所述第一目标结果中筛选出第二目标结果,其中,所述第二目标结果为所述第一终端的上一终端品牌不为空的第一用户数量;
对所述第二目标结果中不同品牌的用户数进行排序,并从中筛选出排序靠前的第一预设数量的终端品牌。
9.根据权利要求8所述的方法,其特征在于,在对所述第二目标结果中不同品牌的用户数进行排序,并从中筛选出排序靠前的第一预设数量的终端品牌之后,所述方法还包括:
统计所述第一目标结果中每一个终端品牌的第一值和第二值;其中,第二用户数量与所述第一用户数量的比值为所述第一值;所述第二用户数量为所述第一目标结果中当前终端品牌与上一终端品牌不一致的用户数量;所述第二值是指所述第一目标结果中上一终端的同一品牌的数量中变为其他品牌数量的比值;
从所述第一目标结果中筛选出所述第一值和所述第二值满足预设条件的终端品牌以及对应的终端价格。
10.根据权利要求9所述的方法,其特征在于,从所述第一目标结果中筛选出所述第一值和所述第二值满足预设条件的终端品牌以及对应的终端价格包括:
根据所述终端信息对所述第一目标结果中第一终端进行分类;其中,所述分类结果包括第一分类结果,第二分类结果和第三分类结果;所述第一分类结果是指当前终端品牌与上一终端品牌相同的用户,所述第二分类结果是指当前终端之前上一终端为空的用户,所述第三分类结果是指当前终端品牌与上一终端品牌不相同的用户;
从所述第一分类中输出对应的第一终端品牌;
从所述第二分类中输出第二终端品牌,其中,所述第二终端品牌包括:在当前终端品牌的所述第一值大于第八预设阈值的情况下的当前终端品牌,或在当前终端品牌的所述第一值小于或等于第八预设阈值的情况下的当前终端品牌和所述第一预设数量的终端品牌;
从所述第三分类中输出第三终端品牌,其中,所述第三终端品牌包括所述当前终端品牌和根据所述第二值确定的排序靠前的第二预设数量的终端品牌;
输出以下至少一项:所述第一终端品牌和所述第一终端品牌对应的价格区间的组合、所述第二终端品牌和所述第二终端品牌对应的价格区间的组合、所述第三终端品牌和所述第三终端品牌对应的价格区间的组合。
11.一种终端信息的输出装置,其特征在于,包括:
第一提取模块,用于按照预设比例对第一数据集中的正样本和负样本进行提取,得到第二数据集,其中,所述第一数据集中的每一个数据包括多个字段,每一个字段用于指示与终端对应的信息;所述正样本为所述第一数据集中所述多个字段指示使用第一终端的数据,所述负样本为所述第一数据集中所述多个字段指示当前之前的预设时长内已换成第二终端的数据;
第一构建模块,用于根据所述第二数据集中所述多个字段中的第一字段的信息价值IV值,构建与所述第一字段对应的第一分类器;其中,所述第一字段与所述第一终端的属性信息相关;
第二构建模块,用于根据所述第一分类器的输出结果构建第二分类器;
输出模块,用于输出所述第二分类器的输出结果中大于第一预设阈值的第一目标结果,其中,所述第一目标结果用于指示所述第一数据集中待使用所述第一终端的对象。
12.一种可读存储介质,用于存储程序,其特征在于,所述程序被处理器执行时实现如权利要求1至10中任一项所述的终端信息的输出方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001507.9A CN114765772B (zh) | 2021-01-04 | 终端信息的输出方法、装置及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110001507.9A CN114765772B (zh) | 2021-01-04 | 终端信息的输出方法、装置及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114765772A CN114765772A (zh) | 2022-07-19 |
CN114765772B true CN114765772B (zh) | 2024-06-11 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
CN104778474A (zh) * | 2015-03-23 | 2015-07-15 | 四川九洲电器集团有限责任公司 | 一种用于目标检测的分类器构建方法及目标检测方法 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN107358247A (zh) * | 2017-04-18 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种确定流失用户的方法及装置 |
WO2019196130A1 (zh) * | 2018-04-12 | 2019-10-17 | 广州飒特红外股份有限公司 | 面向车载热成像行人检测的分类器训练方法和装置 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521656A (zh) * | 2011-12-29 | 2012-06-27 | 北京工商大学 | 非平衡样本分类的集成迁移学习方法 |
CN104778474A (zh) * | 2015-03-23 | 2015-07-15 | 四川九洲电器集团有限责任公司 | 一种用于目标检测的分类器构建方法及目标检测方法 |
CN106845731A (zh) * | 2017-02-20 | 2017-06-13 | 重庆邮电大学 | 一种基于多模型融合的潜在换机用户发现方法 |
CN107358247A (zh) * | 2017-04-18 | 2017-11-17 | 阿里巴巴集团控股有限公司 | 一种确定流失用户的方法及装置 |
WO2019196130A1 (zh) * | 2018-04-12 | 2019-10-17 | 广州飒特红外股份有限公司 | 面向车载热成像行人检测的分类器训练方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于不平衡数据样本特性的新型过采样SVM分类算法;黄海松 等;《控制与决策》;20180930;第33卷(第9期);全文 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020220340A1 (zh) | 对象推荐方法及装置、存储介质与终端设备 | |
CN104142999B (zh) | 搜索结果展示方法及装置 | |
US9460450B2 (en) | Method and apparatus for providing application list | |
CN105787025B (zh) | 网络平台公共账号分类方法及装置 | |
CN110602531B (zh) | 一种给智能电视推荐广告的系统 | |
US20090177689A1 (en) | Situation-aware pattern extraction and recommendation | |
CN105281925B (zh) | 网络业务用户群组划分的方法和装置 | |
CN109241451B (zh) | 一种内容组合推荐方法、装置及可读存储介质 | |
WO2016155493A1 (zh) | 数据处理方法及装置 | |
CN103778225B (zh) | 广告营销类语言信息的处理方法、识别装置及系统 | |
CN104598127A (zh) | 一种在对话界面插入表情的方法及装置 | |
CN114329207A (zh) | 多业务信息排序系统、方法、存储介质及电子设备 | |
CN105847508B (zh) | 一种电话号码的存储方法、识别方法及装置 | |
CN104992318A (zh) | 行事历主动推荐事件的方法 | |
CN114765772B (zh) | 终端信息的输出方法、装置及可读存储介质 | |
CN105574112A (zh) | 一种通信过程的评论信息处理方法及系统 | |
CN103634470A (zh) | 一种基于终端移动数据接入网Qos的人机交互预测方法 | |
CN113221015A (zh) | 一种同源用户确定及同源网络构建方法、系统及存储介质 | |
CN112749850A (zh) | 基于云计算和大数据需求的信息更新方法及大数据服务器 | |
CN107659982B (zh) | 一种无线网络接入点的分类方法及装置 | |
CN110210884B (zh) | 确定用户特征数据的方法、装置、计算机设备及存储介质 | |
CN110020123A (zh) | 一种推广信息投放方法、装置、介质及设备 | |
CN114765772A (zh) | 终端信息的输出方法、装置及可读存储介质 | |
CN115587877A (zh) | 基于大数据的直播电商平台商品内容智能推送管理系统 | |
CN107590213A (zh) | 基于手机大数据的混合推荐系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |