CN111325255B - 特定人群圈定方法、装置、电子设备及存储介质 - Google Patents
特定人群圈定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111325255B CN111325255B CN202010089950.1A CN202010089950A CN111325255B CN 111325255 B CN111325255 B CN 111325255B CN 202010089950 A CN202010089950 A CN 202010089950A CN 111325255 B CN111325255 B CN 111325255B
- Authority
- CN
- China
- Prior art keywords
- target
- user
- users
- sample
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本公开实施例公开了一种特定人群圈定方法、装置、电子设备及存储介质。该方法包括:获取样本用户的订单数据,根据所述订单数据对所述样本用户进行标记;将标记后的所述样本用户作为第一样本用户集,根据第一样本数据确定样本用户的第一候选特征;对第一样本用户集进行多次抽样,获得多个样本用户子集;根据样本用户子集中所述样本用户的所述第一候选特征确定目标特征;利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。通过这种方式,从样本用户的候选特征中挑选出对圈定特定人群起重要作用的特征作为目标特征,使得在正样本用户较少,而负样本用户较多的情况下,可以去除干扰特征,进而能够提高特定人群的圈定准确率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及一种特定人群圈定方法、装置、电子设备及存储介质。
背景技术
用户特征的提取相关技术中,通过对用户属性和/或用户行为数据等进行统计分析后,基于统计分析结果标定用户的特征数据。用户的特征数据应用较为广泛,例如可以应用在机器自学习模型的训练过程中,以便训练机器自学习模型能够在线识别用户的信息。例如,可以通过用户特征数据识别线上平台用户的需求,进而为用户推荐相关的对象等。但是用户特征的提取需要大量的正样本和负样本数据,对于一些正样本数据较少而负样本数据较多的应用场景,利用传统技术提取到的特征数据噪音较大,进而会使得利用提取出的特征数据训练得到的机器自学习模型的识别能力不高。因此,针对正样本数据较少的应用场景,如何消除特征数据中的噪音成为了当前需要解决的重要技术问题之一。
发明内容
本公开实施例提供一种特定人群圈定方法、装置、电子设备及存储介质。
第一方面,本公开实施例中提供了一种特定人群圈定方法。
具体的,所述特定人群圈定方法,包括:获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;对所述第一样本用户集进行多次抽样,获得多个样本用户子集;根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。
结合第一方面,本公开在第一方面的第一种实现方式中,根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征,包括:针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
结合第一方面和/或第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。
结合第一方面、第一方面的第一种实现方式和/或第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组,包括:利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和/或第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征,包括:确定所述第二候选特征在多个所述候选特征组中的出现次数;将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和/或第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,还包括:从所述目标特征中剔除共线特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和/或第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,从所述目标特征中剔除共线特征,包括:根据所述目标特征获得多种目标特征组合;将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和/或第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,还包括:针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;将所述时序特征加入所述目标特征。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和/或第七种实现方式中,本公开在第一方面的第八种实现方式中,针对所述目标特征,提取与所述目标特征相关的时序特征,包括:利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
第二方面,本公开实施例中提供了一种模型训练方法。
具体的,所述模型训练方法,包括:获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用第一方面所述的特定人群圈定方法确定;利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
结合第二方面,本公开在第二方面的第一种实现方式中,还包括:利用所述第四机器学习模型对测试用户集中测试用户进行识别;根据识别结果将所述测试用户集划分为多组测试用户;针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
结合第二方面和/或第二方面的第一种实现方式,本公开在第二方面的第二种实现方式中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
第三方面,本公开实施例中提供了一种模型测试方法。
具体的,所述模型测试方法,包括:利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;根据识别结果将所述测试用户集划分为多组测试用户;针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
结合第三方面,本公开在第三方面的第一种实现方式中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
结合第三方面和/或第三方面的第一种实现方式,本公开在第三方面的第二种实现方式中,还包括:利用第一方面所述的特定人群圈定方法确定所述测试用户集中测试用户的目标特征。
第四方面,本公开实施例中提供了一种特定人群圈定装置。
具体的,所述特定人群圈定装置,包括:第一获取模块,被配置为获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;第一确定模块,被配置为将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;第二获取模块,被配置为对所述第一样本用户集进行多次抽样,获得多个样本用户子集;第二确定模块,被配置为根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;圈定模块,被配置为利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。
结合第四方面,本公开在第四方面的第一种实现方式中,所述第二确定模块,包括:
第一获取子模块,被配置为针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;目标特征确定子模块,被配置为根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
结合第四方面和/或第四方面的第一种实现方式,本公开在第四方面的第二种实现方式中,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。
结合第四方面、第四方面的第一种实现方式和/或第四方面的第二种实现方式,本公开在第四方面的第三种实现方式中,所述第一获取子模块,包括:训练子模块,被配置为利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;第一确定子模块,被配置为根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;第二确定子模块,被配置为将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式和/或第四方面的第三种实现方式,本公开在第四方面的第四种实现方式中,所述第目标特征确定子模块,包括:第三确定子模块,被配置为确定所述第二候选特征在多个所述候选特征组中的出现次数;第四确定子模块,被配置为将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式和/或第四方面的第四种实现方式,本公开在第四方面的第五种实现方式中,还包括:剔除模块,被配置为从所述目标特征中剔除共线特征。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式、第四方面的第四种实现方式和/或第四方面的第五种实现方式,本公开在第四方面的第六种实现方式中,所述剔除模块,包括:第一获取子模块,被配置为根据所述目标特征获得多种目标特征组合;比较子模块,被配置为将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;剔除子模块,被配置为在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式、第四方面的第四种实现方式、第四方面的第五种实现方式和/或第四方面的第六种实现方式,本公开在第四方面的第七种实现方式中,还包括:提取模块,被配置为针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;加入模块,被配置为将所述时序特征加入所述目标特征。
结合第四方面、第四方面的第一种实现方式、第四方面的第二种实现方式、第四方面的第三种实现方式、第四方面的第四种实现方式、第四方面的第五种实现方式、第四方面的第六种实现方式和/或第七种实现方式中,本公开在第四方面的第八种实现方式中,所述提取模块,包括:平滑子模块,被配置为利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;第五确定子模块,被配置为将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,特定人群圈定装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持特定人群圈定装置执行上述第一方面中特定人群圈定方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述特定人群圈定装置还可以包括通信接口,用于特定人群圈定装置与其他设备或通信网络通信。
第五方面,本公开实施例中提供了一种模型训练装置。
具体的,所述模型训练装置,包括:第四获取模块,被配置为获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用第四方面所述特定人群圈定装置确定;第一训练模块,被配置为利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
结合第五方面,本公开在第五方面的第一种实现方式中,还包括:第一识别模块,被配置为利用所述第四机器学习模型对测试用户集中测试用户进行识别;第一划分模块,被配置为根据识别结果将所述测试用户集划分为多组测试用户;第一聚类模块,被配置为针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;第二确定模块,被配置为根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
结合第五方面和/或第五方面的第一种实现方式,本公开在第五方面的第二种实现方式中,所述第一划分模块,包括:第一划分子模块,被配置为将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,模型训练装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持模型训练装置执行上述第二方面中模型训练方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述模型训练装置还可以包括通信接口,用于模型训练装置与其他设备或通信网络通信。
第六方面,本公开实施例中提供了一种模型测试装置。
具体的,所述模型测试练装置,包括:第二识别模块,被配置为利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;第二划分模块,被配置为根据识别结果将所述测试用户集划分为多组测试用户;第二聚类模块,被配置为针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;第三确定模块,被配置为根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
结合第六方面,本公开在第六方面的第一种实现方式中,所述第二划分模块,包括:第二划分子模块,被配置为将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
结合第六方面和/或第六方面的第一种实现方式,本公开在第六方面的第二种实现方式中,还包括:第四确定模块,被配置为利用第四方面所述的特定人群圈定装置确定所述测试用户集中测试用户的目标特征。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,模型测试装置的结构中包括存储器和处理器,所述存储器用于存储一条或多条支持模型训练装置执行上述第三方面中模型测试方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述模型测试装置还可以包括通信接口,用于模型测试装置与其他设备或通信网络通信。
第七方面,本公开实施例提供了一种电子设备,包括存储器和至少一个处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述至少一个处理器执行以实现上述任一方法。
第八方面,本公开实施例提供了一种计算机可读存储介质,用于存储上述任一装置所用的计算机指令,其包含用于执行上述任一方法所涉及的计算机指令。
本公开实施例提供的技术方案可以包括以下有益效果:
本公开实施例在进行特征提取时,从收集到的第一样本用户集进行多次抽样得到多个样本用户子集,并分别利用多个样本用户子集中样本用户的第一候选特征确定目标特征,进而再利用目标特征对在线用户进行识别,以便圈定所需要的特定人群。通过这种方式,从样本用户的候选特征中挑选出对圈定特定人群起重要作用的特征作为目标特征,使得在正样本用户较少,而负样本用户较多的情况下,可以去除干扰特征,进而能够提高特定人群的圈定准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的特定人群圈定方法的流程图;
图2示出根据图1所示实施方式的步骤S103的流程图;
图3示出根据图1所示实施方式的步骤S104的流程图;
图4示出根据图1所示实施方式中剔除共线特征部分的流程图;
图5示出根据图1所示实施方式中提取时序特征部分的流程图;
图6示出根据本公开一实施方式的模型训练方法的流程图;
图7示出根据本公开一实施方式的模型测试方法的流程图;
图8示出根据本公开一实施方式的特定人群圈定装置的结构框图;
图9示出根据本公开一实施方式的模型训练装置的结构框图;
图10示出根据本公开一实施方式的模型测试装置的结构框图;
图11是适于用来实现根据本公开一实施方式的特定人群圈定方法的电子设备的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
图1示出根据本公开一实施方式的特定人群圈定方法的流程图。如图1所示,所述特定人群圈定方法包括以下步骤:
在步骤S101中,获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;
在步骤S102中,将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;
在步骤S103中,对所述第一样本用户集进行多次抽样,获得多个样本用户子集;
在步骤S104中,根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;
在步骤S105中,利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。
本实施例中,样本用户可以是线上平台产生过订单的用户,样本用户的订单数据可以包括但不限于订单产生时间、订单对象标识、订单对象数量、订单金额、用户属性(在经过用户授权的情况下)、用户行为数据等。用户属性可以包括但不限于用户的年龄、性别、职业等;用户行为数据包括用户在线上平台的点击行为、下单行为、浏览行为等相关的数据。可以理解的是,上述仅仅是举例说明,样本用户的钉钉数据不限于此,可以根据实际情况挖掘更多的候选特征。
第一样本用户集中可以包括多个样本用户,且样本用户可以包括正样本用户和负样本用户。
在一些实施例中,正样本用户可以包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,和/或负样本用户可以包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。其中,第二预设数量和/或第一预设阈值可以根据实际情况设定,在此不做限制。
在一些实施例中,目标订单可以包括订单对象数量超过第三预设数量、和/或订单金额超过预设金额的订单。例如,对于外卖点餐平台,目标订单可以是家宴订单,该家宴订单中订购的菜品数量可以超过5种。在一些实施例中,还可以设定目标订单的总金额超过预设金额,例如外卖点餐平台中可以设置家宴订单的菜品数量超过5种,且该家宴订单的总金额超过100元人民币。
在收集样本用户时,可以通过统计在预设时间段内例如最近几个月内线上平台用户所产生的用户订单,并且将用户订单中目标订单的数量大于或等于第二预设数量的用户标记为正样本用户,而将未产生过目标订单且下单频次大于或等于第一预设阈值的用户标记为负样本用户。此处,正样本用户可以理解为目标订单用户,负样本用户可以理解为非目标订单用户,利用第一样本用户集中的样本用户训练得到的模型可以用于识别用户是否为目标订单用户。
在确定了正样本用户和负样本用户之后,可以根据正样本用户和负样本用户订单数据等确定样本用户的第一候选特征。样本用户的第一候选特征可以很多,但是在不同应用场景下不同特征对于识别用户是否为目标订单用户所起的作用大小有所不同,并且由于第一候选特征是通过用户属性以及行为数据等从各个不同方面挖掘得到的,有些特征可能存在重复性,如果直接使用所挖掘得到的所有第一候选特征对用户进行识别,在第一候选特征较多,而正样本用户较少的情况下,由于样本中存在的噪声较大,会导致利用样本用户的第一候选特征训练得到的模型的识别率不高。
因此,本公开实施例在收集了第一样本用户集以及第一样本用户集中样本用户的第一候选特征之后,从第一候选特征中挑选出对目标订单用户的识别起重要作用的特征,这些特征可以称之为重要特征,利用重要特征训练模型能够提高模型对于目标订单用户的识别准确率。
本实施例中,针对第一样本用户集进行多次抽样,每次抽样获得多个样本用户子集,在一些实施例中,多个样本用户子集中样本用户的数量可以相同。在另一些实施例中,可以采用有放回的抽样,也即每次抽样都是从第一样本用户集的原始集合中进行抽样,不同样本用户子集中可能存在部分样本用户相同的情形。
在抽样得到样本用户子集之后,可以分别利用每个样本用户子集中样本用户的第一候选特征确定上面提到的重要特征,并将这些重要特征确定为目标特征,进而再利用这些目标特征对线上用户进行识别,以便确定该线上用户是否属于特定人群。
本公开实施例在进行特征提取时,从收集到的第一样本用户集进行多次抽样得到多个样本用户子集,并分别利用多个样本用户子集中样本用户的第一候选特征确定目标特征,进而再利用目标特征对在线用户进行识别,以便圈定所需要的特定人群。通过这种方式,从样本用户的候选特征中挑选出对圈定特定人群起重要作用的特征作为目标特征,使得在正样本用户较少,而负样本用户较多的情况下,可以去除干扰特征,进而能够提高特定人群的圈定准确率。
在本实施例的一个可选实现方式中,所述步骤S104,即根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征的步骤,进一步包括以下步骤:
针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;
根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
该可选的实现方式中,在抽样得到样本用户子集之后,可以分别利用每个样本用户子集中样本用户的第一候选特征对第一机器学习模型进行训练,第一机器学习模型可以是线性模型,如逻辑回归模型。在训练第一机器学习模型时第一样本用户集合中样本用户的标签可以为0或1,用于表示样本用户为正样本用户还是负样本用户。利用样本用户子集对第一机器学习模型训练完成之后,最终可以得到各个第一候选特征的特征权重值,将特征权重值最大的第一预设数量个第一候选特征作为第二候选特征加入当前样本用户子集对应的候选特征组。由于训练第一机器学习模型的样本用户集中的正样本用户为目标订单的数量大于或等于第二预设数量的用户,因此该第一机器学习模型训练完成后得到的各个第一候选特征的特征权重值用于表征第一候选特征在该第一机器学习模型识别用户产生目标订单的概率时所起的作用大小,或者说是重要程度。
针对每一组样本用户子集,执行上述训练过程,均会得到一个候选特征组。需要说明的是,分别利用不同样本用户子集对第一机器学习模型进行训练,也即利用每个样本用户子集对第一机器学习模型进行训练时,第一机器学习模型中各个第一候选特征的特征权重值都是初始值,例如随机初始化得到的值。
还需要说明的是,对第一样本用户集进行抽样获得样本用户子集和对第一机器学习模型进行训练的过程可以交叉进行,也即从第一样本用户集中抽样得到一个样本用户子集之后,即可利用该样本用户子集对第一机器学习模型进行训练,而训练完成之后,再从第一样本用户集中抽样得到下一个样本用户子集,并重新对第一机器学习模型进行训练,以此类推。
针对每一个样本用户子集均得到对应的候选特征组之后,可以统计各个候选特征组中每个第二候选特征的出现次数,并根据出现次数从第二候选特征中挑选出目标特征。例如可以将出现次数最大的多个第二候选特征确定为目标特征。这是因为,通过训练得到的第一机器学习模型中,特征对于机器学习模型的识别结果影响越大也即贡献越大,其特征权重值也就越大。通过不同的样本用户子集所训练出来的多个第一机器学习模型中,第二候选特征在特征权重值最大的候选特征组中出现次数越多,说明该第二候选特征对于第一机器学习模型的识别结果影响越大,也即贡献越大,该第二候选特征在识别用户是否为目标订单用户时的所起的作用也就越大。因此,通过这种方式得到的目标特征为识别用户是否为目标订单用户时贡献较大的特征,因此利用这些目标特征训练得到的机器学习模型所识别出来的结果的准确度也会越高。
本公开实施例在进行特征提取时,从收集到的第一样本用户集进行多次抽样得到多个样本用户子集,并分别利用多个样本用户子集对第一机器学习模型进行训练,根据训练得到的每一个第一机器学习模型获得特征权重值最大的候选特征组,并根据在多组候选特征组中第二候选特征的出现次数从第二候选特征中确定目标特征。通过这种方式,从样本用户的候选特征中挑选出对机器学习模型的识别结果起重要作用的特征作为目标特征,使得在正样本用户较少,而负样本用户较多的情况下,可以去除样本噪声,进而能够提高利用所提取出的目标特征训练得到的机器学习模型的识别准确率。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S103,即针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组的步骤,进一步包括以下步骤:
在步骤S201中,利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;
在步骤S202中,根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;
在步骤S203中,将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
该可选的实现方式中,从收集到的第一样本用户集中多次抽样得到多个样本用户子集之后,可以分别利用多个样本用户子集训练第一机器学习模型。在一些实施例中,第一机器学习模型可以利用线性模型,例如逻辑回归模型等。利用样本用户子集对第一机器学习模型进行训练的过程中,将样本用户子集中样本用户的第一候选特征输入至第一机器学习模型,第一机器学习模型的输出可以为0或1,分别用于表示当前输入至第一机器学习模型的第一候选特征对应的样本用户为目标订单用户还是非目标订单用户,通过不断地调整第一机器学习模型中第一候选特征的特征权重值,使得第一机器学习模型的输出结果不断接近于样本用户的标签,也即正样本用户或者负样本用户,最终在训练完成之后,获得了对应于当前样本用户子集训练的第一候选特征的特征权重值,将特征权重值最大的第一预设数量个第一候选特征确定为当前样本用户子集对应的候选特征组中的第二候选特征。通过这种方式,最终可以得到不同的样本用户子集分别对应的候选特征组,通过多个候选特征组能够从中确定对机器学习模型的识别起重要作用的目标特征。
在本实施例的一个可选实现方式中,如图3所示,所述步骤S104,即根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征的步骤,进一步包括以下步骤:
在步骤S301中,确定所述第二候选特征在多个所述候选特征组中的出现次数;
在步骤S302中,将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
该可选的时序方式中,确定了每个样本用户子集分别对应的候选特征组之后,可以通过统计该多个候选特征组中每一个第二候选特征的出现次数,将出现次数大于或等于第四预设数量的第二候选特征确定为目标特征。第四预设数量可以预先设置,且第四预设数量少于第一预设数量。在一些实施例中,还可以将第四预设数量设置为与第一预设数量相关的数值,比如第四预设数量为第一预设数量的三分之二等。例如,从第一样本用户集中抽样获得了60个样本用户子集,通过训练第一机器学习模型则可以得到60组候选特征组,可以从该60组候选特征组中选择出现次数超过40次的第二候选特征作为目标特征。通过这种方式,能够从样本用户的第一候选特征中选出权重值最大且经过多次训练得到的多个第一机器学习模型中均起重要作用的特征作为目标特征,能够消除样本噪声,提高机器学习模型的识别准确率。
在本实施例的一个可选实现方式中,所述方法还包括:从所述目标特征中剔除共线特征。
该可选的实现方式中,共线特征是指存在一定程度的线性相关的目标特征,若有两个目标特征之间存在共线性,则在相互作用之后,其中一个目标特征对机器学习模型的影响会相对减弱,而另一个目标特征的作用却会相对增强。因此,本公开实施例中通过从目标特征剔除共线特征来确保对机器学习模型贡献较大的目标特征不会受与其存在共线问题的其他目标特征的影响,进一步提高了机器学习模型的识别准确率。
在本实施例的一个可选实现方式中,如图4所示,所述从所述目标特征中剔除共线特征的步骤,进一步包括以下步骤:
在步骤S401中,根据所述目标特征获得多个目标特征组合;
在步骤S402中,将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;
在步骤S403中,在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
该可选的实现方式中,为了从目标特征中剔除对机器学习模型的贡献不大的共线特征,可以通过贪心选择算法从目标特征中剔除共线特征,最终保证得到的目标特征之间的独立性。
本实施例中,可以通过对目标特征进行任意组合,得到多个目标特征组合,然后利用样本用户的该多个目标特征组合分别训练得到多个第三机器学习模型;此外,还可以利用样本用户的全部目标特征训练得到一个第二机器学习模型。通过比较第二机器学习模型和第三机器学习模型的识别效果来确定对机器学习模型的贡献不大的共线特征。通过这种方式可以进一步提高机器学习模型的识别准确率。
在一些实施例中,第二机器学习模型和第三机器学习模型可以采用逻辑回归模型或xgboost模型。在一些实施例中,第二机器学习模型和第三机器学习模型可以采用相同结构的模型。在另一些实施例中,第二机器学习模型和第三机器学习模型可以与第一机器学习模型不同,也可以相同,具体可以根据实际情况而定,在此不做限制。
可以理解的是,第二机器学习模型和第三机器学习模型的训练样本是收集到的第一样本用户集中样本用户的全部或者部分目标特征,其用于识别目标订单用户。在一些实施例中,第二机器学习模型和第三机器学习模型的识别效果可以通过模型评估指标AUC(area under the curve)来确定,模型评估指标AUC可以采用已有技术确定,在此不再赘述。
例如,在利用贪心选择算法从目标特征中剔除共线特征的过程中,可以通过从目标特征中排除一个目标特征而保留其余目标特征的方式得到目标特征组合,利用该目标特征组合训练得到第三机器学习模型,若该第三机器学习模型的第二识别效果与第二机器学习模型的第一识别效果的差值小于或等于第二预设阈值,则可以认为第一识别效果与第二识别效果差不多,被排除出去的该目标特征对机器学习模型的贡献不大,因此将其作为共线特征从目标特征中剔除出去,之后再重复上述步骤,直到不存在对机器学习模型的贡献不大的目标特征为止。可以理解的是,上述仅是举例说明,实际应用中可以采用其他贪心选择方式进行,在此不做限制。
在本实施例的一个可选实现方式中,所述方法还包括:
针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;
将所述时序特征加入所述目标特征。
该可选的实现方式中,针对目标特征还可以提取相关的时序特征。需要说明的是,如果目标特征不存在随着时间的变化而变化的趋势变化信息时,可以不对该目标特征提取时序特征。例如,目标特征为用户的性别,则由于用户的性别不会随着时间的变化而变化,则可以不对目标特征提取时序特征。再例如,线上平台用户的行为相关的目标特征,比如在线上平台产生点击行为和下单行为相关的特征,这类目标特征会随着时间有趋势性变化,因此可以针对这类目标特征提取其趋势性变化信息,进而将该趋势性变化信息确定为一种时序特征,并将该时序特征也作为目标特征。通过这种方式,可以得到时序相关的目标特征,丰富了目标特征的种类。
在本实施例的一个可选实现方式中,如图5所示,所述针对所述目标特征,提取与所述目标特征相关的时序特征的步骤,进一步包括以下步骤:
在步骤S501中,利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;
在步骤S502中,将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
该可选的实现方式中,提取时序特征时,可以利用平滑窗口将目标特征进行平滑操作,也即去除目标特征在预设周期长度的窗口内的噪声。预设周期可以根据实际应用场景而定,在此不做限制。例如,在外卖点餐平台中,预设周期可以设置为7天,平滑窗口的长度与预设周期相同,也为7。利用预设周期长度的平滑窗口对目标特征进行平滑操作属于已有技术,在此不再赘述。通过这种方式,对目标特征进行平滑操作可以去除目标特征中的噪声信息,使得提取出的时序特征更加准确。
图6示出根据本公开一实施方式的模型训练方法的流程图。如图6所示,所述模型训练方法包括以下步骤:
在步骤S601中,获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用上述特定人群圈定方法确定;
在步骤S602中,利用所述样本用户的目标特征训练机器学习模型;其中,所述机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
本实施例中,第二样本用户集可以与第一样本用户集相同,或者也可以是第一样本用户集中的部分样本用户得到的,此外,第二样本用户集中还还可以包括收集到的新的样本用户。第二样本用户集中样本用户的目标特征为利用上述特定人群圈定方法提取到的目标特征。目标特征的提取相关的信息可以参见上述对特定人群圈定方法的描述,在此不再赘述。
第四机器学习模型可以根据实际应用场景而定,例如可以采用神经网络、决策树、逻辑回归模型、xgboost模型等。第二样本用户集中的样本用户包括正样本用户和负样本用户,正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,目标订单中的订单对象数量超过第三预设数量;而负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。因此,利用第二样本用户集中的样本用户训练得到的第四机器学习模型可以用于识别用户产生目标订单的概率,概率越大,该用户将来产生目标订单的可能性越高。可以通过设置一概率阈值,将概率大于或等于该概率阈值的用户确定为目标订单用户,而将概率小于该概率阈值的用户确定为非目标订单用户。
由于本公开实施例中样本用户的目标特征通过上述特定人群圈定方法确定的,因此即使在正样本用户较少的情况下,利用样本用户的目标特征所训练出来的第四机器学习模型的识别准确率也会较高。
在本实施例的一个可选实现方式中,所述方法还包括:
利用所述第四机器学习模型对测试用户集中测试用户进行识别;
根据识别结果将所述测试用户集划分为多组测试用户;
针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
该可选的实现方式中,为了测试第四机器学习模型的识别准确度,可以获取测试用户集,并且针对测试用户集中的测试用户也提取出了上述特定人群圈定方法中描述的目标特征。需要说明的是,测试用户集中的测试用户可以是未进行打标的用户,也即针对测试用户集中的测试用户可以不预先确定其为正样本用户还是负样本用户。
利用第二样本用户集中样本用户的目标特征训练得到第四机器学习模型之后,可以将测试用户集中测试用户的目标特征输入至第四机器学习模型,第四机器学习模型可以输出该测试用户为目标订单用户也即产生目标订单的概率大小。第四机器学习模型的输出可以根据所选择使用的机器学习模型结构以及实际需要而定,例如第四机器学习模型选用逻辑回归模型,则第四机器学习模型的输出为0或1,分别用于表示测试用户为目标订单用户(对应于正样本用户)或者非目标订单用户(对应于负样本用户);再例如第四机器学习模型选用的是神经网络模型,则第四机器学习模型可以包括多个输出,该多个输出可以分别表示测试用户为目标订单用户的概率所在的范围。
本实施例中,通过第四机器学习模型识别得到了测试用户集中测试用户的识别结果后,可以根据识别结果将测试用户划分为多组测试用户。
在一些实施例中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。该实施例中,可以根据第四机器学习模型的输出概率范围预先划分出多个预设概率范围,并将第四机器学习模型的输出落入同一预设概率范围的测试用户划分为一组。
针对每组测试用户,可以通过聚类算法确定每组测试用户中的聚类中心用户。聚类算法例如可以采用LVQ(learning vector quantization)算法。聚类中心用户可以是该组测试用户中的聚类中心,也即是该组测试用户中具有代表性的用户。
因此,在确定了每组测试用户中的聚类中心用户之后,可以通过聚类中心用户是否为目标订单用户的真实情况验证第四机器学习模型的识别准确度。在一些实施例中,可以通过跟踪该聚类中心用户在未来一段时间内产生目标订单的真实情况验证第四机器学习模型的识别准确度,而在另一些实施例中,还可以通过该聚类中心用户所产生的历史订单包括的目标订单情况验证第四机器学习模型的识别准确度。
在一些实施例中,根据所述聚类中心用户确定所述机器学习模型的识别准确度,包括:根据所述聚类中心用户的历史订单中目标订单确定所述机器学习模型的识别准确度。
该可选的实现方式中,聚类中心用户是否为目标订单用户的真实情况可以通过查看聚类中心用户的历史订单,并确定该聚类中心用户曾经产生过的目标订单的情况来确定。目标订单的情况例如可以包括在预设时间段内的目标订单数量等。如果该聚类中心用户在预设时间内产生的目标订单数量较多,比如超过了第二预设数量,则可以认为该聚类中心用户为目标订单用户,并且所产生的目标订单数量越多,说明该聚类中心用户为目标订单用户的概率较高。由于聚类中心用户为其所在的测试用户组中的代表性用户,因此对其的验证结果可以代表该组测试用户的验证结果。如果聚类中心用户为目标订单用户,则说明该组测试用户也为目标订单用户。而如果该聚类中心用户所在的该组测试用户对应的预设概率范围也表明该组测试用户为目标订单用户的概率较高,则可以说明第四机器学习模型对于该组测试用户的识别准确度较高;如果上述划分得到的多组测试用户中,第四机器学习模型对大多数测试用户的识别结果与对历史订单中目标订单的验证结果相一致,则可以确定该第四机器学习模型的识别准确度较高,否则该第四机器学习模型的识别准确度较低。
在上述第四机器学习模型的测试过程中,通过第四机器学习模型的识别结果将测试用户划分成多个测试用户组,并分别对多个测试用户组进行聚类得到聚类中心用户,并对通过对聚类中心用户进行验证的方式,验证第四机器学习模型的识别准确率,可以提高第四机器学习模型的测试效率,并且能够节省测试成本。
图7示出根据本公开一实施方式的模型测试方法的流程图。如图7所示,所述模型测试方法包括以下步骤:
在步骤S701中,利用所述第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;
在步骤S702中,根据识别结果将所述测试用户集划分为多组测试用户;
在步骤S703中,针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
在步骤S704中,根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
本实施例中,第四机器学习模型可以根据实际应用场景而定,例如可以采用神经网络、决策树、逻辑回归模型、xgboost模型等。第四机器学习模型可以采用上述模型训练方法得到,具体细节可以参加上述对模型训练方法的描述,在此不再赘述。
为了测试第四机器学习模型的识别准确度,可以获取测试用户集,并且针对测试用户集中的测试用户也提取出了上述特定人群圈定方法中描述的目标特征。需要说明的是,测试用户集中的测试用户可以是未进行打标的用户,也即针对测试用户集中的测试用户可以不预先确定其为正样本用户还是负样本用户。
在第四机器学习模型的训练过完成之后,可以将测试用户集中测试用户的目标特征输入至第四机器学习模型,第四机器学习模型可以输出该测试用户为目标订单用户也即产生目标订单的概率大小。第四机器学习模型的输出可以根据所选择使用的机器学习模型结构以及实际需要而定,例如第四机器学习模型选用逻辑回归模型,则第四机器学习模型的输出为0或1,分别用于表示测试用户为目标订单用户(对应于正样本用户)或者非目标订单用户(对应于负样本用户);再例如第四机器学习模型选用的是神经网络模型,则第四机器学习模型可以包括多个输出,该多个输出可以分别表示测试用户为目标订单用户的概率所在的范围。
本实施例中,通过第四机器学习模型识别得到了测试用户集中测试用户的识别结果后,可以根据识别结果将测试用户划分为多组测试用户。
在一些实施例中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。该实施例中,可以根据第四机器学习模型的输出概率范围预先划分出多个预设概率范围,并将第四机器学习模型的输出落入同一预设概率范围的测试用户划分为一组。
针对每组测试用户,可以通过聚类算法确定每组测试用户中的聚类中心用户。聚类算法例如可以采用LVQ(learning vector quantization)算法。聚类中心用户可以是该组测试用户中的聚类中心,也即是该组测试用户中具有代表性的用户。
因此,在确定了每组测试用户中的聚类中心用户之后,可以通过聚类中心用户是否为目标订单用户的真实情况验证第四机器学习模型的识别准确度。在一些实施例中,可以通过跟踪该聚类中心用户在未来一段时间内产生目标订单的真实情况验证第四机器学习模型的识别准确度,而在另一些实施例中,还可以通过该聚类中心用户所产生的历史订单包括的目标订单情况验证第四机器学习模型的识别准确度。
在一些实施例中,根据所述聚类中心用户确定所述机器学习模型的识别准确度,包括:根据所述聚类中心用户的历史订单中目标订单确定所述机器学习模型的识别准确度。
该可选的实现方式中,聚类中心用户是否为目标订单用户的真实情况可以通过查看聚类中心用户的历史订单,并确定该聚类中心用户曾经产生过的目标订单的情况来确定。目标订单的情况例如可以包括在预设时间段内的目标订单数量等。如果该聚类中心用户在预设时间内产生的目标订单数量较多,比如超过了第二预设数量,则可以认为该聚类中心用户为目标订单用户,并且所产生的目标订单数量越多,说明该聚类中心用户为目标订单用户的概率较高。由于聚类中心用户为其所在的测试用户组中的代表性用户,因此对其的验证结果可以代表该组测试用户的验证结果。如果聚类中心用户为目标订单用户,则说明该组测试用户也为目标订单用户。而如果该聚类中心用户所在的该组测试用户对应的预设概率范围也表明该组测试用户为目标订单用户的概率较高,则可以说明第四机器学习模型对于该组测试用户的识别准确度较高;如果上述划分得到的多组测试用户中,第四机器学习模型对大多数测试用户的识别结果与对历史订单中目标订单的验证结果相一致,则可以确定该第四机器学习模型的识别准确度较高,否则该第四机器学习模型的识别准确度较低。
在上述第四机器学习模型的测试过程中,通过第四机器学习模型的识别结果将测试用户划分成多个测试用户组,并分别对多个测试用户组进行聚类得到聚类中心用户,并对通过对聚类中心用户进行验证的方式,验证第四机器学习模型的识别准确率,由于无需对测试用户集中所有测试用户均进行打标,可以提高第四机器学习模型的测试效率,并且能够节省测试成本。
在一些可选的实施例中,所述方法还包括:利用上述特定人群圈定方法确定所述测试用户集中测试用户的目标特征。
该可选的实现方式中,利用第四机器学习模型对测试用户集中的测试用户进行识别时,可以将利用上述特定人群圈定方法所确定的测试用户的目标特征输入至第四机器学习模型,第四机器学习模型可以根据该目标特征输出对测试用户的识别结果。目标特征的确定可以参见上述对特定人群圈定方法的描述,在此不再赘述。
下面通过具体的应用场景说明本公开实施例中的上述方法流程。
以外卖点餐平台中家宴订单识别流程为例,统计近3个月内外卖点餐平台上的用户订单,将订单金额大于M且菜品数量超过N种的用户订单标记为家宴订单,统计在近3个月内产生m单以上家宴订单的样本用户,将其打标为正样本用户,统计在近3个月以内未产生家宴订单且下单频次超过预设值的用户,将其打标为负样本用户。将正样本用户和负样本用户加入第一样本用户集中。
根据外卖点餐平台上记录的数据挖掘正样本用户和负样本用户的第一候选特征,假如挖掘到的第一候选特征包括S种。从第一样本用户集中有放回的抽样,利用抽样得到的样本用户的第一候选特征对预先选定的逻辑回归模型进行训练,得到第一机器学习模型,记录训练完成的第一机器学习模型中特征权重值最大的s个第二候选特征,作为候选特征组;重新从第一样本用户集中抽样,重复上述步骤,迭代T次,最终得到T组候选特征组,从该T组候选特征组中选出出现次数超过t的s1个目标特征。
利用贪心选择算法从目标特征中剔除共线特征,使得保留的目标特征之间保持正交性。针对保留的目标特征组,针对具有随时间而变化的目标特征,例如用户每天的点击次数和用户每天的成交金额,提取时序特征,例如提取出用户点击次数的趋势变化特征以及用户成交金额的趋势变化特征,将提取出的时序特征加入目标特征组中。
将第一样本用户集划分成两部分,一部分作为第二样本用户集,另一部分作为测试用户集。利用第二样本用户集中样本用户的目标特征组对神经网络模型进行训练,得到家宴订单用户的识别模型。
利用测试用户集中测试用户的目标特征对家宴订单用户的识别模型进行测试,也即将测试用户的目标特征输入至该识别模型。该识别模型的输出可以包括10个,第一个输出为1分,第二个为2分,……,总共10分。针对测试用户该识别模型输出的分数越高可以说明该测试用户为家宴订单用户的概率越高。根据识别结果相同的测试用户划分成同一组,最终可以将测试用户集中的测试用户划分成多组测试用户。
针对每一组测试用户,可以利用LVQ聚类算法得到聚类中心用户,之后可以通过跟踪该聚类中心用户在未来一段时间内所产生的目标订单的情况,将其与识别模型对该聚类中心用户的识别结果进行比较,来验证该识别模型的识别准确率。
下述为本公开装置实施例,可以用于执行本公开方法实施例。
图8示出根据本公开一实施方式的特定人群圈定装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图8所示,所述特定人群圈定装置包括:
第一获取模块801,被配置为获取样本用户的订单数据,并根据所述订单数据对所述样本用户进行标记;
第一确定模块802,被配置为将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;
第二获取模块803,被配置为对所述第一样本用户集进行多次抽样,获得多个样本用户子集;
第二确定模块804,被配置为根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;
圈定模块805,被配置为利用所述目标特征,对订单涉及的用户进行圈定,获得需要的特定人群。
在本实施例的一个可选实现方式中,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。
在本实施例的一个可选实现方式中,所述第二确定模块,包括:
第一获取子模块,被配置为针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;
目标特征确定子模块,被配置为根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
在本实施例的一个可选实现方式中,所述第一获取子模块,包括:
训练子模块,被配置为利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;
第一确定子模块,被配置为根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;
第二确定子模块,被配置为将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
在本实施例的一个可选实现方式中,所述目标特征确定子模块,包括:
第三确定子模块,被配置为确定所述第二候选特征在多个所述候选特征组中的出现次数;
第四确定子模块,被配置为将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
在本实施例的一个可选实现方式中,所述特定人群圈定装置还包括:
剔除模块,被配置为从所述目标特征中剔除共线特征。
在本实施例的一个可选实现方式中,所述剔除模块,包括:
第一获取子模块,被配置为根据所述目标特征获得多种目标特征组合;
比较子模块,被配置为将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;
剔除子模块,被配置为在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
在本实施例的一个可选实现方式中,所述特定人群圈定装置还包括:
提取模块,被配置为针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;
加入模块,被配置为将所述时序特征加入所述目标特征。
在本实施例的一个可选实现方式中,所述提取模块,包括:
平滑子模块,被配置为利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;
第五确定子模块,被配置为将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
本公开实施例中的特定人群圈定装置与上文中描述的特定人群圈定方法对应一致,具体细节可参见上述对特定人群圈定方法的描述,在此不再赘述。
图9示出根据本公开一实施方式的模型训练装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图9所示,所述模型训练装置包括:
第四获取模块901,被配置为获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用上述特定人群圈定装置确定;
第一训练模块902,被配置为利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
在本实施例的一个可选实现方式中,所述模型训练装置还包括:
第一识别模块,被配置为利用所述第四机器学习模型对测试用户集中测试用户进行识别;
第一划分模块,被配置为根据识别结果将所述测试用户集划分为多组测试用户;
第一聚类模块,被配置为针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
第二确定模块,被配置为根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
在本实施例的一个可选实现方式中,所述第一划分模块,包括:
第一划分子模块,被配置为将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
本公开实施例中的模型训练装置与上文中描述的模型训练方法对应一致,具体细节可参见上述对模型训练方法的描述,在此不再赘述。
图10示出根据本公开一实施方式的模型测试装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图10所示,所述模型测试装置包括:
第二识别模块1001,被配置为利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;
第二划分模块1002,被配置为根据识别结果将所述测试用户集划分为多组测试用户;
第二聚类模块1003,被配置为针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
第三确定模块1004,被配置为根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
在本实施例的一个可选实现方式中,所述第二划分模块,包括:
第二划分子模块,被配置为将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
在本实施例的一个可选实现方式中,还包括:
第四确定模块,被配置为利用上述特定人群圈定装置确定所述测试用户集中测试用户的目标特征。
本公开实施例中的模型测试装置与上文中描述的模型测试方法对应一致,具体细节可参见上述对模型测试方法的描述,在此不再赘述。
本公开实施方式还提供了一种电子设备,如图11所示,包括至少一个处理器1101;以及与至少一个处理器1101通信连接的存储器1102;其中,存储器1102存储有可被至少一个处理器1101执行的指令,指令被至少一个处理器1101执行以实现下述特定人群圈定方法:
获取第一样本用户集以及所述第一样本用户集中样本用户的第一候选特征;对所述第一样本用户集进行多次抽样,获得多个样本用户子集;针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
其中,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。
其中,针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组,包括:利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
其中,根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征,包括:确定所述第二候选特征在多个所述候选特征组中的出现次数;将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
其中,还包括:从所述目标特征中剔除共线特征。
其中,从所述目标特征中剔除共线特征,包括:根据所述目标特征获得多种目标特征组合;将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
其中,还包括:针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;将所述时序特征加入所述目标特征。
其中,针对所述目标特征,提取与所述目标特征相关的时序特征,包括:利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
上述电子设备还实现下述模型训练方法:获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用上述特定人群圈定方法确定;利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
其中,还包括:利用所述第四机器学习模型对测试用户集中测试用户进行识别;根据识别结果将所述测试用户集划分为多组测试用户;针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
其中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
上述电子设备还实现下述模型测试方法:利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;根据识别结果将所述测试用户集划分为多组测试用户;针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
其中,根据识别结果将所述测试用户集划分为多组测试用户,包括:将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
其中,还包括:利用上述特定人群圈定方法确定所述测试用户集中测试用户的目标特征。
具体地,处理器1101、存储器1102可以通过总线或者其他方式连接,图11中以通过总线连接为例。存储器1102作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器1101通过运行存储在存储器1102中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现本公开实施例中的上述方法。
存储器1102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储航运网络运输的历史数据等。此外,存储器1102可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,电子设备可选地包括通信组件1103,存储器1102可选地包括相对于处理器1101远程设置的存储器,这些远程存储器可以通过通信组件1103连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器1102中,当被一个或者多个处理器1101执行时,执行本公开实施例中的上述方法。
上述产品可执行本公开实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本公开实施方式所提供的方法。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (32)
1.一种特定人群圈定方法,其特征在于,包括:
获取样本用户的订单数据,并根据所述订单数据将所述样本用户标记为正样本用户或负样本用户;所述正样本用户为目标订单用户;
将标记后的所述样本用户作为第一样本用户集,并根据第一样本用户集确定所述样本用户的第一候选特征;
对所述第一样本用户集进行多次抽样,获得多个样本用户子集;
根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;所述目标特征为所述样本用户的候选特征中对识别目标订单用户起重要作用的特征;
利用所述目标特征,识别线上用户是否为目标订单用户;其中,所述线上用户与所述样本用户不同。
2.根据权利要求1所述的方法,其特征在于,根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征,包括:
针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;
根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
3.根据权利要求1或2所述的方法,其特征在于,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,
所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。
4.根据权利要求2所述的方法,其特征在于,针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组,包括:
利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;
根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;
将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
5.根据权利要求2所述的方法,其特征在于,根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征,包括:
确定所述第二候选特征在多个所述候选特征组中的出现次数;
将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
6.根据权利要求2所述的方法,其特征在于,还包括:
从所述目标特征中剔除共线特征。
7.根据权利要求6所述的方法,其特征在于,从所述目标特征中剔除共线特征,包括:
根据所述目标特征获得多种目标特征组合;
将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;
在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
8.根据权利要求2所述的方法,其特征在于,还包括:
针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;
将所述时序特征加入所述目标特征。
9.根据权利要求8所述的方法,其特征在于,针对所述目标特征,提取与所述目标特征相关的时序特征,包括:
利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;
将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
10.一种模型训练方法,其特征在于,包括:
获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用权利要求1-9任一项所述的方法确定;
利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
11.根据权利要求10所述的方法,其特征在于,还包括:
利用所述第四机器学习模型对测试用户集中测试用户进行识别;
根据识别结果将所述测试用户集划分为多组测试用户;
针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
12.根据权利要求11所述的方法,其特征在于,根据识别结果将所述测试用户集划分为多组测试用户,包括:
将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
13.一种模型测试方法,其特征在于,包括:
利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;
根据识别结果将所述测试用户集划分为多组测试用户;
针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
14.根据权利要求13所述的方法,其特征在于,根据识别结果将所述测试用户集划分为多组测试用户,包括:
将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
15.根据权利要求13或14所述的方法,其特征在于,还包括:
利用权利要求1-9任一项所述的方法确定所述测试用户集中测试用户的目标特征。
16.一种特定人群圈定装置,其特征在于,包括:
第一获取模块,被配置为获取样本用户的订单数据,并根据所述订单数据将所述样本用户标记为正样本用户或负样本用户;
第一确定模块,被配置为将标记后的所述样本用户作为第一样本用户集,并根据第一样本数据确定所述样本用户的第一候选特征;所述正样本用户为目标订单用户;
第二获取模块,被配置为对所述第一样本用户集进行多次抽样,获得多个样本用户子集;
第二确定模块,被配置为根据所述样本用户子集中所述样本用户的所述第一候选特征确定目标特征;所述目标特征为所述样本用户的候选特征中对识别目标订单用户起重要作用的特征;
圈定模块,被配置为利用所述目标特征,识别线上用户是否为目标订单用户;所述样本用户与所述线上用户不同。
17.根据权利要求16所述的装置,其特征在于,所述第二确定模块,包括:
第一获取子模块,被配置为针对每个样本用户子集,从所述样本用户的第一候选特征中获得候选特征组;其中所述候选特征组中包括特征权重值最大的预定数量个第二候选特征权重值最大的第一预设数量个第二候选特征,且所述特征权重值通过第一机器学习模型确定,且所述特征权重值用于表征所述第二候选特征在识别目标用户产生目标订单的概率时的重要程度;所述目标订单包括订单对象数量超过第三预设数量的订单;
目标特征确定子模块,被配置为根据同一第二候选特征在各组候选特征组中的出现次数从所述第二候选特征确定目标特征。
18.根据权利要求16或17所述的装置,其特征在于,所述样本用户包括正样本用户和负样本用户;所述正样本用户包括在预设时间段内产生的目标订单数量大于或等于第二预设数量的用户,所述目标订单中的订单对象数量超过第三预设数量;和/或,
所述负样本用户包括在预设时间段内未产生过目标订单且下单频次大于或等于第一预设阈值的用户。
19.根据权利要求17所述的装置,其特征在于,所述第一获取子模块,包括:
训练子模块,被配置为利用所述样本用户子集中所述样本用户的第一候选特征训练所述第一机器学习模型;
第一确定子模块,被配置为根据训练结果确定所述第一机器学习模型中所述第一候选特征的特征权重值;
第二确定子模块,被配置为将所述特征权重值最大的第一预设数量个所述第一候选特征确定为所述候选特征组中的第二候选特征。
20.根据权利要求17所述的装置,其特征在于,所述目标特征确定子模块,包括:
第三确定子模块,被配置为确定所述第二候选特征在多个所述候选特征组中的出现次数;
第四确定子模块,被配置为将所述出现次数大于或等于第四预设数量的所述第二候选特征确定为目标特征。
21.根据权利要求16所述的装置,其特征在于,还包括:
剔除模块,被配置为从所述目标特征中剔除共线特征。
22.根据权利要求21所述的装置,其特征在于,所述剔除模块,包括:
第一获取子模块,被配置为根据所述目标特征获得多种目标特征组合;
比较子模块,被配置为将第二机器学习模型的第一识别效果分别与多个第三机器学习模型的第二识别效果进行比较;其中,所述第二机器学习模型通过所述样本用户的所述目标特征训练得到;所述多个第三机器学习模型分别通过所述样本用户对应的不同的所述目标特征组合训练得到;
剔除子模块,被配置为在所述第一识别效果与第二识别效果之间的差值小于或等于第二预设阈值时,将所述第一识别效果对应的所述目标特征组合中未出现的所述目标特征作为共线特征,并剔除所述共线特征。
23.根据权利要求16所述的装置,其特征在于,还包括:
提取模块,被配置为针对所述目标特征,提取与所述目标特征相关的时序特征;其中,所述时序特征包括所述目标特征的趋势变化信息;
加入模块,被配置为将所述时序特征加入所述目标特征。
24.根据权利要求23所述的装置,其特征在于,所述提取模块,包括:
平滑子模块,被配置为利用长度为预设周期的平滑窗口对所述目标特征进行平滑操作,并确定平滑操作后所述目标特征的趋势变化信息;
第五确定子模块,被配置为将所述趋势变化信息确定为所述目标特征相关的所述时序特征。
25.一种模型训练装置,其特征在于,包括:
第三获取模块,被配置为获取第二样本用户集以及所述第二样本用户集中样本用户的目标特征;其中,所述样本用户的目标特征利用权利要求16-24任一项所述的装置确定;
第一训练模块,被配置为利用所述样本用户的目标特征训练第四机器学习模型;其中,所述第四机器学习模型用于识别目标用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单。
26.根据权利要求25所述的装置,其特征在于,还包括:
第一识别模块,被配置为利用所述第四机器学习模型对测试用户集中测试用户进行识别;
第一划分模块,被配置为根据识别结果将所述测试用户集划分为多组测试用户;
第一聚类模块,被配置为针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
第三确定模块,被配置为根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
27.根据权利要求26所述的装置,其特征在于,所述第一划分模块,包括:
第一划分子模块,被配置为将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
28.一种模型测试装置,其特征在于,包括:
第二识别模块,被配置为利用第四机器学习模型对测试用户集中的测试用户进行识别;其中,所述第四机器学习模型用于识别用户产生目标订单的概率;所述目标订单包括订单对象数量超过第三预设数量的订单;
第二划分模块,被配置为根据识别结果将所述测试用户集划分为多组测试用户;
第二聚类模块,被配置为针对每组测试用户,通过聚类方式得到每组测试用户中的聚类中心用户;
第四确定模块,被配置为根据所述聚类中心用户确定所述第四机器学习模型的识别准确度。
29.根据权利要求28所述的装置,其特征在于,所述第二划分模块,包括:
第二划分子模块,被配置为将所述识别结果与多个预设概率范围进行匹配,并将与同一所述预设概率范围相匹配的所述识别结果对应的所述测试用户划分为一组;其中,所述预设概率范围通过将所述机器学习模型的输出概率范围进行划分得到。
30.根据权利要求28或29所述的装置,其特征在于,还包括:
第五确定模块,被配置为利用权利要求16-24任一项所述的装置确定所述测试用户集中测试用户的目标特征。
31.一种电子设备,其特征在于,包括存储器和至少一个处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述至少一个处理器执行以实现权利要求1-15任一项所述的方法。
32.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被至少一个处理器执行时实现权利要求1-15任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089950.1A CN111325255B (zh) | 2020-02-13 | 2020-02-13 | 特定人群圈定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010089950.1A CN111325255B (zh) | 2020-02-13 | 2020-02-13 | 特定人群圈定方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111325255A CN111325255A (zh) | 2020-06-23 |
CN111325255B true CN111325255B (zh) | 2021-11-19 |
Family
ID=71168773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010089950.1A Active CN111325255B (zh) | 2020-02-13 | 2020-02-13 | 特定人群圈定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111325255B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816043B (zh) * | 2019-02-02 | 2021-01-01 | 拉扎斯网络科技(上海)有限公司 | 用户识别模型的确定方法、装置、电子设备及存储介质 |
CN113191824A (zh) * | 2021-05-24 | 2021-07-30 | 北京大米科技有限公司 | 数据处理方法、装置、电子设备和可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109816043A (zh) * | 2019-02-02 | 2019-05-28 | 拉扎斯网络科技(上海)有限公司 | 用户识别模型的确定方法、装置、电子设备及存储介质 |
CN109934369A (zh) * | 2017-12-15 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 用于信息推送的方法及装置 |
CN110727797A (zh) * | 2019-09-17 | 2020-01-24 | 北京三快在线科技有限公司 | 标签生成方法、装置、电子设备和计算机可读介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002015185A (ja) * | 2000-06-30 | 2002-01-18 | C4 Technology Inc | インターネットを利用したキャラクタ付き商品の発注方法及びキャラクタ付き商品の受発注方法 |
-
2020
- 2020-02-13 CN CN202010089950.1A patent/CN111325255B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934369A (zh) * | 2017-12-15 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 用于信息推送的方法及装置 |
CN109816043A (zh) * | 2019-02-02 | 2019-05-28 | 拉扎斯网络科技(上海)有限公司 | 用户识别模型的确定方法、装置、电子设备及存储介质 |
CN110727797A (zh) * | 2019-09-17 | 2020-01-24 | 北京三快在线科技有限公司 | 标签生成方法、装置、电子设备和计算机可读介质 |
Non-Patent Citations (1)
Title |
---|
集成学习总结 & Stacking方法详解;will_duan;《https://blog.csdn.net/willduan1/article/details/73618677》;20170721;第1-8页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111325255A (zh) | 2020-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Quoc Viet Hung et al. | An evaluation of aggregation techniques in crowdsourcing | |
CN112446025A (zh) | 联邦学习防御方法、装置、电子设备及存储介质 | |
CN108269122B (zh) | 广告的相似度处理方法和装置 | |
CN109816043B (zh) | 用户识别模型的确定方法、装置、电子设备及存储介质 | |
CN109711424B (zh) | 一种基于决策树的行为规则获取方法、装置及设备 | |
CN110689368B (zh) | 一种移动应用内广告点击率预测系统设计方法 | |
WO2019172848A1 (en) | Method and apparatus for predicting occurrence of an event to facilitate asset maintenance | |
CN111325255B (zh) | 特定人群圈定方法、装置、电子设备及存储介质 | |
CN111105628A (zh) | 一种停车场画像构建方法和装置 | |
CN112463859B (zh) | 基于大数据和业务分析的用户数据处理方法及服务器 | |
US20210073669A1 (en) | Generating training data for machine-learning models | |
CN110909868A (zh) | 基于图神经网络模型的节点表示方法和装置 | |
CN110706015A (zh) | 一种面向广告点击率预测的特征选取方法 | |
CN113822366A (zh) | 业务指标异常检测方法及装置、电子设备、存储介质 | |
CN112396211A (zh) | 一种数据预测方法及装置、设备和计算机存储介质 | |
CN111510368A (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
CN114638633A (zh) | 异常流量检测的方法和装置、电子设备和存储介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN115391561A (zh) | 图网络数据集的处理方法、装置、电子设备、程序及介质 | |
Divakar et al. | Performance evaluation of credit card fraud transactions using boosting algorithms | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN109977131A (zh) | 一种房型匹配系统 | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN114693011A (zh) | 一种政策匹配方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |