CN111753992A

CN111753992A - 筛选方法和筛选系统

Info

Publication number: CN111753992A
Application number: CN201910238956.8A
Authority: CN
Inventors: 鞠明兴
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-09

Abstract

本发明实施例提供一种筛选方法和筛选系统，该筛选方法包括：从存储系统获取多个目标物品的历史流量数据，并从中提取多个所述目标物品的目标变量的历史值；根据所述目标变量的历史值生成所述目标物品对应的预测选中概率；将所述预测选中概率和所述目标变量的历史值输入到建立好的期望值模型中，对所述目标物品进行筛选分析，生成多个所述目标物品的目标变量的期望值；以及筛选出所述目标变量的期望值大于预设阈值的所述目标物品，将其对应的标识信息存储至数据库中。根据目标物品的预测选中概率，采用期望值模型得出目标变量的期望值，根据目标变量期望值进行目标物品的筛选，能快速准确地筛选出需要的目标物品，筛选质量较好。

Description

筛选方法和筛选系统

技术领域

本发明涉及计算机技术领域，具体涉及一种筛选方法和筛选系统。

背景技术

目前关于目标物品的筛选，会应用到多种机器学习模型，如逻辑回归，随机森林，GBDT(Gradient Boosting Decision Tree，构造多棵决策回归树预测分类)等。在模型框架设计上，基于目标变量的定义不同，所采用的机器学习算法和模型也不相同。

目前主要采用两种机器学习方式，一种是基于连续变量的回归方式，另一种是基于是否成交的分类预测方式。基于回归方法进行学习的模型稳定性较差，且针对海量目标物品的目标变量做回归预测，模型准确率提升较难；基于分类方法进行学习主要是对目标物品成交可能性的预测，并不能直接给出目标物品的目标变量的预测结果，而且没有考虑分类变量对目标变量的影响。

因此，发明人认为，上述的目标物品的筛选方法有很大的局限性，利用现有机器学习模型难以准确、快速地计算出与目标物品选择有关的目标变量的预测结果，存在难以挑选出合适的目标物品的问题。

发明内容

有鉴于此，本发明实施例提供一种筛选方法和筛选系统，根据目标物品的目标变量的历史值计算目标物品的预测选中概率，再基于预测选中概率采用期望值模型计算目标变量的期望值，根据目标变量的期望值进行目标物品的筛选和存储，可以快速筛选出需要的合格的目标物品。

根据本发明第一方面，提供一种筛选方法，包括：

从存储系统获取多个目标物品的历史流量数据，并从中提取多个所述目标物品的目标变量的历史值；

根据所述目标变量的历史值生成所述目标物品对应的预测选中概率；

将所述预测选中概率和所述目标变量的历史值输入到建立好的期望值模型中，对所述目标物品进行筛选分析，生成多个所述目标物品的目标变量的期望值；以及

筛选出所述目标变量的期望值大于预设阈值的所述目标物品，将其对应的标识信息存储至数据库中。

优选地，所述历史流量数据包括目标物品曝光量，目标物品选中量和目标物品的曝光渠道数据。

优选地，所述目标物品的目标变量为目标物品的千次曝光转化率，所述千次曝光转化率为所述目标物品选中量与所述目标物品曝光量的比值的一千倍。

优选地，所述筛选方法还包括：从所述历史流量数据中提取出所述目标物品的多个属性数据，根据所述属性数据将多个所述目标商品分类。

优选地，采用基于所述目标物品的目标变量的离散变换的方法，对所述目标物品的所述属性数据进行连续化处理，得到所述预测选中概率，所述目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。

优选地，将所述目标物品在指定的所述属性数据的分类下对应的所述目标变量的历史值为正样本的数量与所述目标物品曝光量的比值作为所述预测选中概率。

优选地，所述目标变量的历史值大于零的记为正样本，否则记为负样本。

优选地，所述属性数据包括物品品类和曝光渠道。

优选地，所述筛选方法还包括：

计算所述目标物品在不同的所述曝光渠道上的所述预测选中概率和所述目标变量的期望值；

根据所述目标变量的期望值的降序顺序在不同的所述曝光渠道上设置梯度减少的所述目标物品曝光量。

优选地，采用基于所述目标物品的目标变量的离散变换的方法，对所述目标物品的所述属性数据进行连续化处理包括：

将属性数据的具体值和对应的目标物品曝光量组成数对，按照所述目标物品曝光量降序排列；

获取所述目标物品在每个分类下的所述目标变量的历史值并统计所述目标变量的历史值为正样本的数量；

将所述属性数据对应的数对列中的部分数对整合成一个数对；

针对处理后的数对列，计算每个属性数据的具体值对应的所述目标变量的历史值的平均值。

优选地，所述期望值模型的建立过程包括：

加载数据源，获得目标物品的历史流量数据和预测选中概率；

根据数据库时间分区将数据源分为训练数据集和测试数据集，将训练数据集按照7：3划分为训练集和验证集；

采用随机森林模型，根据验证集上模型的表现进行交叉验证调节模型参数；

序列化保存模型文件；

根据所述预测选中概率和某一时间粒度下的目标变量的历史值生成所述目标变量的期望值。

根据本发明第二方面，提供一种筛选系统，包括：

数据获取单元，用于从存储系统获取多个目标物品的历史流量数据，并从中提取多个所述目标物品的目标变量的历史值；

预测单元，用于根据所述目标变量的历史值生成所述目标物品对应的预测选中概率；

期望值计算单元，用于将所述预测选中概率和所述目标变量的历史值输入到建立好的期望值模型中，对所述目标物品进行筛选分析，生成多个所述目标物品的目标变量的期望值；以及

筛选单元，用于筛选出所述目标变量的期望值大于预设阈值的所述目标物品，将其对应的标识信息存储至数据库中。

优选地，所述筛选系统还包括：分类单元，用于从所述历史流量数据中提取出所述目标物品的多个属性数据，根据所述属性数据将多个所述目标商品分类。

优选地，采用基于所述目标物品的目标变量的离散变换的方法，对所述目标物品的属性数据进行连续化处理，得到所述预测选中概率，所述目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。

优选地，所述预测单元包括：

数对生成单元，用于将属性数据的具体值和对应的目标物品曝光量组成数对，按照所述目标物品曝光量降序排列；

统计单元，用于获取所述目标物品在每个分类下的所述目标变量的历史值并统计所述目标变量的历史值为正样本的数量；

整理单元，用于将所述属性数据的数对列中的部分数对整合成一个数对；

均值计算单元，用于针对处理后的数对列，计算每个属性数据的具体值对应的所述目标变量的历史值的平均值。

根据本发明第三方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如上述所述的筛选方法。

根据本发明第四方面，提供一种筛选装置，包括：存储器，用于存储计算机指令；处理器，耦合到所述存储器，所述处理器被配置为基于所述存储器存储的计算机指令执行实现如上述所述的筛选方法。

本发明的实施例具有以下优点或有益效果：通过目标物品的目标变量的历史值得到目标物品的预测选中概率，并采用期望值模型，根据预测选中概率得出目标变量的期望值，再根据目标变量期望值的高低进行目标物品的筛选。在目标变量期望值的计算过程中加入目标物品的预测选中概率，使得目标变量期望值的求取更加准确，所以筛选出的目标物品更加符合需求，提高了目标物品的筛选质量。

本发明的另一优选实施例具有以下优点或有益效果：采用基于目标变量的离散变换方法对分类变量进行连续化处理，进而计算预测选中概率，充分利用了目标物品的历史交易数据，增加了目标物品的预测选中概率的准确性，提升了期望值模型的稳定性。

本发明的另一优选实施例具有以下优点或有益效果：采用期望值模型，先根据分类问题得到目标物品的预测选中概率，再利用回归问题，根据某一时间粒度下的目标变量值与预测选中概率的乘积计算目标变量的期望值，提升模型的准确性和稳定性，提升模型的预测效果，使得目标物品的筛选更加合理。

附图说明

通过参照以下附图对本发明实施例的描述，本发明的上述以及其它目的、特征和优点将更为清楚，在附图中：

图1示出了本发明实施例中的筛选方法的流程图；

图2a示出了图1所示的步骤S102的具体流程图；

图2b示出了采用离散变换方法对属性数据进行连续化处理的过程的示意图；

图2c示出了本发明实施例中筛选方法的期望值模型建立的流程图；

图3示出了本发明实施例中汇总的筛选方法的流程图；

图4示出了采用本发明实施例的筛选方法之前和之后的业务提升率对比的折线图；

图5示出了本发明实施例中的筛选系统的结构图；

图6示出了本发明实施例中汇总的筛选系统的结构图；

图7示出了本发明实施例中筛选系统的预测单元的结构图；

图8示出了根据本发明实施例的筛选装置的结构图。

具体实施方式

以下基于实施例对本发明进行描述，但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质，公知的方法、过程、流程没有详细叙述。另外附图不一定是按比例绘制的。

图1示出了本发明实施例中的筛选方法的流程图，具体步骤包括S101-S104。

在步骤S101中，从存储系统获取多个目标物品的历史流量数据，并从中提取多个目标物品的目标变量的历史值。

在步骤S102中，根据目标变量的历史值生成目标物品对应的预测选中概率。

在步骤S103中，将预测选中概率和目标变量的历史值输入到建立好的期望值模型中，对目标物品进行筛选分析，生成多个目标物品的目标变量的期望值。

在步骤S104中，筛选出目标变量的期望值大于预设阈值的目标物品，将其对应的标识信息存储至数据库中。

在本实施例中，建立一种期望值模型，根据目标物品的目标变量的历史值生成目标物品的预测选中概率，再基于预测选中概率采用期望值模型计算目标变量的期望值，根据目标变量的期望值进行目标物品的筛选，挑选质量较佳的目标物品，将其对应的标识信息进行存储。

首先，从存储系统获取目标物品的历史流量数据，再从获取到的目标物品的历史流量数据中提取目标物品的目标变量的历史值。目标物品的历史流量数据的来源例如是京东全站的流量数据、销售记录数据、目标物品评论数据、产品前端页面埋点数据，以及特定业务场景的交易数据。

在一个实施例中，历史流量数据包括目标物品曝光量，目标物品选中量和目标物品的曝光渠道数据。目标物品的目标变量例如是目标物品的千次曝光转化率，千次曝光转化率为目标物品成交量与目标物品曝光量的比值的一千倍。此时，目标变量的历史值即为目标物品的历史千次曝光转化率。

然后根据目标变量的历史值生成目标物品对应的预测选中概率，这里可以转化为一个机器学习的分类问题，利用分类问题求选中概率。例如，将目标变量的历史值大于零的概率作为目标物品的预测选中概率。

之后采用建立好的期望值模型，进行目标物品的目标变量的期望值的计算。本实施例中，将上一步得到的目标物品的预测选中概率作为一个参数带入模型中，再结合目标物品的目标变量的历史值求解目标变量的期望值。步骤S102-S103是本实施例的核心内容，虽然利用了分类模型，却可以根据目标物品的预测选中概率计算出目标变量的期望值，简化了运算，而且得出的结果可靠性较高。

最后，设定一个期望值阈值，例如是0.8，根据步骤S103，每个目标物品都对应一个目标变量的期望值，对这些计算结果进行筛选，将目标变量的期望值大于预设阈值的目标物品挑选出来，最为筛选出的优质目标物品，将其对应的标识信息存储在数据库中，方便后续的调用。

在一个实施例中，目标物品的目标变量为目标物品的千次曝光转化率，利用期望值模型求取千次曝光转化率的期望值时，可以利用目标物品的预测选中概率与目标物品的历史千次曝光转化率的乘积作为千次曝光转化率的期望值，历史千次曝光转化率例如是前一天的千次曝光转化率，或前5天的千次曝光转化率等。

本实施例的筛选方法可以应用于优质产品或合格产品的筛选等，例如需要从一批包括多种型号的产品中筛选出合格的多个目标物品，首先需要调取历史数据，根据历史数据获取目标物品对应的目标变量的历史值，再计算出某一型号产品的预测选中概率，最后代入期望值模型中生成目标变量的期望值，将期望值大于阈值的产品最为筛选出的优质产品，由此完成对目标物品的筛选，将这些目标物品对应的标志信息存储，将来需要时，可以直接调用，找到目标物品的型号。

在本实施例中，通过目标物品的目标变量的历史值得到目标物品的预测选中概率，并采用期望值模型，根据预测选中概率得出目标变量的期望值，再根据目标变量期望值的高低进行目标物品的筛选。在目标变量期望值的计算过程中加入目标物品的预测选中概率，使得目标变量期望值的求取更加准确，所以筛选出的目标物品更加符合需求，提高了目标物品的筛选质量。

在一个实施例中，在计算目标物品的预测选中概率时，采用基于目标物品的目标变量的离散变换的方法，对目标物品的属性数据进行连续化处理，从而得到预测选中概率。目标物品的属性数据也从历史流量数据中获取，包括物品品类，曝光渠道等。将目标物品在指定的属性数据的分类下对应的目标变量的历史值为正样本的数量与目标物品曝光量的比值作为预测选中概率。具体步骤参见图2a的描述。

图2a示出了图1所示的步骤S102的具体流程图，具体包括以下步骤。基于响应变量的离散变换的方法对分类变量进行连续化处理，具体数学解释如下：

在步骤S1021中，将属性数据的具体值和对应的目标物品曝光量组成数对，按照目标物品曝光量降序排列。

获取目标物品的历史流量数据，得到目标物品的属性数据，历史流量数据包括目标物品曝光量和目标物品选中量以及曝光渠道等数据，目标物品可以按照属性数据进行分类，分为不同的类型，目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。本步骤中，对某一属性数据的具体值对应的分类下的目标物品曝光量进行计数。在一个实施例中，属性数据的具体值例如是某一物品品类下的具体的目标物品名称，统计该目标物品对应的曝光量和选中量，然后将具体的目标物品和对应的目标物品曝光量组成数对，按照曝光量降序排列，即：{{X₁,m₁}，{X₂,m₂}，…，{X_N,m_N}},其中，X_i为分类变量的第i个值，m_i为X_i对应的曝光量，m₁>m₂>…>m_N。

在步骤S1022中，获取目标物品在每个分类下的目标变量的历史值并统计目标变量的历史值为正样本的数量。

当属性数据为物品品类时，可以包括一级品类，二级品类，三级品类等，而每一级品类下又包括多种目标物品，每种目标物品都对应有目标变量，当目标变量为目标物品的千次曝光转化率时，目标物品千次曝光转化率记为P，目标物品曝光次数记为U，目标物品选中单量记为N，则：

本实施例中，将目标变量的历史值大于零的记为正样本，否则记为负样本。例如，目标变量定义为目标物品千次曝光转化率，大于0为正样本，记为1，否则则为负样本，记为0。

在步骤S1023中，将属性数据对应的数对列中的部分数对整合成一个数对。取头部n个变量{X₁,X₂,…,X_n}，余下{X_n+1,…,X_N}全部合并为{X_others}。处理后的变量列为：{{X₁,m₁}，{X₂,m₂}，…，{X_n,m_n},

在步骤S1024中，针对处理后的数对列，计算每个属性数据的具体值对应的目标变量的历史值的平均值。

针对处理后的变量列{{X₁,m₁}，{X₂,m₂}，…，{X_n,m_n},

计算每个值{X_i}对应的目标变量y的历史值的平均值，计算公式为：

最后用p_i替换X_i，建立数据源。

在本实施例中，X即表示属性数据，例如是物品品类或流量渠道，目标物品又分为一级品类，二级品类，三级品类，X_i表示一级品类，二级品类，三级品类……对应的具体的属性值，如：运动户外、体育用品、美妆护肤，清洁用品，或者是曝光渠道对应的具体值，例如，微信，小程序等，m_i表示X_i的个数或曝光量。

本实施例中针对目标物品品类，曝光渠道等分类变量采用一种基于目标变量的离散变换的方法替代传统的one-hot编码(独热编码)，这种方式能够有效的基于历史数据，对分类变量做连续化处理，从而提升模型的整体效果。

图2b示出了采用离散变换方法对属性数据进行连续化处理的过程的示意图。结合图2a进行分析，如图2b所示，在本实施例中，X即表示目标物品的一级品类，二级品类，三级品类，曝光渠道，X_i表示具体的属性值，如：运动户外、体育用品、美妆护肤，清洁用品，微信，小程序等，m_i表示X_i的个数，即数量，y即表示目标变量为正样本的数量。

在初始数据集中，一级品类下对应3个具体的X_i，每个一级品类下又分别对应2、3、1个二级品类，曝光渠道对应4个具体地X_i，每件目标物品对应有一个目标变量值。第一列的数字表示目标物品的SKU或编号。

对初始数据集进行数据整理，按照不同的分类变量进行分类和计算，图2b给出了一级品类、二级品类和曝光渠道这些分类变量分别对应的预测选中概率。

一级品类对应三个X_i，即户外运动、美妆护肤、家用电器，分别对应的m为5、4、1，对应的目标变量和y为3、2、1(正样本的数量)，这里的y例如是千次曝光转化率大于零的次数，则目标变量的历史值的平均值为：p₁＝3/5＝0.6、p₂＝2/4＝0.5、p₃＝1/1＝1。将求出的p作为预测选中概率，那么运动户外目标物品的预测选中概率为0.6，美妆护肤目标物品的预测选中概率为0.5，家用电器目标物品的预测选中概率为1。

类似地，可以求出不同的属性数据对应的目标物品的预测选中概率，最后统计为一个新的数据集，用p_i表示X_i，整理成一个变换后的数据集，便于后续运算。

本实施例的模型设计方案，将目标物品的筛选问题抽象成具体的算法模型，转换为二分类问题计算目标物品的预测选中概率，并创造性的利用预测选中概率求出目标物品未来的千次曝光转化率期望值，结合了回归问题，更加符合需求，模型运算更加准确和稳定。

图2c示出了本发明实施例中筛选方法的期望值模型建立的流程图，具体包括以下步骤。

在步骤S201中，加载数据源，获得目标物品的历史流量数据和预测选中概率。利用spark sql语句直接从hive加载数据源(如图2a-2b描述的数据)，根据数据库时间分区将数据源分为训练数据集和测试数据集。训练集数据用于进行模型的训练，测试集数据用于进行模型的验证。

在步骤S202中，根据数据库时间分区将数据源分为训练数据集和测试数据集，将训练数据集按照7：3划分为训练集和验证集。验证集和测试集用于在模型的检验过程中进行模型调整的参数。

在步骤S203中，采用随机森林模型，根据验证集上模型的表现进行交叉验证调节模型参数。这里的随机森林模型只是一种优化的模型选择。

在步骤S204中，序列化保存模型文件。将训练和验证的数据进行保存，便于后续操作。

在步骤S205中，根据预测选中概率和某一时间粒度下的目标变量的历史值生成目标变量的期望值。

期望值模型的最终求解定义为千次曝光转化率的期望值，以一个打分值进行表示，即：score_i＝p_i*C_t-1，其中，score_i为目标物品i的千次曝光转化率期望值，p_i为模型的预测选中概率，也即是目标物品i的预测选中概率，C_t-1为目标物品i的t-1时间下的千次曝光转化率，t为时间粒度，可取日，周，月，季度等。这里的C_t-1是历史千次曝光转化率，也可以表示目标物品的目标变量的历史值。

本实施例中，模型设计方案为两阶段，首先将物品的筛选问题转化为一个机器学习的分类问题，计算单个目标物品的预测选中概率；其次，基于历史(例如上一日)目标物品千次曝光转化率乘以预测选中概率，从而得到目标物品未来千次曝光转化率的期望值，求得的期望值结果的可靠性较好。

图3示出了本发明实施例中汇总的筛选方法的流程图，具体包括以下步骤。

在步骤S301中，从存储系统获取多个目标物品的历史流量数据，并从中提取多个目标物品的目标变量的历史值。

在步骤S302中，根据目标变量的历史值生成目标物品对应的预测选中概率。

在步骤S303中，从历史流量数据中提取出目标物品的多个属性数据，根据属性数据将多个目标商品分类。

在步骤S304中，将预测选中概率和目标变量的历史值输入到建立好的期望值模型中，对目标物品进行筛选分析，生成多个目标物品的目标变量的期望值。

在步骤S305中，筛选出目标变量的期望值大于预设阈值的目标物品，将其对应的标识信息存储至数据库中。

在步骤S306中，计算目标物品在不同的曝光渠道上的预测选中概率和目标变量的期望值。

在步骤S307中，根据目标变量的期望值的降序顺序在不同的曝光渠道上设置梯度减少的目标物品曝光量。

本实施例是比前述实施例更加完善的筛选方法。其中，步骤S301-S302和S304-S305和图1的步骤S101-S104相同，这里就不再赘述。

目标物品包括多个属性数据，按照属性数据可以对目标物品进行分类，目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。结合图2a和图2b的描述，可以得到在不同的属性数据的分类下的目标物品的预测选中概率，同理也可以得到不同分类下的目标变量的历史值，因此在模型中计算后，可以得到不同的目标变量的期望值，对每一类型的属性数据都有一个期望值，可以根据实际需求决定用哪一种期望值进行筛选。例如根据一级品类下的目标物品对应的目标变量的期望值进行物品的筛选。

步骤S306-S307涉及到目标物品的曝光渠道，在步骤S306中，计算目标物品在不同的曝光渠道上的预测选中概率和目标变量的期望值，将曝光渠道作为一个属性数据，计算各个渠道对应的目标物品的千次曝光转化率和预测选中概率，选择千次曝光转化率的期望值较高的曝光渠道进行目标物品的曝光。

在步骤S307中，根据目标变量的期望值的降序顺序在不同的曝光渠道上设置梯度减少的目标物品曝光量。对以曝光渠道作为属性数据计算得到的目标变量的期望值进行降序排序，期望值高的渠道曝光目标物品的数量也较多，期望值较小的曝光渠道，目标物品曝光量对应减小。当需要进行目标物品的曝光时，可以选择按照此方式进行曝光，将优质产品多进行曝光。

在一个实施例中，筛选方法还可以包括目标物品的展示，例如将目标变量的期望值进行降序排序，按照排序顺序将目标物品展示到客户端。将步骤S304中筛选出的大于阈值的期望值进行降序排序，按照排序顺序将目标物品在客户端进行展示，这样在移动设备上也可以观察到优质的目标物品。

这里对应的期望值模型的部署为：将Scala脚本以及模型文件部署进入spark平台，模型预测的目标物品千次曝光转化率期望值写入hive文件进行保存。根据预测得到的期望值降序排序，根据头部目标物品的SKU进行拼筛选并展示。

在本发明实施例中，充分利用了曝光渠道对目标物品的千次曝光转化率的影响，将曝光渠道作为一个属性数据进行处理，对预测的千次曝光转化率的期望值较高的曝光渠道，进行大量的目标物品曝光，提升目标物品的选中率。本实施例考虑了属性数据对目标变量的影响，使得最终得到的目标物品更为优质。

图4示出了采用本发明实施例的筛选方法之前和之后的业务提升率对比的折线图。如图4所示，横坐标表示实验次数(实验组数目)，纵坐标表示业务提升率。

在一个实施例中，效果验证采用AB测试方案，对期望值模型进行迭代修正。本实施例中，将原始业务策略作为对照组，即根据目标物品上一周平均千次曝光率排序取头部目标物品进行推荐。并设置包括本发明的筛选方法在内的多个实验组。

如图4所示：第一次试验，实验组采用传统的回归方法，业务提升率实验组较对照组提升-15.6％；第二次试验，实验组采用多分类模型，业务提升率实验组较对照组提升-1.3％；第三次试验，采用二分类模型，业务提升率实验组较对照组提升7.8％；第四次试验，采用二分类模型并且求千次曝光转化率的期望值，业务提升率实验组较对照组提升10.8％；第五次试验，在第四次试验的基础上，添加目标物品品类特征,采用基于目标变量的离散变换的方法，业务提升率实验组较对照组提升15.1％；第六次试验，在第五次试验的基础上，添加流量渠道特征，采用基于目标变量的离散变换的方法，业务提升率实验组较对照组提升22.5％。

由第一次和第二次对比试验可知，采用分类模型比回归模型更有效；由第二次和第三次对比试验可知，采用二分类模型更为合适，模型更稳定；由第三次和第四次对比试验可知，利用千次曝光转化率的期望值比单纯使用转化概率进行目标物品推荐能带来2％的业务率提升。

由第四次和第五、六次实验可知，采用基于目标变量的离散变换的方法，业务提升得到显著增长，再利用品类信息，流量渠道信息对目标物品成交率的影响进行模型的建立，业务率的提升最为明显。综合六次实验来看，本发明实施例的筛选方法最终在拼购业务上，能够给目标物品千次曝光转化率带来22.5％的提升。

在一个实施例中，可以针对属性数据采用分群建模，最后聚合结果作为最终的输出，进行目标变量的期望值的预测。

在另一个实施例中，还可以直接针对目标物品千次曝光转化率做回归预测，构建更为复杂系统的模型，求解目标变量的期望值。

应该指出的是，本发明不仅限于上述实施例提供的算法规则，其他算法规则，也可以实践本发明实施例提供的筛选方法。

图5示出了本发明实施例中的筛选系统的结构图。

该筛选系统500包括数据获取单元501、预测单元502、期望值计算单元503和筛选单元504。

数据获取单元501用于从存储系统获取多个目标物品的历史流量数据，并从中提取多个目标物品的目标变量的历史值；

预测单元502用于根据目标变量的历史值生成目标物品对应的预测选中概率根据目标变量的历史值计算商品的预测成交概率；

期望值计算单元503用于将预测选中概率和目标变量的历史值输入到建立好的期望值模型中，对目标物品进行筛选分析，生成多个目标物品的目标变量的期望值；

筛选单元504用于筛选出目标变量的期望值大于预设阈值的目标物品，将其对应的标识信息存储至数据库中。

其中，历史流量数据包括目标物品曝光量，目标物品成交量和目标物品的曝光渠道数据，目标物品的目标变量为目标物品的千次曝光转化率，千次曝光转化率为目标物品选中量与目标物品曝光量的比值的一千倍。

图6示出了汇总的筛选系统的结构图。图6所示的实施例在图5的实施例的基础上增加了分类单元601。

分类单元601用于从历史流量数据中提取出目标物品的多个属性数据，根据属性数据将多个目标商品分类。在进行分类后可以分别获取在不同分类下的目标物品对应的预测选中概率和目标变量的期望值。

应该理解，本发明实施例的系统和方法是对应的，因此，在系统的描述中以相对简略的方式进行。

图7示出了本发明实施例中筛选系统的预测单元502的结构图。

预测单元502用于根据目标变量的历史值生成目标物品对应的预测选中概率。在一个实施例中，预测单元502采用基于目标物品的目标变量的离散变换的方法，对目标物品的属性数据进行连续化处理，得到预测选中概率，目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。将目标物品在指定的属性数据的分类下对应的目标变量的历史值为正样本的数量与目标物品曝光量的比值作为预测选中概率。

具体地，预测单元502包括数对生成单元5021、统计单元5022、整理单元5023和均指计算单元5024。

数对生成单元5021用于将属性数据的具体值和对应的目标物品曝光量组成数对，按照目标物品曝光量降序排列；

统计单元5022用于获取目标物品在每个分类下的目标变量的历史值并统计目标变量的历史值为正样本的数量；

整理单元5023用于将属性数据的数对列中的部分数对整合成一个数对；

均值计算单元5024用于针对处理后的数对列，计算每个属性数据的具体值对应的目标变量的历史值的平均值。

图8示出了本发明实施例的筛选装置的结构图。图8示出的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围构成任何限制。

参考图8，该筛选装置800包括通过总线连接的处理器801、存储器802和输入输出设备803。存储器802包括只读存储器(ROM)和随机访问存储器(RAM)，存储器802内存储有执行系统功能所需的各种计算机指令和数据，处理器801从存储器802中读取各种计算机指令以执行各种适当的动作和处理。输入输出设备包括键盘、鼠标等的输入部分；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分；包括硬盘等的存储部分；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。存储器802还存储有以下的计算机指令以完成本发明实施例的筛选方法规定的操作：从存储系统获取多个目标物品的历史流量数据，并从中提取多个目标物品的目标变量的历史值；根据目标变量的历史值生成目标物品对应的预测选中概率；将预测选中概率和目标变量的历史值输入到建立好的期望值模型中，对目标物品进行筛选分析，生成多个目标物品的目标变量的期望值；以及筛选出目标变量的期望值大于预设阈值的目标物品，将其对应的标识信息存储至数据库中。

相应地，本发明实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现上述筛选方法所规定的操作。

附图中的流程图、框图图示了本发明实施例的系统、方法、装置的可能的体系框架、功能和操作，流程图和框图上的方框可以代表一个模块、程序段或仅仅是一段代码，所述模块、程序段和代码都是用来实现规定逻辑功能的可执行指令。也应当注意，所述实现规定逻辑功能的可执行指令可以重新组合，从而生成新的模块和程序段。因此附图的方框以及方框顺序只是用来更好的图示实施例的过程和步骤，而不应以此作为对发明本身的限制。

系统的各个模块或单元可以通过硬件、固件或软件实现。软件例如包括采用JAVA、C/C++/C#、SQL等各种编程语言形成的编码程序。虽然在方法以及方法图例中给出本发明实施例的步骤以及步骤的顺序，但是所述步骤实现规定的逻辑功能的可执行指令可以重新组合，从而生成新的步骤。所述步骤的顺序也不应该仅仅局限于所述方法以及方法图例中的步骤顺序，可以根据功能的需要随时进行调整。例如将其中的某些步骤并行或按照相反顺序执行。

根据本发明的系统和方法可以部署在单个或多个服务器上。例如，可以将不同的模块分别部署在不同的服务器上，形成专用服务器。或者，可以在多个服务器上分布式部署相同的功能单元、模块或系统，以减轻负载压力。所述服务器包括但不限于在同一个局域网以及通过Internet连接的多个PC机、PC服务器、刀片机、超级计算机等。

以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种筛选方法，其特征在于，包括：

2.根据权利要求1所述的筛选方法，其特征在于，所述历史流量数据包括目标物品曝光量，目标物品选中量和目标物品的曝光渠道数据。

3.根据权利要求2所述的筛选方法，其特征在于，所述目标物品的目标变量为目标物品的千次曝光转化率，所述千次曝光转化率为所述目标物品选中量与所述目标物品曝光量的比值的一千倍。

4.根据权利要求1所述的筛选方法，其特征在于，还包括：从所述历史流量数据中提取出所述目标物品的多个属性数据，根据所述属性数据将多个所述目标商品分类。

5.根据权利要求4所述的筛选方法，其特征在于，采用基于所述目标物品的目标变量的离散变换的方法，对所述目标物品的所述属性数据进行连续化处理，得到所述预测选中概率，所述目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。

6.根据权利要求5所述的筛选方法，其特征在于，将所述目标物品在指定的所述属性数据的分类下对应的所述目标变量的历史值为正样本的数量与所述目标物品曝光量的比值作为所述预测选中概率。

7.根据权利要求6所述的筛选方法，其特征在于，所述目标变量的历史值大于零的记为正样本，否则记为负样本。

8.根据权利要求6所述的筛选方法，其特征在于，所述属性数据包括物品品类和曝光渠道。

9.根据权利要求8所述的筛选方法，其特征在于，还包括：

10.根据权利要求5所述的筛选方法，其特征在于，采用基于所述目标物品的目标变量的离散变换的方法，对所述目标物品的所述属性数据进行连续化处理包括：

11.根据权利要求1所述的筛选方法，其特征在于，所述期望值模型的建立过程包括：

序列化保存模型文件；

12.一种筛选系统，其特征在于，包括：

13.根据权利要求12所述的筛选系统，其特征在于，所述历史流量数据包括目标物品曝光量，目标物品选中量和目标物品的曝光渠道数据。

14.根据权利要求13所述的筛选系统，其特征在于，所述目标物品的目标变量为目标物品的千次曝光转化率，所述千次曝光转化率为所述目标物品选中量与所述目标物品曝光量的比值的一千倍。

15.根据权利要求12所述的筛选系统，其特征在于，还包括：

分类单元，用于从所述历史流量数据中提取出所述目标物品的多个属性数据，根据所述属性数据将多个所述目标商品分类。

16.根据权利要求15所述的筛选系统，其特征在于，采用基于所述目标物品的目标变量的离散变换的方法，对所述目标物品的所述属性数据进行连续化处理，得到所述预测选中概率，所述目标物品在不同的分类下对应不同的预测选中概率和不同的目标变量的期望值。

17.根据权利要求16所述的筛选系统，其特征在于，将所述目标物品在指定的所述属性数据的分类下对应的所述目标变量的历史值为正样本的数量与所述目标物品曝光量的比值作为所述预测选中概率。

18.根据权利要求16所述的筛选系统，其特征在于，所述预测单元包括：

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现如权利要求1至11中任一项所述的筛选方法。

20.一种筛选装置，其特征在于，包括：

存储器，用于存储计算机指令；

处理器，耦合到所述存储器，所述处理器被配置为基于所述存储器存储的计算机指令执行实现如权利要求1至11中任一项所述的筛选方法。