CN107657267B - 产品潜在用户挖掘方法及装置 - Google Patents

产品潜在用户挖掘方法及装置 Download PDF

Info

Publication number
CN107657267B
CN107657267B CN201710686739.6A CN201710686739A CN107657267B CN 107657267 B CN107657267 B CN 107657267B CN 201710686739 A CN201710686739 A CN 201710686739A CN 107657267 B CN107657267 B CN 107657267B
Authority
CN
China
Prior art keywords
samples
training
user
data set
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710686739.6A
Other languages
English (en)
Other versions
CN107657267A (zh
Inventor
王婷婷
李明明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Original Assignee
Baidu Online Network Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu Online Network Technology Beijing Co Ltd filed Critical Baidu Online Network Technology Beijing Co Ltd
Priority to CN201710686739.6A priority Critical patent/CN107657267B/zh
Publication of CN107657267A publication Critical patent/CN107657267A/zh
Application granted granted Critical
Publication of CN107657267B publication Critical patent/CN107657267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本申请公开了一种产品潜在用户挖掘方法及装置。该产品潜在用户挖掘方法包括:采集待预测用户数据;针对待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测;以及输出预测结果。根据本申请实施例的技术方案,通过基于机器学习算法预先建立的预测模型得到产品潜在用户,相比于人工筛选,大大提高了潜在用户筛选的效率,有效节约了人力和时间成本。

Description

产品潜在用户挖掘方法及装置
技术领域
本公开一般涉及计算机技术领域,具体涉及数据挖掘领域,尤其涉及一种产品潜在用户挖掘方法及装置。
背景技术
传统的产品销售流程为:寻找潜在用户,电话沟通,线下拜访,签约。其中,寻找潜在用户通常是通过销售人员人工筛选进行的。当用户数量较大时,人工筛选潜在用户存在如下缺陷:
1、浪费大量的时间和人力,效率低下;
2、筛选结果不准确,意向度偏低;
3、新人需要培训后才可进行筛选工作,成本高。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种准确可靠高效的产品潜在用户挖掘方法及装置。
第一方面,本申请实施例提供了一种产品潜在用户挖掘方法,包括:
采集待预测用户数据;
针对待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测;以及
输出预测结果。
在一些实施例中,该预测模型是通过下述步骤建立的:生成训练样本和测试样本;从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型。进一步地,生成训练样本和测试样本包括:基于用户的产品开通时间,选择训练数据集和测试数据集;打标分类训练数据集和测试数据集用户;采集训练数据集和测试数据集用户的多维度特征,生成对应的特征指标;以及整合训练数据集和测试数据集用户的打标分类结果及特征指标,对应生成训练样本和测试样本。
在一些实施例中,从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型包括:从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立初始预测模型;基于袋外数据分类准确率计算特征指标的重要度,并按重要度降序排列,选取排名靠前的部分特征指标作为重要特征指标,其余作为非重要特征指标,其中,袋外数据为训练样本和测试样本中未被抽取的用户样本;删除训练样本和测试样本的非重要特征指标,沉淀训练样本和测试样本的重要指标特征;以及使用沉淀后的训练样本和测试样本,重新采用随机森林算法建立预测模型。
第二方面,本申请实施例还提供了一种产品潜在用户挖掘装置,包括:
数据采集单元,用于采集待预测用户数据;
预测单元,用于针对待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测;以及
输出单元,用于输出预测结果。
第三方面,本申请实施例还提供了一种设备,包括:
一个或多个处理器和存储器;
其中,存储器包含可由该一个或多个处理器执行的指令以使得该一个或多个处理器执行根据本申请各实施例提供的产品潜在用户挖掘方法。
第四方面,本申请实施例还提供了一种存储有计算机程序的计算机可读存储介质,该计算机程序使计算机执行根据本申请各实施例提供的产品潜在用户挖掘方法。
本申请实施例提供的产品潜在用户挖掘方法,通过基于机器学习算法预先建立的预测模型得到产品潜在用户,相比于人工筛选,大大提高了潜在用户筛选的效率,有效节约了人力和时间成本。
本申请一些实施例提供的产品潜在用户挖掘方法,进一步通过采用随机森林算法建立预测模型,可以实现快速高效地训练预测模型,提升工作效率;更进一步地,通过选择相互独立的训练样本和测试样本相互独立划分,保证了模型检验的可靠性和准确性;同时,采用多维度特征指标构建预测模型,可使模型的预测结果更加准确可靠。
本申请一些实施例提供的产品潜在用户挖掘方法,进一步通过袋外数据分类准确率衡量特征指标的重要度,对初始预测模型进行优化,减少了非重要特征对模型的干扰,在确保预测准确性的前提下,提升了算法的效能
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了根据本申请实施例的产品潜在用户挖掘方法的示例性流程图;
图2示出了一个预测结果列表的部分截图;
图3示出了根据本申请一个实施例的预测模型建立的方法的示例性流程图;
图4示出了根据图3所示方法的一个优选实施例示例性流程图;
图5示出了一个实施例中特征指标划分的部分截图;
图6示出了根据图3所示方法的一个优选实施例示例性流程图;
图7示出了本申请一实施例提供的产品潜在用户挖掘装置的结构示意图;
图8示出了根据本申请一个实施例的预测模型建立的装置的结构示意图;
图9示出了根据图8所示样本生成单元的一个优选实施例示的结构示意图;以及
图10示出了适于用来实现本申请实施例的设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了根据本申请实施例的产品潜在用户挖掘方法的示例性流程图。
如图1所示,该产品潜在用户挖掘方法包括:
步骤S10:采集待预测用户数据。
在本实施例中,待预测用户可以包括:未曾开通过产品的在线用户。
具体地,产品可以为用户推广产品,如直通车产品。在线用户可以是网络交易平台上的用户。更具体地,若用户包括一个或多个门店,则用户可以为门店,对于不同的门店可以对应生成不同的ID进行区分。
用户数据可以包括用户的特征信息,具体可以包括用户经营情况及基础属性相关的特征信息,可以根据不同的需求选取不同的特征信息。例如,用户数据包括销售流水、运营流水、退款流水、补贴流水、投诉次数、拜访次数、浏览次数、收藏次数、最近下单时间、门店位置、门店品类及门店来源等。
步骤S20:针对待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测。
可以将待预测用户的特征信息直接输入预测模型进行预测;也可以先将待预测用户的特征信息进行相应的计算或转换后,再输入预测模型。该机器学习的算法并不局限于某一种或几种特定算法,可以为任意一种通过用户的特征信息预测出潜在用户的算法。
步骤S30:输出预测结果。
预测结果可以为潜在用户列表及其部分特征信息,可根据具体需求设置输出列表内容。
具体地,图2示出了一个预测结果列表的部分截图,包括门店名称、门店ID、平均团单价、所属品类、所属商圈、门店地址相关信息。销售人员可根据该列表联系和走访相应门店,售卖直通车产品。
在更多实施例中,预测结果还可以根据需求采用其他方式输出,例如可视化图表、文本报告等。
上述实施例中,通过基于机器学习算法预先建立的预测模型得到产品潜在用户,相比于人工筛选,大大提高了潜在用户筛选的效率,有效节约了人力和时间成本。
图3示出了根据本申请一个实施例的预测模型建立的方法的示例性流程图。
如图3所示,在一个实施例中,预测模型是通过下述步骤建立的:
步骤S01:生成训练样本和测试样本;
步骤S02:从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型。
步骤S01中,训练样本和测试样本为已经开通过产品的用户数据。训练样本和测试样本可以相互独立,也可以存在交叉。
步骤S02中,抽取部分用户样本可以为随机抽取,也可以按照一定的规则抽取。采用随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程。行方向上可以为用户名称或ID,构建决策树时采用放回抽样(bootstraping)得到训练数据,;列方向上可以为特征指标,采用无放回随机抽样得到特征子集,并据此得到其最优切分点。
上述实施例中,通过采用随机森林算法建立预测模型,可以实现快速高效地训练预测模型,提升工作效率。
在更多实施例中,本申请提供的方法不局限于随机森林算法,可以采用其他算法建立预测模型,只要通过用户的特征信息能够预测出潜在用户和非潜在用户,即可实现同样的技术效果。
图4示出了根据图3所示方法的一个优选实施例示例性流程图。
如图4所示,在一个优选选实施例中,生成训练样本和测试样本包括:
步骤S011:基于用户的产品开通时间,选择训练数据集和测试数据集。
进一步地,步骤S011可以但不限于按照如下方式实现:
基于用户的开通产品时间,选择第一时间段内开通产品的用户数据为训练数据集,选择第二时间段内开通产品的用户数据为测试数据集;
其中,第一时间段的长度大于第二时间段的长度,且第一时间段的初始时间点晚于第二时间段的末端时间点。
例如,设当前时间为{DATE},门店i开通直通车的时间为di,则训练样本所采集的门店直通车开通时间公式如下:
{DATE}-150<di<{DATE}-30,
即150天前到30天前时间范围内开通直通车产品的门店的相关数据为训练数据集;
测试样本所采集的门店直通车开通时间公式如下:
{DATE}-180<di<{DATE}-150,
即180天前到150天前时间范围内开通直通车产品的门店的相关数据为测试数据集。
基于时间段长度和时间先后选择训练和测试数据集,既满足了可靠足够的样本数据,又实现了训练和测试样本的有效区分。
步骤S012:打标分类训练数据集和测试数据集用户。
进一步地,步骤S212可以但不限于按照如下方式实现:
基于产品收益参数,将训练数据集和测试数据集用户打标分类为正样本和负样本。
在本实施中,产品收益参数可以为投资回报率(ROI),按照如下方式计算:ROI=直通车营销给门店带来的流水收益/广告投入消费。按照ROI值的大小,将用户分为“正样本”(潜在用户)和“负样本”(非潜在用户)。
例如,设定ROI>=150的门店为“正样本”,ROI<150的门店为“负样本”,以此为标准对门店打标分类。
在更多实施例中,可以根据具体需求采用其他收益参数对用户打标分类。
基于产品收益参数打标分类用户,为后续预测模型预测潜在用户提供了依据。
步骤S013:采集训练数据集和测试数据集用户的多维度特征,生成对应的特征指标。
多维度可以包括以下至少一项:门店维度、门店品类维度及门店产品维度。例如,门店维度可以包括销售、运营、客流量、售后等方面;门店品类维度可以包括所属行业品类、垂直门店品类等方面;门店产品维度可以包括门店所在网络购物平台的平台种类。基于所采集的多维度特征信息,可以通过计算,得到相应特征的统计指标及加和指标;还可以通过特征信息的转换,得到对应的基础指标、基础属性类指标及非加和指标。
具体地,图5示出了一个实施例中特征指标划分的部分截图,统计指标可以包括验证流水周环比、验证数周环比、最近上单距今天数、最后下单距今天数、团单在线数周环比、运营流水周环比、退款流水周环比、补贴流水周环比、投诉次数周环比、拜访数周环比、店均运营流水、店均退款流水、店均补贴流水、店均销量等;加和指数可以包括门店转移次数、门店认领次数、门店拜访次数、门店投诉次数、上单次数、下单次数、团单价格修改次数、门店pv、门店uv、门店收藏次数、c端搜索次数、商家登商户端次数;基础指标可以包括是否头部、是否有折扣、是否预付保量、是否新增、是否有优惠券、是否有折扣、Ka状态、是否自动延期、是否储值卡在线、是否到店付在线、是否在线、门店状态等;基础属性类可以包括体系id、大区id、行政区id、商圈id、县级市id、一级品类id、一级垂类id、二级品类id、二级垂类id、门店来源、所属销售身份等;非加和指标可以包括糯米粉额、美团在线团单数、点评在线团单数、糯米销售、点评销售、美团销售、糯米是否在线、糯米在线天数、美团是否在线、美团在线天数、点评是否在线、点评在线天数等。
步骤S014:整合训练数据集和测试数据集用户的打标分类结果及特征指标,对应生成训练样本和测试样本。
基于用户名称或ID,将训练和测试数据集用户的打标分类结果及特征指标进行整合,对应生成同时包含有打标分类结果和特征指标的训练样本和测试样本。
上述实施例中,通过选择相互独立的训练样本和测试样本相互独立划分,保证了模型检验的可靠性和准确性;同时,采用多维度特征指标构建预测模型,可使模型的预测结果更加准确可靠。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,如步骤S012和S013,其可以同时执行操作,也可以分先后顺序执行。
图6示出了根据图3所示方法的一个优选实施例示例性流程图。
如图6所示,在一个优选实施例中,从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型包括:
步骤S021:从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立初始预测模型。
抽取可以采用随机抽取,也可以按照一定的抽取规则进行抽取。初始模型建立过程中,对于随机森林算法的训练和测试,只使用部分的训练样本和测试样本,将未抽取使用的样本保留。对于抽取样本比例、算法训练及测试次数可根据具体需求做相应设置。
步骤S022:基于袋外数据分类准确率计算特征指标的重要度,并按重要度降序排列,选取排名靠前的部分特征指标作为重要特征指标,其余作为非重要特征指标,其中,袋外数据为训练样本和测试样本中未被抽取的用户样本。
本实施例中,通过袋外数据分类准确率,计算得到初始预测模型所包含的全部特征指标的重要度。根据需求可设定某一重要度值作为最低阈值,将重要度大于及等于该最低阈值的特征指标作为重要特征指标,重要度小于该最低阈值特征指标作为非重要特征指标。
步骤S023:删除训练样本和测试样本的非重要特征指标,沉淀训练样本和测试样本的重要指标特征。
将训练样本和测试样本中非重要特征指标数据删除,仅保留重要指标特征数据,得到只包含重要特征指标的训练样本和测试样本数据。
步骤S024:使用沉淀后的训练样本和测试样本,重新采用随机森林算法建立预测模型。
将只包含重要特征指标的训练样本和测试样本数据作为新的训练样本和测试样本,重新采用随机森林算法进行相应的训练和测试,建立预测模型。
上述实施例中,通过袋外数据分类准确率衡量特征指标的重要度,对初始预测模型进行优化,减少了非重要特征对模型的干扰,在确保预测准确性的前提下,提升了算法的效能。
图7示出了本申请一实施例提供的产品潜在用户挖掘装置的结构示意图。图7所示的潜在用户挖掘装置可对应执行前文结合图1描述的任一方法。
如图7所示,在本实施例中,本申请提供一种潜在用户挖掘装置,包括:
数据采集单元10,用于采集待预测用户数据。
在本实施例中,待预测用户可以包括:未曾开通过产品的在线用户。
具体地,产品可以为用户推广产品,如直通车产品。在线用户可以是网络交易平台上的用户。更具体地,若用户包括一个或多个门店,则用户可以为门店,对于不同的门店可以对应生成不同的ID进行区分。
用户数据可以包括用户的特征信息,具体可以包括用户经营情况及基础属性相关的特征信息,可以根据不同的需求选取不同的特征信息。例如,用户数据包括销售流水、运营流水、退款流水、补贴流水、投诉次数、拜访次数、浏览次数、收藏次数、最近下单时间、门店位置、门店品类及门店来源等。
预测单元20,用于针对待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测。
预测单元20,用于可以将待预测用户的特征信息直接输入预测模型进行预测;也可以先将待预测用户的特征信息进行相应的计算或转换后,再输入预测模型。该机器学习的算法并不局限于某一种或几种特定算法,可以为任意一种通过用户的特征信息预测出潜在用户的算法。
输出单元30,用于输出预测结果。
输出单元30输出的预测结果可以为潜在用户列表及其部分特征信息,可根据具体需求设置输出列表内容。
具体地,图2示出了一个预测结果列表的部分截图,包括门店名称、门店ID、平均团单价、所属品类、所属商圈、门店地址相关信息。销售人员可根据该列表联系和走访相应门店,售卖直通车产品。
在更多实施例中,预测结果还可以根据需求采用其他方式输出,例如可视化图表、文本报告等。
上述实施例中,预测单元通过基于机器学习算法预先建立的预测模型得到产品潜在用户,相比于人工筛选,大大提高了潜在用户筛选的效率,有效节约了人力和时间成本。
图8示出了根据本申请一个实施例的预测模型建立的装置的结构示意图。图8所示的潜在用户挖掘装置可对应执行前文结合图3、图6描述的任一方法。
如图8所示,在一个实施例中,预测模型是通过下述装置建立的:
样本生成单元01:用于生成训练样本和测试样本;
算法单元02:用于从训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型。
样本生成单元01,用于生成的训练样本和测试样本为已经开通过产品的用户数据。训练样本和测试样本可以相互独立,也可以存在交叉。
算法单元02,用于抽取部分用户样本可以为随机抽取,也可以按照一定的规则抽取。采用随机森林算法由多个决策树构成的森林,算法分类结果由这些决策树投票得到,决策树在生成的过程当中分别在行方向和列方向上添加随机过程。行方向上可以为用户名称或ID,构建决策树时采用放回抽样(bootstraping)得到训练数据,;列方向上可以为特征指标,采用无放回随机抽样得到特征子集,并据此得到其最优切分点。
上述实施例中,算法单元通过采用随机森林算法建立预测模型,可以实现快速高效地训练预测模型,提升工作效率。
在更多实施例中,本申请预测单元提供的方法不局限于随机森林算法,可以采用其他算法建立预测模型,只要通过用户的特征信息能够预测出潜在用户和非潜在用户,即可实现同样的技术效果。
进一步地,在一个优选实施例中,算法单元,用于:
从所述训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立初始预测模型;
基于袋外数据分类准确率计算所述特征指标的重要度,并按重要度降序排列,选取排名靠前的部分特征指标作为重要特征指标,其余作为非重要特征指标,其中,所述袋外数据为训练样本和测试样本中未被抽取的用户样本;
删除所述训练样本和测试样本的非重要特征指标,沉淀所述训练样本和测试样本的重要指标特征;以及
使用所述沉淀后的训练样本和测试样本,重新采用随机森林算法建立预测模型。
在本实施实施例中,首先,抽取可以采用随机抽取,也可以按照一定的抽取规则进行抽取。初始模型建立过程中,对于随机森林算法的训练和测试,只使用部分的训练样本和测试样本,将未抽取使用的样本保留。对于抽取样本比例、算法训练及测试次数可根据具体需求做相应设置。
其次,通过袋外数据分类准确率,计算得到初始预测模型所包含的全部特征指标的重要度。根据需求可设定某一重要度值作为最低阈值,将重要度大于及等于该最低阈值的特征指标作为重要特征指标,重要度小于该最低阈值特征指标作为非重要特征指标。
再次,将训练样本和测试样本中非重要特征指标数据删除,仅保留重要指标特征数据,得到只包含重要特征指标的训练样本和测试样本数据。
最后,将只包含重要特征指标的训练样本和测试样本数据作为新的训练样本和测试样本,重新采用随机森林算法进行相应的训练和测试,建立预测模型。
上述实施例中,算法单元通过袋外数据分类准确率衡量特征指标的重要度,对初始预测模型进行优化,减少了非重要特征对模型的干扰,在确保预测准确性的前提下,提升了算法的效能。
图9示出了根据图8所示样本生成单元的一个优选实施例示的结构示意图。图9所示的样本生成单元可对应执行前文结合图4描述的任一方法。
如图9所示,在一个优选实施例中,样本生成单元包括:
数据集选择单元011:用于基于用户的产品开通时间,选择训练数据集和测试数据集。
进一步地,数据集选择单元011可以但不限于按照如下方式实现:
基于用户的开通产品时间,选择第一时间段内开通产品的用户数据为训练数据集,选择第二时间段内开通产品的用户数据为测试数据集;
其中,第一时间段的长度大于第二时间段的长度,且第一时间段的初始时间点晚于第二时间段的末端时间点。
例如,设当前时间为{DATE},门店i开通直通车的时间为di,则训练样本所采集的门店直通车开通时间公式如下:
{DATE}-150<di<{DATE}-30,
即150天前到30天前时间范围内开通直通车产品的门店的相关数据为训练数据集;
测试样本所采集的门店直通车开通时间公式如下:
{DATE}-180<di<{DATE}-150,
即180天前到150天前时间范围内开通直通车产品的门店的相关数据为测试数据集。
数据集选择单元基于时间段长度和时间先后选择训练和测试数据集,既满足了可靠足够的样本数据,又实现了训练和测试样本的有效区分。
打标分类单元012:用于打标分类训练数据集和测试数据集用户。
进一步地,打标分类单元012可以但不限于按照如下方式实现:
基于产品收益参数,将训练数据集和测试数据集用户打标分类为正样本和负样本。
在本实施中,产品收益参数可以为投资回报率(ROI),按照如下方式计算:ROI=直通车营销给门店带来的流水收益/广告投入消费。按照ROI值的大小,将用户分为“正样本”(潜在用户)和“负样本”(非潜在用户)。
例如,设定ROI>=150的门店为“正样本”,ROI<150的门店为“负样本”,以此为标准对门店打标分类。
在更多实施例中,打标分类单元可以根据具体需求采用其他收益参数对用户打标分类。
打标分类单元基于产品收益参数打标分类用户,为后续预测模型预测潜在用户提供了依据。
特征采集单元013:用于采集训练数据集和测试数据集用户的多维度特征,生成对应的特征指标。
多维度可以包括以下至少一项:门店维度、门店品类维度及门店产品维度。例如,门店维度可以包括销售、运营、客流量、售后等方面;门店品类维度可以包括所属行业品类、垂直门店品类等方面;门店产品维度可以包括门店所在网络购物平台的平台种类。基于所采集的多维度特征信息,可以通过计算,得到相应特征的统计指标及加和指标;还可以通过特征信息的转换,得到对应的基础指标、基础属性类指标及非加和指标。
具体地,图5示出了一个实施例中特征指标划分的部分截图,统计指标可以包括验证流水周环比、验证数周环比、最近上单距今天数、最后下单距今天数、团单在线数周环比、运营流水周环比、退款流水周环比、补贴流水周环比、投诉次数周环比、拜访数周环比、店均运营流水、店均退款流水、店均补贴流水、店均销量等;加和指数可以包括门店转移次数、门店认领次数、门店拜访次数、门店投诉次数、上单次数、下单次数、团单价格修改次数、门店pv、门店uv、门店收藏次数、c端搜索次数、商家登商户端次数;基础指标可以包括是否头部、是否有折扣、是否预付保量、是否新增、是否有优惠券、是否有折扣、Ka状态、是否自动延期、是否储值卡在线、是否到店付在线、是否在线、门店状态等;基础属性类可以包括体系id、大区id、行政区id、商圈id、县级市id、一级品类id、一级垂类id、二级品类id、二级垂类id、门店来源、所属销售身份等;非加和指标可以包括糯米粉额、美团在线团单数、点评在线团单数、糯米销售、点评销售、美团销售、糯米是否在线、糯米在线天数、美团是否在线、美团在线天数、点评是否在线、点评在线天数等。
整合单元014:用于整合训练数据集和测试数据集用户的打标分类结果及特征指标,对应生成训练样本和测试样本。
整合单元014,用于基于用户名称或ID,将训练和测试数据集用户的打标分类结果及特征指标进行整合,对应生成同时包含有打标分类结果和特征指标的训练样本和测试样本。
上述实施例中,数据集选择单元通过选择相互独立的训练样本和测试样本相互独立划分,保证了模型检验的可靠性和准确性;同时,特征采集单元采用多维度特征指标构建预测模型,可使模型的预测结果更加准确可靠。
图10示出了适于用来实现本申请实施例的设备的结构示意图。
如图10所示,设备1100包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1105也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本公开的实施例,上文参考图1描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,该计算机程序包含用于执行图1的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种产品潜在用户挖掘方法,其特征在于,所述方法包括:
采集待预测用户数据;
针对所述待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测;以及
输出预测结果;
所述预测模型是通过下述步骤建立的:
生成训练样本和测试样本;
从所述训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型;
所述生成训练样本和测试样本包括:
基于用户的产品开通时间,选择训练数据集和测试数据集;
所述基于用户的产品开通时间,选择训练数据集和测试数据集包括:
基于用户的开通产品时间,选择第一时间段内开通产品的用户数据为训练数据集,选择第二时间段内开通产品的用户数据为测试数据集;
其中,第一时间段的长度大于第二时间段的长度,且第一时间段的初始时间点晚于第二时间段的末端时间点。
2.根据权利要求1所述的方法,其特征在于,
打标分类所述训练数据集和测试数据集用户;
采集所述训练数据集和测试数据集用户的多维度特征,生成对应的特征指标;以及
整合所述训练数据集和测试数据集用户的打标分类结果及特征指标,对应生成训练样本和测试样本。
3.根据权利要求2所述的方法,其特征在于,所述打标分类所述训练数据集和测试数据集用户,包括:
基于产品收益参数,将所述训练数据集和测试数据集用户打标分类为正样本和负样本。
4.根据权利要求2-3任一项所述的方法,其特征在于,所述从所述训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型包括:
从所述训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立初始预测模型;
基于袋外数据分类准确率计算所述特征指标的重要度,并按重要度降序排列,选取排名靠前的部分特征指标作为重要特征指标,其余作为非重要特征指标,其中,所述袋外数据为训练样本和测试样本中未被抽取的用户样本;
删除所述训练样本和测试样本的非重要特征指标,沉淀所述训练样本和测试样本的重要指标特征;以及
使用所述沉淀后的训练样本和测试样本,重新采用随机森林算法建立预测模型。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述待预测用户包括:
未曾开通过产品的在线用户。
6.一种产品潜在用户挖掘装置,其特征在于,所述装置包括:
数据采集单元,用于采集待预测用户数据;
预测单元,用于针对所述待预测用户数据,利用基于机器学习算法预先建立的预测模型进行潜在用户的预测;以及
输出单元,用于输出预测结果;
所述预测模型是通过下述装置建立的:
样本生成单元,用于生成训练样本和测试样本;所述生成训练样本和测试样本包括:基于用户的产品开通时间,选择训练数据集和测试数据集;
算法单元,用于从所述训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立预测模型;
数据集选择单元,用于:
基于用户的开通产品时间,选择第一时间段内开通产品的用户数据为训练数据集,选择第二时间段内开通产品的用户数据为测试数据集;
其中,第一时间段的长度大于第二时间段的长度,且第一时间段的初始时间点晚于第二时间段的末端时间点。
7.根据权利要求6所述的装置,其特征在于,所述样本生成单元包括:
数据集选择单元,用于基于用户的产品开通时间,选择训练数据集和测试数据集;
打标分类单元,用于打标分类所述训练数据集和测试数据集用户;
特征采集单元,用于采集所述训练数据集和测试数据集用户的多维度特征,生成对应的特征指标;以及
整合单元,用于整合所述训练数据集和测试数据集用户的打标分类结果及特征指标,对应生成训练样本和测试样本。
8.根据权利要求7所述的装置,其特征在于,所述打标分类单元,用于:
基于产品收益参数,将所述训练数据集和测试数据集用户打标分类为正样本和负样本。
9.根据权利要求7所述的装置,其特征在于,所述算法单元,用于:
从所述训练样本和测试样本中分别抽取部分用户样本,采用随机森林算法建立初始预测模型;
基于袋外数据分类准确率计算所述特征指标的重要度,并按重要度降序排列,选取排名靠前的部分特征指标作为重要特征指标,其余作为非重要特征指标,其中,所述袋外数据为训练样本和测试样本中未被抽取的用户样本;
删除所述训练样本和测试样本的非重要特征指标,沉淀所述训练样本和测试样本的重要指标特征;以及
使用所述沉淀后的训练样本和测试样本,重新采用随机森林算法建立预测模型。
10.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201710686739.6A 2017-08-11 2017-08-11 产品潜在用户挖掘方法及装置 Active CN107657267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710686739.6A CN107657267B (zh) 2017-08-11 2017-08-11 产品潜在用户挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710686739.6A CN107657267B (zh) 2017-08-11 2017-08-11 产品潜在用户挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN107657267A CN107657267A (zh) 2018-02-02
CN107657267B true CN107657267B (zh) 2021-11-09

Family

ID=61128482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710686739.6A Active CN107657267B (zh) 2017-08-11 2017-08-11 产品潜在用户挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN107657267B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520335A (zh) * 2018-03-20 2018-09-11 顺丰科技有限公司 抽检对象预测方法、装置、设备及其存储介质
CN110490625A (zh) * 2018-05-11 2019-11-22 北京京东尚科信息技术有限公司 用户偏好确定方法及装置、电子设备、存储介质
CN108846695A (zh) * 2018-06-07 2018-11-20 中国联合网络通信集团有限公司 终端更换周期的预测方法及装置
CN110610373A (zh) * 2018-06-15 2019-12-24 中国移动通信集团有限公司 一种潜在客户挖掘处理方法及装置
CN110659922B (zh) * 2018-06-28 2021-01-26 马上消费金融股份有限公司 一种客户筛选方法、装置、服务器及计算机可读存储介质
CN110728289B (zh) * 2018-07-16 2022-06-03 中移动信息技术有限公司 一种家庭宽带用户的挖掘方法及设备
CN110059112A (zh) * 2018-09-12 2019-07-26 中国平安人寿保险股份有限公司 基于机器学习的用户挖掘方法及装置、电子设备、介质
CN109583949B (zh) * 2018-11-22 2021-03-12 中国联合网络通信集团有限公司 一种用户换机预测方法及系统
CN110096643A (zh) * 2019-03-27 2019-08-06 青岛高校信息产业股份有限公司 产品潜客标签库生成方法和装置
CN110070391B (zh) * 2019-04-17 2020-06-19 同盾控股有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN112712383A (zh) * 2019-10-24 2021-04-27 上海莉莉丝科技股份有限公司 应用程序的潜在用户预测方法、装置、设备及存储介质
CN112487262B (zh) * 2020-11-25 2023-05-26 中国建设银行股份有限公司 一种数据处理的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500344A (zh) * 2013-09-02 2014-01-08 中国测绘科学研究院 一种遥感影像信息提取与解译方法及其模块
CN106127525A (zh) * 2016-06-27 2016-11-16 浙江大学 一种基于分类算法的电视购物商品推荐方法
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036105B (zh) * 2013-03-08 2019-05-14 伊姆西公司 确定涉及大数据分析的随机性应用的正确性的方法和系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103500344A (zh) * 2013-09-02 2014-01-08 中国测绘科学研究院 一种遥感影像信息提取与解译方法及其模块
CN106127525A (zh) * 2016-06-27 2016-11-16 浙江大学 一种基于分类算法的电视购物商品推荐方法
CN106709513A (zh) * 2016-12-10 2017-05-24 中泰证券股份有限公司 一种基于有监督机器学习的证券配资账户识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于数据挖掘技术的终端机精准营销系统";彭岳;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170630(第06期);第11页第4段-第13页第6段 *
彭岳."基于数据挖掘技术的终端机精准营销系统".《中国优秀硕士学位论文全文数据库 信息科技辑》.2017,(第06期),第11页第4段-第13页第6段. *

Also Published As

Publication number Publication date
CN107657267A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107657267B (zh) 产品潜在用户挖掘方法及装置
CN111339306A (zh) 分类模型训练方法、分类方法及装置、设备和介质
CN105069470A (zh) 分类模型训练方法及装置
CN112418653A (zh) 一种基于机器学习算法的携号转网潜客识别系统及方法
CN112015721A (zh) 一种基于大数据的电商平台存储数据库的优化方法
CN110795568A (zh) 基于用户信息知识图谱的风险评估方法、装置和电子设备
CN109360089A (zh) 贷款风险预测方法及装置
CN111428599A (zh) 票据识别方法、装置和设备
CN109636482B (zh) 基于相似度模型的数据处理方法及系统
CN106294676B (zh) 一种电子商务政务系统的数据检索方法
CN108241867B (zh) 一种分类方法及装置
CN113268615A (zh) 资源标签生成方法、装置、电子设备及存储介质
WO2021174699A1 (zh) 用户筛选方法、装置、设备及存储介质
CN111428480A (zh) 简历识别方法、装置、设备及存储介质
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN113837886A (zh) 一种基于知识图谱的车险理赔欺诈风险识别方法和系统
CN113706291A (zh) 欺诈风险预测方法、装置、设备及存储介质
CN115456745A (zh) 小微企业画像构建方法及装置
CN109166012B (zh) 针对行程预定类用户的分类及信息推送的方法和装置
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN111797772A (zh) 发票图像自动分类方法、系统、装置
Sun et al. Automatic building age prediction from street view images
CN115599985A (zh) 目标客户识别方法和系统、电子设备及可读存储介质
CN110119464B (zh) 一种合同中数值的智能推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant