CN113706198B - 一种电商复购潜客近期复购概率估算的方法 - Google Patents
一种电商复购潜客近期复购概率估算的方法 Download PDFInfo
- Publication number
- CN113706198B CN113706198B CN202110996928.XA CN202110996928A CN113706198B CN 113706198 B CN113706198 B CN 113706198B CN 202110996928 A CN202110996928 A CN 202110996928A CN 113706198 B CN113706198 B CN 113706198B
- Authority
- CN
- China
- Prior art keywords
- data
- logic
- feature
- repurchase
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种电商复购潜客近期复购概率估算的方法,其属于电商复购行为预测的技术领域,该方法通过结合大数据处理技术和AI模型技术,估算出潜在客户的近期复购概率,具有效率高、识别效果好的特点。方法包括如下步骤:(1)基于用户购买行为记录和人口属性信息的原始数据,预处理生成用户的基本特征和聚类特征,形成瞬时特征;(2)基于特征池进行特征灵活管理,并基于特征池生成AI模型训练样本集和待估潜客当前特征;(3)基于训练样本集训练多类AI模型,并组合形成整套复购概率估算逻辑;(4)利用估算逻辑结合训练样本集输出显著特征组合及其显著性值;(5)利用估算逻辑基于潜客当前特征估算得到潜客近期复购概率。
Description
技术领域
本发明涉及电商复购买行为预测的技术领域,更具体地说,尤其涉及一种电商复购潜客近期复购概率估算的方法。
背景技术
电子商务行业发展迅猛,对社会和经济的重要性与日俱增。随着互联网的普及,人们越来越依赖于诸如天猫、淘宝、京东、有赞等电商平台进行购物,电商平台现在每天服务于亿万的用户,大型电商平台更是电子商务行业发展的催化剂。对比传统线下销售的厂商,在电商平台上可以十分详尽地获取到商品的属性、销量、顾客属性、顾客属性对象的信息等海量的数据信息,从这海量数据中挖掘出潜在的价值便具有重大的意义,合理地利用这些数据可以为用户带来更好的消费体验,更可以帮助商家识别具有重复购买意向的潜在客户,从而实现营销信息的精准投放。
一般基于海量数据信息进行精准营销投放的常见处理方式有人工标签筛选和繁杂的特征工程外加常规AI模型训练及预估相结合这两种。
1.人工标签筛选方式具体操作为:先统计生成用户标签,然后运营人员根据经验结合营销活动内容对潜客基于标签进行人工筛选。
该处理方式存在以下几个问题:
a、运营人员只能根据经验大致选择目标人群,人工无法精准平衡各个特征、多个特征交叉组合后的正负向作用,以及正负向作用的度量值。
b、在巨量数据信息面前,人工对特征作用的感知比较繁重,因此经常忽略表现显著的负向特征对目前人群的影响。
c、在仅凭人工标签筛选的情况下,营销活动所选目标人群人数经常存在过多、超预算、浪费的情况,也会存在几种标签叠加筛选后只剩极少量目标人群,不再具有营销意义的情况。
d、对于一个新的商家品牌,运营人员需要花费巨大的人力时间成本和其他成本进行经验沉淀。
e、基于标签圈选来优化营销活动的经验会因为运营人员的流失而流失,运营人员需要花费巨大的人力时间成本和其他成本进行新一轮的经验沉淀。
f、大团队多业务线运营人员在标签特征作用感知经验的共享方式比较粗放,通常以分享会形式对有限人工认知的显著特征表现进行分享,面对多种跨行业不同特征表现、更细粒度的显著特征表现,传统的人工经验分享则陷入被动的局面。
2.繁杂的特征工程外加常规AI模型训练及预估方式的具体操作:先统计生产样本特征宽表,然后进行单个或多个AI模型堆叠训练预估。
该处理方式存在以下几个问题:
a、在面临多业务线大规模特征开发时,特征计算处理逻辑的开发部署、特征的淘汰退出、计算资源管理将会变成一个异常繁杂庞大的工作,高度耦合的特征工程开发工作难以避免低效的模型迭代速度。
b、新增特征需对特征表既有特征值重新计算,甚至调整表结构,既有的上下游逻辑也得进行相应调整,开发和生产、团队内并行开发工作高度耦合在一起,严重制约规模化工业应用。
c、对容易产生过拟合但又存在一定作用的特征,在通常的操作方式中采用直接限制其进一步拟合以保证模型的泛化效果,但却因此导致对该特征的表现拟合探索不足,形成特征资源的浪费。
d、通常的AI模型训练对特征权重的拟合有孤立拟合(如单一逻辑回归),这种方式无法拟合出特征组合后的局部效果;有基于神经网络对特征进行多层交叉拟合,这种方式会牺牲模型逻辑的可读性;有基于FM类模型的特征因子分解,这种方式主要用于解决特征稀疏问题;有基于支持向量机的高维特征拟合,这种方式牺牲模型逻辑的可读性,且训练阶段效率较低;有简单的基于决策树类模型进行特征交叉拟合(如决策树森林、gbdt、lightgbm、xgboost等),这种方式缺少对高维特征的拟合。
e、现实生产过程中,因诸多客观条件限制,数据采集工作中会存在许多数据无法获取的情况,另外实际实施工作中也存在一些特征因开发进度问题尚未充分完善的情况,因此往往会存在一些大权重的因素游离于现有特征集之外,这些游离于特征集之外的因素通常又可能将其作用在一定时间段内对现有特征以权重加强的形式表现出来,进而形成AI模型的过拟合,使得基于该条件下训练出来的模型在时间段外的数据上泛化能力急剧下降。
f、接触一线业务的运营人员和后端的模型训练缺少互补交互的通道,存在某些时候一线人员已经感知到新的特征或特征空间,或基于直觉需要探索新的特征、特征空间时,无法及时反馈给后端的开发人员,因而不能及时促使开发人员增补特征开发和进行相应的模型优化训练,更无法直观的验证新特征、特征空间真实效果。另外一方面,特征工程开发人员基于数学理论、技术手段对既有特征提取出高维特征对模型有大幅提升时,一线业务人员无法感知其效果,会存在使用原始标签圈选等操作方式进行作用重复的工作,从而对人力和时间等成本产生不必要的浪费。
因此,亟待设计一种更优化的估算方法,以解决上述问题。
发明内容
本发明的目的在于提供一种电商复购潜客近期复购概率估算的方法,该方法通过结合大数据处理技术和AI模型技术,估算出潜在客户的近期复购概率,具有效率高、识别效果好的特点。
本发明的技术方案如下:
一种电商复购潜客近期复购概率估算的方法,包括如下步骤:
(1)基于用户历史购买行为记录和人口属性信息的原始数据,结合一种数据预处理技术框架,构建预处理逻辑,运行预处理逻辑获得用户瞬时特征;
(2)将产生的用户瞬时特征及附属信息注册到特征池,基于特征池进行特征选用并生成训练样本集和待预估潜客特征数据;
(3)利用训练样本集训练多类AI模型,将训练得到的多类AI模型组合形成整套复购概率估算逻辑;
(4)对训练好的复购概率估算逻辑进行解析获取显著特征组合,并结合训练样本集的特征分布统计其显著性表现值,以报表形式输出显著特征组合及其显著性表现值;
(5)利用训练好的复购概率估算逻辑基于待预估潜客当前特征进行估算,得到潜客近期复购概率。
进一步的,在所述的步骤(1)中,包括以下步骤:
(1.1)基于用户历史购买行为记录和人口属性信息的原始数据,结合一种数据预处理技术框架,构建预处理逻辑;
(1.2)运行预处理逻辑获得用户瞬时特征。
进一步的,在所述的步骤(1.1)中,包括如下步骤:
(1.1.1)创建flow级任务逻辑块,设置需要顺序依赖执行的script任务逻辑块个数,并指定flow级任务逻辑块任务实例的执行并行度;
(1.1.2)逐个定义script级任务逻辑块,每个script级任务逻辑块设置需要顺序执行的最小任务逻辑块个数,并逐个指定script级任务逻辑块任务实例的执行并行度;
(1.1.3)逐个定义最小任务逻辑块的数据处理逻辑,数据处理逻辑负责完成具体的样本特征数据计算处理;
(1.1.4)完成flow级任务逻辑块创建后,将其生成脚本文件得预处理逻辑。
进一步的,在步骤(1.2)中,包括以下步骤:
(1.2.1)基于统计级处理逻辑运算获得用户基本特征数据;
(1.2.2)利用获得的用户基本特征数据作分布相似性聚类处理,然后生成特定主题的聚类特征;
(1.2.3)将用户基本特征数据和聚类特征组合后得用户瞬时特征。
进一步的,所述的步骤(2)中,包括以下步骤:
(2.1)将用户瞬时特征的种类及其附属信息注册到特征池;
(2.2)根据需要基于特征池选用用户瞬时生成训练样本特征数据,其中,获取用户瞬时特征数据生成样本特征数据,结合转化数据标记样本正负类别后即形成训练样本集;
(2.3)获取用户当前瞬时特征数据生成的样本数据即为待预估潜客特征数据。
进一步的,所述的步骤(3)中,训练包括以下步骤:
(3.1)通过限制过拟合的方式在训练样本集中基于部分特征、全量特征训练后得多个限制拟合分枝模型;
(3.2)将部分限制拟合分枝模型在训练样本集上基于部分特征、全量特征进行充分的拟合训练后得充分拟合分枝模型;
(3.3)用步骤(3.1)所得的限制拟合分枝模型和步骤(3.2)所得的充分拟合分枝模型对训练样本进行预估,预估结果作为新样本特征;
(3.4)用步骤(3.3)所得的新样本特征训练得整合模型。
(3.5)用步骤(3.1)所得的多个限制拟合分枝模型和步骤(3.2)所得的充分拟合分枝模型以及步骤(3.4)所得的整合模型整体组合后得整套复购概率估算逻辑。
与现有技术相比,本发明具有的有益效果有:
(1)本发明的一种电商复购潜客近期复购概率估算的方法,相对基于人工感知标签重要性而进行标签圈选的操作,本方法通过AI模型进行复购概率估算,可以在更大广度和深度的特征范围拟合出更合理的估算逻辑;另外输出合理且表现显著的特征组合,支持更深入的数据挖掘和部分运营活动决策。
(2)相对于常规的高维特征探索,本方法通过对常规特征分布相似性聚类形成新的特征,一定程度替代常规高维特征探索的作用,通过主题明确形成的聚类特征,可以方便进行模型逻辑解释和分析,并实现仅以统计级的计算资源消耗完成高维特征获取。
(3)相对于常规的分布式数据计算处理,本方法通过自定义的一套脚本格式及其解析执行逻辑,将数据处理逻辑的并行粒度从直接的样本数据处理任务提升到一系列任务逻辑的粒度,避免或减少原方式中因数据分布不均匀而出现的计算资源占而不用的情况。
(4)相对于常规的特征数据基于大宽表存放方式,本方法通过特征池的方式,实现不同主题特征间、样本特征和具体模型间的高内聚低耦合,方便进行大规模特征开发部署管理、支持AI模型快速迭代。
(5)相对于常规的AI模型训练,本方法通过训练过拟合分枝模型,解决常规处理方式中因过拟合特征产生干扰而出现的可拟合空间拟合探索不足的问题,实现对过拟合特征本身、其他特征的价值进行充分挖掘。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明估算方法的流程图。
具体实施方式
下面结合具体实施方式,对本发明的技术方案作进一步的详细说明,但不构成对本发明的任何限制。
一种电商复购潜客近期复购概率估算的方法,包括如下步骤:
(1)基于用户历史购买行为记录和人口属性信息的原始数据,结合一种数据预处理技术框架,构建预处理逻辑,运行预处理逻辑获得用户瞬时特征。
其中,用于生成样本数据的原始数据内容主要包括:用户历史购买行为数据、用户注册会员的人口属性数据等。用户历史购买行为原始数据包括订单数据、订单相关的商品数据等,人口属性数据包括用户会员注册信息中的生日、年龄、城市区域等。
原始数据通过辅助的数据抽取逻辑从各个业务数据端抽取相应数据存入分布式数据仓库中,后续的样本特征数据预处理逻辑都将在数据仓库中进行。
具体步骤为:
(1.1)基于用户历史购买行为记录和人口属性信息的原始数据,结合一种数据预处理技术框架,构建预处理逻辑。
在分布式数据仓库的计算存储环境下,基于原始数据直接计算处理生成每个用户历史到昨日的每天瞬时特征,如最近购买时间、购买金额、购买次数、城市等级、临近生日天数、性别等,据此形成用户ID、日期、多种瞬时特征值组合而成的用户基本特征数据。
本方法创新实现一种数据处理脚本格式,用于简化样本数据计算处理逻辑的开发,同时支持优化处理逻辑运行时的资源分配,其基于hadoop、spark、scala等基础技术框架下开发实现和运行,主要包括形成支持定义数据处理任务流的脚本格式和对该格式下的脚本进行解析生成任务实例的技术实现。
在本技术框架下的脚本格式支持定义数据处理的并发任务、串行任务,支持将并支持为不同粒度的任务集合定义不同的计算资源申请。在本技术框架下的解析执行逻辑负责对该格式下的脚本文件进行解析,从而生成对应的并发处理任务、串行处理任务以及申请其所需的集群计算资源。数据计算处理的任务开发部署工作完全基于数据处理脚本流文件进行独立装载和卸载,使得特征工程的代码逻辑高度保持高内聚低耦合,同一主题的若干特征计算处理逻辑可以作为一个整体一起进行上线部署和下线淘汰,整个过程可以快速独立执行。
脚本流定义格式主要由三个层级的任务逻辑定义块构成,按作用域大小依次分别命名为flow级任务逻辑块、script级任务逻辑块和最小任务逻辑块。
a、一个flow级任务逻辑块对应一个脚本文件,在该技术框架下会为每个脚本文件生成一个flow级任务实例。
一个flow级逻辑块复制定义和顺序执行多个script级任务逻辑块,flow级任务逻辑块可以定义获取和生成作用域为flow级的变量,并供各个script级任务逻辑块共同使用,flow级任务逻辑块可以定义每个script级任务逻辑块是否生成多个并行script级任务实例,并可定义执行这些逻辑块的并行度及其所需的不同变量。
b、script层级定义和顺序执行多个最小任务逻辑块,并为该块代码定义独立的资源申请,script级任务逻辑块可以定义获取和生成作用域为script级的变量,并供各个最小任务逻辑块共同使用,script级任务逻辑块可以定义每个最小任务逻辑块是否生成多个并行最小任务逻辑块的任务实例,并可定义执行这些最小任务实例的并行度及其所需的不同变量。
c、最小任务逻辑块为该框架下最细粒度任务定义,主要由自定义注解符号、scala脚本、sql脚本构成。
具体包括如下步骤:
(1.1.1)创建flow级任务逻辑块,设置需要顺序依赖执行的script任务逻辑块个数,并指定flow级任务逻辑块任务实例的执行并行度。
(1.1.2)逐个定义script级任务逻辑块,每个script级任务逻辑块设置需要顺序执行的最小任务逻辑块个数,并逐个指定script级任务逻辑块任务实例的执行并行度。
(1.1.3)逐个定义最小任务逻辑块的数据处理逻辑,数据处理逻辑负责完成具体的样本特征数据计算处理。
(1.1.4)完成flow级任务逻辑块创建后,将其生成脚本文件预处理逻辑。
(1.2)运行预处理逻辑获得用户瞬时特征。
解析执行预处理逻辑首先在大数据分布式计算存储环境中申请一定的计算资源用作数据处理,可一次性读取多个脚本文件解析生成多个并行的flow级任务实例,按脚本定义内容生成各层级任务实例,同批次的所有任务实例在同一套计算资源池中运行。
包括以下步骤:
(1.2.1)基于统计级处理逻辑运算获得用户基本特征数据。
(1.2.2)利用获得的用户基本特征数据作分布相似性聚类处理,然后生成特定主题的聚类特征。
(1.2.3)将用户基本特征数据和聚类特征组合后得用户瞬时特征。
在已经生成的常规特征基础上,根据特征分布情况进行聚类处理,然后形成新的聚类特征加入到样本特征集中。该处理方式替代常规操作中高维特征的探索,确保后续显著特征组合输出的可读性。
聚类技术获得数据是基于直接获得数据作聚类计算产生,该处理方式替代常规操作中高维特征的探索,确保后续显著特征组合输出的可行性。
与现有常用处理方式对比:
a、常规处理方式中在探索高维特征表现时,特别是在连续值特征基础上在高维空间的探索,往往存在待拟合空间大,机器学习训练在拟合探索过程中消耗巨大计算资源的问题。本发明的估算方法通过对预先指定主题进行分布相似性进行聚类,只要以常规统计级计算资源消耗即可完成特定主题高维特征表现的的探索。
b、在使用支持向量机、FM类模型、DNN类模型进行高维空间拟合探索的方法中,无法就模型在具体特征上的拟合逻辑面向人类进行解释,因而限制了人对特征表现的理解。这对增补新特征和在既有特征上进行细化的工作缺乏指导性作用。本发明的估算方法通过基于主题进行分布相似性聚类,再通过使用解释性强的AI模型训练,之后向运营人员、特征工程开发人员输出各类特征的拟合逻辑,可为后续特征工程工作提供一定的指导性作用。
预处理逻辑与现有常规AI模型训练预估的方式对比存在以下优点:
a、常规方法在进行新数据处理逻辑的部署时,涉及到巨量的既有代码逻辑变更。这在原本测试压力巨大的数据开发工作上又增加巨量的回归测试;另外,当需要对部分数据计算处理逻辑淘汰下线时,又无法轻松对相应的代码逻辑做完整清除。遗漏的代码逻辑将会增加维护难度,并可能产生不必要的计算存储资源消耗。而基于脚本流的数据计算处理逻辑开发方式中,减少了不同主题数据处理逻辑相互间的耦合。以文件的方式明确处理逻辑边界,使得相应部署和淘汰退出完全以脚本流的方式在文件粒度层面进行,并达成轻量化的部署和下线,也使得数据处理逻辑只需进行少量的测试工作。
b、因一次解析执行过程可以同时跑多个并行的任务实例,而这些任务实例共用一套计算资源池,相对于常规实现方式,避免因少量并行任务实例执行过长时,对额外计算资源占而不用的情况。
c、现有的数据开发工作中,需要开发人员具有相关系统完整的技术知识库,存在大量不必要的重复学习成本和重复开发成本。另认知不足、习惯不同等原因也会导致开发工作无法形成统一规范,进而增加代码的管理难度。在本脚本流技术框架下,支持以脚本流形式定义常用所需的数据计算处理逻辑及其他必须条件的定义和申请,使得开发人员只需集中关注和理解少量数据处理的脚本实现方式,减少学习成本、开发成本和维护成本。
(2)将产生的用户瞬时特征及附属信息注册到特征池,基于特征池进行特征选用并生成训练样本集和待预估潜客特征数据。
以特征池的方式进行上线注册管理,其不同主题特征的生成逻辑可以独立进行上线部署和下线删除,以此大幅减少特征生成逻辑的耦合度;样本特征以字段级粒度相关信息独立注册至特征池中,每个独立模型可以基于独立的特征映射配置完成样本特征的增减配置和样本特征数据的获取,另外,特征池可为模型的逻辑解释工作提供所需的数据。
具体包括以下步骤:
(2.1)将用户瞬时特征的种类及其附属信息注册到特征,并基于特征池管理和使用。
基于特征池的特征管理和使用包括如下步骤:
(2.1.1)特定主题的特征工程处理结果存放于一张独立的表后,不需和其他样本特征并入同一宽表,只需以独立表字段粒度将表名、字段名、字段类型、特征类型、特征代表范围、特征值单位等信息注册到特征池,即完成相应特征的特征工程侧开发工作。
(2.1.2)为模型配置所需样本特征及其映射关系。训练时直接基于该配置信息获取样本特征数据,再根据转化情况标记为正负样本,即可得到训练样本集;预估时,也直接根据同样的配置信息生成待预估潜客的当前特征数据。
(2.1.3)模型逻辑解析成人类直接可读信息时,可从特征池获取所需的相关信息。
(2.1.4)需要将特定特征下线删除时,直接从特征池删除相应注册信息即可完成操作。
(2.2)根据需要基于特征池选用用户瞬时生成训练样本特征数据,其中,获取用户瞬时特征数据生成样本特征数据,结合转化数据标记样本正负类别后即形成训练样本集。
(2.3)获取用户当前瞬时特征数据生成的样本数据即为待预估潜客特征数据。
与现有常用操作方式对比:
a、通常的做法中,所有的特征开发基于特征宽表高度耦合在一起,模型训练侧对特征的理解和使用也需要逐表逐字段理解。而在本估算方法中,特征开发工作独立开发完成后,注册到特征池即可完成相应特征开发部署工作。模型侧基于特征池注册信息理解和选用特征。
b、通常的做法中,当模型迭代、不同商家不同模型需要增减少特征时,需进行大量的处理逻辑调整和重复计算。而在本估算方法的实现方式中,模型需要增减特征时,只需调整模型所需特征跟特征池中注册特征的映射关系便可快速、轻量的实现对各种特征、模型的探索尝试。
(3)利用训练样本集训练多类AI模型,将训练得到的多类AI模型组合形成整套复购概率估算逻辑
为保证模型逻辑的可读性,主要AI模型主要选用可解释性强的XGboost。为保证模型拟合能力,采用多类分枝模型加一个整合模型的模型架构,其中分枝模型又分为限制过拟合和充分拟合两大类,最后再用一个限制过拟合的整合模型整合所有分枝模型的预估结果。
训练过程具体包括以下步骤:
(3.1)通过限制过拟合的方式在训练样本集中基于部分特征、全量特征训练后得多个限制拟合分枝模型。
限制拟合采用跨样本群的样本进行限制,然后对样本特征进行多批特征列选择、全量特征训练多个相应的分枝模型。
(3.2)通过充分拟合的方式在训练样本集上基于部分特征、全量特征进行充分的拟合训练后得到多个充分拟合分枝模型。
训练阶段不再考虑跨样本群间泛化能力,测试集直接来源于同一个范围内的样本特征数据。然后对样本特征进行多批特征列选择、全量特征训练多个相应的分枝模型。
(3.3)用步骤(3.1)所得的限制拟合分枝模型和步骤(3.2)所得的充分拟合分枝模型分别对训练样本进行预估,预估结果作为新的样本特征。
(3.4)用步骤(3.3)所得的新样本特征训练得整合模型。
(3.5)用步骤(3.1)所得的多个限制拟合分枝模型和步骤(3.2)所得的充分拟合分枝模型以及步骤(3.4)所得的整合模型整体组合后得整套复购概率估算逻辑。
与现有常用处理方式对比:
a、常规处理方式中,为保证泛化能力,在处理容易产生过拟合特征的方法上,通常的机器学习训练是在特征拟合过程中直接根据测试集来抑制过拟合,即当无法再提升测试集预测效果时,结束相应特征的深入拟合。这类处理方式放弃了部分特征可拟合空间的拟合探索,因此,未能充分挖掘特征所能提供的价值。在实际生产过程中经常存在大量易引起过拟的特征,在此情况下,通常的做法会导致其他特征可拟合空间、易过拟特征本身的剩余可拟合空间大量被忽略,严重制约模型质量提升,甚至导致模型不可用。
而在本方法的具体实现方式中,采用多个分支模型加一个整合模型的组合结构。分支模型训练时分别训练有限制过拟合和充分拟合两类分支模型,然后在整合模型整合所有分支模型的预估结果,并在训练过程中,用特定范围外的样本作为测试集进行统一限制过拟合,实现不以牺牲模型在测试集上的泛化能力为前提,让模型得于充分拟合所有特征,避免了特征价值的浪费。
b、现有对高维特征的拟合探索主要基于支持向量机、因子分解类模型、神经网络等方式进行。而本方法开辟另外一种方式,具体过程为,基于基础特征,指定主题进行分布相似性计算,根据相似性进行样本特征聚类并以此形成新的聚类特征。该估算方法减少需要通过AI模型进行大范围高维特征拟合的尝试,并因此节省巨量的计算资源和时间成本,一定程度上保证了模型的快速迭代。另外,基于主题处理产生的聚类特征,特征值义相对清晰,从而也保证了AI模型的可读性,方便支持人机对话促进模型持续优化。
(4)对训练好的复购概率估算逻辑进行解析获取显著特征组合,并结合训练样本集的特征分布统计其显著性表现值,以报表形式输出显著特征组合及其显著性表现值;
具体步骤:
(4.1)结合人工可理解的信息量大小,对模型的逻辑结构进行有限的解析,形成显著特征组合。
(4.2)结合特征池的特征注册信息将显著特征组合转换成普通可直接阅读理解的内容和格式,并根据需要统计显著特征组合的各项指标,如覆盖潜客样本数、复购转化率等。
(4.3)以报表的形式呈现给各线运营人员,辅助其进行各项评估决策。
与现有常用处理方式对比:
a、通常的AI预估做法中,一线运营人员无法借助模型感知特征、特征组合的表现,或无法准确的把握各项特征、特征组合表现的度,运营人员、商家无法基于模型快速高效地定位自己的复购潜客人群及人群特征,缺少基于模型高效智能探索后的数据挖掘成果来支持有针对性的营销活动优化和品牌定位。而在本估算方法中,运营人员、商家可以轻松获取和认知模型感知的显著特征组合及其表现情况,掌握更多信息来辅助优化自身的工作。
b、通常的做法中,一线运营人员主要是直接使用AI模型预估结果,无法根据自身对商家的认知情况参与优化模型。本估算方法输出特征显著组合及显著组合的各项显著表现值,为运营人员提供了一个与模型进行对话的渠道,方便其据此结合自身对商家品牌的认知理解,参与模型特征扩展和调整。
c、与传统的标签圈选经验分享相比,基于AI模型的显著特征组合的输出,辅助跨运营人员进行经验共享和沉淀。
(5)利用训练好的复购概率估算逻辑基于待预估潜客当前特征进行估算,得到潜客近期复购概率。
一次估算的具体步骤:
(5.1)结合AI模型的特征映射配置信息和特征池注册信息获取每个潜客当前的特征数据。
(5.2)使用分枝模型和整合模型从潜客当前特征数据估算出潜客近日复购概率。
进一步的,还包括步骤(6)对复购概率估算逻辑准确率衰减情况进行持续监测。
具体步骤:
(6.1)根据实际转化情况标记每条潜客估算记录是否为正样本。
(6.2)结合潜客复购概率估算值和其是否转化的类别值,计算每个周期估算效果的衡量指标,当指标低于一定标准时重新训练和更新模型,如当前基于AUC指标评估,当AUC值低于0.7即判为不达标。
以上所述仅为本发明的较佳实施例,凡在本发明的精神和原则范围内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种电商复购潜客近期复购概率估算的方法,其特征在于,包括如下步骤:
(1)基于用户历史购买行为记录和人口属性信息的原始数据,结合一种数据预处理技术框架,构建预处理逻辑,运行预处理逻辑获得用户瞬时特征;
(2)将产生的用户瞬时特征及附属信息注册到特征池,基于特征池进行特征选用并生成训练样本集和待预估潜客特征数据;
(3)利用训练样本集训练多类AI模型,将训练得到的多类AI模型组合形成整套复购概率估算逻辑;
(4)对训练好的复购概率估算逻辑进行解析获取显著特征组合,并结合训练样本集的特征分布统计其显著性表现值,以报表形式输出显著特征组合及其显著性表现值;
(5)利用训练好的复购概率估算逻辑基于待预估潜客当前特征进行估算,得到潜客近期复购概率;
在所述的步骤(1)中,包括以下步骤:
(1.1)基于用户历史购买行为记录和人口属性信息的原始数据,结合一种数据预处理技术框架,构建预处理逻辑;
(1.2)运行预处理逻辑获得用户瞬时特征;
在所述的步骤(1.1)中,包括如下步骤:
(1.1.1)创建flow级任务逻辑块,设置需要顺序依赖执行的script任务逻辑块个数,并指定flow级任务逻辑块任务实例的执行并行度;
(1.1.2)逐个定义script级任务逻辑块,每个script级任务逻辑块设置需要顺序执行的最小任务逻辑块个数,并逐个指定script级任务逻辑块任务实例的执行并行度;
(1.1.3)逐个定义最小任务逻辑块的数据处理逻辑,数据处理逻辑负责完成具体的样本特征数据计算处理;
(1.1.4)完成flow级任务逻辑块创建后,将其生成脚本文件预处理逻辑;
在所述的步骤(1.2)中,包括以下步骤:
(1.2.1)基于统计级处理逻辑运算获得用户基本特征数据;
(1.2.2)利用获得的用户基本特征数据作分布相似性聚类处理,然后生成特定主题的聚类特征;
(1.2.3)将用户基本特征数据和聚类特征组合后得用户瞬时特征;
在所述的步骤(2)中,包括以下步骤:
(2.1)将用户瞬时特征的种类及其附属信息注册到特征池;
(2.2)根据需要基于特征池选用用户瞬时生成训练样本特征数据,其中,获取用户瞬时特征数据生成样本特征数据,结合转化数据标记样本正负类别后即形成训练样本集;
(2.3)获取用户当前瞬时特征数据生成的样本数据即为待预估潜客特征数据;
所述的步骤(3)中,训练包括以下步骤:
(3.1)通过限制过拟合的方式在训练样本集中基于部分特征、全量特征训练后得多个限制拟合分枝模型;
(3.2)将部分限制拟合分枝模型在训练样本集上基于部分特征、全量特征进行充分的拟合训练后得充分拟合分枝模型;
(3.3)用步骤(3.1)所得的限制拟合分枝模型和步骤(3.2)所得的充分拟合分枝模型对训练样本进行预估,预估结果作为新样本特征;
(3.4)用步骤(3.3)所得的新样本特征训练得整合模型;
(3.5)用步骤(3.1)所得的多个限制拟合分枝模型和步骤(3.2)所得的充分拟合分枝模型以及步骤(3.4)所得的整合模型整体组合后得整套复购概率估算逻辑。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996928.XA CN113706198B (zh) | 2021-08-27 | 2021-08-27 | 一种电商复购潜客近期复购概率估算的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110996928.XA CN113706198B (zh) | 2021-08-27 | 2021-08-27 | 一种电商复购潜客近期复购概率估算的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113706198A CN113706198A (zh) | 2021-11-26 |
CN113706198B true CN113706198B (zh) | 2022-08-26 |
Family
ID=78656127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110996928.XA Active CN113706198B (zh) | 2021-08-27 | 2021-08-27 | 一种电商复购潜客近期复购概率估算的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113706198B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220845A (zh) * | 2017-05-09 | 2017-09-29 | 北京小度信息科技有限公司 | 用户复购概率预测/用户质量确定方法、装置及电子设备 |
CN110942338A (zh) * | 2019-11-01 | 2020-03-31 | 支付宝(杭州)信息技术有限公司 | 一种营销赋能策略的推荐方法、装置和电子设备 |
CN110956497A (zh) * | 2019-11-27 | 2020-04-03 | 桂林电子科技大学 | 一种电子商务平台用户重复购买行为预测方法 |
-
2021
- 2021-08-27 CN CN202110996928.XA patent/CN113706198B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220845A (zh) * | 2017-05-09 | 2017-09-29 | 北京小度信息科技有限公司 | 用户复购概率预测/用户质量确定方法、装置及电子设备 |
CN110942338A (zh) * | 2019-11-01 | 2020-03-31 | 支付宝(杭州)信息技术有限公司 | 一种营销赋能策略的推荐方法、装置和电子设备 |
CN110956497A (zh) * | 2019-11-27 | 2020-04-03 | 桂林电子科技大学 | 一种电子商务平台用户重复购买行为预测方法 |
Non-Patent Citations (1)
Title |
---|
胡晓丽等.基于集成学习的电子商务平台新用户重复购买行为预测.《现代电子技术》.2020,(第11期),第115-119,124页. * |
Also Published As
Publication number | Publication date |
---|---|
CN113706198A (zh) | 2021-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112783921A (zh) | 一种数据库操作方法及装置 | |
CN110489749B (zh) | 一种智能办公自动化系统的业务流程优化方法 | |
CN116485576A (zh) | 一种航空制造业知源大脑数据智能制造管理平台 | |
Bodendorf et al. | A machine learning approach to estimate product costs in the early product design phase: a use case from the automotive industry | |
CN116127899B (zh) | 芯片设计系统、方法、电子设备和存储介质 | |
CN115564071A (zh) | 一种电力物联网设备数据标签生成方法及系统 | |
CN114746815A (zh) | 用于创建设施或装置的数字孪生的方法 | |
CN113379432B (zh) | 一种基于机器学习的销售系统客户匹配方法 | |
CN116244367A (zh) | 一种基于多模型的自定义算法的可视化大数据分析平台 | |
CN111260969B (zh) | 数据挖掘课程教学实践系统和基于系统的教学实践方法 | |
CN113706198B (zh) | 一种电商复购潜客近期复购概率估算的方法 | |
Istrat et al. | The role of business intelligence in decision process modeling | |
CN111324594A (zh) | 用于粮食加工业的数据融合方法、装置、设备及存储介质 | |
Basu et al. | An expert system based approach to manufacturing cell design | |
CN115841359A (zh) | 一种对象生成方法、装置、设备及存储介质 | |
CN112035905B (zh) | 一种自学习的三维建模方法和系统 | |
Liu et al. | An intelligent system for estimating full product Life Cycle Cost at the early design stage | |
CN110262973B (zh) | 数据养成维护方法、装置、设备及计算机存储介质 | |
CN112270563A (zh) | 一种产品服务系统设计方法 | |
CN112100246A (zh) | 一种基于多维图码标签的客户用电价值挖掘方法 | |
Wang et al. | Statistical Analysis and Big Data Based Intelligent Fashion Prediction Model | |
Singh et al. | Harnessing Big Data Analytics for Optimal Car Choices | |
Voloshko et al. | Method of development of the automated system for formulation of recommendations for the optimal organization of the production process | |
CN111562904B (zh) | 一种基于SysML系统模型的可靠性框图RBD辅助建模方法 | |
CN115983809B (zh) | 一种基于智能门户平台的企业办公管理方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |