CN114997916A - 潜在用户的预测方法、系统、电子设备和存储介质 - Google Patents
潜在用户的预测方法、系统、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114997916A CN114997916A CN202210594608.6A CN202210594608A CN114997916A CN 114997916 A CN114997916 A CN 114997916A CN 202210594608 A CN202210594608 A CN 202210594608A CN 114997916 A CN114997916 A CN 114997916A
- Authority
- CN
- China
- Prior art keywords
- user
- potential
- information
- seed
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000003860 storage Methods 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 111
- 238000004458 analytical method Methods 0.000 claims description 56
- 238000012549 training Methods 0.000 claims description 39
- 238000012216 screening Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 230000006399 behavior Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 18
- 238000005516 engineering process Methods 0.000 claims description 13
- 238000003066 decision tree Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005065 mining Methods 0.000 abstract description 42
- 230000008569 process Effects 0.000 abstract description 27
- 230000004927 fusion Effects 0.000 abstract description 15
- 238000003058 natural language processing Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 11
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 6
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000012163 sequencing technique Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 239000012535 impurity Substances 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种潜在用户的预测方法、系统、电子设备和存储介质,该方法包括:获取若干样本数据;样本数据对应种子对象的对象特征关联信息,种子对象包括种子用户和/或种子产品;基于样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;根据每组第一潜在用户获取目标潜在用户。本发明有效地提高了挖掘潜在用户的准确率和效率;在利用种子产品挖掘潜在用户的链路中,基于电商平台的数据库内产品的专业词库构建多个向量库,利用了多个向量库进行融合推荐,保证了潜在用户输出的精度和效率,保证了潜在用户确定的数量和质量,满足高质量的广告等信息投放的目的。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种潜在用户的预测方法、系统、电子设备和存储介质。
背景技术
随着互联网技术发展和电商平台的日趋成熟,在电商平台上消费购物成为日常生活的一部分。如今,越来越多的品牌通过电商平台开设官方店铺售卖货品。在店铺运营团队进行促销的过程中,如何更高效的找到新的用户是十分关键的能够提升最终销售额的环节;如何根据现在已拥有的用户信息(比如用户的偏好、可能的性别、年龄和消费能力信息),和店铺内的产品信息,挖掘出潜在的用户,实现用户的精准触达是运营继续解决的问题。
目前,主要的挖掘潜在用户的方法如下:获得商家的样本用户的各个属性标签;统计样本用户的各个属性标签的分布特征;运用贝叶斯无向图网络,获得样本用户的各个属性标签的联合概率分布函数;运用梯度下降法得到对于样本用户拟合度最好的属性标签的权重,以及属性标签组合的权重;运用属性标签的权重,属性标签组合的权重,计算新用户成为商家的潜在用户的概率;根据新用户成为商家的潜在用户的概率,确定新用户是否是商家的潜在用户。然而,现有挖的掘潜在用户的方法,需要将样本用户的各个属性标签进行组合,需要遍历各种组合情况,存在计算复杂、浪费时间、投入成本较高,且推荐效率以及精度均较低等问题。
发明内容
本发明要解决的技术问题是为了克服现有技术中挖掘潜在用户的方法的实现普遍存在计算复杂、效率低且精度不高等的缺陷,提供一种潜在用户的预测方法、系统、电子设备和存储介质。
本发明是通过下述技术方案来解决上述技术问题:
本发明一种潜在用户的预测方法,应用在电商平台中,所述预测方法包括:
获取若干样本数据;
其中,所述样本数据对应种子对象的对象特征关联信息,所述种子对象包括种子用户和/或种子产品;
基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;
根据每组所述第一潜在用户获取目标潜在用户。
较佳地,所述根据每组所述第一潜在用户获取目标潜在用户的步骤包括:
获取业务需求信息;
基于所述业务需求信息对每组所述第一潜在用户进行筛选处理得到对应的第二潜在用户;
对每组所述第二潜在用户进行合并,得到所述目标潜在用户。
较佳地,所述对每组所述第二潜在用户进行合并,得到所述目标潜在用户的步骤之前还包括:
获取每组所述第二潜在用户的用户关联信息;
对所述用户关联信息进行评估处理,得到评估结果;
在所述评估结果满足预设合并条件时,则执行所述对每组所述第二潜在用户进行合并,得到所述目标潜在用户的步骤。
较佳地,在所述种子对象为所述种子用户时,所述获取若干样本数据的步骤之前包括:
选取若干满足预设购买行为的用户形成初始潜客池;
判断所述若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将所述初始潜客池作为所述预设潜客池。
较佳地,在确定所述预设潜客池之后,所述获取若干样本数据的步骤包括:
基于业务需求信息,从所述预设潜客池中获取与所述业务需求信息对应的历史订单信息,并基于所述历史订单信息获取所述种子用户和所述种子用户的用户特征关联信息,以作为所述样本数据;
或,
在所述预设潜客池中不存在与所述业务需求信息对应的历史订单信息时,则获取外部输入数据,并从所述外部输入数据获取所述种子用户的和所述种子用户的用户特征关联信息,以作为所述样本数据。
较佳地,在所述种子对象为所述种子用户时,所述基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户的步骤包括:
基于所述种子用户的用户特征关联信息和决策树算法训练得到潜在用户预测模型;
根据所述潜在用户预测模型输出的预测概率值,选取所述预设潜客池中所述预测概率值大于第一设定阈值的用户作为所述第一潜在用户;
或,
获取所述种子用户的用户特征关联信息的第一用户向量,以及所述预设潜客池中的用户的用户特征信息的第二用户向量;
计算得到所述第一用户向量与所述第二用户向量的第一向量相似度,选取所述预设潜客池中所述第一向量相似度大于第二设定阈值的用户作为所述第一潜在用户;
或,
分别获取所述种子用户已购买产品的第一历史产品信息,以及所述预设潜客池中的用户已购买产品的第二历史产品信息;
基于所述第一历史产品信息和所述第二历史产品信息,确定对所述种子用户的影响程度大于第三设定阈值的关键词;
将所述预设潜客池中所述关键词对应的用户作为所述第一潜在用户;
或,
基于所述用户特征关联信息和有向图网络,确定所述种子用户与所述预设潜客池中的用户之间的用户相似度,选取所述预设潜客池中所述用户相似度大于第四设定阈值的用户作为所述第一潜在用户;
或,
获取所述种子用户的第一历史交易信息,并基于所述第一历史产品信息确定对应的第一社交属性信息;
获取所述预设潜客池中的用户的第二历史交易信息,并基于所述第二历史产品信息确定对应的第二社交属性信息;
计算得到所述第一社交属性信息与所述第二社交属性信息的社交属性相似度,选取所述社交属性相似度大于第五设定阈值的用户作为所述第一潜在用户。
较佳地,在所述种子对象为所述种子产品时,所述基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户的步骤包括:
获取所述种子产品的产品特征关联信息;
对所述产品特征关联信息进行文本分析处理,获取分析结果;
基于所述分析结果构建对应的目标向量库;
其中,所述目标向量库对应与每个所述种子产品对应的第一词向量库和产品向量库;
获取所述预设潜客池中的用户已购买产品的第二历史产品信息;
基于所述目标向量库,确定所述种子产品对应的所述第一词向量与所述第二历史产品信息的第二词向量之间的词向量相似度;
将所述词向量相似度大于第六设定阈值的产品对应的所述预设潜客池中的用户作为所述第一潜在用户。
较佳地,所述对所述产品特征关联信息进行文本分析处理,获取分析结果的步骤之后、所述基于所述分析结果构建对应的目标向量库的步骤之前还包括:
采用预设检测算法,判断所述分析结果是否满足预设合理性要求,若是,则执行所述基于所述分析结果构建对应的目标向量库的步骤;
和/或,
所述对所述产品特征关联信息进行文本分析处理,获取分析结果的步骤包括:
基于NLP(自然语言处理)文本分析技术对所述产品特征关联信息进行文本分析处理,获取所述分析结果。
较佳地,所述判断所述若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将所述初始潜客池作为所述预设潜客池的步骤包括:
计算得到所述样本数据中的正样本和负样本之间的设定指标的差异值;
当所述差异值小于第七设定阈值时,则确定所述用户特征信息之间满足具有共性;否则,生成提示信息。
较佳地,所述差异值对应均值、方差、缺失率、分位数、比例差值和模型指标值中的至少一种。
本发明还提供一种潜在用户的预测系统,应用在电商平台中,所述预测系统包括:
样本数据获取模块,用于获取若干样本数据;
其中,所述样本数据对应种子对象的对象特征关联信息,所述种子对象包括种子用户和/或种子产品;
第一潜在用户获取模块,用于基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;
目标用户获取模块,用于根据每组所述第一潜在用户获取目标潜在用户。
较佳地,所述目标用户获取模块包括:
业务需求信息获取单元,用于获取业务需求信息;
用户筛选单元,用于基于所述业务需求信息对每组所述第一潜在用户进行筛选处理得到对应的第二潜在用户;
目标用户获取单元,用于对每组所述第二潜在用户进行合并,得到所述目标潜在用户。
较佳地,所述预测系统还包括:
用户关联信息获取模块,用于获取每组所述第二潜在用户的用户关联信息;
信息评估模块,用于对所述用户关联信息进行评估处理,得到评估结果,并在所述评估结果满足预设合并条件时,则调用所述目标用户获取单元。
较佳地,在所述种子对象为所述种子用户时,所述预测系统还包括:
初始潜客池确定模块,用于选取若干满足预设购买行为的用户形成初始潜客池;
第一判断模块,用于判断所述若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将所述初始潜客池作为所述预设潜客池。
较佳地,在确定所述预设潜客池之后,所述样本数据获取模块用于基于业务需求信息,从所述预设潜客池中获取与所述业务需求信息对应的历史订单信息,并基于所述历史订单信息获取所述种子用户和所述种子用户的用户特征关联信息,以作为所述样本数据;
或,
所述样本数据获取模块用于在所述预设潜客池中不存在与所述业务需求信息对应的历史订单信息时,则获取外部输入数据,并从所述外部输入数据获取所述种子用户的和所述种子用户的用户特征关联信息,以作为所述样本数据。
较佳地,在所述种子对象为所述种子用户时,所述第一潜在用户获取模块用于:
基于所述种子用户的用户特征关联信息和决策树算法训练得到潜在用户预测模型;
根据所述潜在用户预测模型输出的预测概率值,选取所述预设潜客池中所述预测概率值大于第一设定阈值的用户作为所述第一潜在用户;
或,
获取所述种子用户的用户特征关联信息的第一用户向量,以及所述预设潜客池中的用户的用户特征信息的第二用户向量;
计算得到所述第一用户向量与所述第二用户向量的第一向量相似度,选取所述预设潜客池中所述第一向量相似度大于第二设定阈值的用户作为所述第一潜在用户;
或,
分别获取所述种子用户已购买产品的第一历史产品信息,以及所述预设潜客池中的用户已购买产品的第二历史产品信息;
基于所述第一历史产品信息和所述第二历史产品信息,确定对所述种子用户的影响程度大于第三设定阈值的关键词;
将所述预设潜客池中所述关键词对应的用户作为所述第一潜在用户;
或,
基于所述用户特征关联信息和有向图网络,确定所述种子用户与所述预设潜客池中的用户之间的用户相似度,选取所述预设潜客池中所述用户相似度大于第四设定阈值的用户作为所述第一潜在用户;
或,
获取所述种子用户的第一历史交易信息,并基于所述第一历史产品信息确定对应的第一社交属性信息;
获取所述预设潜客池中的用户的第二历史交易信息,并基于所述第二历史产品信息确定对应的第二社交属性信息;
计算得到所述第一社交属性信息与所述第二社交属性信息的社交属性相似度,选取所述社交属性相似度大于第五设定阈值的用户作为所述第一潜在用户。
较佳地,在所述种子对象为所述种子产品时,所述第一潜在用户获取模块用于:
获取所述种子产品的产品特征关联信息;
对所述产品特征关联信息进行文本分析处理,获取分析结果;
基于所述分析结果构建对应的目标向量库;
其中,所述目标向量库对应与每个所述种子产品对应的第一词向量库和产品向量库;
获取所述预设潜客池中的用户已购买产品的第二历史产品信息;
基于所述目标向量库,确定所述种子产品对应的所述第一词向量与所述第二历史产品信息的第二词向量之间的词向量相似度;
将所述词向量相似度大于第六设定阈值的产品对应的所述预设潜客池中的用户作为所述第一潜在用户。
较佳地,所述预测系统还包括:
第二判断模块,用于采用预设检测算法,判断所述分析结果是否满足预设合理性要求,若是,则调用所述第一潜在用户获取模块基于所述分析结果构建对应的目标向量库;
和/或,
所述第一潜在用户获取模块用于基于NLP文本分析技术对所述产品特征关联信息进行文本分析处理,获取所述分析结果。
较佳地,所述第一判断模块用于计算得到所述样本数据中的正样本和负样本之间的设定指标的差异值;当所述差异值小于第七设定阈值时,则确定所述用户特征信息之间满足具有共性;否则,生成提示信息。
较佳地,所述差异值对应均值、方差、缺失率、分位数、比例差值和模型指标值中的至少一种。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的潜在用户的预测方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的潜在用户的预测方法。
在符合本领域常识的基础上,所述各优选条件,可任意组合,即得本发明各较佳实施例。
本发明的积极进步效果在于:
本发明中,基于用户特征属性、产品特征属性的样本数据构建不同的用于挖掘潜在用户的预测模型,分别预测潜客池中的潜在用户最后合并以得到目标潜在用户;实现在利用已经购买过指定产品的种子用户的用户特征挖掘潜在用户(或称新客)的链路中,采用了多时序多维度数据采集、多模型融合训练、多轮次建模等方式,有效地提高了挖掘潜在用户的准确率和效率;在利用种子产品挖掘潜在用户的链路中,基于电商平台的数据库内产品的专业词库构建多个向量库,利用了多个向量库进行融合推荐,保证了潜在用户输出的精度和效率,保证了潜在用户确定的数量和质量,满足高质量的广告等信息投放的目的。
附图说明
图1为本发明实施例1的潜在用户的预测方法的流程图。
图2为本发明实施例2的潜在用户的预测方法的第一流程图。
图3为本发明实施例2的潜在用户的预测方法的第二流程图。
图4为本发明实施例2的潜在用户的预测方法的第三流程图。
图5为本发明实施例2的潜在用户的预测方法的第四流程图。
图6为本发明实施例3的潜在用户的预测系统的模块示意图。
图7为本发明实施例4的潜在用户的预测系统的模块示意图。
图8为本发明实施例5的电子设备的结构示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
本实施例的潜在用户的预测方法应用在电商平台中。
如图1所示,本实施例的潜在用户的预测方法包括:
S101、获取若干样本数据;
其中,样本数据对应种子对象的对象特征关联信息,种子对象包括种子用户和/或种子产品;
种子用户包括但不限于被营销后有过指定购买行为、高购买意向的用户,即在具体营销场景中被成功转化的用户;种子产品对应种子用户购买或高购买意向的产品。
S102、基于样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;
其中,通过将潜在用户预测模型应用到整个预设潜客池上进行潜客人群的预测。
设定数量可以实际场景需求进行确定或调整。
S103、根据每组第一潜在用户获取目标潜在用户。
本方案中,基于多维度数据进行多模型融合训练,构建多链路潜在用户挖掘策略,提高了电商平台中潜在用户的预测或推荐质量。
本实施例中,基于用户特征属性、产品特征属性的样本数据构建不同的用于挖掘潜在用户的预测模型,分别预测潜客池中的潜在用户最后合并以得到目标潜在用户,实现多链路潜在用户挖掘的目的,有效地提高了挖掘潜在用户的准确率和效率。
实施例2
本实施例的潜在用户的预测方法是对实施例1的进一步改进,具体地:
在一可实施的方案中,在种子对象为种子用户时,潜在用户的预测过程(结合图2所示)对应人圈的潜客挖掘链路。具体地:
如图3所示,步骤S101之前还包括:
S1001、选取若干满足预设购买行为的用户形成初始潜客池;
S1002、判断若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将初始潜客池作为预设潜客池。
在一可实施的方案中,步骤S1002包括:
计算得到样本数据中的正样本和负样本之间的设定指标的差异值;
当差异值小于第七设定阈值时,则确定用户特征信息之间满足具有共性;否则,生成提示信息。
其中,差异值对应均值、方差、缺失率、分位数、比例差值、模型指标值等。
具体地,在训练模型之前,需要对初始潜客池中的这些满足预设购买行为的用户进行共性检测,以判断这些用户(或称种子人群)是否是同一类人群,有无必要进行后续操作,只有属于共性的人群才有效。
本实施例中,主要采用如下采用三种方法进行共性检测:
(1)随机分配等量负样本(种子用户作为正样本),分别统计正负样本特征的均值、方差、缺失率、分位数等指标,比较正负样本特征的这些指标的差异,若差异较小(即小于一定值,该值可以根据实际情况确定或调整)则认为初始潜客池中的种子用户之间没有共性;反之,差异较大则认为种子用户之间有共性。
(2)随机分配等量负样本(种子用户作为正样本),对所有样本进行聚类,其中K=2(K为聚类簇的数量);对聚类完之后的两个簇,统计正负样本比例,若两个簇的正负样本比例差异较小(即小于一定值,该值可以根据实际情况确定或调整),则认为种子用户之间没有共性,差异较大则认为种子用户之间有共性。
(3)随机分配等量负样本(种子用户作为正样本),对所有样本进行二分类建模,并统计KS、AUC、Recall等(KS、AUC、Recall均属于模型指标),若果模型指标值较高(即大于一定值,该值可以根据实际情况确定或调整),则认为种子用户之间有共性;若指标值较低,则认为种子用户之间没共性。
当然,还可以根据实际情况,采用其他能够实现人群共性检测的方法,在此就不再赘述。
在一可实施的方案中,在确定预设潜客池之后,步骤S101包括:
基于业务需求信息,从预设潜客池中获取与业务需求信息对应的历史订单信息,并基于历史订单信息获取种子用户和种子用户的用户特征关联信息,以作为样本数据;
或,
在预设潜客池中不存在与业务需求信息对应的历史订单信息时,则获取外部输入数据,并从外部输入数据获取种子用户的和种子用户的用户特征关联信息,以作为样本数据。
具体地,以有过指定购买行为的用户作为初始潜客池,根据用户历史下单行为,衍生相关统计型变量和时序型变量,并每天定时更新初始潜客池,形成特征库,为后续建模提供入参变量。
由于初始潜客池中用户总量较大,且针对具体品牌做营销时,潜客池中包含较多不相关用户,若统一经过模型筛选,则会添加噪声,影响模型训练效果;所以在训练模型之前,需要先根据品牌客单价、关联店铺等制作筛选条件形成初筛规则,筛选的标准是使得保留的正负样本比例尽量提高。其中,筛选条件的确定具体与实际业务需求相关,可根据实际业务需求进行灵活、动态调整。
种子对象为种子用户时,对应模型训练属于有监督学习;在建模之前需要定义label(标签)以确定正负样本;对于冷启动问题,即有些品牌从未在当前电商平台上运营过,则要求品牌方上传特定数据(种子用户的关联数据),并根据上传的特定数据是否包含在当前电商平台的潜客池中来定义label;若品牌在当前电商平台上运营过,则使用历史订单定义label。在确定好正负样本之后,一个常见问题就是正负样本极不平衡,正样本相对太少,所以需根据正样本数量进行一定比例的上采样,作为最终训练模型的样本,保证模型训练满足设定高要求。
在一可实施的方案中,采用预设训练规则基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户。
具体地,所述预设训练规则对应AutoML(自动机器学习)算法、决策树算法、基于基因信息的匹配规则、基于关键词的匹配规则、基于有向图的匹配规则或基于社交信息的匹配规则等,不同的所述所述预设训练规则对应筛选对应的若干所述样本数据以进行模型训练。
需要说明的是,若采用机器学习链路,则可以针对投放渠道进行二次建模,即把第一次模型输出作为二次建模的入参变量,并结合其他品牌相关变量作为进行二次建模,以满足特定品牌的潜在用户预测的需求。
在一可实施的方案中,在种子对象为种子用户时,步骤S102包括:
基于种子用户的用户特征关联信息和决策树算法训练得到潜在用户预测模型;
根据潜在用户预测模型输出的预测概率值,选取预设潜客池中预测概率值大于第一设定阈值的用户作为第一潜在用户。
该确定第一潜在用户对应基于决策树算法的规则圈人方式,具体实现过程如下:
(1)在训练样本上,基于决策树(有监督学习)训练模型;
(2)在最优模型结果上挑选纯度(正负样本比)最高的分支作为筛选规则,并把模型输出概率值作为排序依据;
(3)根据(2)中的规则缩小潜客池范围,并根据概率大小排序后挑出TopK的潜在用户作为信息投放对象。
在一可实施的方案中,在种子对象为种子用户时,步骤S102包括:
获取种子用户的用户特征关联信息的第一用户向量,以及预设潜客池中的用户的用户特征信息的第二用户向量;
计算得到第一用户向量与第二用户向量的第一向量相似度,选取预设潜客池中第一向量相似度大于第二设定阈值的用户作为第一潜在用户。
该确定第一潜在用户对应基于基因信息的匹配规则圈人方式,具体实现过程如下:
(1)获取训练集和预设潜客池中所有用户的用户关联特征向量(基础信息、统计型、时序型);
(2)以训练集中所有正样本(已购或高意向用户)作为种子用户,计算预设潜客池中所有用户与种子用户的向量相似度(例如余弦距离、欧式距离等),并对每个潜客的相似度进行汇总(例如取平均值、中位数、最大值等),即可生成每个潜在用户与种子用户的相似度;
(3)根据(2)中相似度进行排序并划定阈值,筛选出与种子用户相似度较高的潜客作为潜在用户以进行信息投放。
在一可实施的方案中,在种子对象为种子用户时,步骤S102包括:
分别获取种子用户已购买产品的第一历史产品信息,以及预设潜客池中的用户已购买产品的第二历史产品信息;
基于第一历史产品信息和第二历史产品信息,确定对种子用户的影响程度大于第三设定阈值的关键词,并将预设潜客池中关键词对应的用户作为第一潜在用户。
该确定第一潜在用户对应基于关键词的匹配规则圈人方式,具体实现过程如下:
(1)抽取用户所有购买产品的明细,并对产品明细进行切词(此处需丰富自有词库和停用词);
(2)计算每个词对每个用户的重要性(例如基于TF-IDF一种用于信息检索与数据挖掘的常用加权技术实现);
(3)取对种子用户重要性大于阈值(可自定义)的关键词,然后在潜客池中挑选这些关键词的重要性同样大于阈值的潜客作为潜在用户以进行信息投放。
在一可实施的方案中,在种子对象为种子用户时,步骤S102包括:
S10217、基于用户特征关联信息和有向图网络,确定种子用户与预设潜客池中的用户之间的用户相似度,选取预设潜客池中用户相似度大于第四设定阈值的用户作为第一潜在用户。
该确定第一潜在用户对应基于有向图的匹配规则圈人方式,具体实现过程如下:
(1)建立利用关系将个体和个体相连接的有向图;将用户、产品属性、品牌、品类等属性作为关系图中的个体,将用户购买产品、产品属于品类等作为关系图中的关系;不同的关系按照其重要程度给予不同的权重。
(2)以已经购买过指定产品的用户为中心,将个体和个体之间的关系权重作为存在距离的有向关系,在一定的距离范围内粗筛未购买过产品的潜在用户。
(3)在一定距离内的用户范围中,再通过将用户个体和已经购买过指定产品的用户的相似度进行排序,选择超过一定相似度阈值的用户作为最终的潜在挖掘用户。
在一可实施的方案中,在种子对象为种子用户时,步骤S102包括:
获取种子用户的第一历史交易信息,并基于第一历史产品信息确定对应的第一社交属性信息;
获取预设潜客池中的用户的第二历史交易信息,并基于第二历史产品信息确定对应的第二社交属性信息;
计算得到第一社交属性信息与第二社交属性信息的社交属性相似度,选取社交属性相似度大于第五设定阈值的用户作为第一潜在用户。
该确定第一潜在用户对应基于社交信息的匹配规则圈人方式,具体实现过程如下:
(1)对有过指定购买记录的用户的各个特征数据进行社交属性分析并得出各个属性的标签,通过特征数据的统计,得出多个可能的潜在社交属性标签,包括社交场所社交身份社交事件等。
(2)对一定范围内的未有指定购买记录的用户进行社交属性分析,选取与上述有过指定购买记录的用户相同的社交属性,进行一定的相似度计算和权重筛选,寻找多关系、多社交场景上与目标用户有关联的用户作为潜在用户以进行信息投放。最后,将上述选取后的用户ID(身份认证信息)整理并上传至预设数据库中。
在一可实施的方案中,在种子对象为种子产品时,潜在用户的预测过程对应货(即产品)圈人的潜客挖掘链路。具体地:
如图4所示,步骤S102包括:
S1021、获取种子产品的产品特征关联信息;
S1022、对产品特征关联信息进行文本分析处理,获取分析结果;
S1023、基于分析结果构建对应的目标向量库;
其中,目标向量库对应与每个种子产品对应的第一词向量库和产品向量库;
S1024、获取预设潜客池中的用户已购买产品的第二历史产品信息;
S1025、基于目标向量库,确定种子产品对应的第一词向量与第二历史产品信息的第二词向量之间的词向量相似度;
S1026、将词向量相似度大于第六设定阈值的产品对应的预设潜客池中的用户作为第一潜在用户。
在一可实施的方案中,步骤S1022包括:
基于NLP文本分析技术对产品特征关联信息进行文本分析处理,获取分析结果。
在一可实施的方案中,步骤S1022之后、步骤S1023之前还包括:
采用预设检测算法,判断分析结果是否满足预设合理性要求,若是,则执行步骤S1023。
具体地,通过NLP建模分析种子产品的产品标题信息,确定核心关键词及其向量,并通过产品标题信息与产品ID等信息,分析得出产品向量,同时以向量余弦积作为关键词与产品之间相似度衡量方式,进而得出核心关键词及其TopK相似产品集;
其中,NLP建模过程包括:通过对种子产品的产品标题信息的文本数据加载、停止词、敏感词等预加载,使用效优分词算法(如jieba)、浅层简单神经网络算法(如word2vec)等多种算法得出关键词,同时结合业务需求和业务字典,过滤非核心关键词,并对核心关键词进行效果校验、多抽样分析,最终得出核心关键词向量和产品向量;另外,为得出所需的核心关键词及其TOPN相似产品集,采用余弦相似度进行协同推荐。
通过订单、产品文本库、用户属性、产品属性等信息得出用户与产品的关联性特征或指标数据;
通过核心关键词及其TopK相似产品集,结合用户与产品的关联性特征或指标数据,若确定需要联合实施例2中的人找人推荐方式,则进入融合推荐,直至流程结束,否则为独立推荐。其中,可直接根据产品营销活动情况(如折扣、促销等)、所需种子人群规模等需求指标,进一步筛选出符合需求的种子用户对应人群包,以进行后续POC(验证性测试)、产品化等一系列运营。
另外,通过抽取或统计订单、产品属性、用户属性等不同维度的指标数据,并随机抽样以校验指标数据的准确性,保证数据精度的同时保证了最终的潜在用户的预测质量。同时,根据PCA(主成分分析)等算法,剔除杂质指标,以及分析前述NLP建模过程的合理性,以保证结果输出的安全可靠。
结合各个指标数据,抽样验证排序的合理性,以验证排序与业务需求目标的一致,降低误差或损失。同时,根据前述核心关键词先关联至种子产品,再关联至与种子产品对应的用户,结合需求目标和业务实际情况,推荐出合理的潜在用户的人群包。
需要说明的是,本实施例的潜在用户的预测方式已应用在实际的电商平台中,且针对不同的实际业务需求,都能进行高精度、合理的预测对应的潜在用户,达到高质量的信息投放效果。
在一可实施的方案中,如图5所示,步骤S103包括:
S1031、获取业务需求信息;
S1032、基于业务需求信息对每组第一潜在用户进行筛选处理得到对应的第二潜在用户;
S1033、对每组第二潜在用户进行合并,得到目标潜在用户。
在一可实施的方案中,步骤S1032之后、步骤S1033之前还包括:
采用预设评估方式(如ROI评估)对每组的第二潜在用户的用户特征信息进行预估处理,在评估结果满足评估要求时则确定执行步骤S1033;否则,认为当前预测的潜客人群没有投放意义,不执行后续合并操作。
结合上述内容本实施例中达到的技术效果:
(1)在挖掘潜客的数据来源上结合了多个平台、品牌私域数据结合的方式,而不仅局限于单一平台数据来源,提升了预测模型的预测准确性的上限。
(2)采用了多条链路综合推荐的方式,将用户特征属性和产品特征属性输入不同的模型,针对数据的不同种类,分别进行了建模、训练和推断;具体地,在利用已经购买过指定产品的用户特征挖掘潜在用户的链路中,采用了多时序多维度数据采集、多模型融合训练、多轮次建模的方式,有效地提高了挖掘新客即潜在用户的准确率;在利用种子产品挖掘潜在用户的链路中,基于库内产品的专业词库并构建对应的多个向量库,并利用了多个向量库进行融合推荐;人圈人的潜客推荐方式与货圈人的潜客推荐方式分别独立推荐,也可以根据联合推荐;联合推荐是可达到进一步地提高潜在用户的挖掘准确率的效果。
(3)数据源不仅包括用户特征,还包括产品特征,在将用户特征和对应的推荐产品进行链接的时候,有更高的对应准确性,提高了最终预测结果的精度;
其中,本实施例的结合多链路的潜客挖掘方法,从人群、商品、渠道的维度深度挖掘,可明显解决数据稀疏以及数据质量带来的潜客数量和质量问题;同时,支持用户多渠道映射,保证用户和渠道的最优映射,从全局优化投放的精准度。此外,还包含了种子人群的共性检测以及目标人群的解释功能,以保证输入人群质量和输出人群的可信度。
(4)该多条链路综合推荐的方式中,拓展了更多的挖掘用户的链路,提高最终能得到的潜在用户的数量;
在分析用户的相关属性上运用了多个模型进行融合训练,预测潜在用户时也从不同的模型中进行选取和去重,提高了得到的潜在用户的数量,达到尽可能较广范围的信息投放的目的。
(5)该多条链路综合推荐的方式,在老客和产品的关联性上进行了产品向量库的计算,提升了老客和产品的关联性;在新客和老客的相似度上,不仅运用了矩阵相似度,还结合了深度学习和机器学习的模型,使得预测结果更具有普遍性和鲁棒性。
(6)将NLP技术应用到货圈人的推荐方式中,将NLP技术和推荐技术有效结合,有效简化了预测过程的处理逻辑,没有去深究产品属性和用户属性的复杂关系,而是去冗返简,直接明了地使用文本数据,通过文本数据的向量化,将产品和用户都映射到向量化的矩阵中;通过向量化的方式,每一个产品和用户都可以用一组向量来表达,在向量矩阵中计算产品相似度,用户与产品契合度,简单高效减少了研发投入成本,且保证了最终对潜在用户预测的精度和效率。
本发明中,基于用户特征属性、产品特征属性的样本数据构建不同的用于挖掘潜在用户的预测模型,分别预测潜客池中的潜在用户最后合并以得到目标潜在用户;实现在利用已经购买过指定产品的种子用户的用户特征挖掘潜在用户(或称新客)的链路中,采用了多时序多维度数据采集、多模型融合训练、多轮次建模等方式,有效地提高了挖掘潜在用户的准确率和效率;在利用种子产品挖掘潜在用户的链路中,基于电商平台的数据库内产品的专业词库构建多个向量库,利用了多个向量库进行融合推荐,保证了潜在用户输出的精度和效率,保证了潜在用户确定的数量和质量,满足高质量的广告等信息投放的目的。
实施例3
本实施例的潜在用户的预测系统应用在电商平台中。
如图6所示,本实施例的潜在用户的预测系统包括:
样本数据获取模块1,用于获取若干样本数据;
其中,样本数据对应种子对象的对象特征关联信息,种子对象包括种子用户和/或种子产品;
种子用户包括但不限于被营销后有过指定购买行为、高购买意向的用户,即在具体营销场景中被成功转化的用户;种子产品对应种子用户购买或高购买意向的产品。
第一潜在用户获取模块2,用于基于样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;
其中,通过将潜在用户预测模型应用到整个预设潜客池上进行潜客人群的预测。
设定数量可以实际场景需求进行确定或调整。
目标用户获取模块3,用于根据每组第一潜在用户获取目标潜在用户。
本方案中,基于多维度数据进行多模型融合训练,构建多链路潜在用户挖掘策略,提高了电商平台中潜在用户的预测或推荐质量。
本实施例中,基于用户特征属性、产品特征属性的样本数据构建不同的用于挖掘潜在用户的预测模型,分别预测潜客池中的潜在用户最后合并以得到目标潜在用户,实现多链路潜在用户挖掘的目的,有效地提高了挖掘潜在用户的准确率和效率。
实施例4
如图7所示,本实施例的潜在用户的预测系统是对实施例1的进一步改进,具体地:
在一可实施的方案中,在种子对象为种子用户时,潜在用户的预测过程对应人圈的潜客挖掘链路。具体地:
本实施例的预测系统还包括:
初始潜客池确定模块4,用于选取若干满足预设购买行为的用户形成初始潜客池;
第一判断模块5,用于判断若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将初始潜客池作为预设潜客池。
在一可实施的方案中,第一判断模块5包括:
差异值计算单元,用于计算得到样本数据中的正样本和负样本之间的设定指标的差异值;
判断单元,用于当差异值小于第七设定阈值时,则确定用户特征信息之间满足具有共性;否则,生成提示信息。
其中,差异值对应均值、方差、缺失率、分位数、比例差值、模型指标值等。
具体地,在训练模型之前,需要对初始潜客池中的这些满足预设购买行为的用户进行共性检测,以判断这些用户(或称种子人群)是否是同一类人群,有无必要进行后续操作,只有属于共性的人群才有效。
本实施例中,主要采用如下采用三种方法进行共性检测:
(1)随机分配等量负样本(种子用户作为正样本),分别统计正负样本特征的均值、方差、缺失率、分位数等指标,比较正负样本特征的这些指标的差异,若差异较小(即小于一定值,该值可以根据实际情况确定或调整)则认为初始潜客池中的种子用户之间没有共性;反之,差异较大则认为种子用户之间有共性。
(2)随机分配等量负样本(种子用户作为正样本),对所有样本进行聚类,其中K=2(K为聚类簇的数量);对聚类完之后的两个簇,统计正负样本比例,若两个簇的正负样本比例差异较小(即小于一定值,该值可以根据实际情况确定或调整),则认为种子用户之间没有共性,差异较大则认为种子用户之间有共性。
(3)随机分配等量负样本(种子用户作为正样本),对所有样本进行二分类建模,并统计KS、AUC、Recall等(KS、AUC、Recall均属于模型指标),若果模型指标值较高(即大于一定值,该值可以根据实际情况确定或调整),则认为种子用户之间有共性;若指标值较低,则认为种子用户之间没共性。
当然,还可以根据实际情况,采用其他能够实现人群共性检测的方法,在此就不再赘述。
在一可实施的方案中,在确定预设潜客池之后,样本数据获取模块用于基于业务需求信息,从预设潜客池中获取与业务需求信息对应的历史订单信息,并基于历史订单信息获取种子用户和种子用户的用户特征关联信息,以作为样本数据;
或,
样本数据获取模块用于在预设潜客池中不存在与业务需求信息对应的历史订单信息时,则获取外部输入数据,并从外部输入数据获取种子用户的和种子用户的用户特征关联信息,以作为样本数据。
具体地,以有过指定购买行为的用户作为初始潜客池,根据用户历史下单行为,衍生相关统计型变量和时序型变量,并每天定时更新初始潜客池,形成特征库,为后续建模提供入参变量。
由于初始潜客池中用户总量较大,且针对具体品牌做营销时,潜客池中包含较多不相关用户,若统一经过模型筛选,则会添加噪声,影响模型训练效果;所以在训练模型之前,需要先根据品牌客单价、关联店铺等制作筛选条件形成初筛规则,筛选的标准是使得保留的正负样本比例尽量提高。其中,筛选条件的确定具体与实际业务需求相关,可根据实际业务需求进行灵活、动态调整。
种子对象为种子用户时,对应模型训练属于有监督学习;在建模之前需要定义label(标签)以确定正负样本;对于冷启动问题,即有些品牌从未在当前电商平台上运营过,则要求品牌方上传特定数据(种子用户的关联数据),并根据上传的特定数据是否包含在当前电商平台的潜客池中来定义label;若品牌在当前电商平台上运营过,则使用历史订单定义label。在确定好正负样本之后,一个常见问题就是正负样本极不平衡,正样本相对太少,所以需根据正样本数量进行一定比例的上采样,作为最终训练模型的样本,保证模型训练满足设定高要求。
在一可实施的方案中,采用预设训练规则基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户。
具体地,所述预设训练规则对应AutoML(自动机器学习)算法、决策树算法、基于基因信息的匹配规则、基于关键词的匹配规则、基于有向图的匹配规则或基于社交信息的匹配规则等,不同的所述所述预设训练规则对应筛选对应的若干所述样本数据以进行模型训练。
需要说明的是,若采用机器学习链路,则可以针对投放渠道进行二次建模,即把第一次模型输出作为二次建模的入参变量,并结合其他品牌相关变量作为进行二次建模,以满足特定品牌的潜在用户预测的需求。
在一可实施的方案中,在种子对象为种子用户时,第一潜在用户获取模块2用于:
基于种子用户的用户特征关联信息和决策树算法训练得到潜在用户预测模型;
根据潜在用户预测模型输出的预测概率值,选取预设潜客池中预测概率值大于第一设定阈值的用户作为第一潜在用户;
该确定第一潜在用户对应基于决策树算法的规则圈人方式,具体实现过程如下:
(1)在训练样本上,基于决策树(有监督学习)训练模型;
(2)在最优模型结果上挑选纯度(正负样本比)最高的分支作为筛选规则,并把模型输出概率值作为排序依据;
(3)根据(2)中的规则缩小潜客池范围,并根据概率大小排序后挑出TopK的潜在用户作为信息投放对象。
获取种子用户的用户特征关联信息的第一用户向量,以及预设潜客池中的用户的用户特征信息的第二用户向量;
计算得到第一用户向量与第二用户向量的第一向量相似度,选取预设潜客池中第一向量相似度大于第二设定阈值的用户作为第一潜在用户;
该确定第一潜在用户对应基于基因信息的匹配规则圈人方式,具体实现过程如下:
(1)获取训练集和预设潜客池中所有用户的用户关联特征向量(基础信息、统计型、时序型);
(2)以训练集中所有正样本(已购或高意向用户)作为种子用户,计算预设潜客池中所有用户与种子用户的向量相似度(例如余弦距离、欧式距离等),并对每个潜客的相似度进行汇总(例如取平均值、中位数、最大值等),即可生成每个潜在用户与种子用户的相似度;
(3)根据(2)中相似度进行排序并划定阈值,筛选出与种子用户相似度较高的潜客作为潜在用户以进行信息投放。
分别获取种子用户已购买产品的第一历史产品信息,以及预设潜客池中的用户已购买产品的第二历史产品信息;
基于第一历史产品信息和第二历史产品信息,确定对种子用户的影响程度大于第三设定阈值的关键词;
将预设潜客池中关键词对应的用户作为第一潜在用户;
该确定第一潜在用户对应基于关键词的匹配规则圈人方式,具体实现过程如下:
(1)抽取用户所有购买产品的明细,并对产品明细进行切词(此处需丰富自有词库和停用词);
(2)计算每个词对每个用户的重要性(例如基于TF-IDF实现);
(3)取对种子用户重要性大于阈值(可自定义)的关键词,然后在潜客池中挑选这些关键词的重要性同样大于阈值的潜客作为潜在用户以进行信息投放。
基于用户特征关联信息和有向图网络,确定种子用户与预设潜客池中的用户之间的用户相似度,选取预设潜客池中用户相似度大于第四设定阈值的用户作为第一潜在用户;
该确定第一潜在用户对应基于有向图的匹配规则圈人方式,具体实现过程如下:
(1)建立利用关系将个体和个体相连接的有向图;将用户、产品属性、品牌、品类等属性作为关系图中的个体,将用户购买产品、产品属于品类等作为关系图中的关系;不同的关系按照其重要程度给予不同的权重。
(2)以已经购买过指定产品的用户为中心,将个体和个体之间的关系权重作为存在距离的有向关系,在一定的距离范围内粗筛未购买过产品的潜在用户。
(3)在一定距离内的用户范围中,再通过将用户个体和已经购买过指定产品的用户的相似度进行排序,选择超过一定相似度阈值的用户作为最终的潜在挖掘用户。
获取种子用户的第一历史交易信息,并基于第一历史产品信息确定对应的第一社交属性信息;
获取预设潜客池中的用户的第二历史交易信息,并基于第二历史产品信息确定对应的第二社交属性信息;
计算得到第一社交属性信息与第二社交属性信息的社交属性相似度,选取社交属性相似度大于第五设定阈值的用户作为第一潜在用户。
该确定第一潜在用户对应基于社交信息的匹配规则圈人方式,具体实现过程如下:
(1)对有过指定购买记录的用户的各个特征数据进行社交属性分析并得出各个属性的标签,通过特征数据的统计,得出多个可能的潜在社交属性标签,包括社交场所社交身份社交事件等。
(2)对一定范围内的未有指定购买记录的用户进行社交属性分析,选取与上述有过指定购买记录的用户相同的社交属性,进行一定的相似度计算和权重筛选,寻找多关系、多社交场景上与目标用户有关联的用户作为潜在用户以进行信息投放。最后,将上述选取后的用户ID(身份认证信息)整理并上传至预设数据库中。
在一可实施的方案中,在种子对象为种子产品时,第一潜在用户获取模块2用于:
获取种子产品的产品特征关联信息;
对产品特征关联信息进行文本分析处理,获取分析结果;
基于分析结果构建对应的目标向量库;
其中,目标向量库对应与每个种子产品对应的第一词向量库和产品向量库;
获取预设潜客池中的用户已购买产品的第二历史产品信息;
基于目标向量库,确定种子产品对应的第一词向量与第二历史产品信息的第二词向量之间的词向量相似度;
将词向量相似度大于第六设定阈值的产品对应的预设潜客池中的用户作为第一潜在用户。
在一可实施的方案中,本实施例的预测系统还包括:
第二判断模块6,用于采用预设检测算法,判断第一潜在用户获取模块的分析结果是否满足预设合理性要求,若是,则调用第一潜在用户获取模块基于分析结果构建对应的目标向量库;
在一可实施的方案中,第一潜在用户获取模块用于基于NLP文本分析技术对产品特征关联信息进行文本分析处理,获取分析结果。
具体地,通过NLP建模分析种子产品的产品标题信息,确定核心关键词及其向量,并通过产品标题信息与产品ID等信息,分析得出产品向量,同时以向量余弦积作为关键词与产品之间相似度衡量方式,进而得出核心关键词及其TopK相似产品集;
其中,NLP建模过程包括:通过对种子产品的产品标题信息的文本数据加载、停止词、敏感词等预加载,使用效优分词算法(如jieba)、浅层简单神经网络算法(如word2vec)等多种算法得出关键词,同时结合业务需求和业务字典,过滤非核心关键词,并对核心关键词进行效果校验、多抽样分析,最终得出核心关键词向量和产品向量;另外,为得出所需的核心关键词及其TOPN相似产品集,采用余弦相似度进行协同推荐。
通过订单、产品文本库、用户属性、产品属性等信息得出用户与产品的关联性特征或指标数据;
通过核心关键词及其TopK相似产品集,结合用户与产品的关联性特征或指标数据,若确定需要联合实施例2中的人找人推荐方式,则进入融合推荐,直至流程结束,否则为独立推荐。其中,可直接根据产品营销活动情况(如折扣、促销等)、所需种子人群规模等需求指标,进一步筛选出符合需求的种子用户对应人群包,以进行后续POC(验证性测试)、产品化等一系列运营。
另外,通过抽取或统计订单、产品属性、用户属性等不同维度的指标数据,并随机抽样以校验指标数据的准确性,保证数据精度的同时保证了最终的潜在用户的预测质量。同时,根据PCA(主成分分析)等算法,剔除杂质指标,以及分析前述NLP建模过程的合理性,以保证结果输出的安全可靠。
结合各个指标数据,抽样验证排序的合理性,以验证排序与业务需求目标的一致,降低误差或损失。同时,根据前述核心关键词先关联至种子产品,再关联至与种子产品对应的用户,结合需求目标和业务实际情况,推荐出合理的潜在用户的人群包。
需要说明的是,本实施例的潜在用户的预测方式已应用在实际的电商平台中,且针对不同的实际业务需求,都能进行高精度、合理的预测对应的潜在用户,达到高质量的信息投放效果。
在一可实施的方案中,目标用户获取模3块包括:
业务需求信息获取单元,用于获取业务需求信息;
用户筛选单元,用于基于业务需求信息对每组第一潜在用户进行筛选处理得到对应的第二潜在用户;
目标用户获取单元,用于对每组第二潜在用户进行合并,得到目标潜在用户。
在一可实施的方案中,预测系统还包括:
用户关联信息获取模块7,用于获取每组第二潜在用户的用户关联信息;
信息评估模块,用于对用户关联信息进行评估处理,得到评估结果,并在评估结果满足预设合并条件时,则调用目标用户获取单元。
采用预设评估方式(如ROI评估)对每组的第二潜在用户的用户特征信息进行预估处理,在评估结果满足评估要求时则确定执行合并操作;否则,认为当前预测的潜客人群没有投放意义,不执行后续合并操作。
结合上述内容本实施例中达到的技术效果:
(1)在挖掘潜客的数据来源上结合了多个平台、品牌私域数据结合的方式,而不仅局限于单一平台数据来源,提升了预测模型的预测准确性的上限。
(2)采用了多条链路综合推荐的方式,将用户特征属性和产品特征属性输入不同的模型,针对数据的不同种类,分别进行了建模、训练和推断;具体地,在利用已经购买过指定产品的用户特征挖掘潜在用户的链路中,采用了多时序多维度数据采集、多模型融合训练、多轮次建模的方式,有效地提高了挖掘新客即潜在用户的准确率;在利用种子产品挖掘潜在用户的链路中,基于库内产品的专业词库并构建对应的多个向量库,并利用了多个向量库进行融合推荐;人圈人的潜客推荐方式与货圈人的潜客推荐方式分别独立推荐,也可以根据联合推荐;联合推荐是可达到进一步地提高潜在用户的挖掘准确率的效果。
(3)数据源不仅包括用户特征,还包括产品特征,在将用户特征和对应的推荐产品进行链接的时候,有更高的对应准确性,提高了最终预测结果的精度;
其中,本实施例的结合多链路的潜客挖掘方法,从人群、商品、渠道的维度深度挖掘,可明显解决数据稀疏以及数据质量带来的潜客数量和质量问题;同时,支持用户多渠道映射,保证用户和渠道的最优映射,从全局优化投放的精准度。此外,还包含了种子人群的共性检测以及目标人群的解释功能,以保证输入人群质量和输出人群的可信度。
(4)该多条链路综合推荐的方式中,拓展了更多的挖掘用户的链路,提高最终能得到的潜在用户的数量;
在分析用户的相关属性上运用了多个模型进行融合训练,预测潜在用户时也从不同的模型中进行选取和去重,提高了得到的潜在用户的数量,达到尽可能较广范围的信息投放的目的。
(5)该多条链路综合推荐的方式,在老客和产品的关联性上进行了产品向量库的计算,提升了老客和产品的关联性;在新客和老客的相似度上,不仅运用了矩阵相似度,还结合了深度学习和机器学习的模型,使得预测结果更具有普遍性和鲁棒性。
(6)将NLP技术应用到货圈人的推荐方式中,将NLP技术和推荐技术有效结合,有效简化了预测过程的处理逻辑,没有去深究产品属性和用户属性的复杂关系,而是去冗返简,直接明了地使用文本数据,通过文本数据的向量化,将产品和用户都映射到向量化的矩阵中;通过向量化的方式,每一个产品和用户都可以用一组向量来表达,在向量矩阵中计算产品相似度,用户与产品契合度,简单高效减少了研发投入成本,且保证了最终对潜在用户预测的精度和效率。
实施例5
图8为本发明实施例5提供的一种电子设备的结构示意图。电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现实施例1或2中的潜在用户的预测方法。图8显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,电子设备30可以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(RAM)321和/或高速缓存存储器322,还可以进一步包括只读存储器(ROM)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1或2中的潜在用户的预测方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例6
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,程序被处理器执行时实现实施例1或2中的潜在用户的预测方法中的步骤。
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行实现实施例1或2中的潜在用户的预测方法中的步骤。
其中,可以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
Claims (13)
1.一种潜在用户的预测方法,其特征在于,应用在电商平台中,所述预测方法包括:
获取若干样本数据;
其中,所述样本数据对应种子对象的对象特征关联信息,所述种子对象包括种子用户和/或种子产品;
基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;
根据每组所述第一潜在用户获取目标潜在用户。
2.如权利要求1所述的潜在用户的预测方法,其特征在于,所述根据每组所述第一潜在用户获取目标潜在用户的步骤包括:
获取业务需求信息;
基于所述业务需求信息对每组所述第一潜在用户进行筛选处理得到对应的第二潜在用户;
对每组所述第二潜在用户进行合并,得到所述目标潜在用户。
3.如权利要求2所述的潜在用户的预测方法,其特征在于,所述对每组所述第二潜在用户进行合并,得到所述目标潜在用户的步骤之前还包括:
获取每组所述第二潜在用户的用户关联信息;
对所述用户关联信息进行评估处理,得到评估结果;
在所述评估结果满足预设合并条件时,则执行所述对每组所述第二潜在用户进行合并,得到所述目标潜在用户的步骤。
4.如权利要求1所述的潜在用户的预测方法,其特征在于,在所述种子对象为所述种子用户时,所述获取若干样本数据的步骤之前包括:
选取若干满足预设购买行为的用户形成初始潜客池;
判断若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将所述初始潜客池作为所述预设潜客池。
5.如权利要求4所述的潜在用户的预测方法,其特征在于,在确定所述预设潜客池之后,所述获取若干样本数据的步骤包括:
基于业务需求信息,从所述预设潜客池中获取与所述业务需求信息对应的历史订单信息,并基于所述历史订单信息获取所述种子用户和所述种子用户的用户特征关联信息,以作为所述样本数据;
或,
在所述预设潜客池中不存在与所述业务需求信息对应的历史订单信息时,则获取外部输入数据,并从所述外部输入数据获取所述种子用户的和所述种子用户的用户特征关联信息,以作为所述样本数据。
6.如权利要求1-5中任一项所述的潜在用户的预测方法,其特征在于,在所述种子对象为所述种子用户时,所述基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户的步骤包括:
基于所述种子用户的用户特征关联信息和决策树算法训练得到潜在用户预测模型;
根据所述潜在用户预测模型输出的预测概率值,选取所述预设潜客池中所述预测概率值大于第一设定阈值的用户作为所述第一潜在用户;
或,
获取所述种子用户的用户特征关联信息的第一用户向量,以及所述预设潜客池中的用户的用户特征信息的第二用户向量;
计算得到所述第一用户向量与所述第二用户向量的第一向量相似度,选取所述预设潜客池中所述第一向量相似度大于第二设定阈值的用户作为所述第一潜在用户;
或,
分别获取所述种子用户已购买产品的第一历史产品信息,以及所述预设潜客池中的用户已购买产品的第二历史产品信息;
基于所述第一历史产品信息和所述第二历史产品信息,确定对所述种子用户的影响程度大于第三设定阈值的关键词;
将所述预设潜客池中所述关键词对应的用户作为所述第一潜在用户;
或,
基于所述用户特征关联信息和有向图网络,确定所述种子用户与所述预设潜客池中的用户之间的用户相似度,选取所述预设潜客池中所述用户相似度大于第四设定阈值的用户作为所述第一潜在用户;
或,
获取所述种子用户的第一历史交易信息,并基于所述第一历史产品信息确定对应的第一社交属性信息;
获取所述预设潜客池中的用户的第二历史交易信息,并基于所述第二历史产品信息确定对应的第二社交属性信息;
计算得到所述第一社交属性信息与所述第二社交属性信息的社交属性相似度,选取所述社交属性相似度大于第五设定阈值的用户作为所述第一潜在用户。
7.如权利要求1-5中任一项所述的潜在用户的预测方法,其特征在于,在所述种子对象为所述种子产品时,所述基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户的步骤包括:
获取所述种子产品的产品特征关联信息;
对所述产品特征关联信息进行文本分析处理,获取分析结果;
基于所述分析结果构建对应的目标向量库;
其中,所述目标向量库对应与每个所述种子产品对应的第一词向量库和产品向量库;
获取所述预设潜客池中的用户已购买产品的第二历史产品信息;
基于所述目标向量库,确定所述种子产品对应的所述第一词向量与所述第二历史产品信息的第二词向量之间的词向量相似度;
将所述词向量相似度大于第六设定阈值的产品对应的所述预设潜客池中的用户作为所述第一潜在用户。
8.如权利要求7所述的潜在用户的预测方法,其特征在于,所述对所述产品特征关联信息进行文本分析处理,获取分析结果的步骤之后、所述基于所述分析结果构建对应的目标向量库的步骤之前还包括:
采用预设检测算法,判断所述分析结果是否满足预设合理性要求,若是,则执行所述基于所述分析结果构建对应的目标向量库的步骤;
和/或,
所述对所述产品特征关联信息进行文本分析处理,获取分析结果的步骤包括:
基于NLP文本分析技术对所述产品特征关联信息进行文本分析处理,获取所述分析结果。
9.如权利要求4所述的潜在用户的预测方法,其特征在于,所述判断所述若干满足预设购买行为的用户的用户特征信息之间是否满足预设人群共性检测条件,若满足,则将所述初始潜客池作为所述预设潜客池的步骤包括:
计算得到所述样本数据中的正样本和负样本之间的设定指标的差异值;
当所述差异值小于第七设定阈值时,则确定所述用户特征信息之间满足具有共性;否则,生成提示信息。
10.如权利要求9所述的潜在用户的预测方法,其特征在于,所述差异值对应均值、方差、缺失率、分位数、比例差值和模型指标值中的至少一种。
11.一种潜在用户的预测系统,其特征在于,应用在电商平台中,所述预测系统包括:
样本数据获取模块,用于获取若干样本数据;
其中,所述样本数据对应种子对象的对象特征关联信息,所述种子对象包括种子用户和/或种子产品;
第一潜在用户获取模块,用于基于所述样本数据,构建设定数量的潜在用户预测模型,以分别输出预设潜客池中对应的第一潜在用户;
目标用户获取模块,用于根据每组所述第一潜在用户获取目标潜在用户。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的潜在用户的预测方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的潜在用户的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210594608.6A CN114997916A (zh) | 2022-05-27 | 2022-05-27 | 潜在用户的预测方法、系统、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210594608.6A CN114997916A (zh) | 2022-05-27 | 2022-05-27 | 潜在用户的预测方法、系统、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114997916A true CN114997916A (zh) | 2022-09-02 |
Family
ID=83028693
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210594608.6A Pending CN114997916A (zh) | 2022-05-27 | 2022-05-27 | 潜在用户的预测方法、系统、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114997916A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357802A (zh) * | 2022-10-19 | 2022-11-18 | 山东省商业集团有限公司 | 一种多业态企业潜在客户识别方法 |
CN116485560A (zh) * | 2023-06-21 | 2023-07-25 | 杭州大鱼网络科技有限公司 | 一种基于反馈机制的目标用户筛选方法及系统 |
-
2022
- 2022-05-27 CN CN202210594608.6A patent/CN114997916A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115357802A (zh) * | 2022-10-19 | 2022-11-18 | 山东省商业集团有限公司 | 一种多业态企业潜在客户识别方法 |
CN116485560A (zh) * | 2023-06-21 | 2023-07-25 | 杭州大鱼网络科技有限公司 | 一种基于反馈机制的目标用户筛选方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7930242B2 (en) | Methods and systems for multi-credit reporting agency data modeling | |
AU2022204241A1 (en) | Machine learning classification and prediction system | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
Wu et al. | User value identification based on improved RFM model and k-means++ algorithm for complex data analysis | |
CN114997916A (zh) | 潜在用户的预测方法、系统、电子设备和存储介质 | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
US20190325524A1 (en) | Techniques for accurate evaluation of a financial portfolio | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN116757779A (zh) | 一种基于用户画像的推荐方法 | |
CN115080868A (zh) | 产品推送方法、装置、计算机设备、存储介质和程序产品 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
AL-Bakri et al. | Multi label restaurant classification using support vector machine | |
Agustyaningrum et al. | Online shopper intention analysis using conventional machine learning and deep neural network classification algorithm | |
CN112991026A (zh) | 一种商品推荐方法、系统、设备及计算机可读存储介质 | |
Jeyaraman et al. | Practical Machine Learning with R: Define, build, and evaluate machine learning models for real-world applications | |
Nagaraju et al. | Methodologies used for customer churn detection in customer relationship management | |
CN116151857A (zh) | 一种营销模型的构建方法及装置 | |
CN115619571A (zh) | 一种理财规划方法、系统及装置 | |
CN112328899B (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN115063143A (zh) | 账户数据处理方法、装置、计算机设备和存储介质 | |
CN111667307B (zh) | 一种理财产品销量的预测方法及装置 | |
Thompson | Data mining methods and the rise of big data | |
CN111400567B (zh) | 一种基于ai的用户数据的处理方法、装置及系统 | |
Liu et al. | A machine learning approach to predict customer churn of a delivery platform | |
CN112950392A (zh) | 信息展示方法、后验信息确定方法及装置及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |