CN113704599A - 营销转化用户的预测方法、装置及计算机设备 - Google Patents
营销转化用户的预测方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN113704599A CN113704599A CN202110797564.2A CN202110797564A CN113704599A CN 113704599 A CN113704599 A CN 113704599A CN 202110797564 A CN202110797564 A CN 202110797564A CN 113704599 A CN113704599 A CN 113704599A
- Authority
- CN
- China
- Prior art keywords
- user
- machine learning
- marketing
- data
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000006399 behavior Effects 0.000 claims abstract description 94
- 238000010801 machine learning Methods 0.000 claims abstract description 92
- 238000013145 classification model Methods 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 67
- 230000009466 transformation Effects 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000000546 chi-square test Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007689 inspection Methods 0.000 claims description 6
- 238000010200 validation analysis Methods 0.000 claims 3
- 238000002790 cross-validation Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000004458 analytical method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003203 everyday effect Effects 0.000 description 3
- 230000004043 responsiveness Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 1
- 239000008476 aike Substances 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种营销转化用户的预测方法、装置及计算机设备,涉及数据分析领域,可以解决传统营销转化用户的预测方式不能挖掘人群隐式的信息,且计算复杂、时效性差,导致营销转化人群的识别精度较低的技术问题。其中方法包括:利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使机器学习分类模型符合预设训练标准;获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据;根据第二用户画像数据和/或第二用户行为数据确定目标特征向量;将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测结果。本申请适用于对营销转化用户的预测。
Description
技术领域
本申请涉及数据分析领域,尤其涉及到一种营销转化用户的预测方法、装置及计算机设备。
背景技术
在移动互联网时代,随着电子商务企业的服务和产品日渐丰富,精细化营销与个性化服务成为了企业重要竞争力。如今的电子商务早已步入了大数据时代,每天都会产生大量客户访问行为数据和消费记录,日积月累,各个来源的客户数据不再只是孤岛数据,通过用户规则多源联合,可将电脑端的网站用户形象化的描述出来,形成了人物原型,帮助企业充分了解用户,及时掌握其当前状态、行为偏好和潜在需求等信息,对企业整体业务发展尤为重要。
传统的营销往往通过依靠标签为客户圈定特定人群,进而通过相似度对种子用户进行扩量,然而传统的营销方式不能挖掘人群隐式的信息,且计算复杂、时效性差,导致营销转化人群的预测精度较低。
发明内容
有鉴于此,本申请提供了一种营销转化用户的预测方法、装置及计算机设备,可用于解决传统的营销方式不能挖掘人群隐式的信息,且计算复杂、时效性差,导致营销转化人群的识别精度较低的技术问题。
根据本申请的一个方面,提供了一种营销转化用户的预测方法,该方法包括:
利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使所述机器学习分类模型符合预设训练标准;
获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据;
根据所述第二用户画像数据和/或所述第二用户行为数据确定目标特征向量;
将所述目标特征向量输入训练完成的机器学习分类模型中,获取所述目标用户在第二预设时间段内被转化为营销用户的预测结果。
根据本申请的另一个方面,提供了一种营销转化用户的预测装置,该装置包括:
训练模块,用于利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使所述机器学习分类模型符合预设训练标准;
获取模块,用于获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据;
确定模块,用于根据所述第二用户画像数据和/或所述第二用户行为数据确定目标特征向量;
输入模块,用于将所述目标特征向量输入训练完成的机器学习分类模型中,获取所述目标用户在第二预设时间段内被转化为营销用户的预测结果。
根据本申请的又一个方面,提供了一种非易失性可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述营销转化用户的预测方法。
根据本申请的再一个方面,提供了一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述营销转化用户的预测方法。
借由上述技术方案,本申请提供的一种营销转化用户的预测方法、装置及计算机设备,与目前营销用户的预测方式相比,本申请可首先根据种子用户(即已被成功转化的营销用户)的第一用户画像数据和/或第一用户行为数据,并通过多路召回策略以及卡方检验算法训练机器学习分类模型;在机器学习分类模型训练完成后,可应用于营销转化用户的预测,具体可获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据,进而根据第二用户画像数据和/或第二用户行为数据确定目标特征向量;最终将目标特征向量输入训练完成的机器学习分类模型中,即可获取到目标用户在第二预设时间段内被转化为营销用户的预测结果。通过本申请中的技术方案,可从用户画像和行为对应的多个数据维度进行分析,并采用多路召回以及卡方检验的方式,实现对模型训练特征的筛选,解决机器学习分类模型计算量过大,以及规则、圈定标签过于精准而导致忽略人群的隐式信息、营销输出人群不足的问题,进而可提高营销转化人群的预测精度。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种营销转化用户的预测方法的流程示意图;
图2示出了本申请实施例提供的另一种营销转化用户的预测方法的流程示意图;
图3示出了本申请实施例提供的一种营销转化用户的预测装置的结构示意图;
图4示出了本申请实施例提供的另一种营销转化用户的预测装置的结构示意图。
具体实施方式
下文将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合。
为了解决传统的营销方式不能挖掘人群隐式的信息,且计算复杂、时效性差,导致营销转化人群的识别精度较低的技术问题,本申请实施例提供了一种营销转化用户的预测方法,如图1所示,该方法包括:
101、利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使机器学习分类模型符合预设训练标准。
其中,种子用户是指被营销后有购买产品、安装APP等行为的人群,具体可指具体营销场景下被成功转化的用户;第一用户画像数据具体可为种子用户从用户画像标签系统中匹配的标签属性数据,如可包括基础属性、社会属性、兴趣偏好、APP偏好等;第一用户行为数据具体可为文本形式,可包括用户浏览店铺商品详情的次数、用户的订单数、用户的下单类型等;机器学习分类模型具体可为选择随机森林模型、神经网络、SVM、逻辑回归模型和决策树等;预设训练标准是指机器学习分类模型的分类识别精度大于预设阈值,预设阈值可为0~1之间的数值,具体数值可根据实际应用场景进行设定,当分类识别精度越接近于1,表示机器学习分类模型的分类识别精度越高。
对于本申请的执行主体可为用于对营销用户进行筛选定位的分析系统,在分析系统中,可配置有利用种子用户的用户画像数据和/或用户行为数据训练得到的机器学习分类模型,利用机器学习模型可实现对随机用户的营销转化率预测。
102、获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据。
其中,目标用户为待进行营销转化率预测的用户,例如可为随机用户,还可为待营销客户;第一预设时间段可以是一系列时间段,例如为1、3、7、30天等;第二用户画像数据是指目标用户在用户画像标签系统中匹配的重要数据维度下的标签属性数据,如可包括基础属性、社会属性、兴趣偏好、APP偏好等;第二用户行为数据具体可为文本形式,如可包括用户浏览店铺商品详情的次数、用户的订单数、用户的下单类型等。
对于本实施例,在具体的应用场景中,鉴于在利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型时,在训练过程中,会根据多路召回策略以及卡方检验算法在众多维度数据下筛选出预设数量个对客户转化率相关性较大的用户特征维度,故在本实施例中,在确定目标用户的第二用户画像数据和/或第二用户行为数据时,可直接提取对客户转化率相关性较大的用户特征维度下的用户数据。
103、根据第二用户画像数据和/或第二用户行为数据确定目标特征向量。
对于本实施例,在提取出第二用户画像数据和/或第二用户行为数据后,可将第二用户画像数据中的画像标签确定为用户画像特征,在文本形式下的第二用户行为数据中,可基于TF-IDF算法提取预设数量个词频较高的关键词,进而将关键词确定为用户行为特征。在基于第二用户画像数据和/或第二用户行为数据确定目标特征向量时,作为一种可选方式,可直接利用用户画像特征确定目标特征向量;作为另一种可选方式,还可直接利用用户行为特征确定目标特征向量;作为又一种可选方式,还可将用户画像特征和用户行为特征按照用户标识进行匹配汇总;之后对特征数据进行向量转化处理,即可得到目标特征向量。
其中,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类,TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse Document Frequency)。
对于本实施例,在文本形式下的第二用户行为数据中,基于TF-IDF算法提取预设数量个词频较高的关键词,进而将关键词确定为用户行为特征时,具体一词语切分,得到第一词序列;根据第一词语的目标词性确定与预设停用词可以包括:对文本形式下的第二用户行为数据进行第性匹配的第二词语,以便从第一词序列中剔除第二词语,得到第二词序列;根据词频计算公式计算第二词序列中第一词语的词频;按照词频从词序列中筛选出预设数量个词频较高的第一词语,利用第一词语表征用户行为特征。
具体的,可利用现有的切词工具(如CRF分词器)对输入文本进行词语切分,得到各个独立的第一词语以及分词后的第一词序列,其中,每个第一词语标记有对应的目标词性,各个第一词语作为词序列中的元素,按照在输入文本中的出现位置依次排列,进一步得到第一词序列,其中,对应第一词序列的格式为:[词1,词2,词3,…词N]。相应的,作为一种优选方式,为了提高特征信息提取的效率,在利用上述方法获取得到标记好目标词性的第一词语后,还可进一步对第一词语进行识别,剔除第一词序列中存在的一些停用词性,进一步得到仅包含有效第一词语的第二词序列。其中,预设停用词性可为语气助词、副词、介词、连接词等,这些预设停用词性通常自身并无什么明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“哎”,“哎哟”,“别的”,“结果”,“让”,“不过”等。由于这些词很少单独表达文档相关程度的信息,且这些功能词对于话题区分基本没有什么帮助,故为了提高话题抽取的效率和节省存储空间,可事先过滤掉这些没有意义的词。具体可基于现有的停用词词表来实现对停用词的识别与滤除,比如“百度停用词表”、“哈工大停用词表”等。
104、将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测结果。
其中,第二预设时间段可以是未来一系列时间段,例如为1、3、7、30天等,第二预设时间段与第一预设时间段并无相互限制,对于本实施例,确定的是随机用户或待营销用户在未来1、3、7、15、30内转化为营销用户的转化概率,具体的时间段根据训练的样本数据确定。例如,训练样本为30天的用户画像数据及用户行为数据,已确定的营销用户转化结果为未来7天内的转化结果,则获取的第一预设时间段数据为过去30天的数据,预测的第二时间段的概率相应为未来7天的概率。另外,第一预设时间段和第二预设时间段可以为多个,例如,获取过去30天的数据,分别预测目标用户未来7天和未来15天的转化概率,或者获取过去15天、30天的数据,分别预测目标用户未来7天的转化概率。
对于本实施例,在提取出目标特征向量后,可直接将目标特征向量输入训练完成的机器学习分类模型中,即可获取得到目标用户在第二预设时间段内被转化为营销用户的预测概率,进而可根据预测概率确定目标用户能否被成功转化的预测结果。
通过本实施例中营销转化用户的预测方法,可首先根据种子用户(即已被成功转化的营销用户)的第一用户画像数据和/或第一用户行为数据,并通过多路召回策略以及卡方检验算法训练机器学习分类模型;在机器学习分类模型训练完成后,可应用于营销转化用户的预测,具体可获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据,进而根据第二用户画像数据和/或第二用户行为数据确定目标特征向量;最终将目标特征向量输入训练完成的机器学习分类模型中,即可获取到目标用户在第二预设时间段内被转化为营销用户的预测结果。通过本申请中的技术方案,可从用户画像和行为对应的多个数据维度进行分析,并采用多路召回以及卡方检验的方式,实现对模型训练特征的筛选,解决机器学习分类模型计算量过大,以及规则、圈定标签过于精准而导致忽略人群的隐式信息、营销输出人群不足的问题,进而可提高营销转化人群的预测精度。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例中的具体实施过程,提供了另一种营销转化用户的预测方法,如图2所示,该方法包括:
201、确定在第一预设时间段内被营销转化成功的种子用户,并提取种子用户的第一用户画像数据和/或第一用户行为数据。
对于本实施例,鉴于第一预设时间段内被营销转化成功的种子用户可能存在多个,故在提取种子用户的第一用户画像数据和/或第一用户行为数据时,可对不同种子用户的用户画像和行为进行统一分析,找出该类型人群在不同维度的特点,从而确定召回策略。具体可采用多路召回的方式,使每一路召回采取一个不同的简单策略(比如:相同地域、相同兴趣topic等)。
其中,第一用户画像数据具体可包括种子用户在第一预设时间段内所反映的画像特征数据,第一用户行为数据具体可种子用户在第一预设时间段(如在前30)内的商详曝光次数(即用户浏览店铺商品详情的次数)、成功交付的订单数、成功交付的订单类型等。
202、通过多路召回策略以及卡方检验算法,在第一用户画像数据和/或第一用户行为数据中提取出预设数量个第一用户特征。
对于本实施例,鉴于第一用户画像数据和/或第一用户行为数据中涵盖较多数据维度,对于一些数据维度可能对营销转化预测不具有相关性,故在本申请中,可首先通过多路召回策略确定各个数据维度下的正样本和负样本,进而根据卡方检验算法以及正样本、负样本计算各个数据维度对营销用户转化的响应度大小,以便基于响应度大小在第一用户画像数据和/或第一用户行为数据中滤除不具有相关性的数据维度,并提取对营销用户转化响应度较大的数据维度下的用户特征,作为机器学习分类模型的训练数据,可解决模型计算量过大的问题。其中,正样本是指种子用户,在营销场景下一般为被成功转化人群,如被营销后有购买产品、安装APP等行为的人群;负样本是指基于相同召回策略的随机样本或者输出但未被成功转化的人群。
相应的,实施例步骤202具体可以包括:确定第一用户画像数据和/或第一用户行为数据中的第一指标维度特征;基于各个第一指标维度特征对应的预设召回策略,筛选各个第一指标维度特征对应的正样本以及负样本;根据卡方检验算法,并利用第一指标维度特征对应的正样本以及负样本确定各个第一指标维度特征对营销用户转化的影响度分值;依据影响度分值在第一指标维度特征中筛选出预设数量个第二指标维度特征,第二指标维度特征即对应第一用户特征。
其中,在确定第一用户画像数据和/或第一用户行为数据中的第一指标维度特征,以便利用第一指标维度特征对应的正样本以及负样本确定各个第一指标维度特征对营销用户转化的影响度分值时,具体可采用三种可选方案,作为一种可选方式,可直接在第一用户画像数据中提取第一指标维度特征;作为另一种可选方式,还可直接在第一用户行为数据中提取第一指标维度特征;作为又一种可选方式,还可将第一用户画像数据和第一用户行为数据按照用户标识进行匹配汇总,进而在汇总结果中提取第一指标维度特征。对于本实施例,可优选第三种可选方式,通过结合用户的标签属性和行为属性,实现对用户特征的提取,以便挖掘他们之间的隐式特性并进行精准营销。
对于本实施例,在确定出各个第一指标维度特征后,可针对各个第一指标维度特征均进行卡方检验,以便进行特征重要性排序,选择出预设数量个重要性较高的特征。其中,卡方检验最基本的思想就是通过观察实际值与理论值的偏差来确定理论的正确与否。具体做的时候常常先假设两个变量确实是独立的(“原假设”),然后观察实际值(也可以叫做观察值)与理论值(这个理论值是指“如果两者确实独立”的情况下应该有的值)的偏差程度,如果偏差足够小,就可认为误差是很自然的样本误差,是测量手段不够精确导致或者偶然发生的,两者确确实实是独立的,此时就接受原假设;如果偏差大到一定程度,使得这样的误差不太可能是偶然产生或者测量不精确所致,则可认为两者实际上是相关的,即否定原假设,而接受备择假设。
卡方检验算法的具体公式特征描述为:
式中,χ2为卡方检验结果,对应实际值与理论值的偏差程度;A为观测频数(观察值);E为期望频数;k为观察值的个数。在本申请中,可将种子用户作为正样本、相同召回策略的随机用户(或营销后未转化用户)作为负样本,执行上述卡方检验过程,进一步依据卡方检验结果确定各个第一指标维度特征对营销用户转化的影响度分值。
203、利用第一用户特征对应的第一特征向量训练机器学习分类模型,以使机器学习符合预设训练标准。
基于实施例步骤202,本实施例具体可以包括:利用第二指标维度特征对应的第一特征向量训练机器学习分类模型,以使机器学习符合预设训练标准。
需要说明是,正样本和负样本,可分别包括训练集样本和验证集样本,在进行机器学习分类模型训练时,可利用训练集样本训练机器学习分类模型;利用验证集样本对机器学习分类模型进行交叉验证,根据验证结果调整机器学习分类模型的第一模型超参数,以使机器学习分类模型符合预设训练标准,其中,第一模型超参数至少包括:第一用户特征维度、第一正则项系数、第一混合参数。
204、提取目标用户在第一预设时间段内与第二指标维度特征匹配的第二用户画像数据和/或第二用户行为数据。
对于本实施例,在具体的应用场景中,依据影响度分值在第一指标维度特征中筛选出预设数量个重要性较高的第二指标维度特征后,在对目标用户进行营销用户的转化率预测时,可直接提取与第二指标维度特征匹配的第二用户画像数据和/或第二用户行为数据,以便基于第二用户画像数据和/或第二用户行为数据实现特征分析。
205、将第二用户画像数据和/或第二用户行为数据进行向量转化,得到目标特征向量。
对于本实施例,在获取到第二用户画像数据和/或第二用户行为数据后,可进一步对第二用户画像数据和/或第二用户行为数据对应的画像特征和行为特征进行特征转化,具体可对字符串型特征进行处理转化为指数型特征,最终将所有特征转化为单列向量列。
206、将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测结果。
对于本实施例,在提取出目标特征向量后,可直接将目标特征向量输入训练完成的机器学习分类模型中,即可获取得到目标用户在第二预设时间段内被转化为营销用户的预测概率,进而可根据预测概率确定目标用户能否被成功转化的预测结果。相应的,实施例步骤206具体可以包括:将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测概率;判断预测概率是否大于预设阈值;若是,则确定目标用户为高转化人群;若否,则确定目标用户为低转化人群。
作为一种优选方式,在具体的应用场景中,可通过回收转化人群实现对机器学习分类模型的优化调整,相应的,实施例步骤具体可以包括:以第三预设时间段为间隔周期,提取最新被转化为营销用户的第三用户画像数据和/或第三用户行为数据;通过多路召回策略以及卡方检验算法,在第三用户画像数据和/或第三用户行为数据中提取出预设数量个第二用户特征;计算第二用户特征与第一用户特征的特征相似度;若特征相似度小于预设相似度阈值,则利用第二用户特征对应的第二特征向量训练机器学习分类模型,将机器学习分类模型的第一模型超参数更新为第二模型超参数,第二模型超参数至少包括:第二用户特征维度、第二正则项系数、第二混合参数。
其中,第三预设时间段大于或等于第二预设时间段,第三用户画像数据和/或第三用户行为数据用来对模型超参数进行更新,在模型的具体应用中,根据业务需求,可每日都进行预测决策,本实施例进行预测的目标用户为过去三十天(第一预设时间段)内有活跃记录的用户。每隔第三预设时间段,如30天(即每月进行),从最近的每日预测的样本中选取有预测结果的部分样本,作为训练集和验证集,对机器学习分类模型再次进行训练和验证,并进行模型超参数的调整。调整后的模型超参数为机器学习分类模型在后续的营销转化识别中使用,例如,每天都进行营销转化用户的预测,获取的是过去30天(第一预设时间段)的数据,预测的是未来15天(第二预设时间段)的概率,需等待预测结果出来后,进行模型超参数的更新,因此第三预设时间段需大于等于第二时间段。优选每个月根据最近有预测结果的用户数据,调整模型超参数,用新的模型超参数进行营销转化用户的概率预测,从而能够根据预测过程中使用场景的实时变化,调整预测模型,保证模型的实时可靠性。
借由上述营销转化用户的预测方法,可首先根据种子用户(即已被成功转化的营销用户)的第一用户画像数据和/或第一用户行为数据,并通过多路召回策略以及卡方检验算法训练机器学习分类模型;在机器学习分类模型训练完成后,可应用于营销转化用户的预测,具体可获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据,进而根据第二用户画像数据和/或第二用户行为数据确定目标特征向量;最终将目标特征向量输入训练完成的机器学习分类模型中,即可获取到目标用户在第二预设时间段内被转化为营销用户的预测结果。通过本申请中的技术方案,可从用户画像和行为对应的多个数据维度进行分析,并采用多路召回以及卡方检验的方式,实现对模型训练特征的筛选,解决机器学习分类模型计算量过大,以及规则、圈定标签过于精准而导致忽略人群的隐式信息、营销输出人群不足的问题,进而可提高营销转化人群的预测精度。
进一步的,作为图1和图2所示方法的具体实现,本申请实施例提供了一种营销转化用户的预测装置,如图3所示,该装置包括:训练模块31、获取模块32、确定模块33、输入模块34;
训练模块31,用于利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使机器学习分类模型符合预设训练标准;
获取模块32,用于获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据;
确定模块33,用于根据第二用户画像数据和/或第二用户行为数据确定目标特征向量;
输入模块34,用于将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测结果。
在具体的应用场景中,训练模块31,具体可用于确定在第一预设时间段内被营销转化成功的种子用户,并提取种子用户的第一用户画像数据和/或第一用户行为数据;通过多路召回策略以及卡方检验算法,在第一用户画像数据和/或第一用户行为数据中提取出预设数量个第一用户特征;利用第一用户特征对应的第一特征向量训练机器学习分类模型,以使机器学习符合预设训练标准。
相应的,通过多路召回策略以及卡方检验算法,在第一用户画像数据和/或第一用户行为数据中提取出预设数量个第一用户特征时,训练模块31,具体可用于确定第一用户画像数据和/或第一用户行为数据中的第一指标维度特征;基于各个第一指标维度特征对应的预设召回策略,筛选各个第一指标维度特征对应的正样本以及负样本;根据卡方检验算法,并利用第一指标维度特征对应的正样本以及负样本确定各个第一指标维度特征对营销用户转化的影响度分值;依据影响度分值在第一指标维度特征中筛选出预设数量个第二指标维度特征。
在具体的应用场景中,在利用第一用户特征对应的第一特征向量训练机器学习分类模型,以使机器学习符合预设训练标准时,训练模块31,具体可用于利用第二指标维度特征对应的第一特征向量训练机器学习分类模型,以使机器学习符合预设训练标准。
相应的,在获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据时,获取模块32,具体可用于提取目标用户在第一预设时间段内与第二指标维度特征匹配的第二用户画像数据和/或第二用户行为数据;
在具体的应用场景中,在根据第二用户画像数据和/或第二用户行为数据确定目标特征向量时,确定模块33,具体可用于将第二用户画像数据和/或第二用户行为数据进行向量转化,得到目标特征向量。
相应的,在将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测结果时,输入模块34,具体可用于将目标特征向量输入训练完成的机器学习分类模型中,获取目标用户在第二预设时间段内被转化为营销用户的预测概率;判断预测概率是否大于预设阈值;若是,则确定目标用户为高转化人群;若否,则确定目标用户为低转化人群。
在具体的应用场景中,正样本和负样本,分别包括训练集样本和验证集样本,相应的,训练模块31,具体可用于利用训练集样本训练机器学习分类模型;利用验证集样本对机器学习分类模型进行交叉验证,根据验证结果调整机器学习分类模型的第一模型超参数,以使机器学习分类模型符合预设训练标准,第一模型超参数至少包括:第一用户特征维度、第一正则项系数、第一混合参数。
相应的,如图4所示,该装置还包括:第一提取模块35、第二提取模块36、计算模块37、更新模块38;
第一提取模块35,可用于以第三预设时间段为间隔周期,提取最新被转化为营销用户的第三用户画像数据和/或第三用户行为数据;
第二提取模块36,可用于通过多路召回策略以及卡方检验算法,在第三用户画像数据和/或第三用户行为数据中提取出预设数量个第二用户特征;
计算模块37,可用于计算第二用户特征与第一用户特征的特征相似度;
更新模块38,可用于若特征相似度小于预设相似度阈值,则利用第二用户特征对应的第二特征向量训练机器学习分类模型,将机器学习分类模型的第一模型超参数更新为第二模型超参数,第二模型超参数至少包括:第二用户特征维度、第二正则项系数、第二混合参数。
需要说明的是,本实施例提供的一种营销转化用户的预测装置所涉及各功能单元的其他相应描述,可以参考图1至图2的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种非易失性存储介质,其上存储有计算机可读指令,该可读指令被处理器执行时实现上述如图1至图2所示的营销转化用户的预测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法和图3、图4所示的虚拟装置实施例,为了实现上述目的,本实施例还提供了一种计算机设备,该计算机设备包括存储介质和处理器;非易失性存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的营销转化用户的预测方法。
可选的,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
非易失性存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现非易失性存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。
通过应用本申请的技术方案,与目前现有技术相比,本申请可首先根据种子用户(即已被成功转化的营销用户)的第一用户画像数据和/或第一用户行为数据,并通过多路召回策略以及卡方检验算法训练机器学习分类模型;在机器学习分类模型训练完成后,可应用于营销转化用户的预测,具体可获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据,进而根据第二用户画像数据和/或第二用户行为数据确定目标特征向量;最终将目标特征向量输入训练完成的机器学习分类模型中,即可获取到目标用户在第二预设时间段内被转化为营销用户的预测结果。通过本申请中的技术方案,可从用户画像和行为对应的多个数据维度进行分析,并采用多路召回以及卡方检验的方式,实现对模型训练特征的筛选,解决机器学习分类模型计算量过大,以及规则、圈定标签过于精准而导致忽略人群的隐式信息、营销输出人群不足的问题,进而可提高营销转化人群的预测精度。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种营销转化用户的预测方法,其特征在于,包括:
利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使所述机器学习分类模型符合预设训练标准;
获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据;
根据所述第二用户画像数据和/或所述第二用户行为数据确定目标特征向量;
将所述目标特征向量输入训练完成的机器学习分类模型中,获取所述目标用户在第二预设时间段内被转化为营销用户的预测结果。
2.根据权利要求1所述的方法,其特征在于,所述利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使所述机器学习分类模型符合预设训练标准,具体包括:
确定在第一预设时间段内被营销转化成功的种子用户,并提取所述种子用户的第一用户画像数据和/或第一用户行为数据;
通过多路召回策略以及卡方检验算法,在所述第一用户画像数据和/或所述第一用户行为数据中提取出预设数量个第一用户特征;
利用所述第一用户特征对应的第一特征向量训练机器学习分类模型,以使所述机器学习符合预设训练标准。
3.根据权利要求2所述的方法,其特征在于,所述通过多路召回策略以及卡方检验算法,在所述第一用户画像数据和/或所述第一用户行为数据中提取出预设数量个第一用户特征,具体包括:
确定所述第一用户画像数据和/或所述第一用户行为数据中的第一指标维度特征;
基于各个所述第一指标维度特征对应的预设召回策略,筛选各个所述第一指标维度特征对应的正样本以及负样本;
根据卡方检验算法,并利用所述第一指标维度特征对应的正样本以及负样本确定各个所述第一指标维度特征对营销用户转化的影响度分值;
依据所述影响度分值在所述第一指标维度特征中筛选出预设数量个第二指标维度特征;
所述利用所述第一用户特征对应的第一特征向量训练机器学习分类模型,以使所述机器学习符合预设训练标准,具体包括:
利用所述第二指标维度特征对应的第一特征向量训练机器学习分类模型,以使所述机器学习符合预设训练标准。
4.根据权利要求3所述的方法,其特征在于,所述获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据,具体包括:
提取目标用户在第一预设时间段内与所述第二指标维度特征匹配的第二用户画像数据和/或第二用户行为数据;
所述根据所述第二用户画像数据和/或所述第二用户行为数据确定目标特征向量,具体包括:
将所述第二用户画像数据和/或第二用户行为数据进行向量转化,得到目标特征向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述目标特征向量输入训练完成的机器学习分类模型中,获取所述目标用户在第二预设时间段内被转化为营销用户的预测结果,具体包括:
将所述目标特征向量输入训练完成的机器学习分类模型中,获取所述目标用户在第二预设时间段内被转化为营销用户的预测概率;
判断所述预测概率是否大于预设阈值;
若是,则确定所述目标用户为高转化人群;
若否,则确定所述目标用户为低转化人群。
6.根据权利要求3所述的方法,其特征在于,所述正样本和所述负样本,分别包括训练集样本和验证集样本,所述方法还包括:
利用所述训练集样本训练机器学习分类模型;
利用所述验证集样本对所述机器学习分类模型进行交叉验证,根据验证结果调整所述机器学习分类模型的第一模型超参数,以使所述机器学习分类模型符合预设训练标准,所述第一模型超参数至少包括:第一用户特征维度、第一正则项系数、第一混合参数。
7.根据权利要求6所述的方法,其特征在于,还包括:
以第三预设时间段为间隔周期,提取最新被转化为营销用户的第三用户画像数据和/或第三用户行为数据;
通过多路召回策略以及卡方检验算法,在所述第三用户画像数据和/或第三用户行为数据中提取出预设数量个第二用户特征;
计算所述第二用户特征与所述第一用户特征的特征相似度;
若所述特征相似度小于预设相似度阈值,则利用所述第二用户特征对应的第二特征向量训练机器学习分类模型,将所述机器学习分类模型的第一模型超参数更新为第二模型超参数,所述第二模型超参数至少包括:第二用户特征维度、第二正则项系数、第二混合参数。
8.一种营销转化用户的预测装置,其特征在于,包括:
训练模块,用于利用种子用户的第一用户画像数据和/或第一用户行为数据训练机器学习分类模型,以使所述机器学习分类模型符合预设训练标准;
获取模块,用于获取目标用户在第一预设时间段内的第二用户画像数据和/或第二用户行为数据;
确定模块,用于根据所述第二用户画像数据和/或所述第二用户行为数据确定目标特征向量;
输入模块,用于将所述目标特征向量输入训练完成的机器学习分类模型中,获取所述目标用户在第二预设时间段内被转化为营销用户的预测结果。
9.一种非易失性可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的营销转化用户的预测方法。
10.一种计算机设备,包括非易失性可读存储介质、处理器及存储在非易失性可读存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的营销转化用户的预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797564.2A CN113704599A (zh) | 2021-07-14 | 2021-07-14 | 营销转化用户的预测方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110797564.2A CN113704599A (zh) | 2021-07-14 | 2021-07-14 | 营销转化用户的预测方法、装置及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704599A true CN113704599A (zh) | 2021-11-26 |
Family
ID=78648603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110797564.2A Pending CN113704599A (zh) | 2021-07-14 | 2021-07-14 | 营销转化用户的预测方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704599A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350770A (zh) * | 2023-12-05 | 2024-01-05 | 西安柚子信息科技有限公司 | 一种基于用户画像的精准营销方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889716A (zh) * | 2019-09-29 | 2020-03-17 | 清华大学 | 识别潜在注册用户的方法及装置 |
CN112287603A (zh) * | 2020-10-29 | 2021-01-29 | 上海淇玥信息技术有限公司 | 一种基于机器学习的预测模型构建方法、装置和电子设备 |
CN112667714A (zh) * | 2021-03-17 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 基于深度学习的用户画像优化方法、装置及存储介质 |
-
2021
- 2021-07-14 CN CN202110797564.2A patent/CN113704599A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110889716A (zh) * | 2019-09-29 | 2020-03-17 | 清华大学 | 识别潜在注册用户的方法及装置 |
CN112287603A (zh) * | 2020-10-29 | 2021-01-29 | 上海淇玥信息技术有限公司 | 一种基于机器学习的预测模型构建方法、装置和电子设备 |
CN112667714A (zh) * | 2021-03-17 | 2021-04-16 | 腾讯科技(深圳)有限公司 | 基于深度学习的用户画像优化方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
阿里集团,阿里云智能事业群: "阿里云云原生架构实践", 31 May 2021, 北京:机械工业出版社, pages: 1 - 5 * |
陈兰杰,崔国芳: "数字信息检索与数据分析", 30 November 2016, 保定:河北大学出版社, pages: 1 - 6 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117350770A (zh) * | 2023-12-05 | 2024-01-05 | 西安柚子信息科技有限公司 | 一种基于用户画像的精准营销方法及系统 |
CN117350770B (zh) * | 2023-12-05 | 2024-03-08 | 西安柚子信息科技有限公司 | 一种基于用户画像的精准营销方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250385B (zh) | 用于文档的自动化信息抽象处理的系统和方法 | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
US9715486B2 (en) | Annotation probability distribution based on a factor graph | |
CN108170715B (zh) | 一种文本结构化处理方法 | |
CN115002200B (zh) | 基于用户画像的消息推送方法、装置、设备及存储介质 | |
US20190188531A1 (en) | Feature selection impact analysis for statistical models | |
US20190080352A1 (en) | Segment Extension Based on Lookalike Selection | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
US20120316917A1 (en) | Extracting dimensions of quality from online user-generated content | |
CN113343101B (zh) | 一种对象排序方法及系统 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN113704599A (zh) | 营销转化用户的预测方法、装置及计算机设备 | |
CN111768218A (zh) | 用于处理用户交互信息的方法和装置 | |
CN112632275B (zh) | 基于个人文本信息的人群聚类数据处理方法、装置及设备 | |
CN115098619A (zh) | 资讯去重方法、装置、电子设备及计算机可读取存储介质 | |
CN114550157A (zh) | 弹幕聚集识别方法以及装置 | |
JP4519880B2 (ja) | 指標抽出装置、指標抽出方法及びそのコンピュータプログラム | |
Anastasopoulos et al. | Computational text analysis for public management research: An annotated application to county budgets | |
CN112069807A (zh) | 文本数据的主题提取方法、装置、计算机设备及存储介质 | |
CN109960777B (zh) | 物品评论个性化推荐方法、系统、电子设备及存储介质 | |
Galea | Applied Data Science with Python and Jupyter: Use powerful industry-standard tools to unlock new, actionable insights from your data | |
Jadon et al. | Sentiment analysis for movies prediction using machine leaning techniques | |
US20230076049A1 (en) | Machine learning apparatus and methods for predicting hiring progressions for demographic categories present in hiring data | |
JP7440477B2 (ja) | 自然言語処理およびレコメンデーション生成のためのマルチモデル手法 | |
EP4089598A1 (en) | Information processing device, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |