CN110674178A - 构建用户画像标签的方法及其系统 - Google Patents

构建用户画像标签的方法及其系统 Download PDF

Info

Publication number
CN110674178A
CN110674178A CN201910816219.1A CN201910816219A CN110674178A CN 110674178 A CN110674178 A CN 110674178A CN 201910816219 A CN201910816219 A CN 201910816219A CN 110674178 A CN110674178 A CN 110674178A
Authority
CN
China
Prior art keywords
user
machine learning
learning model
sample data
constructing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910816219.1A
Other languages
English (en)
Other versions
CN110674178B (zh
Inventor
于兴彬
温亿明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910816219.1A priority Critical patent/CN110674178B/zh
Publication of CN110674178A publication Critical patent/CN110674178A/zh
Application granted granted Critical
Publication of CN110674178B publication Critical patent/CN110674178B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种构建用户画像标签的方法及其系统。该方法包括:获取包括多个用户特征的用户特征库;获取被预先标定用户画像标签的样本数据的样本集合,根据样本集合中的样本数据计算用户特征的稳定性指标和有效性指标;根据稳定性指标和有效性指标从用户特征库中选择N个用户特征;使用样本集合中样本数据的N个用户特征在机器学习模型中进行有监督训练;将非样本数据的N个用户特征输入训练好的机器学习模型,机器学习模型输出非样本数据的用户画像标签。

Description

构建用户画像标签的方法及其系统
技术领域
本说明书涉及大数据技术领域。
背景技术
用户画像是通过数据对用户进行精准的刻画,包括用户的基本信息、社会属性、行为信息、关系信息、地理位置信息等。一个用户画像包括多个用户画像标签(本说明书中有时简称为标签)。标签的例子包括:年龄段,性别,是否有房,是否有车,是否有孩子等。例如,一个用户的用户画像可以包括以下标签:35-40岁、男性、有房、无车、有孩子。
用户画像是互联网公司的基础数据资产,是营销、风控等业务的数据底盘。用户画像一般包括成百上千的标签,传统的用户画像标签通过人工一个一个开发,比较耗时耗力,如何批量快速构建用户画像标签是互联网公司面临的重要问题。
发明内容
本说明书提供了一种构建用户画像标签的方法及其系统,可以批量自动地快速构建用户画像标签。
本申请公开了一种构建用户画像标签的方法,包括:
获取包括多个用户特征的用户特征库;
获取被预先标定用户画像标签的样本数据的样本集合,根据所述样本集合中的样本数据计算所述用户特征的稳定性指标和有效性指标;
根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,其中N为大于1的整数;
使用所述样本集合中样本数据的所述N个用户特征在机器学习模型中进行有监督训练;
将非样本数据的所述N个用户特征输入训练好的所述机器学习模型,所述机器学习模型输出所述非样本数据的用户画像标签。
在一个优选例中,所述稳定性指标为群体稳定性指标,所述有效性指标为信息价值。
在一个优选例中,所述根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,进一步包括:
从所述用户特征库的用户特征中选择群体稳定性指标值大于预定门限且信息价值的值排名前N的用户特征。
在一个优选例中,所述使用所述样本集合中样本数据的所述N个用户特征在机器学习模型中进行有监督训练,包括:
预先为所述机器学习模型的至少一个超参数设置多个选项;
根据所述多个选项建立超参数不同的多个机器学习模型;
将所述样本集合中样本数据的所述N个用户特征和标签分别输入到所述多个机器学习模型中进行有监督训练;
从所述多个机器学习模型中选择一个训练效果最好的,作为最终使用的机器学习模型。
在一个优选例中,所述机器学习模型是包括以下任一:随机森林模型、xgboost、lightGBM、深度神经网络模型。
在一个优选例中,所述用户特征库中的用户特征是根据历史累积的业务数据预先构建的通用用户特征。
在一个优选例中,构建多个不同的用户画像标签时使用同一个所述用户特征库。
本申请还公开了一种构建用户画像标签的系统包括:
存储用户特征库的存储器,该用户特征库包括多个用户特征;
存储样本集合的存储器,该样本集合包括被预先标定用户画像标签的样本数据;
指标计算模块,用于根据所述样本集合中的样本数据计算所述用户特征的稳定性指标和有效性指标;
特征选择模块,用于根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,其中N为大于8的整数;
机器学习模型,该机器学习模型使用所述样本集合中样本数据的所述N个用户特征进行有监督训练,训练完成后,根据输入的非样本数据的所述N个用户特征输出该非样本数据的用户画像标签。
在一个优选例中,所述稳定性指标为群体稳定性指标,所述有效性指标为信息价值。
在一个优选例中,所述特征选择模块从所述用户特征库的用户特征中选择群体稳定性指标值大于预定门限且信息价值的值排名前N的用户特征。
在一个优选例中,所述机器学习模型有多个,每一个机器学习模型具有不同的超参数,每一个机器学习模型分别根据输入的所述样本集合中样本数据的所述N个用户特征和标签进行有监督训练;
所述系统还包括模型选择模块,用于从多个所述机器学习模型中选择一个训练效果做好的作为最终使用的机器学习模型。
在一个优选例中,所述机器学习模型是包括以下任一:随机森林模型、xgboost、lightGBM、深度神经网络模型。
在一个优选例中,所述用户特征库中的用户特征是根据历史累积的业务数据预先构建的通用用户特征。
在一个优选例中,构建多个不同的用户画像标签时使用同一个所述用户特征库。
本申请还公开了一种构建用户画像标签的系统包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。
本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。
本说明书实施方式可以快速批量产出用户画像标签。
本说明书中记载了大量的技术特征,分布在各个技术方案中,如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话,会使得说明书过于冗长。为了避免这个问题,本说明书上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征,都可以自由地互相组合,从而构成各种新的技术方案(这些技术方案均应该视为在本说明书中已经记载),除非这种技术特征的组合在技术上是不可行的。例如,在一个例子中公开了特征A+B+C,在另一个例子中公开了特征A+B+D+E,而特征C和D是起到相同作用的等同技术手段,技术上只要择一使用即可,不可能同时采用,特征E技术上可以与特征C相组合,则,A+B+C+D的方案因技术不可行而应当不被视为已经记载,而A+B+C+E的方案应当视为已经被记载。
附图说明
图1是根据本说明书第一实施方式的构建用户画像标签的方法流程示意图;
图2是根据本说明书第一实施方式的实现机器学习模型超参数自动选择的方法流程示意图;
图3是根据本说明书第二实施方式的构建用户画像标签的系统结构示意图;
图4是根据本说明书的实施例的构建用户画像标签的方法的原理示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
部分概念的说明:
样本数据:特指已经确定用户画像标签值的用户群体,比如需要预测10亿用户的“是否有车”标签,通过问卷调查已经准确知道其中100万用户是否有车的情况,这100万用户就是我们的样本数据。
用户特征:即从用户的行为数据(例如网络交易数据)得到的信息。例如,一个用户最近1天的总交易金额、最近1周的总交易金额、最近1个月的总交易金额、最近1年的总交易金额、交易的地理区域、交易的时间段、购买商品的类别等等。
用户画像标签,本说明书中有时简称为标签,是对用户进行定性或定量描述的信息,包括用户的基本信息、社会属性、行为信息、关系信息、地理位置信息等。例如:年龄段,性别,是否有房,是否有车,是否有孩子,是否单身、是否喜爱音乐、是否会英语等。
IV:Information Value,信息价值或者信息量,值越大说明信息价值越大。
PSI:Population Stability Index,群体稳定性指标,用于衡量某个变量的稳定性或者模型整体的稳定性。psi=sum((实际占比-预期占比)*ln(实际占比/预期占比)),其中sum为求和函数,ln为自然对数。PSI是通过同一个特征两个时间点的数据计算得到的。
DNN:Deep Neural Networks,深度神经网络。
AUC:Area Under Curve,被定义为ROC曲线下与坐标轴围成的面积。在机器学习领域中是一种模型评估指标。
KS:KS曲线是用来衡量分类型模型准确度的工具。KS曲线与ROC曲线非常的类似。其指标的计算方法与混淆矩阵、ROC基本一致。它只是用另一种方式呈现分类模型的准确性。KS值是KS图中两条线之间最大的距离,其能反映出分类器的划分能力。
下面说明本说明书实施方式的部分创新点:
本说明书实施方式旨在为每一个用户自动设置用户画像标签。例如,有1亿个用户的网络交易数据,要为这1亿个用户设置是否有车的标签。可以通过调查问卷的方式获得其中10万个用户是否有车的信息,这10万个用户就被设置了标签(打标)了,这10万个用户的数据就是样本数据,其构成了样本集合。样本集合中每一个样本数据(即每一个用户的数据)包括是否有车的标签和该用户的各种用户特征。其他9990万个用户的数据就是非样本数据,其构成了非样本集合。非样本数据也包括了各种用户特征,与样本数据的区别在于没有标签。以自动化的方式给非样本数据打上标签正是本说明书实施方式需要做的事情。
进一步的,预先设置一个通用的用户特征库,该库中有海量(例如百万量级)的用户特征,该特征库分多个维度沉淀了用户的基础信息、行为信息、购物信息、支付信息等特征,各种用户画像标签的构建都会基于这个通用的用户特征库。
有了样本集合中的样本数据,用户特征库中任一个特征的稳定性指标(例如PSI)和有效性指标(例如IV)都可以被计算出来,可以根据稳定性指标和有效性指标从海量的用户特征中选出既稳定(例如PSI大于预定门限)又高度有效(例如IV排在前50名)的N个用户特征。
进一步的,将样本数据的标签和选出的N个用户特征都输入到机器学习模型中进行有监督训练。再将非样本数据的N个特征输入到训练好的机器学习模型中,此时该机器学习模型就可以输出该非样本数据的用户画像标签。
其中,机器学习模型可以有多个,分别拥有不同的超参数。每一个机器学习模型分别根据样本数据集合中的样本数据进行训练,从中选出模型效果最好的一个作为最终用于非样本数据的机器学习模型。
通过上述方式,只要对相对少量的用户数据就某一特定用户画像标签进行打标作为样本数据,就可以自动地得到稳定而有效的用户特征,自动选出模型效果最好的机器学习模型,从而自动实现对海量的非样本数据的用户画像标签构建。特别适合快速批量产出用户画像标签。
下面将结合附图对本说明书的实施方式作进一步地详细描述。
本说明书的第一实施方式涉及一种构建用户画像标签的方法,其流程如图1所示,其技术构思如图4所示,具体的,该方法包括以下步骤:
步骤110:获取包括多个用户特征的用户特征库;
步骤120:获取被预先标定用户画像标签的样本数据的样本集合,根据样本集合中的样本数据计算用户特征的稳定性指标和有效性指标;
步骤130:根据稳定性指标和有效性指标从用户特征库中选择N个用户特征,其中N为大于1的整数;
步骤140:使用样本集合中样本数据的N个用户特征在机器学习模型中进行有监督训练;
步骤150:将非样本数据的N个用户特征输入训练好的机器学习模型,机器学习模型输出非样本数据的用户画像标签。
下面对每一个步骤进行详细的解释说明。
对于步骤110:
需指出,用户特征库中的用户特征是根据历史累积的业务数据预先构建的通用用户特征。
举例来说,在一个实施例中,用户特征库产生基于海量用户数据,比如用户的交易、浏览、收藏、加购物车、点击行为数据,对明细数据分成时间、位置、操作类型等维度进行交叉衍生产出特征库。用户特征库分多个维度沉淀了用户的基础信息、行为信息、购物信息、支付信息等用户特征,这些用户特征在百万级,该用户特征库是自动化挖掘用户画像标签的基础,用户画像标签的挖据模型主要基于用户特征库中的海量用户特征进行。例如:一个维度用户特征可以是,最近一周购买次数、最近一个月购买次数、最近1年购买次数、最近3年购买次数等,这个维度的用户特征还可以与其他维度的用户特征交叉,形成更多的用户特征。又如,可以根据交易金额分为X个区间,根据交易时间所属的时段分为Y个区间,根据用户在交易界面上点击的位置分为Z个区域,这样就可以构造X*Y*Z个用户特征,其中X、Y和Z都是自然数。
优选地,在一个实施例中,构建多个不同的用户画像标签时使用同一个用户特征库。这样做的好处是,沉淀通用的特征库,保证挖掘不同的用户画像标签时可以复用,在批量构建用户画像标签时可以大大提高效率。
对于步骤120:
优选地,样本数据可以包括标签和各种用户特征。样本数据的标签通常是人工设置的(有时也可以通过自动化的方式设置),例如标签是是否有车,可以通过调查问卷得到的每一个用户是否有车的信息。
更具体的,在一个实施例中,稳定性指标为PSI,有效性指标为IV。PSI和IV指标的计算方法都是现有技术,这里就不进行详细的说明了。
对于步骤130:根据稳定性指标和有效性指标从用户特征库中选择N个用户特征,其中N为大于1的整数。
需指出,特征有效性是指某一特征对于预测某一用户画像标签有较好的区分性,优选地,有效性可以用IV值进行评价。
优选地,本步骤通过以下方式实现:从用户特征库的用户特征中选择PSI值大于预定门限且IV值排名前N的用户特征。举例来说,在一个实施例中,希望选出50个用户特征,可以先对样本集合中的样本数据计算用户特征库中各个用户特征(可能百万量级)的IV,IV的计算要用到各个特征本身的数据和人工设置的标签。根据IV从大到小的顺序,选出IV最大的100个候选的用户特征。然后分别计算这100个候选的用户特征的PSI,PSI计算时只需要使用每一个用户特征自己的数据即可,不需要用到样本数据的标签。然后将PSI小于预定门限的用户特征去掉(因为这些特征不够稳定),再从PSI大于预定门限的用户特征中选出IV最大的50个用户特征。这样做的好处是,先用IV筛选一下,只需要计算筛选出的用户特征的PSI,而不是直接计算每一个特征的PSI(在另一个实施例中,可以先计算每一个用户特征的PSI,再从PSI大于预定门限的用户特征中选出IV最大的50个用户特征),可以大大减少计算量。
对于步骤140:
在本说明书的实施例中,机器学习模型可以是例如:随机森林模型、xgboost、lightGBM、DNN模型,等等,还可以是其他能够实现分类(尤其是二分类)的有监督机器学习模型。机器学习模型的设置可以灵活调整,在此不做赘述。
优选地,如图2所示,在一个实施例中,本步骤进一步包含自动优化机器学习模型超参数的以下子步骤:
步骤1402:预先为机器学习模型的至少一个超参数设置多个选项。举例来说,在一个实施例中,可以使用随机森林模型作为机器学习模型,该随机森林模型中超参数有:树个数、单棵树算法、单颗树最大深度、叶节点数据最小个数等。在另一个实施例中,也可以设置多个不同类型的机器学习模型,比如:可以设置8个超参数不同的随机森林模型,6个超参数不同的DNN模型。
步骤1404:根据多个选项建立超参数不同的多个机器学习模型。
步骤1406:将样本集合中样本数据的N个用户特征和标签分别输入到多个机器学习模型中进行有监督训练。
步骤1408:从多个机器学习模型中选择一个训练效果最好的,作为最终使用的机器学习模型。其中,优选地,训练效果可以使用AUC或KS来识别,AUC最大或KS最大的机器学习模型就是训练效果最好的。
举例来说,如上,在一个实施例中,使用随机森林模型作为机器学习模型,该随机森林模型中超参数有:树个数、单棵树算法、单颗树最大深度、叶节点数据最小个数等。综合考虑性能和效果,各个超参数的具体可选项如下:a、树个数:100、200、500;b、单棵树算法:ID3、Cart、C4.5;c、单颗树最大深度:50、100、不限制;d、叶节点数据最小个数:2、10、50。随机森林模型迭代枚举以上超参数的组合共计:3*3*3*3=81个,针对这些情况分别运行随机森林模型(即用样本数据训练),选择模型效果最好的一组超参数,比如是“否有车”的用户画像标签最后选择的超参数是:树个数500、单棵树算法C4.5、颗树最大深度50、叶节点数据最小个数2。
再举例来说,在上述另一个实施例中,设置8个超参数不同的随机森林模型,6个超参数不同的DNN模型,分别使用相同的样本集合进行训练,从这个14个超参数和类型不同的机器学习模型中选择一个训练效果最好的。
对于步骤150:将非样本数据的N个用户特征输入训练好的机器学习模型,机器学习模型输出非样本数据的用户画像标签。
优选地,在一个实施例中,非样本数据也包括了各种用户特征,与样本数据的区别在于没有标签。以自动化的方式给非样本数据打上标签正是本说明书实施方式需要做的事情。
根据上述实施例的技术方案,要对相对少量的用户数据就某一特定用户画像标签进行打标作为样本数据,就可以自动地得到稳定而有效的用户特征,自动选出模型效果最好的机器学习模型,从而自动实现对海量的非样本数据的用户画像标签构建。特别适合快速批量产出用户画像标签。
根据申请人的实际测试,使用上述技术方案1天可以完成50个用户画像标签,通过调研问卷对这些标签进行评测,准确率在90%以上。而现有的其他方法独立开发每个用户画像标签,1个用户画像标签开发周期在一周左右。可见效率提升了几个数量级。
本说明书的第二实施方式涉及一种构建用户画像标签的系统,其结构如图3所示,该构建用户画像标签的系统包括:
存储用户特征库的存储器,该用户特征库包括多个用户特征。其中,优选地,用户特征库中的用户特征是根据历史累积的业务数据预先构建的通用用户特征
存储样本集合的存储器,该样本集合包括被预先标定用户画像标签的样本数据;
指标计算模块,用于根据样本集合中的样本数据计算用户特征的稳定性指标和有效性指标。优选地,稳定性指标为PSI,有效性指标为IV。
特征选择模块,用于根据稳定性指标和有效性指标从用户特征库中选择N个用户特征,其中N为大于8的整数。优选地,该特征选择模块从用户特征库的用户特征中选择PSI值大于预定门限且IV值排名前N的用户特征。
机器学习模型,该机器学习模型使用样本集合中样本数据的N个用户特征进行有监督训练,训练完成后,根据输入的非样本数据的N个用户特征输出该非样本数据的用户画像标签。优选地,机器学习模型可以包括以下任意一种:随机森林模型、xgboost、lightGBM、DNN模型,等等。另外,机器学习模型还可以是其他能够实现分类(尤其是二分类)的有监督机器学习模型。
优选地,机器学习模型可以有多个,每一个机器学习模型具有不同的超参数,每一个机器学习模型分别根据输入的样本集合中样本数据的N个用户特征和标签进行有监督训练。
在这种情况下,系统还包括模型选择模块,用于从多个机器学习模型中选择一个训练效果做好的作为最终使用的机器学习模型。其中,训练效果可以使用AUC或KS来识别,AUC最大或KS最大的机器学习模型就是训练效果最好的。
优选地,在一个实施例中,构建多个不同的用户画像标签时使用同一个用户特征库。
第一实施方式是与本实施方式相对应的方法实施方式,第一实施方式中的技术细节可以应用于本实施方式,本实施方式中的技术细节也可以应用于第一实施方式。
需要说明的是,本领域技术人员应当理解,上述构建用户画像标签的系统的实施方式中所示的各模块的实现功能可参照前述构建用户画像标签的方法的相关描述而理解。上述构建用户画像标签的系统的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现,也可通过具体的逻辑电路而实现。本说明书实施例上述构建用户画像标签的系统如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本说明书各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本说明书实施例不限制于任何特定的硬件和软件结合。
相应地,本说明书实施方式还提供一种计算机可读存储介质,其中存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现本说明书的各方法实施方式。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于,相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读存储介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
此外,本说明书实施方式还提供一种构建用户画像标签的系统,其中包括用于存储计算机可执行指令的存储器,以及,处理器;该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。
在一个实施例中,该计算机可执行指令可以用于:获取包括多个用户特征的用户特征库;获取被预先标定用户画像标签的样本数据的样本集合,根据所述样本集合中的样本数据计算所述用户特征的稳定性指标和有效性指标;根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,其中N为大于1的整数;使用所述样本集合中样本数据的所述N个用户特征在机器学习模型中进行有监督训练;将非样本数据的所述N个用户特征输入训练好的所述机器学习模型,所述机器学习模型输出所述非样本数据的用户画像标签。
在一个实施例中,该处理器可以是中央处理单元(Central Processing Unit,简称“CPU”),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称“DSP”)、专用集成电路(Application Specific Integrated Circuit,简称“ASIC”)等。前述的存储器可以是只读存储器(read-only memory,简称“ROM”)、随机存取存储器(randomaccess memory,简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。在一个实施例中,该构建用户画像标签的系统还包括总线和通信接口。处理器、存储器和通信接口都通过总线相互连接。通信接口可以是无线通信接口也可以是有线通信接口,用于使得处理器能够与其他的装置通信。
需要说明的是,在本专利的申请文件中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中,如果提到根据某要素执行某行为,则是指至少根据该要素执行该行为的意思,其中包括了两种情况:仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。
在本说明书提及的所有文献都被认为是整体性地包括在本说明书的公开内容中,以便在必要时可以作为修改的依据。此外应理解,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描述的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

Claims (16)

1.一种构建用户画像标签的方法,包括:
获取包括多个用户特征的用户特征库;
获取被预先标定用户画像标签的样本数据的样本集合,根据所述样本集合中的样本数据计算所述用户特征的稳定性指标和有效性指标;
根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,其中N为大于1的整数;
使用所述样本集合中样本数据的所述N个用户特征在机器学习模型中进行有监督训练;
将非样本数据的所述N个用户特征输入训练好的所述机器学习模型,所述机器学习模型输出所述非样本数据的用户画像标签。
2.如权利要求1所述的构建用户画像标签的方法,其中,所述稳定性指标为群体稳定性指标,所述有效性指标为信息价值。
3.如权利要求2所述的构建用户画像标签的方法,其中,所述根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,进一步包括:
从所述用户特征库的用户特征中选择群体稳定性指标值大于预定门限且信息价值的值排名前N的用户特征。
4.如权利要求1所述的构建用户画像标签的方法,其中,所述使用所述样本集合中样本数据的所述N个用户特征在机器学习模型中进行有监督训练,包括:
预先为所述机器学习模型的至少一个超参数设置多个选项;
根据所述多个选项建立超参数不同的多个机器学习模型;
将所述样本集合中样本数据的所述N个用户特征和标签分别输入到所述多个机器学习模型中进行有监督训练;
从所述多个机器学习模型中选择一个训练效果最好的,作为最终使用的机器学习模型。
5.如权利要求4所述的构建用户画像标签的方法,其中,所述机器学习模型是包括以下任一:随机森林模型、xgboost、lightGBM、深度神经网络模型。
6.如权利要求1所述的构建用户画像标签的方法,其中,所述用户特征库中的用户特征是根据历史累积的业务数据预先构建的通用用户特征。
7.如权利要求1所述的构建用户画像标签的方法,其中,构建多个不同的用户画像标签时使用同一个所述用户特征库。
8.一种构建用户画像标签的系统,包括:
存储用户特征库的存储器,该用户特征库包括多个用户特征;
存储样本集合的存储器,该样本集合包括被预先标定用户画像标签的样本数据;
指标计算模块,用于根据所述样本集合中的样本数据计算所述用户特征的稳定性指标和有效性指标;
特征选择模块,用于根据所述稳定性指标和所述有效性指标从所述用户特征库中选择N个用户特征,其中N为大于8的整数;
机器学习模型,该机器学习模型使用所述样本集合中样本数据的所述N个用户特征进行有监督训练,训练完成后,根据输入的非样本数据的所述N个用户特征输出该非样本数据的用户画像标签。
9.如权利要求8所述的构建用户画像标签的系统,其中,所述稳定性指标为群体稳定性指标,所述有效性指标为信息价值。
10.如权利要求9所述的构建用户画像标签的系统,其中,所述特征选择模块从所述用户特征库的用户特征中选择群体稳定性指标值大于预定门限且信息价值的值排名前N的用户特征。
11.如权利要求8所述的构建用户画像标签的系统,其中,
所述机器学习模型有多个,每一个机器学习模型具有不同的超参数,每一个机器学习模型分别根据输入的所述样本集合中样本数据的所述N个用户特征和标签进行有监督训练;
所述系统还包括模型选择模块,用于从多个所述机器学习模型中选择一个训练效果做好的作为最终使用的机器学习模型。
12.如权利要求11所述的构建用户画像标签的系统,其中,所述机器学习模型是包括以下任一:随机森林模型、xgboost、lightGBM、深度神经网络模型。
13.如权利要求8所述的构建用户画像标签的系统,其中,所述用户特征库中的用户特征是根据历史累积的业务数据预先构建的通用用户特征。
14.如权利要求8所述的构建用户画像标签的系统,其中,构建多个不同的用户画像标签时使用同一个所述用户特征库。
15.一种构建用户画像标签的系统,包括:
存储器,用于存储计算机可执行指令;以及,
处理器,与所述存储器耦合,用于在执行所述计算机可执行指令时实现如权利要求1至7中任意一项所述的方法中的步骤。
16.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如权利要求1至7中任意一项所述的方法中的步骤。
CN201910816219.1A 2019-08-30 2019-08-30 构建用户画像标签的方法及其系统 Active CN110674178B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910816219.1A CN110674178B (zh) 2019-08-30 2019-08-30 构建用户画像标签的方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910816219.1A CN110674178B (zh) 2019-08-30 2019-08-30 构建用户画像标签的方法及其系统

Publications (2)

Publication Number Publication Date
CN110674178A true CN110674178A (zh) 2020-01-10
CN110674178B CN110674178B (zh) 2023-09-05

Family

ID=69075875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910816219.1A Active CN110674178B (zh) 2019-08-30 2019-08-30 构建用户画像标签的方法及其系统

Country Status (1)

Country Link
CN (1) CN110674178B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522828A (zh) * 2020-04-23 2020-08-11 中国农业银行股份有限公司 一种用户画像标签值分析方法及装置
CN111861550A (zh) * 2020-07-08 2020-10-30 上海视九信息科技有限公司 一种基于ott设备的家庭画像构建方法及系统
CN115329909A (zh) * 2022-10-17 2022-11-11 上海冰鉴信息科技有限公司 用户画像生成方法、装置及计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN109359137A (zh) * 2018-10-16 2019-02-19 大连理工大学 基于特征筛选与半监督学习的用户成长性画像构建方法
CN109472318A (zh) * 2018-11-27 2019-03-15 阿里巴巴集团控股有限公司 为构建的机器学习模型选取特征的方法及装置
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034823A1 (en) * 2017-07-27 2019-01-31 Getgo, Inc. Real time learning of text classification models for fast and efficient labeling of training data and customization
CN109359137A (zh) * 2018-10-16 2019-02-19 大连理工大学 基于特征筛选与半监督学习的用户成长性画像构建方法
CN109472318A (zh) * 2018-11-27 2019-03-15 阿里巴巴集团控股有限公司 为构建的机器学习模型选取特征的方法及装置
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522828A (zh) * 2020-04-23 2020-08-11 中国农业银行股份有限公司 一种用户画像标签值分析方法及装置
CN111522828B (zh) * 2020-04-23 2023-08-01 中国农业银行股份有限公司 一种用户画像标签值分析方法及装置
CN111861550A (zh) * 2020-07-08 2020-10-30 上海视九信息科技有限公司 一种基于ott设备的家庭画像构建方法及系统
CN111861550B (zh) * 2020-07-08 2023-09-08 上海视九信息科技有限公司 一种基于ott设备的家庭画像构建方法及系统
CN115329909A (zh) * 2022-10-17 2022-11-11 上海冰鉴信息科技有限公司 用户画像生成方法、装置及计算机设备

Also Published As

Publication number Publication date
CN110674178B (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
Godahewa et al. Monash time series forecasting archive
Chen et al. A scenario-based stochastic programming approach for technology and capacity planning
US20170017900A1 (en) System and method for feature generation over arbitrary objects
CN110674178B (zh) 构建用户画像标签的方法及其系统
CN110135876A (zh) 销量预测的方法及装置
CN106022800A (zh) 一种用户特征数据的处理方法和装置
US20150161629A1 (en) Retail optimization for markdown
Alexopoulos et al. DESYMA: assessing flexibility for the lifecycle of manufacturing systems
Gemitzi Predicting land cover changes using a CA Markov model under different shared socioeconomic pathways in Greece
CN111652654A (zh) 销量预测及神经网络构建的方法、装置、设备、存储介质
CN112232833A (zh) 流失会员客群数据预测方法、模型训练方法及装置
CN111861759B (zh) 产品与客户群体的匹配方法和系统
JP2004185539A (ja) 商圏分析システム、方法、プログラム、及び記録媒体
CN112291374B (zh) 一种物联网设备特征获取方法及装置
CN113850381A (zh) 一种图神经网络训练方法及装置
CN107798410B (zh) 一种品类规划方法、装置及电子设备
Khosravi et al. Performance Evaluation of Machine Learning Regressors for Estimating Real Estate House Prices
Pritam et al. A novel methodology for perception-based portfolio management
CN104751234B (zh) 一种用户资产的预测方法及装置
CN107944946A (zh) 商品标签生成方法及装置
Antelmi et al. SimpleHypergraphs. jl—novel software framework for modelling and analysis of hypergraphs
Cui et al. Model selection for direct marketing: performance criteria and validation methods
KR102320787B1 (ko) 기업 데이터 수집 기반 기업 등급 자동 산출 방법, 장치 및 시스템
JP6287280B2 (ja) 情報処理方法、プログラム、及び情報処理装置
CN108241643A (zh) 关键词的指标数据分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20201012

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant