CN112288453A

CN112288453A - 标签选择方法和装置

Info

Publication number: CN112288453A
Application number: CN201910665813.5A
Authority: CN
Inventors: 李慧; 马晓云; 鞠明兴
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2019-07-23
Filing date: 2019-07-23
Publication date: 2021-01-29

Abstract

本公开提供了一种标签选择方法和装置，涉及数据处理领域。该方法包括：获取样本用户数据，其中，样本用户数据包括用户的多个同名标签，样本用户数据的标记值是用户的场景目标变量；采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数；根据参数对各个场景下的同名标签进行排序；根据排序结果选择标签。本公开能够实现多个标签的自动化选择和场景匹配功能。

Description

标签选择方法和装置

技术领域

本公开涉及数据处理领域，尤其涉及一种标签选择方法和装置。

背景技术

在互联网行业的发展中，企业数据的沉淀积累越来越繁杂。基于底层流式数据的处理、加工和应用，由于是经由不同的团队、部门或个人产生汇总数据或标签，因此不可避免会存在大量冗余的标签。如在我们无法得到客户真实性别属性时，往往会利用其搜索、浏览、购物行为，通过算法预测得到客户的性别标签以支持在营销或风控场景中应用。在该类场景下，一个企业中就会存在基于不同场景和应用产生的多个同一含义的标签。

但从统一管理、资源节省、共享应用的角度出发，一个标签多种来源多处存储会带来极大的资源浪费，同时应用时，也很难得知应该使用哪一个标签作为下一步应用和建模的基本粒子。以性别标签为例，性别1来源于推荐团队、性别2来自中台、性别3来自广告…。业务线A要使用性别标签时就会出现混乱，同时存储多个同质类型的标签是否真的有意义也是需要用量化的方法给予相应的评价。

在相关技术中，在遇到一个标签多种口径及来源的情况时，一般会经过人工排查标签生成逻辑、口径及应用场景、范围及标签覆盖度等诸多信息后，经过综合考率和判断，基于人工主观臆断决定是否保留多标签或保留一个标签用于各个场景的应用。

或者，设置统一指标和阈值，符合条件则保留，不符合则删除。例如，如果设置标签覆盖率为判定指标，阈值为50％，则每个同名标签都要统计相应的覆盖率，如性别1，来源于搜索推荐团队，覆盖人群3亿，覆盖率98％；性别2来源于客服，覆盖率20％，则保留性别1，剔除性别2。

发明内容

本公开要解决的一个技术问题是，提供一种标签选择方法和装置，能够实现多个标签的自动化选择和场景匹配功能。

根据本公开一方面，提出一种标签选择方法，包括：获取样本用户数据，其中，样本用户数据包括用户的多个同名标签，样本用户数据的标记值是用户的场景目标变量；采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数；根据参数对各个场景下的同名标签进行排序；根据排序结果选择标签。

在一个实施例中，根据每个标签在每个场景下的排序，确定每个标签最适用的场景。

在一个实施例中，对各个场景下的机器学习模型进行迭代训练，以确定每个标签在不同时间、同一场景下的排序；根据排序结果确定每个标签的稳定性。

在一个实施例中，在每个场景中，将同名标签对应的参数大于参数阈值的标签作为待推荐的标签；根据各个场景下同名标签排序结果，依次推荐待推荐的标签。

在一个实施例中，基于场景信息获取场景评价目标，基于场景评价指标确定场景目标。

在一个实施例中，参数包括基尼指数、信息增益和信息价值中的一项或多项。

在一个实施例中，根据每个标签在每个场景下的排序，删除样本用户数据中在多个场景下的排序结果大于排序阈值的标签。

根据本公开的另一方面，还提出一种标签选择装置，包括：数据获取单元，被配置为获取样本用户数据，其中，样本用户数据包括用户的多个同名标签，样本用户数据的标记值是用户的场景目标变量；场景建模单元，被配置为采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数；标签排序单元，被配置为根据参数对各个场景下的同名标签进行排序；标签选择单元，被配置为根据排序结果选择标签。

在一个实施例中，适用场景确定单元，被配置为根据每个标签在每个场景下的排序，确定每个标签最适用的场景。

在一个实施例中，迭代训练单元，被配置为对各个场景下的机器学习模型进行迭代训练，以确定每个标签在不同时间、同一场景下的排序；稳定性确定单元，被配置为根据排序结果确定每个标签的稳定性。

在一个实施例中，数据删除单元，被配置为根据每个标签在每个场景下的排序，删除样本用户数据中在多个场景下的排序结果大于排序阈值的标签。

根据本公开的另一方面，还提出一种标签选择装置，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器的指令执行如上述的方法。

根据本公开的另一方面，还提出一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述的方法。

与相关技术相比，本公开采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数，然后根据参数对各个场景下的同名标签进行排序，以便根据排序结果选择标签，从而实现了多个标签的自动化选择和场景匹配功能。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1为本公开标签选择方法的一个实施例的流程示意图。

图2为本公开标签选择方法的另一个实施例的流程示意图。

图3为本公开标签选择装置的一个实施例的结构示意图。

图4为本公开标签选择装置的另一个实施例的结构示意图。

图5为本公开标签选择装置的另一个实施例的结构示意图。

图6为本公开标签选择装置的另一个实施例的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

在相关技术中，对于纯人工甄别、处理、判断及下线方法。人工判断主观臆断的成分比较大，极大可能造成判断的不准确或判断偏差；另外，纯人工甄别无法量化评价和同名标签选择的准则，该种情况会使得评价时缺少公允性和判断的一致性；第三，对于大企业而言，各个业务线标签的建立和数据来源具有多元性，同名标签诸多来源的情况非常多，大量的多源标签选择需要通过人工判定来实现，必然会耗费大量的人力物力，且不能保证判定结果的科学性和稳定性；再者，人工判别一般都是一次性的，无法定时、多次在同一纬度上进行评价和标签的纵向对比，对于标签量级很大，且来源不固定，适用性不断变化的场景中，是一项很大的风险因素。

而设置统一指标和阈值的方法，虽然能够通过实现自动化来解放人力，但该方法中指标和阈值的选取具有很大的主观性，选择不同的指标会对判定的结果有较大的影响，如从覆盖率、准确率、生成效率等角度出发，我们会得到不同的结果；另外，用统一的指标判别不同来源的标签，虽然标签名称相同，但标签的生成逻辑和应用范围不同，使用一个指标和阈值进行评估缺乏一定的科学性，如：标签一适用于风控场景，其在风控场景的准确率高达95％，但其覆盖度只有1％，如果使用覆盖度作为评估指标，则该标签将会被删除，而覆盖度高的指标，在风控场景中并不能起到作用，我们在做标签选择时就会错失真正有应用性的标签；另外，该方法过于简单粗暴，容易被逆匹配，例如事先知道保留标签的规则为覆盖度大于50％，为了使自己的标签被留存，标签制作方可以以填补空缺值的方法将标签的覆盖度填补成100％以保证标签被该规则保留，一旦规则和指标被逆匹配，使用该方法对标签进行自动化筛选则失去了它的意义和价值。

在当前企业中各个业务线分散，标签开发质量不一致的情况下，必然会有大量的同质标签和数据的存在，如何自动化的识别标签的可用性，替代大量人工复杂细碎的工作，是一个非常必要且能大大节省人力提高效率的事情，以下将对本公开的方案进行介绍。

图1为本公开标签选择方法的一个实施例的流程示意图。

在步骤110，获取样本用户数据，其中，样本用户数据包括用户的多个同名标签，样本用户数据的标记值是用户的场景目标变量。同名标签是指具有同一名称或含义的标签，可以是来自不同场景的标签，即同名标签标识信息相同，但口径及生成逻辑各异，需要按场景选择最合适的标签。场景目标是基于场景评价指标确定的。

在一个实施例中，如表1所示，基础场景例如包括营销场景、风控场景、促活场景、运营场景以及随机通用场景等，其中，可以根据实际应用扩展其他场景。场景的设定不依赖于人工，仅针对应用的通用性评价指标。有新增场景时，只需要获取新增场景的评价指标，即可任意进行场景扩充。

场景	场景抽离目的	评价指标
			营销场景	获取拉拢新客户、产品推荐	营销响应率
风控场景	对存量客户进行风险管控	风控恶意率
			促活场景	对现有不活跃客户进行激活	GMV提升率
运营场景	控制运营成本以实现利润最大化	ROI
			随机通用场景	对无具体场景分类，适用于通用业务场景	标签覆盖率

表1

基于各个场景获取场景评价目标，以进一步支持后期的分场景建模工作。例如，如表1所示，对于营销场景而言，评价指标为营销效应率，则代表营销场景的目标变量为是否进行商品购买；风控场景评价指标为风控恶意率，则目标变量为是否为恶意用户；促活场景评价指标为GMV(Gross Merchandise Volume，成交总额)提升率，则目标变量为用户成交金额；运营场景中评价指标为ROI(Return On Investment，投资回报率)，则通用性目标变量为用户成交金额/营销成本。各样本用户中的场景目标变量例如如表2所示。

表2

在步骤120，采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数。例如，对机器学习模型在不同的场景下进行训练，可以获得营销场景模型、风控场景模型、促活场景模型以及运营场景模型。

该机器学习模型为监督学习模型，即通过已经有的一部分输入特征和输出之间寻求一种对应关系，从而建立模型，生成函数，将输入映射到合适的输出。从表2中可以看出，目标变量可以为是或否，也可以是金额、占比等，也就是说机器学习模型可以是二分类模型或者回归模型。为了工程化、通用化、自动化的实现场景的选择和排序，因此需要选择既支持分类又支持回归预测的算法，如逻辑回归、随机森林等。在一个实施例中，模型还可以选择GBDT(Gradient Boosting Decision Tree，梯度下降树)、xgboost(eXtreme GradientBoosting，极端梯度提升)、神经网络、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类等算法。还可以结合人工经验进行模型组合。

在一个实施例中，机器学习模型的输入参数为样本标签，输出参数为预测的场景目标变量，标记值为样本场景目标变量，通过对机器学习模型进行训练，训练好的机器学习模型的参数中包含能够表征标签和场景目标变量相关性的参数。

该参数即为标签的重要性指标，输入模型的特征和变量对最终的结果影响程度有大小之分，重要的特征影响程度较大，重要性排序较高。一般采用计算特征对模型结果贡献度的方式来衡量和评价特征和标签的重要性。例如IV值(Information Value，信息价值或者信息量)、gini(基尼)指数、信息增益等表征重要性参数。其中，gini指数最早应用在经济学中，主要用来衡量收入分配公平度的指标。在算法中用gini指数来衡量数据的不纯度或者不确定性，从而帮助判断变量的重要性。信息增益是特征选择的一个重要指标，它定义为一个特征能够为分类系统带来多少信息，带来的信息越多，说明该特征越重要，相应的信息增益也就越大。

在一个实施例中，机器学习模型采用随机森林算法，输入为各个来源的性别标签，利用随机森林中的信息增益作为标签和场景目标变量相关性的参数。例如，预测目标为每个场景中的目标值，如营销场景中是否购买，例如1为是，0为否，同名标签为性别标签1、性别标签2、性别标3签…，利用随机森林构建模型，得到每个性别标签对预测结果的区分度或重要性程度，其中，区分度或重要程度越大，则该标签在营销场景下最能够有效的区分是否购买，因此，该标签对应的参数值越大。

在另一个实施例中，机器学习模型采用回归模型，模型对应的函数例如为y＝Am+Bn+Cl+…，其中，y为场景目标，m，n，l…分别表示性别标签1、性别标签2、性别标签3…，对模型训练后，可以确定参数A、B、C…的值，其中，参数值越大，说明该参数对应的标签重要性越大。

如表3所示，为性别标签在营销场景、风控场景、促活场景以及运营场景下的信息增益。

表3

在步骤130，根据参数对各个场景下的同名标签进行排序。例如，在营销场景下，根据各标签关联的信息增益，标签排序依次为性别标签5、性别标签2、性别标签1、性别标签6、性别标签3、性别标签4、性别标签7、性别标签8。

在步骤140，根据排序结果选择标签。例如，在营销场景下，选择，性别标签1作为最适合标识用户的标签。

在一个实施例中，在某一场景下，选择出标签后，将该标签作为用户在该场景下的属性信息，根据用户属性信息确定是否向用户推荐信息或产品。例如，在风控场景下，根据用户标签确定用户为优质用户或低风险用户，则可以向该用户发放信贷产品。

在上述实施例中，采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数，然后根据参数对各个场景下的同名标签进行排序，以便根据排序结果选择标签，从而实现了多个标签的自动化选择和场景匹配功能。该实施例中，从技术层面解决多来源标签人工评价混乱、标准不一致、不可量化筛选的问题，能够量化评价标准，同时保证各个标签在同一个场景中具有标准化的可比性，客观公正的给出标签在每个场景中的排序，从而解决了人工评价的主观性和无标准或标准不一致的问题。

在一个实施例中，在每个场景中，将同名标签对应的参数大于参数阈值的标签作为待推荐的标签；根据各个场景下同名标签排序结果，依次推荐待推荐的标签。即将重要性大于阈值的标签作为待推荐的标签。其中，参与阈值根据重要度方式选择通用性的阈值，保证标准的统一性。

例如，如表4所示，参数阈值选择0.1，则在营销场景下，满足推荐结果的标签包括性别标签5、性别标签2、性别标签1和性别标签6。然后根据在该场景下的排序结果，可以依次推荐性别标签。

所属场景	适合该场景的标签(重要性大于阈值0.1)
		营销场景	性别标签5、性别标签2、性别标签1、性别标签6
风控场景	性别标签1、性别标签4、性别标签8、性别标签6、性别标签3、性别标签5
		促活场景	性别标签7、性别标签3、性别标签4、性别标签8
运营场景	性别标签6、性别标签1、性别标签4、性别标签2

表4

对于营销场景，应用推荐标签，可以针对性的对用户进行营销，从而能够提高营销效应率；对于风控场景，应用推荐标签，可以针对性的对用户进行风险管控，提高风险管控情况；对于促活场景，应用推荐标签可以提高存量用户激活情况；对于运营场景，应用推荐标签可以优化控制成本。

在本公开的另一个实施例中，如图2所示，在步骤130后，还可以执行步骤210，根据每个标签在每个场景下的排序，确定每个标签最适用的场景。例如，如表3所示，性别标签5在营销场景下排第一位，在风控场景下排第七位，在促活场景下排第六位，在运营场景下排第七位。因此，该性别标签5最适用的场景为营销场景。针对表3中各标签的适用场景如表5所示。

标签名称	适用场景	标签名称	适用场景
				性别标签1	风控场景	性别标签5	营销场景
性别标签2	营销场景	性别标签6	运营场景
				性别标签3	促活场景	性别标签7	促活场景
性别标签4	风控场景	性别标签8	风控场景

表5

在上述实施例中，能够让下游的使用者从量化指标上了解自己所申请使用的标签及适用的场景，进而实现标签共享和应用。

在本公开的另一个实施例中，对各个场景下的机器学习模型进行迭代训练，以确定每个标签在不同时间、同一场景下的排序；根据排序结果确定每个标签的稳定性。

由于样本用户数据具有一定的时间期限，通过自动化迭代和更新场景的目标的标签，能够保证评估结果的时效性。如表6所示，对于性别标签1，在风控场景下，随着时间推移，标签排序不断衰退，说明该标签稳定性较差，因此，不应该采用该标签作为用户属性。

标签名称	适用场景	场景排序	评估时间	稳定性
					性别标签1	风控场景	top20％	2019/4/20	不稳定、效果衰减
性别标签1	风控场景	top20％	2019/4/30	不稳定、效果衰减
					性别标签1	风控场景	top50％	2019/5/10	不稳定、效果衰减
性别标签1	风控场景	top100％	2019/5/20	不稳定、效果衰减

表6

根据每个标签在不同时间、同一场景下的排序，可以确定该标签在不同时间适用的场景。例如，标签A在4月20日最适用于风控场景，其在风控场景中重要性排序第一，在营销场景中变量重要性排序为第10；在5月20日，标签A最适用仍为风控场景，但重要性变为第二，此时说明风控场景出现了更加适合风控业务的新标签，在营销场景中，重要性排名为第3，重要度有所上升。

在上述实施例中，在时间纵向粒度上，提供标签可用性、适用场景变迁、路径、及稳定性监控，为标签质量管理提供依据。

在本公开的另一个实施例中，根据每个标签在每个场景下的排序，删除样本用户数据中在多个场景下的排序结果大于排序阈值的标签。系统可能存储成千上万的标签，有些标签质量差、应用范围小，存在占用资源的情况，在该实施例中，采取下线机制，将排序结果在多个场景中都靠后的标签下线，从而减少生成和存储标签时所产生的资源浪费，为研发更多有意义的标签提供存储空间。

图3为本公开标签选择装置的一个实施例的结构示意图。该装置包括数据获取单元310、场景建模单元320、标签排序单元330和标签选择单元340。

数据获取单元310被配置为获取样本用户数据，其中，样本用户数据包括用户的多个同名标签，样本用户数据的标记值是用户的场景目标变量。其中，基于各个场景获取场景评价目标，基于场景评价指标确定场景目标。

同名标签是指具有同一名称或含义的标签，各标签可以是来自不同场景的标签。例如，高潜力用户标签，标签都标识用户的购物潜力，但有的表示用户对消耗品的购买潜力、有的标签代表用户对金融产品的消费潜力、有些表示用户对电子产品的购买潜力等等，虽然他们都表示用户的购买潜力，但针对的场景和适用的业务不尽相同。

场景建模单元320被配置为采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数。

在一个实施例中，机器学习模型的输入参数为样本标签，输出参数为预测的场景目标变量，标记值为样本场景目标变量，通过对机器学习模型进行训练，训练好的机器学习模型的参数中包含能够表征标签和场景目标变量相关性的参数。该参数即为标签的重要性指标。

标签排序单元330被配置为根据参数对各个场景下的同名标签进行排序。例如，在营销场景下，根据各标签关联的信息增益，标签排序依次为性别标签5、性别标签2、性别标签1、性别标签6、性别标签3、性别标签4、性别标签7、性别标签8。

标签选择单元340被配置为根据排序结果选择标签。例如，在营销场景下，选择性别标签1作为最适合标识用户的标签。在一个实施例中，在每个场景中，将同名标签对应的参数大于参数阈值的标签作为待推荐的标签；根据各个场景下同名标签排序结果，依次推荐待推荐的标签。即将重要性大于阈值的标签作为待推荐的标签。

在该实施例中，采用样本用户数据对机器学习模型进行训练，获得各个场景下的机器学习模型中表征标签和场景目标变量相关性的参数，然后根据参数对各个场景下的同名标签进行排序，以便根据排序结果选择标签，将多人工耗时的工作转化为机器自动化判别的过程，从而减少人力物力的浪费。

在本公开的另一个实施例中，如图4所示，该装置还包括适用场景确定单元410，被配置为根据每个标签在每个场景下的排序，确定每个标签最适用的场景。例如，性别标签5在营销场景下排第一位，在风控场景下排第七位，在促活场景下排第六位，在运营场景下排第七位。因此，该性别标签5最适用的场景为营销场景。

在该实施例中，能够让下游的使用者从量化指标上了解自己所申请使用的标签及适用的场景有更大的信息和方向。

在本公开的另一个实施例中，该装置还包括迭代训练单元420和稳定性确定单元430。迭代训练单元420被配置为对各个场景下的机器学习模型进行迭代训练，以便标签排序单元330确定每个标签在不同时间、同一场景下的排序；稳定性确定单元430被配置为根据排序结果确定每个标签的稳定性。对于不稳定的标签，将不再应用到后续操作中。

在上述实施例中，在时间纵向粒度上确定标签是否稳定，为标签质量管理提供依据。

在本公开的另一个实施例中，该装置还包括数据删除单元440，被配置为根据每个标签在每个场景下的排序，删除样本用户数据中在多个场景下的排序结果大于排序阈值的标签，从而减少生成和存储标签时所产生的资源浪费。

本公开的自动化选择标签的方案，还可以应用到很多其他的择优及人工方式自动化过程中，例如，在接入第三方数据时，判断第三方数据对自身业务的作用，并将第三方数据与已有标签和数据重要性进行对比。

图5为本公开标签选择装置的另一个实施例的结构示意图。该装置包括存储器510和处理器520，其中：存储器510可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1、2所对应实施例中的指令。处理器520耦接至存储器510，可以作为一个或多个集成电路来实施，例如微处理器或微控制器。该处理器520用于执行存储器中存储的指令。

在一些实施例中，还可以如图6所示，该装置600包括存储器610和处理器620。处理器620通过BUS总线630耦合至存储器610。该装置600还可以通过存储接口640连接至外部存储装置650以便调用外部数据，还可以通过网络接口660连接至网络或者另外一台计算机系统(未标出)，此处不再进行详细介绍。

在该实施例中，通过存储器存储数据指令，再通过处理器处理上述指令，实现了多个标签的自动化选择和场景匹配功能。

在另一些实施例中，一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现图1、2所对应实施例中的方法的步骤。本领域内的技术人员应明白，本公开的实施例可提供为方法、装置、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

至此，已经详细描述了本公开。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

虽然已经通过示例对本公开的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本公开的范围。本领域的技术人员应该理解，可在不脱离本公开的范围和精神的情况下，对以上实施例进行修改。本公开的范围由所附权利要求来限定。

Claims

1.一种标签选择方法，包括：

获取样本用户数据，其中，所述样本用户数据包括用户的多个同名标签，所述样本用户数据的标记值是用户的场景目标变量；

采用所述样本用户数据对机器学习模型进行训练，获得各个场景下的所述机器学习模型中表征标签和场景目标变量相关性的参数；

根据所述参数对各个场景下的同名标签进行排序；

根据排序结果选择标签。

2.根据权利要求1所述的标签选择方法，还包括：

根据每个标签在每个场景下的排序，确定每个标签最适用的场景。

3.根据权利要求1所述的标签选择方法，还包括：

对各个场景下的机器学习模型进行迭代训练，以确定每个标签在不同时间、同一场景下的排序；

根据排序结果确定每个标签的稳定性。

4.根据权利要求1所述的标签选择方法，其中，

在每个场景中，将同名标签对应的参数大于参数阈值的标签作为待推荐的标签；

根据各个场景下同名标签排序结果，依次推荐所述待推荐的标签。

5.根据权利要求1所述的标签选择方法，还包括：

基于场景信息获取场景评价目标，基于场景评价指标确定场景目标。

6.根据权利要求1-5任一所述的标签选择方法，其中，

所述参数包括基尼指数、信息增益和信息价值中的一项或多项。

7.根据权利要求1-5任一所述的标签选择方法，还包括：

根据每个标签在每个场景下的排序，删除所述样本用户数据中在多个场景下的排序结果大于排序阈值的标签。

8.一种标签选择装置，包括：

数据获取单元，被配置为获取样本用户数据，其中，所述样本用户数据包括用户的多个同名标签，所述样本用户数据的标记值是用户的场景目标变量；

场景建模单元，被配置为采用所述样本用户数据对机器学习模型进行训练，获得各个场景下的所述机器学习模型中表征标签和场景目标变量相关性的参数；

标签排序单元，被配置为根据所述参数对各个场景下的同名标签进行排序；

标签选择单元，被配置为根据排序结果选择标签。

9.一种标签选择装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至7任一项所述的方法。