CN109690571B

CN109690571B - 基于学习的组标记系统和方法

Info

Publication number: CN109690571B
Application number: CN201780051176.1A
Authority: CN
Inventors: 杨文君; 李奘; 凌宏博; 曹利锋; 常智华; 杨帆
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2017-04-20
Filing date: 2017-04-20
Publication date: 2020-09-18
Anticipated expiration: 2037-04-20
Also published as: BR112018077404A8; TW201843609A; EP3461287A1; BR112018077404A2; CN109690571A; US20180307720A1; WO2018191918A1; EP3461287A4; AU2017410367B2; SG11201811624QA; PH12018550213A1; JP2019528506A; CA3029428A1; AU2017410367A1; KR20190015410A; KR102227593B1; CN111931845A

Abstract

提供了用于组标记的系统和方法。该系统可以包括可访问平台数据的处理器，该平台数据包括多个用户以及多个相关数据域，该系统还包括存储指令的存储器，所述指令在由处理器执行时使该系统执行方法。该方法可以包括获取用户的第一子集以及相关第一标签；为所述相关数据域分别确定所述用户的第一子集与多个用户中至少一些用户之间的至少一个差值；响应于确定所述差值超过第一阈值，确定对应数据域作为关键数据域；确定对应关键数据域的数据作为正样本，所述关键数据域与所述用户的第一子集相关；基于关键数据域，获取用户的第二子集以及相关数据作为负样本；以及用正样本和负样本训练规则模型。

Description

基于学习的组标记系统和方法

技术领域

本申请一般涉及用户标记和基于学习的标记的方法和技术。

背景技术

一个平台可以提供各种服务给用户。为便于用户服务和管理，需要分组管理用户。此过程可能带来很多挑战，尤其是当用户数量变大时。

发明内容

本发明的各种实施例可以包括系统，方法，以及被配置为执行组标记的计算机可读介质。用于组标记的计算系统可以包括可访问平台数据的一个或多个处理器以及存储指令的存储器，所述指令在由所述一个或多个处理器执行时使所述计算系统执行方法。平台数据可以包括多个用户以及多个相关数据域。该方法可以包括：获取用户的第一子集以及与所述用户的第一子集相关的一个或多个第一标签；分别为一个或多个相关数据域，确定所述用户的第一子集和至少部分所述多个用户之间的至少一个差值；响应于确定差值超过第一阈值，将对应的数据域确定为关键数据域，将与与所述用户的第一子集相关的对应于一个或多个关键数据域的数据确定为正样本，基于所述一个或多个关键数据域，获取来自平台数据的用户的第二子集以及相关数据作为负样本，以及用正样本和负样本训练规则模型以获取训练后的组标记规则模型。

在一些实施例中，平台数据可以包括与多个用户中每个用户对应的表格数据，以及数据域可以包括数据维度或数据度量中至少一个。

在一些实施例中，所述多个用户可以是平台用户，该平台可以是车辆信息平台，以及所述数据域可以包括位置、使用量、交易金额或投诉数量中的至少一种。

在一些实施例中，获取用户的第一子集包括从一个或多个分析者中接收所述用户的第一子集的标识符，而无需完全访问所述平台数据。

在一些实施例中，在服务器获取用户的第一子集之前，平台数据可以不包括所述第一标签。

在一些实施例中，所述差值为Kullback-Leibler散度。

在一些实施例中，基于对一个或多个关键数据域的相似性测量，所述用户的第二子集在超过第三阈值时与所述用户的第一子集不同。

在一些实施例中，所述规则模型可以是决策树模型。

在一些实施例中，所述训练后的组标记规则模型可以判断是否将第一标签分配给所述多个用户中的一个或多个。

在一些实施例中，所述服务器进一步被配置为将所述训练后的组标记规则模型应用于标记所述多个用户和添加到所述多个用户中的新用户。

在一些实施例中，组标记方法可以包括获取平台的多个实体的第一子集。实体的第一子集可以用第一标签标记，以及平台数据可以包括多个实体的一个或多个数据域的数据。组标记方法可以进一步包括确定所述实体的第一子集与所述多个实体中一些其他实体的一个或多个数据域中数据之间的至少一个差值。响应于确定所述差值超过第一阈值，获取与所述实体的第一子集相关的对应数据作为正样本，以及获取与所述多个实体的第二子集相关的对应数据作为负样本。所述组标记方法还包括用正样本和负样本训练规则模型，以获取训练后的组标记规则模型。所述训练后的组标记规则模型可以判断现有的或新的实体是否有资格获得第一标签。

本文公开的系统、方法、以及非暂时性计算机可读介质的这些以及其他特征，以及操作方法以及相关结构元件的功能以及部件的组合和制造经济将变得更加显而易见，考虑以下描述以及所附权利要求并参考附图，所有这些形式部分地形成本说明书，其中相同的附图标记表示各个附图中的对应部分。然而，应当理解，附图仅仅是为了说明和描述的目的，并不旨在限制本申请的范围。

附图说明

本技术的各种实施例的某些特征在所附权利要求中具体阐述。通过参考以下详细描述来更好理解该技术的特征和优点，其中阐述了利用本发明的原理的说明性实施例以及附图，其中：

图1示出了根据一些实施例的用于组标记的示例环境；

图2示出了根据一些实施例的用于组标记的示例系统；

图3A示出了根据一些实施例的示例平台数据；

图3B示出了根据一些实施例的具有第一标签的示例平台数据；

图3C示出了根据一些实施例的示例平台数据，其具有确定的正负样本以及关键数据域；

图3D示出了根据一些实施例的具有标记组的示例平台数据；

图4A示出了根据一些实施例的用于组标记的示例方法的流程图；

图4B示出了根据一些实施例的用于组标记的另一示例方法的流程图；

图5示出了示例计算机系统的框图，在此系统中可以实现在此描述的任何实施例。

具体实施方式

组标记对于有效的用户管理至关重要。这种方法可以将大量的数据按顺序排列，为进一步的数据处理、分析推导以及价值创造打下基础。没有组标记，数据处理变得效率低下，尤其是当数据量增加时。即使根据某些“本地标记规则”可以手动标记一小部分数据，但这些规则不会在全局数据中得到验证，并且可能不适合全局使用。此外，由于各种原因，如数据安全性，有限的工作责任以及缺乏技能背景，直接用户交互收集第一手数据以及执行手动标记的分析者可能不被允许访问全局数据，进一步限制了在“本地标记规则”到“全局标记规则”的外推。

例如，在为大量用户提供服务的在线平台上，运营以及客服分析者可以直接与客户交互并积累第一手数据。分析者还可以根据交互作用创建某些“本地标记规则”，例如，将某些相似背景或特征的用户归类到一起。然而，分析者已经被限制了对整个平台数据的授权，并且不能访问与每个用户相关的所有信息。另一方面，访问平台数据的工程师可能缺乏客户交互经验以及创建“全局标记规则”的基础。因此，需要利用第一手的交互作用，细化“本地标记规则”，以及获取适用于大规模平台数据的适当的“全局标记规则”。

下面描述的各种实施例可以克服组标记领域中出现的这些问题。在各种实施方式中，计算系统可以执行组标记方法。组标记方法可以包括获取平台的多个实体(例如，用户、对象、虚拟表示物等)的第一子集。实体的第一子集可以分别按照标记规则(可以认为是“本地标记规则”)，用第一标签标记，以及平台数据可以包括多个实体的一个或多个数据域的数据。组标记方法可以进一步包括确定实体的第一子集与多个实体中一些其他实体的一个或多个数据域中数据之间的至少一个差值；组标记方法可以进一步包括，响应于确定所述差值超过在一个或多个数据域的特定数据域中的第一阈值，获取与实体的第一子集相关联的对应数据作为正样本，以及获取与多个实体的第二子集相关联的对应数据作为负样本，该第二子集的数据与实体的第一子集的数据在特定数据字段中实质不同。如下所述，基于相似性测量法可以确定显著差异。所述组标记方法还包括用正样本和负样本训练规则模型以获取训练后的组标记规则模型。训练后的组标记规则模型可以应用于部分或全部平台数据以判断现有的或新的实体是否有资格获得第一标签。该判断可以被视为“全局标记规则”。

在一些实施例中，实体可以包括平台的用户。组标记的计算系统可以包括可访问平台数据的服务器。平台数据可以包括多个用户以及多个相关数据域。服务器可以包括可访问平台数据的一个或多个处理器，以及存储指令的存储器，当所述指令由一个或多个处理器执行时，使计算系统获取用户的第一子集以及与用户的第一子集相关的一个或多个第一标签。所述指令可以进一步使计算系统分别为一个或多个相关数据域，确定所述用户的第一子集与所述多个用户中的至少一部分之间的至少一个差值。该指令可进一步使计算系统响应于确定所述差值超过第一阈值，确定对应数据域作为关键数据域。该指令可以进一步使计算系统确定与所述用户的第一子集相关的对应所述一个或多个关键数据域的数据作为正样本；该指令可以进一步使计算系统基于一个或多个关键数据域，获取来自平台数据的用户的第二子集以及相关数据作为负样本，用户的第二子集的相关数据与实体的第一子集的相关数据显著不同。该指令可以进一步使计算系统用正样本和负样本训练规则模型以达到第二准确性阈值(例如，预定的准确性为98％的阈值)以获取训练后的组标记规则模型。

在一些实施例中，平台可以是车辆信息平台。平台数据可以包括与多个用户中每个用户对应的表格数据，以及数据域可以包括数据维度或数据度量中的至少一个。多个用户可以是平台用户，该平台可以是车辆信息平台，以及数据域可以包括位置、所述用户使用平台服务的次数、交易金额或投诉数量中的至少一种。

图1示出了根据一些实施例的用于组标记的示例环境100。如图所示1，示例环境100可以包括至少一个计算系统102，其包括一个或多个处理器104以及存储器106。存储器106可以是非暂时性和计算机可读的。存储器106可以存储指令，当所述指令由一个或多个处理器104执行时，使一个或多个处理器104执行本申请描述的多个操作。环境100还可以包括连接到系统102的一个或多个计算设备110、111、112以及120(例如，手机、平板电脑、计算机、可穿戴设备(智能手表)等)。计算设备可以根据访问和授权级别将数据传输到系统102或从系统102接收数据。环境100可以进一步包括可访问系统102的一个或多个数据储存器(例如，数据储存器108和109)。数据储存器中的数据可以与不同的访问授权级别相关。

在一些实施例中，系统102可以被称为信息平台(例如，提供车辆信息的车辆信息平台，车辆信息可由一方提供给服务另一方，由多方共享，在多方之间交换等)。平台数据可以存储在数据储存器中(例如，数据储存器108、109等)和/或存储器106中。计算设备120可以与平台的用户(例如，安装有该平台应用的用户的手机)相关。除由平台处理和反馈的数据存储之外，计算设备120可能无法访问数据储存器。计算设备110以及111可以与有限访问和授权平台数据的分析者相关。计算设备112可以与对完全访问和授权平台数据的工程师相关。

在一些实施例中，系统102以及一个或多个计算设备(例如，计算设备110、111或112)可以集成在单个设备或系统中。或者，系统102以及计算设备可以作为单独的设备操作。例如，计算设备110、111和112可以是计算机或移动设备，系统102可以是服务器。数据储存器可以位于可访问系统102的任何位置，例如在存储器106中，在计算设备110、111或112中，在连接到系统102的另一设备(例如，网络存储设备)中，或另一存储位置(例如，基于云的存储系统，网络文件系统等)等。通常，系统102、计算设备110、111、112以及120和/或数据储存器108和109可以通过一个或多个有线或无线网络(例如因特网)彼此通信，通过有线或无线网络可以传达数据。下面参照图2到图4B描述环境100的各个方面。

图2示出了根据一些实施例的用于组标记的示例系统200。图2所示的操作以及以下所呈现的内容是说明性的。在各种实施例中，计算设备120可以与系统102交互(例如，注册新用户、订单服务、交易支付等)，并且对应信息可以至少作为平台数据202的一部分存储在数据储存器108、109和/或存储器106中，并且可访问系统102。下面参照图3A到图3D描述系统200之间的进一步交互。

参照图3A，图3A示出了根据一些实施例的示例平台数据300。图3A的描述是说明性的，并且可以根据实施方式以各种方式修改。平台数据可以以一种或多种格式(例如表格、对象等)存储。如图3A所示，平台数据可以包括与平台的多个实体(例如，诸如用户A、B、C等的用户)中的每一个相对应的表格数据。系统102(例如，服务器)可以访问平台数据，其包括多个用户和多个相关数据域(例如，“城市”、“设备”、“使用量”、“支付”、“投诉”等)。例如，当用户在平台注册时，用户可以提交对应账户信息(例如，地址、城市、电话号码、支付方法等)，并且从平台服务的使用、用户历史(例如，用于访问平台的设备、服务使用量、支付交易、投诉等)也可以记录为平台数据。账户信息和用户历史可以存储在与用户相关的各种数据域中。在表格中，数据字段可以呈现为数据列。数据域可以包括维度以及度量。维度可以包括数据的属性。例如，“城市”表示用户的城市位置，“设备”表示用于访问平台的设备。度量可以包括定量测量。例如，“使用量”表示用户已使用平台服务的次数，“支付”表示用户与平台之间的交易总量，以及“投诉”表示用户投诉平台的次数。

在一些实施例中，取决于授权等级，平台的分析者和工程师(或其他人群)可以具有对平台数据不同的访问等级。例如，分析者可以包括运营、客户服务和技术支持团队。在他们与平台用户的交互中，分析者可以只访问“用户”、“城市”和“投诉”列中的数据，并且只有权限编辑“投诉”列。工程师可以包括数据学家、后端工程师和研究人员团队。工程师可以完全访问和授权来编辑平台数据300的所有列。

返回参考图2，计算设备110和111可以由有限访问和授权平台数据的分析者控制和操作。基于用户交互或其他经验，分析者可以确定“本地规则”来标记某些用户。例如，分析者可以标记平台用户的第一子集并且将标签信息204(例如，用户的第一子集的用户ID)提交给系统102。参照图3B，图3B示出了根据一些实施例的具有第一标签的示例平台数据310。图3B的描述意图是说明性的，并且可以根据实施方式以各种方式修改。除了添加第一标签C1之外，平台数据310与上述平台数据300类似。系统102可以从多个用户中获取用户的第一子集以及与用户的第一子集相关的一个或多个第一标签(例如，通过接收用户的第一子集和标签信息204)。在系统102(例如，服务器)获取用户的第一子集之前，平台数据可以不包括第一标签。系统102可以将所获得的信息(例如，标签信息204)整合到平台数据(例如，通过将“组标签”列添加到平台数据300)。分析者所识别的用户的第一子集可以包括对应于“14”个投诉的“用户A”和对应于“19”个投诉的“用户B”。分析者可能已将“用户A”和“用户B”都标记为“C1”。在此阶段，将“用户A”和“用户B”标记为“C1”可以称为“本地规则”，并且将确定如何将这个“本地规则”合成并外推给其他平台用户作为“全局规则”。

返回参考图2，计算设备112可以由完全访问和授权平台数据的工程师控制和操作。基于“本地规则”和平台数据，工程师可以向系统102发送查询206(例如，指令、命令等)以执行基于学习的组标记。参照图3C，图3C示出了根据一些实施例的示例平台数据320，其具有确定的正负样本以及关键数据域。图3C的描述意图是说明性的，并且可以根据实施方式以各种方式修改。平台数据320与上述的平台数据310类似。一旦获取用户的第一子集和标签信息204，系统102可以分别为相关数据域中的一个或多个，确定用户的第一子集与至少一部分用户之间的至少一个差值。例如，系统102可以分别为“城市”、“设备”、“使用次量、“支付”和“投诉”列中的一个或多个，确定用户的第一子集(例如，用户A和用户B)的数据与至少一部分平台用户(例如，所有平台用户、除了用户A和用户B以外的所有平台用户、未来500名用户等)的数据之间的至少一个差值(例如，Kullback-Leibler散度)。

响应于确定差值超过第一阈值，系统102可将对应数据域确定为关键数据域，并将与用户的第一子集相关的一个或多个关键数据域的数据确定为正样本。该第一阈值可以是预定的。在本申请中，预定阈值或其他属性可以由系统(例如，系统102)或与系统相关的操作者(例如，分析者、工程师等)预设。例如，通过分析用户的第一子集与其他平台用户(例如，平台的所有其他用户)的“支付”数据，系统102可确定该差值超过第一预定阈值(例如，高于平台的500个其他用户的平均值)。因此，平台102可以将“支付”数据域确定为关键数据域并且获取作为正样本的“用户A-支付1500-组标签C1”和“用户B-支付823-组标签C1”。在一些实施例中，关键数据域可以包括多于一个数据域，以及数据域可以包括维度和/或度量，如“城市”和“支付”。在这种情况下，可以使用“用户A-城市XYZ-支付1500-组标签C1”和“用户B-城市XYZ-支付823-组标签C1”作为正样本。这里，数据域“城市”的第一预定阈值可以是不同省份或州的城市。

基于一个或多个关键数据域，系统102可以从多个用户获取第二用户子集，并且从平台数据获取用户的第二子集的相关数据作为负样本。系统102可以将标签分配给负样本以进行训练。例如，系统102可以获取作为负样本的“用户C-城市KMN-支付25-组标签NC1”以及“用户D-城市KMN-支付118-组标签NC1”。在一些实施例中，基于对一个或多个关键数据域的相似性测量结果，用户的第二子集可以在超过第三阈值(例如，第三预定阈值)时不同于用户的第一子集。通过获取与不同用户或用户组相关的一个或多个关键数据域中的“距离”并与距离阈值进行比较，相似性测量可以确定一组用户是否与另一组用户相似。相似性测量可以通过各种方法来实现，如(标准化的)欧氏距离法、曼哈顿距离法、切比雪夫距离法、Minkowski距离法、马哈诺比斯距离法、余弦法、汉明距离法、Jaccard相似系数法、相关系数和距离法、信息熵法等。

在实施欧氏距离法的一个例子中，如果用户S具有用于数据域的属性m1并且用户T具有用于相同数据域的属性m2，则两个用户S和T之间的“距离”是

类似地，如果用户S分别具有两个数据域的属性m1和n1，而另一用户T具有对应数据域的属性m2和n2，则两个用户S和T之间的距离是

同样的原则适用于更多的数据域。此外，许多方法可以用于获取两组用户之间的“距离”。例如，可以比较来自两个组的每对用户，每个组中的用户的用户属性可以被平均，或者由代表用户的用户属性来表示，以与另一个代表用户的用户属性进行比较等。这样，可以确定多个用户或用户组之间的距离，并且可以确定距离用户的第一子集足够远(具有高于预设阈值的“距离”)的第二用户子集。与用户的第二子集相关的数据可以用作负样本。

在实施余弦法的另一个例子中，可以将用户S的各种属性(m1、n1...)和另一个用户T的各种属性(m2、n2、......)视为矢量。两个用户之间的“距离”是两个矢量之间的角度。例如，用户S(m1，n1)和T(m2，n2)之间的“距离”是θ，其中

cosθ在-1与1之间。cosθ越接近1，两个用户彼此越相似。同样的原则适用于更多的数据域。此外，可以使用许多方法来获得两组用户之间的“距离”。例如，可以比较来自两个组的每对用户，每个组中的用户的用户属性可以被平均，或者由代表用户的用户属性来表示，以与另一个代表用户的用户属性进行比较等。这样，可以确定多个用户或用户组之间的距离，并且可以确定距用户的第一子集足够远(具有高于预设阈值的“距离”)的第二用户子集。与用户的第二子集相关的数据可以用作负样本。

欧氏距离法、余弦法或其他相似性测量法也可以直接使用或修改为K最近邻域法。本领域技术人员将认识到，K最近邻域确定可以用于基于“距离”确定的分类或回归。在示例分类模型中，对象(例如，平台用户)可以通过其邻域的多数表决来分类，其中对象被分配给其K最近邻域中最常见的类别。在1-D示例中，对于度量列，可以计算用户的第一子集的数据与其他用户的数据之间的平方根差，以及来自用户的第一子集的差值超过第三预定阈值的用户可以作为负样本。随着关键数据域数量的增加，复杂性也随之增加。因此，简单排序以及单个列数据的阈值变得不足以合成“全局标记规则”，于是模型训练开始应用。为此，根据对象的属性(例如，数据域)可以映射对象(例如，平台用户)。聚集数据点的每个部分可以通过K最近邻域法确定为分类组，使得与负样本对应的组远离与第三预定阈值以上的正样本对应的另一组。例如，如果用户对应于两个数据域，则用户可以被映射到x-y平面上，该平面的每个轴对应于一个数据域。在x-y平面上对应于正样本的区域远离对应于负样本的另一区域超过第三预定阈值的距离。同样，在数据域较多的情况下，数据点可以用K最近邻域法进行分类，负样本可以根据与正样本的实质性差异来确定。

在一些实施例中，系统102可以用正负样本训练一个规则模型(例如，一个决策树规则模型)一直到达到第二准确性阈值，以获取训练后的组标记规则模型。可以为规则模型训练配置多个参数。例如，可以预设第二准确性阈值。又例如，可以预设决策树模型的深度(例如，三层深度以限制复杂度)。再例如，可以预设决策树的数量，以为决策添加“或”条件(例如，并行决策树可以表示“或”条件，以及同一决策树中的分支可以表示“与”条件来确定组的标记决策)。因此，在“与”和“或”条件下，决策树模型可以拥有更多的决策灵活性，从而提高决策树的准确性。

本领域技术人员会理解，决策树规则模型可以基于决策树学习，其使用决策树作为预测模型。预测模型可以将关于项目的观察值(例如，平台用户的数据域值)映射为项目目标值(例如，标签C1)的结论值。通过用正样本(例如，应该是标签C1的样本)以及负样本(例如，不应该是标签C1的样本)训练，训练后的规则模型可以包括逻辑算法以自动标记其他样本。逻辑算法可以至少部分地基于在每个树的各个层或深度做出的决策来整合。如图3D所示，训练后的组标记规则模型可以判断是否将第一标签分配给多个用户中的一个或多个，并且标记一个或多个平台用户和/或添加到平台中的新用户。图3D的描述意图是说明性的，并且可以根据实施方式以各种方式修改。例如将训练后的规则模型应用于平台用户，系统102可以将“用户C”和“用户D”标记为“C2”，以及将“用户E”标记为“C1”。进一步，训练模型还可以包括作为关键数据域的“城市”，其权重比“支付”更重要。因此，即使新用户尚未与平台交易，系统102可以将新用户“用户F”标记为“C1”。因此，组标记规则可用于分析现有数据以及预测新数据的组标签。

返回参考图2，在训练组标记规则并应用于平台数据的情况下，计算设备111(或计算设备110)可以通过发送查询208以及接收已标记的用户210来查看组标签。进一步，计算设备可以经由查询208，例如，通过纠正一个或多个用户的标签，改进训练后的组标记规则模型。如果计算设备120使用系统102登记新用户，则“全局标记规则”可以应用于对新用户进行预先标记。

鉴于以上所述，“本地标记规则”具有高可靠性和准确性，可通过与其他平台数据进行比较获取“全局标记规则”。“全局标记规则”整合了“本地标记规则”中定义的并适用于整个平台数据的特征。此过程可以通过上述学习过程来自动化进行，从而实现分析者无法达到的高效组标记任务。

图4A示出了根据本发明的各种实施例的示例方法400的流程图。方法400可以在各种环境(包括，例如图1的环境100)中实施。下述方法400的操作仅是示例性的。取决于实施方式，示例方法400可以包括以各种订单或并行方式执行的额外的、更少的或替代的步骤。示例方法400可以在各种计算系统或设备中实现，所述计算系统或设备包括一个或多个服务器中的一个或多个处理器。

在402处，用户的第一子集可以从多个用户中获取，并且可以获取与用户的第一子集相关的一个或多个第一标签。多个用户以及多个相关数据域可以是部分平台数据。第一子集可从分析者或操作者中第一手获得。在404，可以分别为一个或多个相关数据域确定用户的第一子集和至少部分所述多个用户之间的至少一个差值。在406，响应于确定差值超过第一阈值，对应数据域可以确定为关键数据域。对于一个或多个相关数据域可以执行406以获取一个或多个关键数据域。在408，可以获取与用户的第一子集相关的一个或多个对应关键数据域的数据作为正样本。在410，基于一个或多个关键数据域，可以从多个用户中获取用户的第二子集，并且可以从平台数据中获取相关数据作为负样本。负样本可能与正样本显著不同，并且可以如上所述获取。在412，规则模型可以用正负样本进行训练以达到第二准确性阈值，以获取训练后的组标记规则模型。训练后的组标记规则模型可以用于标记多个用户以及添加到所述多个用户的新用户，从而使用户可以自动按期望的类别进行组织。

图4B示出了根据本发明的各种实施例的示例方法420的流程图。方法420可以在各种环境(包括，例如图1的环境100)中实现。下述流程/方法的操作仅是示例性的。取决于实施方式，示例方法420可以包括以各种订单或并行方式执行的额外的、更少的或替代的步骤。示例方法420可以在各种计算系统或设备中实现，所述计算系统或设备包括一个或多个服务器的一个或多个处理器。

在422，获取平台的多个实体的第一子集。实体的第一子集用第一标签标记，平台数据包括多个实体的一个或多个数据域的数据。在424，确定所述实体的第一子集与所述多个实体中一些其他实体的第一子集的一个或多个数据域的数据之间的至少一个差值。在426，响应于确定所述差值超过第一阈值，获取与所述实体的第一子集相关的对应数据作为正样本，以及获取与所述多个实体的第二子集相关的对应数据作为负样本。负样本可能与正样本显著不同，并且可以如上所述获取。在428，用正样本和负样本训练规则模型以获取训练后的组标记规则模型。训练后的组标记规则模型判断现有的或新的实体是否有资格获得第一标签。

本文所描述的技术是由一个或多个专用计算设备实现的。专用计算设备可以是硬连线的，以执行技术，或可以包括电路或数字电子设备，如一个或多个应用程序-特定集成电路(ASIC)或现场可编程门阵列(FPGA)，其持续编程为执行技术或可以包括一个或多个硬件处理器，其被编程为根据程序指令在固件、存储器、其他存储器或组合中执行技术。这种专用计算设备还可以将定制硬连线逻辑、ASIC或FPGA与定制编程结合起来以完成该技术。专用计算设备可以是台式计算机系统、服务器计算机系统、便携式计算机系统、手持设备、网络设备或合并了用于实现这些技术的硬连线和/或程序逻辑的任何其它设备。计算设备是一般控制以及由运行系统软件协调。传统的运行系统控制以及计划执行计算机流程，执行存储器管理，提供文件系统，网络，I/O服务以及提供用户界面功能，例如图形用户界面(“GUI”)等等。

图5是示出了计算机系统500的框图，在该框图上可以实现在此描述的任何实施例。系统500可以对应于上述系统102。计算机系统500包括用于通信信息的总线502或其他通信机构，与总线502连接用于处理信息的一个或多个硬件处理器504。硬件处理器504可以是，例如，一个或多个通用微处理器。处理器504可以对应于上述的处理器104。

计算机系统500还包括主存储器506(如随机存取存储器(RAM)，高速缓存和/或其他动态存储设备)，该主存储器506连接到总线502，用于存储信息以及由处理器504执行的指令。主存储器506还可以用于在处理器504执行指令期间存储临时变量或其他中间信息。当存储在可访问处理器504的存储媒体中时，这种指令将计算机系统500呈现为被定制为执行指令中指定的操作的专用机器。计算机系统500进一步包括一个只读存储器(ROM)508或其他静态存储设备，其连接至总线502，用于为处理器504存储静态信息以及指令。提供存储设备510(如磁盘、光盘或USB拇指驱动器(闪存驱动器)等)，其连接到总线502以存储信息以及指令。主存储器506、ROM 508和/或存储器510可以对应于上述的存储器106。

计算机系统500可以使用定制硬连线逻辑、一个或多个ASIC或FPGA、固件和/或程序逻辑(与计算机系统结合使得或编程计算机系统500成为专用机器)来实现本文所述的技术。根据一个实施例，此处的技术是由计算机系统500响应于处理器504执行的，处理器504执行包含在主存储器506中的一个或多个指令的一个或多个序列。这样的指令可以从另一个存储介质(例如存储设备510)读入主存储器506。包含在主存储器506中的指令序列的执行使得处理器504执行本文描述的流程步骤。在替代实施例中，硬连线电路可以代替软件指令使用或与软件指令组合使用。

主存储器506、ROM 508和/或存储器510可以包括非暂时性存储介质。这里使用的术语“非暂时性介质”以及类似的术语是指存储使机器以特定方式运行的数据和/或指令的任何介质。这类非暂时性介质可以包括非易失性介质和/或易失性介质。非易失性介质包括，例如光盘或磁盘(如存储设备510)。易失性介质包括动态存储器，如主存储器506。非暂时性介质的常见形式包括，例如，软盘、软盘、硬盘、固态驱动器、磁带或任何其他磁数据存储介质、只读光盘存储器、任何其他光数据存储介质、任何具有孔图案的物理介质、RAM、PROM、以及EPROM、FLASH-EPROM、NVRAM，任何其他存储器芯片或盒式存储器，以及相同的网络版本。

计算机系统500还包括连接至总线502的通信接口518。通信接口518提供与一个或多个本地网络连接的一个或多个网络链路的双向数据通信。例如通信接口518可以是综合服务数字网(ISDN)卡、电缆调制解调器、卫星调制解调器或调制解调器，以向对应类型的电话线提供数据通信连接。又例如，通信接口518可以是局部区域网络(局域网)卡以向兼容的局域网(或与WAN通信的WAN组件)提供数据通信连接。无线链路也可能被实现。在任何这样的实施方式中，通信接口518发送并接收电信号、电磁信号或光信号，所述电信号、电磁信号或光信号携带代表各种类型信息的数字数据流。

计算机系统500可以通过网络、网络链接以及通信接口518发送消息以及接收包括程序代码的数据。在因特网示例中，服务器可以通过因特网、ISP、本地网络以及通信接口518发送应用程序的请求代码。

当代码被接收时，接收到的代码可以由处理器504执行，和/或存储在存储设备510或其他非易失性存储器中以供稍后执行。

在前面章节中描述的流程、方法、以及算法中的每一个都可以体现在代码模块中并且被代码模块完全或部分自动化，所述代码模块由一个或多个计算机系统或计算机处理器(包括计算机硬件)执行。流程以及算法可部分或全部在应用程序-特定电路中实现。

以上描述的各种特征以及流程可以彼此独立地使用，或者可以以各种方式组合。所有可能的组合以及子组合意在落入本发明的范围内。另外，在某些实现中可能会省略某些方法或流程框。这里描述的方法以及流程也不限于任何特定顺序，以及与其相关的框或陈述可以以适当的其他顺序执行。例如，所描述的框或陈述可以以不同于具体公开的顺序执行，或者多个框或陈述可以组合在单个框或陈述中。示例框或陈述可以串行、并行或以其他方式执行。框或陈述可以添加到所公开的示例实施例或从所示实施例中移除。这里描述的示例系统以及部件可以不同于所描述的来配置。与所公开的示例实施例相比，可以将元素添加、移除或重新排列。

这里描述的示例方法的各种操作可以至少部分由一个或多个处理器执行，所述处理器临时配置(例如，通过软件)或永久用于执行相关操作。无论是暂时还是永久配置，这样的处理器都可以构成处理器实施的引擎，其运行以执行本文所述的一个或多个操作或功能。

类似地，这里描述的方法可以至少部分地由处理器实施，以特定的处理器或硬件示例的处理器。例如，方法的至少一些操作可以由一个或多个处理器或处理器实施的引擎执行。此外，还可以运行一个或多个处理器以支持在“云计算”环境中执行相关操作，或者作为“软件作为服务”(SaaS)。至少部分操作可以由一组计算机(作为包括处理器的机器的示例)执行，这些操作可以通过网络(例如因特网)以及通过一个或多个适当的接口访问(例如，应用程序程序接口(API))。

某些操作的性能可以分布在处理器中，不仅驻留在单个机器中，而且部署在多个机器上。在一些示例实施例中，处理器或处理器实施的引擎可以位于单个地理位置(例如，在家庭环境、办公室环境或服务器场内)。在其他示例实施例中，处理器或处理器实施的引擎可以分布在多个地理位置。

在整个说明书中，多个实例可以实现描述为单个实例的组件、操作或结构。虽然一个或多个方法的独立操作被说明并描述为单独操作，但是可以同时执行一个或多个独立操作，并且不要求以所示的顺序执行操作。在示例配置中作为单独组件呈现的结构和功能可以实现为组合结构或组件。类似地，作为单个组件呈现的结构和功能可以被实现为单独的组件。这些以及其他变型、修改、添加以及改进均落入本文的范围主题内。

尽管参考具体示例实施例描述了主题的概述，但是在不脱离本发明的实施例的更宽范围的情况下，可以对这些实施例进行各种修改和改变。本发明主题的这些实施例可单独地或共同地由术语“发明”指代，仅为了方便，而不打算将该应用程序的范围自愿地限制为任何单个发明或概念(如果披露了多于一个的话)。

本文所示的实施例被足够详细地描述以使本领域技术人员能够实践所公开的教导。可以使用其他实施例并由此推断，使得可以在不脱离本发明的范围的情况下进行结构以及逻辑替换以及改变。因此，详细描述不应被视为具有限制意义，以及各种实施例的范围仅由所附权利要求以及这些权利要求所授权的等同物的全部范围来限定。

本文所述和/或附图中描述的流程图中的任何流程描述、元件或框应理解为潜在地代表用于实现特定逻辑功能的模块、段或代码部分，其包括一个或多个可执行指令或流程中的步骤。可替换的实现方式包括在这里描述的范围实施例中，其中取决于所涉及的功能性，元件或功能可以被删除或与所示出或讨论的顺序(包括基本上同时或以相反顺序)颠倒地执行，正如本领域技术人员所理解的那样。

如本文所使用的，术语“或”可以被解释为包含性或排他性意义。此外，可以为在此描述为单个实例的资源、操作或结构提供多个实例。另外，各种资源、操作、引擎以及数据储存器之间的界限是任意的，并且在具体说明性配置的上下文中说明了特定操作。功能的其他分配被设想为并且可以落入本发明的各种实施例的范围内。通常，示例配置中作为单独资源呈现的结构和功能可以实现为组合结构或资源。类似地，作为独立资源呈现的结构和功能可以被实现为单独的资源。这些以及其他变型、修改、添加以及改进落入由所附权利要求表示的本发明的实施例的范围内。因此，说明书和附图被认为是说明性的而不是限制性的。

除非另有特别说明或者在所使用的上下文中可以理解的情况下，否则“可能”、“可以”等条件语言意图表达某些实施例包括某些特征、元件和/或步骤，而其他实施例不包括。因此，这种条件语言一般并非旨在暗示一个或多个实施例以任何方式要求特征、元素和/或步骤，或者一个或多个实施例必然包括用于判断的逻辑，有或没有用户输入或提示，这些特征、元素和/或步骤是否包括或是在任何特定实施例中执行。

Claims

1.一种用于组标记的计算系统，包括：

可访问平台数据的一个或多个处理器，其中所述平台数据包括多个用户以及多个相关数据域；以及

存储指令的存储器，当所述指令由一个或多个处理器执行时，使所述计算系统执行：

获取用户的第一子集以及与所述用户的第一子集相关的一个或多个第一标签；

分别为所述相关数据域中一个或多个，确定所述用户的第一子集与至少部分所述多个用户之间的至少一个差值；

响应于确定所述差值超过第一阈值，确定对应数据域作为关键数据域；

确定对应的一个或多个关键数据域的数据作为正样本，所述一个或多个关键数据域与所述用户的第一子集相关；

基于所述一个或多个关键数据域，获取来自所述平台数据的用户的第二子集以及相关数据作为负样本，所述用户的第二子集的相关数据与所述用户的第一子集的相关数据不同；以及

用所述正样本和所述负样本训练规则模型以获取训练后的组标记规则模型。

2.根据权利要求1所述的系统，其特征在于：

所述平台数据包括与所述多个用户中的每一个用户对应的表格数据；以及

所述相关数据域包括数据维度或数据度量中的至少一个。

3.根据权利要求1所述的系统，其特征在于：

所述多个用户为所述平台的用户；

所述平台为车辆信息平台；以及

所述数据域包括位置、使用量、交易金额或投诉数量中的至少一个。

4.根据权利要求1所述的系统，其特征在于，所述获取用户的第一子集包括从一个或多个分析者中接收所述用户的第一子集的标识符，而无需完全访问所述平台数据。

5.根据权利要求1所述的系统，其特征在于，在获取所述用户的第一子集之前，所述平台数据不包括所述第一标签。

6.根据权利要求1所述的系统，其特征在于，所述差值为Kullback-Leibler散度。

7.根据权利要求1所述的系统，其特征在于，基于对所述一个或多个关键数据域的相似性测量，所述用户的第二子集在超过第三阈值时与所述用户的第一子集不同。

8.根据权利要求1所述的系统，其特征在于，所述规则模型为决策树模型。

9.根据权利要求1所述的系统，其特征在于，所述训练后的组标记规则模型判断是否将所述第一标签分配给所述多个用户中的一个或多个。

10.根据权利要求1所述的系统，其特征在于，所述指令使所述系统进一步执行：

将所述训练后的组标记规则模型应用于标记所述多个用户以及添加到所述多个用户中的新用户。

11.一种组标记方法，包括：

从多个用户中获取用户的第一子集以及与所述用户的第一子集相关的一个或多个第一标签，其中所述多个用户和多个相关数据域是平台数据的一部分；

12.根据权利要求11所述的方法，其特征在于：

所述相关数据域包括数据维度或数据度量中的至少一个。

13.根据权利要求11所述的方法，其特征在于：

所述多个用户为所述平台的用户；

所述平台为车辆信息平台；以及

14.根据权利要求11所述的方法，其特征在于，所述获取用户的第一子集包括从一个或多个分析者中接收所述用户的第一子集的标识符，而无需完全访问所述平台数据。

15.根据权利要求11所述的方法，其特征在于，在获取所述用户的第一子集之前，所述平台数据不包括所述第一标签。

16.根据权利要求11所述的方法，其特征在于，所述差值为Kullback-Leibler散度。

17.根据权利要求11所述的方法，其特征在于，基于对所述一个或多个关键数据域的相似性测量，所述用户的第二子集在超过第三阈值时与所述用户的第一子集不同。

18.根据权利要求11所述的方法，其特征在于，所述规则模型为决策树模型。

19.根据权利要求11所述的方法，其特征在于，所述方法进一步包括：

将所述训练后的组标记规则模型应用于标记所述多个用户和添加到所述多个用户中的新用户。

20.一种组标记方法，包括：

获取平台的多个实体的第一子集，所述实体的第一子集用第一标签标记，以及平台数据包括所述多个实体的一个或多个数据域的数据；

确定所述实体的第一子集与所述多个实体中一些其他实体的一个或多个数据域中数据之间的至少一个差值；

响应于确定所述差值超过第一阈值，获取与所述实体的第一子集相关的对应数据作为正样本，以及获取与所述多个实体的第二子集相关的对应数据作为负样本，所述实体的第二子集的相关数据与所述实体的第一子集的相关数据不同；以及

用所述正样本和所述负样本训练规则模型以获取训练后的组标记规则模型，其中所述训练后的组标记规则模型判断现有或新实体是否有资格获取所述第一标签。