CN115017341A

CN115017341A - 用户标签处理方法、装置及电子设备

Info

Publication number: CN115017341A
Application number: CN202210617607.9A
Authority: CN
Inventors: 李鸣; 金泽; 付强; 张良益; 阎鹏
Original assignee: Future Tv Co ltd
Current assignee: Future Tv Co ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-09-06

Abstract

本申请提供一种用户标签处理方法、装置及电子设备，涉及用户画像技术领域。该用户标签处理方法包括：获取针对预设多媒体应用的第一用户使用数据后，从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；并通过对目标使用数据进行数据聚类，得到多个数据范围；根据多个数据范围，更新预设标签项中各标签的预定义数据范围。本申请通过对预设标签项的目标使用数据进行聚类，得到多个数据边界清晰，边界划分有科学依据的数据范围，并利用划分的多个数据范围对预设标签项中各标签中运营人员划定的预定义数据范围进行更新，极大的增强了运营与实际的用户使用产生数据之间的关联性。

Description

用户标签处理方法、装置及电子设备

技术领域

本发明涉及用户画像技术领域，具体而言，涉及一种用户标签处理方法、装置及电子设备。

背景技术

由于生成用户标签对用户进行画像具有指导产品研发，优化用户体验、实现精准化营销等多种优势，越来越多的企业选择使用用户画像技术。

但是，现有技术生成用户画像或者对用户进行标签数据化时，由于运营人员的专家建议可能存在运营偏好的干扰，在运营的专家建议与系统算法的技术分类之间往往存在矛盾，难以进行有效统一。

发明内容

本发明的目的在于，针对上述现有技术中的不足，提供一种用户标签处理方法、装置及电子设备，以便实现一种平衡运营与用户使用数据的用户标签处理方法。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请实施例提供了一种用户标签处理方法，包括：

获取针对预设多媒体应用的第一用户使用数据，所述第一用户使用数据包括：在使用所述预设多媒体应用过程中产生的数据；

从所述多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；

对所述目标使用数据进行数据聚类，得到多个数据范围；

根据所述多个数据范围，更新所述预设标签项中各标签的预定义数据范围。

可选的，所述对所述目标使用数据进行数据聚类，得到多个数据范围，包括：

根据预设的最小邻域样本数，对所述目标使用数据进行数据聚类，得到所述多个数据范围，所述最小邻域样本数为每个数据范围内的预设的最小样本数。

可选的，所述根据预设的最小邻域样本数，对所述目标使用数据进行数据聚类，得到所述多个数据范围之前，所述方法还包括：

根据所述各标签的预定义数据范围，对所述目标使用数据进行处理，得到标签划分数量；

根据所述标签划分数量，和预设空间维度，计算所述最小邻域样本数，其中，所述预设空间维度表征采用所述各标签进行用户画像时所需的最少使用数据的数量。

可选的，所述根据所述各标签的预定义数据范围，对所述目标使用数据进行处理，得到标签划分数量，包括：

根据所述各标签的预定义数据范围，确定所述目标使用数据中各样本的标签；

计算每个样本到同标签下的其他样本的第一距离；

计算所述每个样本到不同标签下的其他样本的第二距离；

根据所述第一距离和所述第二距离，计算所述每个样本的原始轮廓系数；

将原始轮廓系数满足预设条件的样本的数量确定为所述标签划分数量。

可选的，所述根据预设的最小邻域样本数，对所述目标使用数据进行数据聚类，得到所述多个数据范围，包括：

根据预设的最邻近距离，计算最小拐点；

根据所述最小邻域样本数和所述最小拐点，对所述目标使用数据进行数据聚类，得到所述多个数据范围，所述每个数据范围内相邻两个样本的偏差在所述最小拐点的预设范围内。

可选的，所述根据所述多个数据范围，更新所述预设标签项中各标签的预定义数据范围包括：

根据每个预定义数据范围，和每个数据范围，计算所述每个预定义数据范围相对所述每个数据范围的支持度；

根据最大支持度对应的数据范围，更新所述最大支持度对应的预定义数据范围。

可选的，所述方法还包括：

采用更新后预定义数据范围，对针对所述预设多媒体应用的第二用户使用数据进行标签分割，得到第一用户标签；

采用所述更新后的预定义数据范围，对针对所述预设多媒体应用的用户调研数据进行标签分割，得到第二用户标签；所述用户调研数据包括：在针对所述预设多媒体应用的用户调研中收集的用户数据；

根据所述第一用户标签和所述第二用户标签，得到所述更新后预定义数据范围的效用校验结果。

可选的，所述获取针对预设多媒体应用的第一用户使用数据之后，所述方法还包括：

若所述第一用户使用数据存在数据缺失，根据预设的数据缺失填充算法补充缺失数据。

第二方面，本申请实施例还提供了一种用户标签处理装置，包括：获取模块、数据提取模块、聚类模块、更新模块；

所述获取模块，用于获取针对预设多媒体应用的第一用户使用数据，所述第一用户使用数据包括：在使用所述预设多媒体应用过程中产生的数据；

所述数据提取模块，用于从所述多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；

所述聚类模块，用于对所述目标使用数据进行数据聚类，得到多个数据范围；

所述更新模块，用于根据所述多个数据范围，更新所述预设标签项中各标签的预定义数据范围。

第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如第一方面任一所述的用户标签处理方法的步骤。

本申请的有益效果是：本申请实施例提供一种用户标签处理方法，获取针对预设多媒体应用的第一用户使用数据后，从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；并通过对目标使用数据进行数据聚类，得到多个数据范围；根据多个数据范围，更新预设标签项中各标签的预定义数据范围。本申请通过对预设标签项的目标使用数据进行聚类，得到多个数据边界清晰，边界划分有科学依据的数据范围，并利用划分的多个数据范围对预设标签项中各标签中运营人员划定的预定义数据范围进行更新，极大的增强了运营与实际的用户使用产生数据之间的关联性，解决了运营人员的专家建议与系统算法的技术分类之间难以有效统一的矛盾。在通过数据聚类进行数据范围划分时避免运营偏好的干扰，跟数据聚类得到的多个数据范围更大的可解释性，同时，标签定义的数据范围的更新又在预设标签项的各标签的基础上进行，充分支持了运营的标签划分期望，从而在运营期望与数据实际之间寻找到平衡点。除此之外，本申请得到的具有解释性的数据范围，可以更便于运营基于运营目标进行选择以及下游业务使用，也便于选出未包含在原始预定义数据范围内的数据分群，从而跳出固化的运营策略，进而帮助用户发现部分反直觉的用户特征群体，使得用户标签更加科学完善。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的一种用户标签处理方法的流程图；

图2为本申请又一实施例提供的一种用户标签处理方法的流程图；

图3为本申请另一实施例提供的一种用户标签处理方法的流程图；

图4为本申请再一实施例提供的一种用户标签处理方法的流程图；

图5为本申请再二实施例提供的一种用户标签处理方法的流程图；

图6为本申请再三实施例提供的一种用户标签处理方法的流程图；

图7为本申请一实施例提供的一种用户标签处理装置的示意图；

图8为本申请实施例提供的一种电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

在本申请中，除非另有明确的规定和限定，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包含至少一个特征。在本发明中的描述中，“多个”的含义是至少两个，例如两个、三个，除非另有明确具体的限定。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

目前针对用户画像的改进，大多集中在对用户行为的数据处理方法的改进，或者对用户标签数据的保存、校验和应用做出针对性处理，例如：使用区块链保证数据的唯一性等。这些都是在建立标签体系后进行的改进，属于对标签体系的进一步应用。但是，现有的用户标签体系的建立，可以分为两种类型，一类是直接基于已有标签、或既定方向生成算法，进行处理或者预测，虽然有众多利用深度学习方法或者强化学习方法对标签体系进行处理的方案，但其本质上依然是基于既有标签体系的处理方案。另一类是为智能应用使用的用户画像，例如：非可读性的标签化、矩阵数据表示、特征向量表示等方法，都是为后续智能应用场景进行针对性开发的画像方案，并不具有普遍的可用性，尤其是在添加人工运营后，并不能很好的帮助真实人类使用这一套用户画像进行运营操作。

也就是说，在现有的用户标签或者用户画像的技术方案中，对生成用户画像或者对用户进行标签数据化，来源于业务特点所对应的用户外在表现的抽象过程。先有目标，再创建针对这些目标的数据表达，即标签定义或者描述方案。这种方法极大程度上依赖运营人员的数据理解能力或者开发人员的运营能力，但不能完整且准确的表征出运营的目标、需求，也无法最大程度的使用多样性的技术手段，实现更具技术特征的数据化方法。

针对目前存在的问题，本申请实施例提供了多种可能的实现方式，以实现一种平衡运营与用户使用数据的用户标签处理方法。如下结合附图通过多个示例进行解释说明。图1为本申请一实施例提供的一种用户标签处理方法的流程图，该方法可由运行有上述用户标签处理方法的电子设备实现，该电子设备例如可以为终端设备，也可以为服务器。如图1所示，该方法包括：

步骤101：获取针对预设多媒体应用的第一用户使用数据，其中，第一用户使用数据包括：在使用预设多媒体应用过程中产生的数据。

需要说明的是，在进行用户标签处理时，首先需要获取针对预设多媒体应用的第一用户使用数据。所谓预设多媒体应用指的是需要运用本申请的用户标签处理方法进行处理的目标多媒体应用，该多媒体应用既可以是终端(例如在手机、平板、笔记本电脑、智能电视等类型终端)的多媒体应用，也可以是在服务器、云平台等设备上的多媒体应用，本申请对此不做限定，只要该电子设备可以运行多媒体应用，并可以获取到第一用户使用数据即可。此外，多媒体应用例如可以是影音类应用(例如音视频录制应用、音视频放映应用、音视频剪辑处理应用等)、社交类应用(例如职业社交应用、交友类社交应用、即时通讯类应用等)、指南类应用(例如提供多种资源入口的分流式应用等)等，本申请对此多媒体应用的具体类型不做限定，应当理解，所有存在用户使用，且能够通过对用户使用数据进行处理实现用户标签的应用均可以为本申请的预设多媒体应用。

还需要说明的是，第一用户使用数据是指在用户使用预设多媒体应用的过程种可能产生的数据。根据预设多媒体应用的具体形式以及具体的应用内容，不同的多媒体应用可以收集到不同的第一用户使用数据，本申请对第一用户使用数据所包含的具体数据类型、数据内容等不做限定。在一种可能的实现方式中，第一用户使用数据可以包括属性类数据(例如用户的物理地址、所使用的终端或者服务器的型号、所使用的预设多媒体应用的版本等)、价值类数据(例如用户的付费使用情况、数据使用情况(例如影音类多媒体应用的收视情况)、点击次数与点击内容、浏览时间及浏览频次等)、行为类数据(例如用户的操作顺序、在特定页面下的动作序列、操作按键等)、偏好类数据(例如用户浏览较多的信息对应的信息类型、偏好的资源类型、偏好的资源入口等)等。上述仅为示例说明，在实际实现中，还可以有其他的第一用户使用数据的具体类型，本申请对此不做限定。此外，为了使用第一用户使用数据进行用户标签处理，通常需要多个用户的第一用户使用数据，本申请对具体实现时采用的第一用户使用数据对应的具体的用户数量不做限定，在具体实现中可以根据实际需要进行设定。

在一种可能的实现方式中，针对预设多媒体应用获取到的原始使用数据由于数据记录形式、格式存在差异，或者涉及安全性、隐私等问题，不能直接分析使用，需要对这些原始使用数据进行数据脱敏(部分隐私相关数据还可能需要用户确认后再进行数据脱敏)，进而得到满足本申请用户标签处理方法使用的第一用户使用数据。

步骤102：从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据。

需要说明的是，多个用户的第一用户使用数据规模庞大，在每次具体应用中不需要使用到全部的数据，为了加快运算速度，减少不必要的计算资源浪费，可以从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据，即对多个用户的第一用户使用数据进行筛选。

还需要说明的是，标签项是多个有关联的标签的集合，在本申请中，根据用户标签处理方法的具体应用场景，在预设多媒体应用中可能存在多个用户标签，用其中有关联的多个标签可以生成一个标签项，由此，在预设多媒体应用中可能存在多个的标签项，不同的标签项的标签之间互不关联或者关联度交底，一个标签项中的多个标签之间相互关联，或者关联程度较高。此外，本申请对每个标签项中包括的标签的具体数量不做限定，用户可以根据该标签项的具体类型、内容，预设多媒体应用的具体形式等进行设定。

在一种具体的实现方式中，若预设多媒体应用为互联网电视应用，该互联网电视应用中共定义了用户行为标签、用户价值标签、用户行为标签、内容偏好标签，四个类型，共320个不同标签，每个标签都可以使用用户数据进行详细的数学描述。此外，每个标签都是运营基于预设多媒体应用的应用实际进行定义和区分的。在此基础上，可以将标签划分到多个标签项中，例如用户生命期标签项等，在每个标签项中包括一个或多个标签。需要说明的是，标签项中包括的标签可以在同一个标签类型中，也可以在不同的标签类型中，本申请对此不做限定。此外，对标签项的划分可以由运营人员根据具体的使用、分析需求进行划分，也可以通过预设的分类算法进行划分，本申请对此也不做限定。

步骤103：对目标使用数据进行数据聚类，得到多个数据范围。

确定目标使用数据之后，对目标使用数据进行数据聚类，从而得到多个数据范围。需要说明的是，数据聚类是指根据目标使用数据的内在性质将数据分成多个聚合类，使得每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大的数据处理方法。此外，本申请中对目标数据进行数据聚类的方法例如可以为划分式聚类方法(Partition-based Methods)、基于密度的聚类方法(Density-based methods)、层次化聚类方法(Hierarchical Methods)等，用户可以根据具体使用需要进行选择，本申请对此不做限定。

步骤104：根据多个数据范围，更新预设标签项中各标签的预定义数据范围。

需要说明的是，根据使用场景的不同，预定义数据范围可以是运营定义的标签的数据范围(例如在对运营定义的标签进行调整，或者对运营更新的标签进行调整等场景中)，也可以是本次更新之前预设的数据范围(例如多媒体应用升级后需要更新用户标签，且之前的用户标签已经根据本申请的方法进行过调整时)，本申请对此不做限定。

对目标使用数据进行聚类后，可以得到多个数据范围，这些数据范围是利用科学的数据处理方法得到的，相较于各标签中由运营人员预定义的数据范围而言划分更加准确，范围的界定更加合理，因此使用多个数据范围对预设标签项中各标签的预定义数据范围进行更新。

综上，本申请实施例提供一种用户标签处理方法，获取针对预设多媒体应用的第一用户使用数据后，从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；并通过对目标使用数据进行数据聚类，得到多个数据范围；根据多个数据范围，更新预设标签项中各标签的预定义数据范围。本申请通过对预设标签项的目标使用数据进行聚类，得到多个数据边界清晰，边界划分有科学依据的数据范围，并利用划分的多个数据范围对预设标签项中各标签中运营人员划定的预定义数据范围进行更新，极大的增强了运营与实际的用户使用产生数据之间的关联性，解决了运营人员的专家建议与系统算法的技术分类之间难以有效统一的矛盾。在通过数据聚类进行数据范围划分时避免运营偏好的干扰，跟数据聚类得到的多个数据范围更大的可解释性，同时，标签定义的数据范围的更新又在预设标签项的各标签的基础上进行，充分支持了运营的标签划分期望，从而在运营期望与数据实际之间寻找到平衡点。除此之外，本申请得到的具有解释性的数据范围，可以更便于运营基于运营目标进行选择以及下游业务使用，也便于选出未包含在原始预定义数据范围内的数据分群，从而跳出固化的运营策略，进而帮助用户发现部分反直觉的用户特征群体，使得用户标签更加科学完善。

可选的，在上述图1的基础上，本申请还提供一种用户标签处理方法的可能实现方式，对目标使用数据进行数据聚类，得到多个数据范围，包括：

根据预设的最小邻域样本数，对目标使用数据进行数据聚类，得到多个数据范围，最小邻域样本数为每个数据范围内的预设的最小样本数。

在一种可能的实现方式中，对目标使用数据根据预设的最小邻域样本数进行数据聚类，其中，最小邻域样本数为每个数据范围内的预设的最小样本数，也就是一个数据范围成立所需的最少样本数。

在一种具体的实现方式中，在通过上述方法将所有样本划分到不同的数据范围当中后，还可能存在孤立性的样本，对于这些样本，可以按照孤立样本与其他标签样本的平均距离的最小值，将其划分为独立的数据范围；此外，多个孤立性的样本之间也可以参照上述方法进行数据聚类，从而生成新的数据范围。上述仅为示例说明，在实际实现中，对于孤立性的样本还可以有其他的处理方式，本申请对此不做限定。

通过上述方法，可以得到多个满足预设的最小邻域样本数条件的数据范围，为进一步进行用户标签处理提供理论支持。

可选的，在上述实施例的基础上，本申请还提供一种用户标签处理方法的可能实现方式，图2为本申请又一实施例提供的一种用户标签处理方法的流程图；如图2所示，根据预设的最小邻域样本数，对目标使用数据进行数据聚类，得到多个数据范围之前，方法还包括：

步骤201：根据各标签的预定义数据范围，对目标使用数据进行处理，得到标签划分数量。

在一种可能的实现方式中，首先需要确定标签划分的数量，即目标使用数据可以划分为多少个数据范围，即明确数据聚类的目标。本申请过in对标签划分数量的具体计算方式不做限定，该标签划分数量可以通过相关的数学算法进行计算，也可以由运营根据经验公式确定等，只要能够确定标签划分数量的具体取值即可。

步骤202：根据标签划分数量，和预设空间维度，计算最小邻域样本数，其中，预设空间维度表征采用各标签进行用户画像时所需的最少使用数据的数量。

接着，根据标签划分数量，和预设空间维度，计算最小邻域样本数。

需要说明的是，预设空间维度表征采用标签项各标签进行用户画像时所需的最少使用数据的数量。一般地，进行用户画像时，需要的数据量越少，则处理速度越快，但是数据量大同样会对用户画像的准确性带来提高，因此，需要对此进行权衡，即确定空间维度。

在一种可能的实现方式中，可以使用主成分分析(Principal ComponentAnalysis，PCA)的方法，对用户使用数据(第一用户使用数据、或者第二用户使用数据、或者包括第一用户使用数据和第二用户使用数据的全部用户使用数据)进行降维处理，从而确定每个标签项所需的最优数据投影空间，以及预设空间维度。需要说明的是，由于不同的标签项针对的标签不同、标签处理时对应的数据类型不同，因此不同的标签项所对应的预设空间维度可以是不同的，本申请对预设空间维度的具体取值不做限定。

在一种具体的实现方式中，若标签划分数量为m，预设空间维度为k，则最小邻域样本数minP可以为：minP＝m+2*k；上述仅为示例说明，用户根据具体的使用场景，还可以设定不同的最小邻域样本数的计算方法，本申请对此不做限定。

可选的，在上述图2的基础上，本申请还提供一种用户标签处理方法的可能实现方式，图3为本申请另一实施例提供的一种用户标签处理方法的流程图；如图3所示，根据各标签的预定义数据范围，对目标使用数据进行处理，得到标签划分数量，包括：

步骤301：根据各标签的预定义数据范围，确定目标使用数据中各样本的标签。

需要说明的是，在具体的实现过程中，步骤301-步骤305需要根据预设标签项下标签的个数作为最少循环次数循环执行，从而确定每个标签下的标签划分数量，按照标签项中标签的项目数量作为循环每个标签分类的次数。举例来说，若预设标签项为用户生命期标签项，该标签项中共包含5个标签，则需要针对这个标签项(用户生命期)进行标签定义核准分析(即标签划分数量时)，需要循环执行步骤301-步骤305至少五次。

此外，可以按照实际预定义标签数量作为数据聚类的最小分类数量。若使用DBSCAN聚类方法作为数据聚类方法时，可以将基准最小的类型数量为标签数量，且实际使用的目标使用数据为与预设标签项关联的目标使用数据的抽样数据，且需至少占目标使用数据总数据量的65％。

在一种可能的实现方式中，确定标签划分数量时，首先可以根据各标签的预定义数据范围，确定目标使用数据中各样本的标签。即明确目标使用数据中各个样本数据对应的标签。需要说明的是，在目标使用数据中每个样本可能对应至少一个标签，本申请对此不做限定，根据具体各标签的预定义数据范围进行确定即可。

在另一种可能的实现方式中，根据各标签的预定义数据范围，确定目标使用数据中各样本的标签后，还可以寻找合并最大的定义域作为标签划分基础，并依照预定义数据范围确定每个标签的实际数据集。上述仅为示例说明，在实际实现中，还可以有其他的实现方式，本申请对此不做限定。

步骤302：计算每个样本到同标签下的其他样本的第一距离。

在一种可能的实现方式中，计算每个样本i到同标签其它样本的平均距离a_i为第一距离。a_i越小，则说明样本i越应该被聚类到该标签(也可以将a_i称为样本i到同标签其他样本的项内不相似度)。

步骤303：计算每个样本到不同标签下的其他样本的第二距离。

在一种可能的实现方式中，计算每个样本i到不同标签C_j的其他所有样本的平均距离b_ij为第二距离，b_ij也可以称为样本i与标签C_j的不相似度。由此可以定义样本i的标签间不相似度：

b_i＝min(b_i1,…,b_ik)；

需要说明的是，不同标签C_j既可以包括与样本i同一标签项下的不同标签，也可以包括与样本i不同标签项下的其他标签，本申请对此不做限定，用户在具体计算时可以根据需要进行选择。

步骤304：根据第一距离和第二距离，计算每个样本的原始轮廓系数。

在一种具体的实现方式中，可以通过如下方式计算每个样本的原始轮廓系数：

此原始轮廓系数s_i表示的是样本i在预定义数据范围下的原始轮廓系数。

步骤305：将原始轮廓系数满足预设条件的样本的数量确定为标签划分数量。

根据预设条件对上述得到的各个原始轮廓系数进行筛选，从而确定标签划分的数量。需要说明的是，预设条件可以由运营根据预设多媒体应用的应用实际进行确认，可以通过相关的计算模型通过大数据处理、神经网络等方式进行确认，本申请对此不做限定，只要能够得到预设条件即可。

在一种可能的实现方式中，预设条件例如可以为|s_i|>0.2，即所有满足原始轮廓系数的绝对值大于0.2的样本的数量等于标签划分数量。

在另一种可能的实现方式中，由于上述步骤需要根据预设标签项下的标签数量重复多次，则可以得到多个标签划分数量，对此多个标签划分数量可以进行计算从而得到一个当前预设标签项对应的标签划分数量，其计算方法例如可以为多个划分数量的平均值取整、多个划分数量的和等，本申请对此不做限定。

通过上述方法，具体确定了标签划分数量的具体数值。

可选的，在上述实施例的基础上，本申请还提供一种用户标签处理方法的可能实现方式，图4为本申请再一实施例提供的一种用户标签处理方法的流程图；如图4所示，根据预设的最小邻域样本数，对目标使用数据进行数据聚类，得到多个数据范围，包括：

步骤401：根据预设的最邻近距离，计算最小拐点。

在一种可能的实现方式中，可以通过最邻近距离，通过拟合第二距离曲线，在此基础上使用牛顿法寻找最小拐点，其中，第二距离的具体计算方式参考步骤303，在此不再赘述；拟合b_i→y_i的曲线时，y_i可以为样本i的数据向量的秩，得到y_i的曲线即为拟合的第二距离曲线。对第二距离曲线寻找最小拐点可以采用牛顿法，也可以使用其他方式，本申请对此不做限定。

步骤402：根据最小邻域样本数和最小拐点，对目标使用数据进行数据聚类，得到多个数据范围，每个数据范围内相邻两个样本的偏差在最小拐点的预设范围内。

在一种具体的实现方式中，可以通过如下方式根据预设的最小邻域样本数minP和最小拐点e_i，对目标使用数据进行数据聚类，从而得到多个数据范围：每个数据范围内相邻两个样本(即距离最近的两个相邻样本)的偏差(两个样本的距离)在最小拐点的预设范围(例如以样本i为圆心，以最小拐点的值为半径的范围为预设范围)内：

首先任选一个没有划定数据范围的样本i(样本i可以是目标使用数据中的任一样本数据)作为开始，找到与这个样本密度可达的全部样本，即为一个聚类结果C′_n(即数据范围)；其中，密度可达是指：对于x_i和x_j，存在一个序列{x_i,p₁,…p_n,x_j}，在先后顺序上前后两个样本(x_i与p₁，p_n与x_j，p_i与p_i+1)都是密度直达的。密度直达是指：任意两个样本i和j，若j在i的以e_i为半径的范围内，则i到j是密度直达的；同时对于任意密度直达的原点样本i，在其e_i范围内，需要满足有minP个不同样本点。重复上述步骤，即可将所有样本划分到不同的数据范围当中。

上述仅为示例说明，在实际实现中，还可以通过其他方式实现数据聚类，或者通过其他方式实现基于最小邻域样本数的数据聚类，本申请对此不做限定。

可选的，在上述图1的基础上，本申请还提供一种用户标签处理方法的可能实现方式，图5为本申请再二实施例提供的一种用户标签处理方法的流程图；如图5所示，根据多个数据范围，更新预设标签项中各标签的预定义数据范围包括：

步骤501：根据每个预定义数据范围，和每个数据范围，计算每个预定义数据范围相对每个数据范围的支持度。

步骤502：根据最大支持度对应的数据范围，更新最大支持度对应的预定义数据范围。

在一种可能的实现方式中，计算每个预定义数据范围与数据范围的支持度数值。具体来讲，对于每一个预定义数据范围C_i，计算其与每一个数据范围D_j中的支持度S_ij，并将得到的多个支持度S_ij由大到小排序，选择支持度最大的一组预定义数据范围和数据范围(C_i→D_j)，该最大支持度S_ij对应的D_j定义的数据范围作为C_i的预定义数据范围的修正数据范围，对剩下的预定义数据范围与数据范围再进行支持度计算，并排序筛选，找到所有预定义数据范围对应的数据范围。从而确定了预设标签项中每个标签所对应的数据范围。在对所有的标签项中的标签确定数据范围后，即可得到用户标签模型，该模型可以用于对预设多媒体应用的用户确定用户标签，进而实现用户画像，进而指导下游的营销或者推送活动。

在一种具体的实现方式中，可以通过如下方式计算支持度：

支持度

其中，C_i、D_j的定义参见上述实现方式，本申请在此不再赘述。

在又一种可能的实现方式中，若在计算中出现预定义数据范围与数据范围的支持度数值的最大值小于预设警戒值(例如50％，这个值可以由运营进行设定)时，则需要针对邻近分类，按照距离分类核心点等距点进一步优化有重合的区域(即对数据范围进行进一步分割)，形成新的数据范围。

在另一种可能的实现方式中，由于计算得到的标签划分数量可能大于等于预设标签项所对应的标签的数量(一般情况下不会出现小于的情况，若出现小于的情况，则重新对目标使用数据进行数据聚类，再根据新的数据聚类进行后续处理)，当标签划分数量大于预设标签项所对应的标签的数量时，在完成步骤502后还可能剩余未与预定义数据范围匹配的数据范围，也就是说存在一些未包含于预设标签项中各个标签的数据范围，可以将这些剩余的数据范围反馈给运营人员，由运营人员对其进行调整，具体调整方式包括但不限于：将剩余某数据范围添加到预设标签项的某个标签下，为剩余的某数据范围增加新的标签(标签名和标签定义)，将剩余的某数据范围作为匿名标签不对外展示(仅供其他下游系统或者智能系统在进行相关处理时内部使用)，本申请对此不做限定。

在再一种可能的实现方式中，在步骤502之后，还可以监控更新后的预定义数据范围是否满足实际使用需要。例如当运营调整标签定义时，或者当某一个标签项中的标签支持度变化范围大于最近预设时间长度(例如30天)的波动均值时，则判断为存在标签定义不满足实际情况的现象。但不满足实际使用需要时，则重新使用本申请的用户标签处理方法对预定义数据范围进行更新。在一种具体的实现方式中，当某一个标签项中的标签支持度变化范围大于最近预设时间长度的波动均值时，可以增加标签划分数量的取值，并根据新的标签划分数量得到多个数据范围实现对预定义数据范围的更新。上述仅为示例说明，在实际实现中，还可以有其他的更新方式，本申请对此不做限定。在另一种具体的实现方式中，当标签的预定义有变更的时候，需要对相关标签定义进行重新进行数据聚类(例如运行DBSCAN聚类方法)及后续标签处理方法的流程；当满足预定义范围的用户数量占最终标签定义范围内的用户数量的支持度，相比前一日的支持度，下降的数值超过最近30天(预设时间长度)的支持度数值变化量的均值时，也需要重新运行数据聚类方法(例如运行DBSCAN聚类方法)及后续标签处理方法的流程。

对于支持度的变化，做持续的监控，可以很好的发掘用户群体的变化，以此作为用户分类调整的启动因素，可以避免产品上、运营上有变化时，数据系统难以快速发觉变化，也无法面对用户群体快速变化，所带来的群体特征的漂移。

可选的，在上述图1的基础上，本申请还提供一种用户标签处理方法的可能实现方式，图6为本申请再三实施例提供的一种用户标签处理方法的流程图；如图6所示，该方法还包括：

步骤601：采用更新后预定义数据范围，对针对预设多媒体应用的第二用户使用数据进行标签分割，得到第一用户标签。

步骤602：采用更新后的预定义数据范围，对针对预设多媒体应用的用户调研数据进行标签分割，得到第二用户标签；用户调研数据包括：在针对预设多媒体应用的用户调研中收集的用户数据。

步骤603：根据第一用户标签和第二用户标签，得到更新后预定义数据范围的效用校验结果。

判断生成的用户标签模型是否满足实际使用需要时，可以首先采用更新后预定义数据范围，对针对预设多媒体应用的第二用户使用数据(与第一用户使用数据在数据类型上完全相同，但是具体的数据内容不同，此第二用户使用数据为测试数据)进行标签分割，得到第一用户标签。

在采用更新后的预定义数据范围，对针对预设多媒体应用的用户调研数据(用户调研数据是针对预设多媒体应用的用户调研中收集的用户数据，可以通过收集用户调研问卷等方式获得)进行标签分割，得到第二用户标签。

通过对比第一用户标签和第二用户标签，可以得到更新后预定义数据范围的效用校验结果。根据效用校验结果可以对更新后的预定义数据范围进行评价。

由于运营人员对标签的定义来源于基于业务场景的运营需求，因此多数用户标签都难以在不同需求中迁移。每增加一个场景，都需要增加的相应的标签定义。并需要在标签生产后，增加试运行以保证标签的准确性，或保证足以满足相应的运营需求。这导致系统更新(例如增加新的场景、新的用户标签等情况)或者修订后，可能就面临技术上的前后数据不兼容的问题，尤其是当某些用户无法及时更新产品时，用户整体的标签数据化就会出现缺失，也会造成部分用户无法得到运营，为业务发展造成一定阻力。

因此，在上述实施例的基础上，本申请还提供了一种用户标签处理方法的可能实现方式，解决用户标签处理时可能存在的数据缺失问题。

可选的，在上述图1-图6基础上，本申请还提供一种用户标签处理方法的可能实现方式，获取针对预设多媒体应用的第一用户使用数据之后，方法还包括：

若第一用户使用数据存在数据缺失，根据预设的数据缺失填充算法补充缺失数据。

若第一用户使用数据存在数据缺失时，首次判断数据缺失的缺失类型，再对缺失的数据根据确实类型对应的数据缺失填充算法进行补充。在本申请中，缺失类型例如可以为：基本缺失(即单纯性数据缺失)、属性缺失(即用户属性数据的缺失，属性数据例如可以包括性别、年龄分层、收入水平、家庭情况、爱好等类型的数据)。上述仅为示例说明，在实际实现中，还可以包括其他类型的数据缺失，本申请对此不做限定，在具体实践中可以根据需要进行扩充。

在一种可能的实现方式中，对于基本缺失类型的数据缺失，可以通过支持向量机(support vector machines,SVM)模型补充缺失数据。首先，本申请中可用于数据缺失补充的支持向量机模型可以通过如下方式进行训练：

首先，基于时间，在缺失数据对应第一时间点之前的多个时间点对此用户的数据进行抽样(具体的抽样数目以及抽样时间间隔不做限定，但是可以理解，抽样数据越多、抽样覆盖的时间长度越长，训练后得到的精度越高，但同时需要耗费的训练资源越多，因此在具体训练时可以权衡资源消耗与训练后模型精度确定抽样规模)。在本申请中例如可以在最近21天内，每天的第一时间点对应时刻进行100条抽样，如果时间点无数据，则不抽样这个时间点数据，如果原始数据不足100条则使用放回抽样。

其中100条抽样数据的数据形式例如可以为：

其中t为时间点，x为具体抽样数值，y为缺失数值。

使用抽样获取的数据对支持向量机模型进行训练，得到训练好的支持向量机模型，该训练好的支持向量机模型能够根据缺失数据对应时间点的历史时间点数据对缺失数据进行预测，即利用缺失数据列([t₀,x₀,…x_N])，计算预测的缺失值y₀，从而实现对基本缺失类型的数据缺失的补充。

在另一种可能的实现方式中，对于属性缺失类型的数据缺失，可以通过内在可解释模型(RuleFit)补充缺失数据，首先，本申请中可用于数据缺失补充的内在可解释模型可以通过如下方式进行训练：

基于已经获得用户允许的属性数据，结合用户收视、行为数据，形成原始数据，使用提升算法(例如Boosting)抽样全部原始数据的80％，作为训练数据，剩余原始数据作为验证数据；

使用选择好的完整数据

利用标准的决策树，构建M个不同的决策分类r₁(x),…r_M(x)；

并使用上述决策分类作为变量，拟合回归模型：

在具体使用中，对每一个需要补充的属性标签，使用分别建立好的上述内在可解释模型，预测需要补充的属性标签。

需要说明的是，当第二用户使用数据或者用户调研数据存在数据缺失时，也可以根据上述数据缺失填充的方法对缺失的数据进行补充，其具体的实现方法参见上述，本申请对此不再赘述。

一般用户属性标签可以直接转化为用户标签，但在部分特殊的应用场景中(例如互联网电视应用场景中)，这类用户数据会存在缺失的可能性，故需要进行缺失数据的补充，目前使用直接标签补充方案。本申请基于规则学习中的内在可解释模型，对于每一个属性标签进行补充，训练方案基于提升算法重取样方法放大已采集准确用户数据的用户量，构建具有一定解释性的用户分类预测方案。可以有效解决用户基本属性标签的补充能力。对于单纯数据缺失，使用提升算法抽样完整数据进行训练支持向量机模型，如果预测结果处于波动范畴内，则这个数据为可使用的预测补充数据。

可选的，当有新的用户属性数据收集上来时，对比预测数据，如果预测出现差错，则重新抽样数据，并再次训练形成新的预测模型，需要说明的是，重新抽样时需要保证新数据包含其中。

受限于多媒体应用(特别是互联网电视)的使用模式，一般用户很少愿意参加在电视上的调查问卷，一些属性数据获取受限，再加上目前用户隐私保护的需要，获取用户基本数据的水平一直处于较低水平。但很多运营工作，例如广告投放，还是依赖于用户基本属性来开展。为了尽可能保证所有用户均有用户基本属性标签(例如性别、年龄层等)，本申请通过上述缺失补充方法，对这类基于事实的用户标签进行补充。

下述对用以执行本申请所提供的用户标签处理装置、用户标签处理系统、电子设备及存储介质等进行说明，其具体的实现过程以及技术效果参见上述，下述不再赘述。

本申请实施例提供一种用户标签处理装置的可能实现示例，能够执行上述实施例提供的用户标签处理方法。图7为本申请一实施例提供的一种用户标签处理装置的示意图。如图7所示，上述用户标签处理装置100，包括：获取模块71、数据提取模块73、聚类模块75、更新模块77；

获取模块71，用于获取针对预设多媒体应用的第一用户使用数据，第一用户使用数据包括：在使用预设多媒体应用过程中产生的数据；

数据提取模块73，用于从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；

聚类模块75，用于对目标使用数据进行数据聚类，得到多个数据范围；

更新模块77，用于根据多个数据范围，更新预设标签项中各标签的预定义数据范围。

可选的，聚类模块75，用于根据预设的最小邻域样本数，对目标使用数据进行数据聚类，得到多个数据范围，最小邻域样本数为每个数据范围内的预设的最小样本数。

可选的，用户标签处理装置100，还包括：计算模块；在聚类模块75应用之前，计算模块，用于根据各标签的预定义数据范围，对目标使用数据进行处理，得到标签划分数量；根据标签划分数量，和预设空间维度，计算最小邻域样本数，其中，预设空间维度表征采用各标签进行用户画像时所需的最少使用数据的数量。

可选的，计算模块，用于根据各标签的预定义数据范围，确定目标使用数据中各样本的标签；计算每个样本到同标签下的其他样本的第一距离；计算每个样本到不同标签下的其他样本的第二距离；根据第一距离和第二距离，计算每个样本的原始轮廓系数；将原始轮廓系数满足预设条件的样本的数量确定为标签划分数量。

可选的，聚类模块75，用于根据预设的最邻近距离，计算最小拐点；根据最小邻域样本数和最小拐点，对目标使用数据进行数据聚类，得到多个数据范围，每个数据范围内相邻两个样本的偏差在最小拐点的预设范围内。

可选的，更新模块77，用于根据每个预定义数据范围，和每个数据范围，计算每个预定义数据范围相对每个数据范围的支持度；根据最大支持度对应的数据范围，更新最大支持度对应的预定义数据范围。

可选的，用户标签处理装置100，还包括：校验模块；校验模块，用于采用更新后预定义数据范围，对针对预设多媒体应用的第二用户使用数据进行标签分割，得到第一用户标签；采用更新后的预定义数据范围，对针对预设多媒体应用的用户调研数据进行标签分割，得到第二用户标签；用户调研数据包括：在针对预设多媒体应用的用户调研中收集的用户数据；根据第一用户标签和第二用户标签，得到更新后预定义数据范围的效用校验结果。

可选的，用户标签处理装置100，还包括：数据补充模块；数据补充模块，用于若第一用户使用数据存在数据缺失，根据预设的数据缺失填充算法补充缺失数据。

上述装置用于执行前述实施例提供的方法，其实现原理和技术效果类似，在此不再赘述。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

本申请实施例提供一种用户标签处理系统的可能实现示例，能够执行上述实施例提供的用户标签处理方法。该用户标签处理系统包括：预定义系统，分类匹配系统；

预定义系统，用于存储用户调研数据、第一用户使用数据、第二用户使用数据、多个标签以及多个标签对应的属性；其中每个标签对应的属性包括：预定义数据范围(即每个标签的原始规则的数据描述)、可读定义等(属性类、行为类、价值类、偏好类数据等)。

分类匹配系统，用于进行用户标签的预定义数据范围的学习与完善、实时计算处理用户标签的变化。在具体的应用中，分类匹配系统是实际的标签生产系统。

可选的，分类匹配系统包括：训练与定义工作流、标签化工作流、效用检验工作流。

其中，训练与定义工作流，用于使用标签的预定义与实际用户数据，完成对每一个用户标签的自动化建模，并记录、输出没有预定义的用户群体，让运营人员或者分析师补充相关标签或直接作为不可读标签。再具体使用中，可以在展示中隐藏，并将此不可读标签提供给下游智能化平台的使用，其中，下游智能化平台例如可以为推荐系统和智能运营辅助系统等。

预定义系统和训练与定义工作流，可以完美解决运营定义和数据自身特征之间的矛盾。实现对运营直觉的最大化应用，同时，可以结合人工定义与无监督分类所能给出的自然效率空间。借助效用检验工作流的实时监控，也能很好的适应运营变化、运营定义的更迭，甚至在运营场景迁移时，也可以最大程度的释放运营效用。

标签化工作流，用于依照“训练与定义工作流”的建模结果，对用户进行实时的标签更新。这一过程可以使用实时批处理方法完成用户标签的实时更新与记录。

效用检验工作流，用于检验“标签化工作流”所生成的用户标签是否满足运营使用，并监控预定义是否更改、监控标签满足程度是否大幅变化。其中大幅变化是指：预定义的用户数量在“训练与定义工作流”的建模结果中的支持度是否大幅下降。如果支持度下降比例大于最近30天支持度变化水平均值，则说明支持度大幅下降。

可选的，用户标签处理系统还包括：缺失补充系统。其中，缺失补充系统，用于对预定义系统中的数据进行确实补充，例如对于属性类标签等非预定义数据，主要基于调查问卷获取，可能存在用户填写不完整的问题，此外，对于用户使用数据中的相关数据，也可能存在缺失，因此需要使用缺失补充系统，生成对应补充数据。

可选的，缺失补充系统包括：训练流程、预测流程、校验流程。

训练流程基于现有真实、准确的数据，按照缺失数据的情况，使用指定的有监督学习方法，生成对应模型。

预测流程基于用户实际数据，使用训练好的模型，预测缺失的用户数据。

校验流程，主要监控使用预测方法生成的数据是否更新位准确数据，如果更新准确数据后，发现预测数据不等于真实数据，则对应模型进行调整后再训练。

缺失补充系统，主要用于解决数据错误和用户数据缺失时所需要的数据补充能力。可以非常良好的解决用户数据兼容性问题，减少后续数据模型、算法的错误发生几率。

本申请实施例提供一种电子设备的可能实现示例，能够执行上述实施例提供的用户标签处理方法。图8为本申请实施例提供的一种电子设备的示意图，该设备可以集成于终端设备或者终端设备的芯片，该终端可以是具备数据处理功能的计算设备。

该电子设备包括：处理器801、存储介质802和总线，存储介质存储有处理器可执行的程序指令，当控制设备运行时，处理器与存储介质之间通过总线通信，处理器执行程序指令，以执行时执行上述用户标签处理方法的步骤。具体实现方式和技术效果类似，这里不再赘述。

本申请实施例提供一种计算机可读存储介质的可能实现示例，能够执行上述实施例提供的用户标签处理方法，存储介质上存储有计算机程序，计算机程序被处理器运行时执行上述用户标签处理方法的步骤。

存储在一个存储介质中的计算机程序，可以包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本发明各个实施例方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种用户标签处理方法，其特征在于，包括：

从多个用户的所述第一用户使用数据中确定与预设标签项关联的目标使用数据；

对所述目标使用数据进行数据聚类，得到多个数据范围；

2.如权利要求1所述的方法，其特征在于，所述对所述目标使用数据进行数据聚类，得到多个数据范围，包括：

3.如权利要求2所述的方法，其特征在于，所述根据预设的最小邻域样本数，对所述目标使用数据进行数据聚类，得到所述多个数据范围之前，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述各标签的预定义数据范围，对所述目标使用数据进行处理，得到标签划分数量，包括：

计算每个样本到同标签下的其他样本的第一距离；

计算所述每个样本到不同标签下的其他样本的第二距离；

5.如权利要求2所述的方法，其特征在于，所述根据预设的最小邻域样本数，对所述目标使用数据进行数据聚类，得到所述多个数据范围，包括：

根据预设的最邻近距离，计算最小拐点；

6.如权利要求1所述的方法，其特征在于，所述根据所述多个数据范围，更新所述预设标签项中各标签的预定义数据范围包括：

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.如权利要求1-7任一所述的方法，其特征在于，所述获取针对预设多媒体应用的第一用户使用数据之后，所述方法还包括：

9.一种用户标签处理装置，其特征在于，包括：获取模块、数据提取模块、聚类模块、更新模块；

所述数据提取模块，用于从多个用户的第一用户使用数据中确定与预设标签项关联的目标使用数据；

10.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的程序指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述程序指令，以执行时执行如权利要求1至8任一所述的用户标签处理方法的步骤。