CN114065045A

CN114065045A - 标签管理的方法、装置、设备以及存储介质

Info

Publication number: CN114065045A
Application number: CN202111398778.9A
Authority: CN
Inventors: 华文尧
Original assignee: Shenzhen Ideamake Software Technology Co Ltd
Current assignee: Shenzhen Ideamake Software Technology Co Ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-18

Abstract

本申请涉及大数据处理技术领域，公开了一种标签管理的方法、装置、设备以及存储介质。其中方法包括：获取用户的数据信息，所述数据信息包括离线数据和实时数据；从所述数据信息中获取用户自定义标签集合；基于所述离线数据生成离线标签集合；基于所述实时数据和所述离线标签集合生成实时标签集合；基于所述用户自定义标签集合和所述实时标签集合生成第一目标标签集合。实施本申请实施例，可以提高用户标签生成的准确性和灵活性。

Description

标签管理的方法、装置、设备以及存储介质

技术领域

本申请涉及大数据处理技术领域，尤其涉及一种标签管理的方法、装置、设备以及存储介质。

背景技术

用户画像是大数据技术的重要应用。利用用户画像可以更好地发掘用户需求和分析用户偏好，给用户提供更高效和更有针对性的信息输送。目前用户画像已经在房地产、互联网以及金融领域得到了广泛的应用。

用户画像是根据用户社会属性和行为信息等信息而抽象出的一个标签化的用户模型。也就是说，用户标签是用户画像的基础与核心，用户画像的应用离不开用户标签库的建立。现有的用户标签一般是从业务数据库中获取用户历史行为数据，然后基于用户历史行为数据生成用户标签，这种方式生成的用户标签准确性和灵活性较低。

发明内容

本申请实施例提供了一种标签管理的方法、装置、设备以及存储介质，可以提高用户标签生成的准确性和灵活性。

第一方面，本申请实施例提供了一种标签管理的方法，其中：

获取用户的数据信息，所述数据信息包括离线数据和实时数据；

从所述数据信息中获取用户自定义标签集合；

基于所述离线数据生成离线标签集合；

基于所述实时数据和所述离线标签集合生成实时标签集合；

基于所述用户自定义标签集合和所述实时标签集合生成第一目标标签集合。

第二方面，本申请实施例提供了一种标签管理的装置，其中：

通信单元，用于获取用户的数据信息，所述数据信息包括离线数据和实时数据；从所述数据信息中获取用户自定义标签集合；

处理单元，用于基于所述离线数据生成离线标签集合；基于所述实时数据和所述离线标签集合生成实时标签集合；基于所述用户自定义标签集合和所述实时标签集合生成第一目标标签集合。

第三方面，本申请实施例提供了一种计算机设备，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于如本申请实施例第一方面中所描述的部分或全部步骤的指令。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

实施本申请实施例，将具有如下有益效果：

采用上述的标签管理的方法、装置、设备以及存储介质，获取用户的数据信息(包括离线数据和实时数据)之后，从数据信息中获取用户自定义标签集合。然后基于离线数据生成离线数据集合，再基于实时数据和离线标签集合生成实时标签集合。最后基于用户自定义标签集合和实时标签集合生成第一目标标签集合。如此，基于用户自定义标签集合以及实时标签集合生成的第一目标标签集合，具有较高的准确性和灵活性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以基于这些附图获得其他的附图。其中：

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种标签管理的方法的流程示意图；

图3为本申请实施例提供的一种标签管理的装置的结构示意图；

图4为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

还应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

为了更好地理解本申请实施例的技术方案，先对本申请实施例可能涉及的系统架构进行介绍。请参照图1，本申请实施例提供的一种系统架构示意图，该系统架构可以包括：电子设备101和服务器102。其中，电子设备101和服务器102之间可以通过网络通信。网络通信可以基于任何有线和无线网络，包括但不限于因特网、广域网、城域网、局域网、虚拟专用网络(virtual private network，VPN)和无线通信网络等等。

本申请实施例不限定电子设备和服务器的数量，服务器可同时为多个电子设备提供服务。在本申请实施例中，用户可以使用电子设备通过网络与服务器进行网络通信，以接收或发送消息等。电子设备上可以安装有各种应用程序(application，APP)，例如社交APP、购物APP、售楼APP等。电子设备可以是个人计算机(personal computer，PC)、笔记本电脑或智能手机，还可以是一体机、掌上电脑、平板电脑(pad)、智能电视播放终端、车载终端或便捷式设备等。PC端的电子设备，例如一体机等，其操作系统可以包括但不限于Linux系统、Unix系统、Windows系列系统(例如Windows xp、Windows 7等)、Mac OS X系统(苹果电脑的操作系统)等操作系统。移动端的电子设备，例如智能手机等，其操作系统可以包括但不限于安卓系统、IOS(苹果手机的操作系统)、Window系统等操作系统。

服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(contentdelivery network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器或者可以通过多个服务器组成的服务器集群来实现。

现有的用户标签一般是从业务数据库中获取用户历史行为数据，然后基于用户历史行为数据生成用户标签，这种方式生成的用户标签准确性和灵活性较低。

为了解决上述问题，本申请实施例提供了一种标签管理的方法，该方法可以应用在房地产商、互联网企业或者金融机构配置的电子设备或服务器上。通过实施该方法，可以提高用户标签生成的准确性和灵活性。

请参照图2，图2是本申请实施例提供的一种标签管理的方法的流程示意图。以该方法应用在服务器为例进行举例说明，可以包括步骤S201-S205，其中：

步骤S201：获取用户的数据信息，所述数据信息包括离线数据和实时数据。

用户的数据信息可以是线上用户浏览互联网时获取到的数据，也可以是线下通过实地采访或者问卷调查等形式获取到的数据。用户的数据信息可以包括时间戳信息和特征信息。其中，时间戳信息是该数据信息产生的时间信息。在本申请实施例中，可以按照时间戳信息将用户的数据信息分成离线数据和实时数据。示例地，可以根据当前时间戳信息将时间戳信息为1小时内的数据信息作为实时数据，将1小时外的数据信息作为离线数据；也可以将时间戳信息为12小时以内的数据信息作为实时数据，将12小时以外的数据信息作为离线数据，还可以是其他的划分方式，对此不做限定。

特征信息可以包括用户标识信息、用户位置信息、用户行为数据、用户偏好信息等等。其中，用户标识信息可以是用户的姓名、登录名、身份证号、手机号等可以标识用户身份的信息。用户位置信息可以是用户在登录网页或者APP时获得的地理位置信息，也可以是线下采访或问卷调查获取到的，可以具体到街道位置、小区位置甚至楼栋位置。用户行为数据可以是用户浏览网页或APP产生的数据，可以包括但不限于用户的账号信息、用户的操作数据、用户的访问时长或用户的访问频率等等。用户偏好信息可以是用户感兴趣的信息，可以通过分析用户行为数据得到，也可以由用户自己输入。

本申请实施例对用户的数据信息的获取方法不做限定，在一种可能的实施方式中，可以通过数据采集工具(例如SDK)采集用户在APP上所述产生的数据作为用户的数据信息。APP可以安装在图1所示的电子设备中。其中，APP可以是购物APP，也可以是售楼APP，还可以是社交APP等。APP的个数可以是一个，也可以是多个，对此不做限定。

以售楼APP为例，用户在使用售楼APP时会产生一系列的数据信息。示例地，用户针对某个小区、某个户型或者某个价位的楼盘进行浏览、搜索、收藏、点赞、评论、分享或者咨询等操作行为会产生一些用户行为数据。用户也可以根据自己的基本信息和实际需求自定义设置标签。例如，自定义标签可以是“20-30岁”、“月薪10000-20000”、“三室一厅户型”等，基于这些自定义标签可以形成用户自定义标签集合。用户也可以在APP中根据自己的偏好输入一些偏好信息，例如“小户型”、“中低层”等。APP也可以向用户发送申请位置授权信息，从而获取用户位置信息。

用户的数据信息还可以由消息中间件从业务数据库(例如PolarDB)中获取。在业务数据库中，通常会将数据细分为多个表，用户针对某个业务的操作数据会被写入业务数据库中。消息中间件可以订阅业务数据库，在业务数据库更新数据时，消息中间件将数据写入列式存储引擎。在本申请实施例中，消息中间件可以是Kafka、ActiveMQ、RabbitMQ等等。

其中，Kafka是一种高吞吐量的分布式发布订阅消息系统，它除了可以处理业务数据库中的数据流之外，还可以处理上述APP或者网页中数据流。因此，可以采用Kafka获取用户的数据信息。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决，通过Kafka获取服务被调用的日志信息，可以实现通过Hadoop的并行加载机制来统一实时数据和离线数据的消息处理。

在一种可能的实施方式中，在采用通过分布式发布订阅消息系统Kafka获取用户的数据信息之后，还可以包括以下步骤：

采用分布式流式处理方法Spark streaming对用户的数据信息进行分析处理，得到元数据；将元数据存入数据仓库中。

其中，Spark streaming可以用于进行大规模、高吞吐量、容错的实时数据流的处理。它支持从很多种数据源中读取数据，比如Kafka、Flume等。并且能够使用类似高阶函数的复杂算法来进行数据处理，比如map、reduce、join和window等。处理后的数据可以被保存到在文件系统、数据库或者Dashboard中。与其他大数据框架Storm、Flink一样，Sparkstreaming是基于Spark Core的基础之上用于处理实时计算业务的框架。Spark streaming可以把输入的数据流进行按时间切分，切分的数据块用离线批处理的方式进行并行计算处理。Spark streaming介于批处理和实时流处理之间，是一个较小的时间间隔的数据处理，因此适用于同时存在实时数据和离线数据的数据流。可以看出，采用Spark streaming可以提高数据收集以及数据计算的效率，还可以实时捕捉数据变化，有利于提高标签的准确性。

在本申请实施例中，经过Spark streaming对用户的数据信息进行分析处理后得到的元数据，可以存储在数据仓库中，便于后续查询和调用。数据仓库可以由Kudu或者Impala中的一种或多种数据库构成。这些数据库可以充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度，近似实时查询。其中，Kudu和Impala可以深度集成，为实时数据仓库存储提供了良好的解决方案。这套架构在支持随机读写的同时还能保持良好的扫描(Scan)性能，同时其对Spark等流式计算框架有官方的客户端支持。这些特性意味着数据可以从Spark实时计算中实时地写入Kudu，上层的Impala提供商务智能(businessintelligence，BI)分析结构化查询语言(structured query language，SQL)查询，对于数据挖掘和算法等需求可以在Spark迭代计算框架上直接操作Kudu底层数据。

可以看出，通过获取用户的离线数据和实时数据作为沉淀标签集合的来源，相对于传统基于业务数据库中结构化的数据而言，数据来源覆盖更全面，数据也更可靠，可以丰富标签信息的来源。

步骤S202：从所述数据信息中获取用户自定义标签集合。

在本申请实施例中，用户可以根据自己的需求在网页或者APP等添加备注信息或者自定义设置标签。服务器可以从数据信息中查询是否存在用户自定义标签，如果存在，则筛选出用户自定义标签，形成用户自定义标签集合。

在一种可能的实施方式中，所述数据信息包括用户的备注信息，步骤S202可以具体包括以下步骤：

从所述数据信息中获取用户的备注信息；基于所述备注信息确定用户自定义标签集合。

用户的备注信息可以是个人简介、兴趣爱好、社交关系等信息。服务器读取用户的备注信息后，可以基于该备注信息和预设标签规则生成用户自定义标签集合。预设标签规则的定义可以参考下文的描述，在此不做赘述。

可以看出，根据备注信息得到的用户自定义标签集合，可以提高用户自定义标签集合的准确性。

步骤S203：基于所述离线数据生成离线标签集合。

在一种可能的实施方式中，步骤S203可以具体包括以下步骤：

从所述离线数据中获取用户历史行为数据、用户历史位置信息和用户历史偏好信息；对所述用户历史行为数据、所述用户历史位置信息和所述用户历史偏好信息进行特征提取，得到第一特征向量；将所述第一特征向量输入至标签生成模型，得到第一标签集合，其中，所述标签生成模型是基于机器学习算法训练得到的；将所述第一标签集合中置信度大于或等于第一预设阈值的标签作为离线标签集合。

在本申请实施例中，用户历史行为数据是一个特征维度对应的用户行为数据，可以参照用户行为数据的描述，在此不做赘述。类似地，用户历史位置信息和用户历史偏好信息也可以参考用户位置信息和用户偏好信息的描述。离线标签集合是表征用户历史行为习惯的抽象分类和概括。离线标签集合是从多个维度的用户离线数据对用户进行的客观评述。第一标签集合包括离线标签集合，可以参考离线标签集合的定义，在此不做赘述。

本申请实施例对用户历史行为数据、用户历史位置信息和用户历史偏好信息的获取方式不做限定。在一种可能的实施方式中，可以对离线数据进行关键字提取，以得到用户历史行为数据、用户历史位置信息和用户历史偏好信息。其中，用户历史偏好信息可以从离线数据中获取，还可以基于用户历史行为数据确定，在此不做限定。

本申请实施例对用户历史行为数据、用户历史位置信息和用户历史偏好信息进行特征提取的方法不做出限定，在一种可能的实施方式中，可以采用聚类算法进行特征提取。也就是说，可以采用聚类算法对用户历史行为数据、用户历史位置信息和用户历史偏好信息中各个目标特征进行聚类，得到第一特征向量。

其中，聚类方式可以是k均值聚类算法(k-means)、模糊C均值聚类算法(fuzzy c-means，FCM)、具有噪声的基于密度的聚类方法(density-based spatial clustering ofapplications with noise，DBSCAN)、均值漂移聚类算法等聚类方法中的至少一种，本申请实施例对此不做出限定。目标特征可以是用户历史行为数据、用户历史位置信息和用户历史偏好信息中出现的特征。例如，目标特征可以是用户历史登录时长、用户历史点赞内容、用户历史登录地点等等。第一特征向量可以理解为同一目标特征的集合。

可以看出，本申请实施例可以通过对各个目标特征进行聚类，将同一目标特征划分到一个聚类中，得到各个目标特征的聚类集合，也就是第一特征向量。如此，可以提高特征提取的效率，还可以提高第一特征向量的准确性。

在本申请实施例中，标签生成模型记录有特征向量与标签信息的映射关系。因此，将第一特征向量输入至预先训练好的标签生成模型中，可以得到第一标签集合。标签生成模型是基于机器学习算法训练得到的。在本申请实施例中，标签生成模型可以是基于聚类算法训练得到的聚类模型，也可以是神经网络模型，还可以是深度学习模型或者是卷积神经网络模型等等。示例地，可以是极端梯度提升(eXtreme gradient boosting，Xgboost)、卷积神经网络(convolutional neural networks，CNN)、循环神经网络(recurrent neuralnetwork，RNN)、全卷积网络(fully convolutional networks，FCN)；也可以是长短期记忆网络模型(long short-term memory，LSTM)、支持向量机(support vector machine，SVM)等模型中的一种或多种，对此不做限定。

在一种可能的实施方式中，标签生成模型可以通过步骤A1-A4预先训练得到：

步骤A1：获取数据特征样本和对应的标签样本集合。

步骤A2：将数据特征样本输入至待训练标签生成模型，以获取待训练标签生成模型输出的与数据特征样本对应的标签集合。

步骤A3：获取标签集合与标签样本集合之间的误差函数，根据误差函数对待训练标签生成模型的参数进行调整。

步骤A4：循环步骤A2-A3，直至误差函数收敛或达到指定的迭代次数，将训练完成的模型作为标签生成模型。

可以看出，通过对标签生成模型进行预训练，可以提高标签集合的准确性，进而可以提高离线标签集合的准确性。

在本申请实施例中，置信度可以理解为标签的可靠程度。在一种可能的实施方式中，可以通过将标签输入至预先训练好的机器学习模型，从而确定标签的置信度。还可以通过其他方式来确定置信度，对此不做出限定。第一预设阈值是预先设定的参数，具体可以根据历史经验进行设置，也可以根据实际情况进行具体分析设置。示例地，第一预设阈值可以设置为90％。也就是说，可以将第一标签集合置信度大于或等于90％的标签作为离线标签集合。如此，可以提高离线标签集合的准确性。

可以看出，在本申请实施例中，通过对离线数据中的用户历史行为数据、用户历史位置信息和用户历史偏好信息进行特征提取；然后将提取到的第一特征向量输入至标签生成模型，得到第一标签集合；最后将第一标签集合中置信度大于或等于第一预设阈值的标签作为离线标签集合。如此得到的离线标签集合具有较高的准确性，进而可以提高第一目标标签集合的准确性。

在一种可能的实施方式中，步骤S203可以具体包括以下步骤：

从所述离线数据中获取用户历史行为数据、用户历史位置信息和用户历史偏好信息；基于所述用户历史行为数据生成历史行为标签；基于所述用户历史位置信息生成历史位置标签；基于所述用户历史偏好信息生成历史偏好标签；对所述历史行为标签、所述历史位置标签和所述历史偏好标签进行加权计算，得到离线标签集合。

用户历史行为数据、用户历史位置信息和用户历史偏好信息的获取方法可以参考前文的描述，在此不做赘述。在一种可能的实施方式中，可以对用户历史行为数据进行特征提取，将提取得到的特征输入至上述的标签生模型中，以得到历史行为标签。具体的实现方式可以参考前文第一标签集合的生成过程，在此不做赘述。

在一种可能的实施方式中，还可以根据预设标签规则生成历史行为标签。其中，预设标签规则是预先存储在服务器中，预设标签规则可以根据历史经验确定。示例地，用户的状态标签有忠诚用户、活跃用户、一般活跃用户、不活跃用户以及流失用户五种标签状态。预设标签规则可以设置为“【平均登录时长>1h】and【近三天登录次数>2】＝活跃用户”，或者可以设置为“【平均登录时<0.5h】and【近七天登录次数<2】＝不活跃用户”，还可以是其他的设置方式，在此不做出限定。

类似地，历史位置标签和历史偏好标签也可以参考历史行为标签的生成方式，在此不做赘述。

在得到历史行为标签、历史位置标签和历史偏好标签之后，可以对历史行为标签、历史位置标签和历史偏好标签分别赋予预设权值，然后根据预设权值对各标签进行加权计算，将加权计算得到的结果作为离线标签集合。各标签的预设权值具体可以根据历史经验进行设置，也可以根据实际情况进行具体分析设置。示例地，历史行为标签的预设权值可以设置为0.9，历史位置标签的预设权值可以设置为0.7，历史偏好标签的预设权值可以设置为0.8。或者，还可以是其他设置方式，在此不做出限定。

可以看出，基于历史行为标签、历史位置标签和历史偏好标签进行加权计算得到的离线标签集合，具有较高的准确性。

步骤S204：基于所述实时数据和所述离线标签集合生成实时标签集合。

具体地，可以从实时数据中确定用户标识信息，在离线标签集合数据库中检索是否存在用户标识信息对应的离线标签集合。若存在，则将离线标签集合与实时数据融合，生成实时标签集合。

在一种可能的实施方式中，步骤S204可以具体包括以下步骤：

对所述实时数据进行特征提取，得到第二特征向量；将所述第二特征向量和所述离线标签集合进行特征融合，得到第三特征向量；将所述第三特征向量输入至所述标签生成模型，得到第二标签集合；将所述第二标签集合中置信度大于或等于第二预设阈值的标签作为实时标签集合。

本申请实施例对实时数据进行特征提取的方法不做限定，具体可以参考前文对用户历史行为数据、用户历史位置信息和用户历史偏好信息进行特征提取的方法，在此不做赘述。第二特征向量的定义可以参考第一特征向量的描述。

在本申请实施例中，第三特征向量是离线标签集合与实时数据进行拼接得到的。示例地，离线标签集合的特征维度为P维，实时数据的特征维度为Q维，则拼接后得到的第三特征向量的特征维度为P+Q维。如此，经过融合得到的第三特征向量，可以更全面地表征用户的信息，为实时标签集合的生成提供更高级的状态输入。

标签生成模型的定义和预训练过程可以参考前文的描述，在此不做赘述。具体地，可以将第三特征向量输入至标签生成模型中，以得到第二标签集合。置信度的定义和确定方法可以参考前文的描述，第二预设阈值的定义可以参考第一预设阈值的描述，在此不做赘述。示例地，第二预设阈值可以设置为85％。也就是说，可以将第二标签集合中置信度大于或等于85％的标签作为实时标签集合。如此，可以提高实时标签集合的准确性。

可以看出，通过对实时数据进行特征提取，将提取得到的第二特征向量和离线标签集合进行特征融合，得到第三特征向量。再将第三特征向量输入至标签生成模型，得到第二标签集合，最后将第二标签集合中置信度大于或等于第二预设阈值的标签作为实时标签集合。如此，可以提高实时标签集合的准确性。

步骤S205：基于所述用户自定义标签集合和所述实时标签集合生成第一目标标签集合。

在本申请实施例中，可以筛选出用户自定义标签集合和实时标签集合中用户标识信息相同的标签，对用户自定义标签集合和实时标签集合中用户标识信息相同的标签进行融合处理。然后将融合后的标签以及用户标识信息不相同的标签组合，形成第一目标标签集合。

在一种可能的实施方式中，可以将用户自定义标签集合中自然属性相关的标签与实时标签集合进行比对，将实时标签集合与用户自定义标签集合中差距较大的自然属性相关的标签剔除，保留用户自定义标签集合中自然属性相关的标签。其中，自然属性可以包括性别、年龄、教育水平、出生日期、职业和星座等。示例地，若用户自定义标签集合中用户A的年龄段为“20-25岁”，而实时标签集合中用户A的年龄段为“40-45岁”。可以将时标签集合中用户A的年龄段“40-45岁”剔除，保留用户自定义标签集合中用户A的年龄段“20-25岁”。也就是说，第一目标标签集合中用户A的年龄段为“20-25岁”。

在一种可能的实施方式中，还可以对用户自定义标签集合和实时标签集合中不同的标签属性分别赋予预设权值，然后根据预设权值计算得到第一目标标签集合。示例地，可以将用户自定义标签集合中自然属性相关的标签的预设权值设置为0.9，可以将实时标签集合中自然属性相关的标签的预设权值设置为0.1。可以将用户自定义标签集合中行为属性相关的标签的预设权值设置为0.8，可以将实时标签集合中行为属性相关的标签的预设权值设置为0.7。其中，行为属性可以是用户活跃程度、用户消费能力等等。

可以看出，可以通过用户自定义标签集合和实时标签集合进行融合处理，得到第一目标标签集合。如此，基于多个维度生成第一目标标签集合，包含的信息更加丰富，实时性更好，具有较高的准确度。同时，有利于提高后续目标人群包圈选的准确性和效率。

在一种可能的实施方式中，在步骤S205之后，还可以包括以下步骤：

从第一目标标签集合中获取用户标识信息；根据用户标识信息将第一目标标签集合划分为至少一个用户标识队列；根据用户标识队列采用位图Bitmap存储方式存储第一目标标签集合中的标签。

其中，用户标识信息的定义可以参考前文的描述，在此不做赘述。用户标识队列可以理解为不同的用户标识信息的标签构成的队列。在一种可能的实施方式中，可以采用流式的方式读取第一目标标签集合的数据。流式读取文件的操作速度很快，在100万条数据大概需要1-2秒即可读取完成。可以看出，采用流式读取进行数据读取，在保证第一目标标签集合数据读取速度的同时，不会占用过多的系统资源。

Bitmap可以用每一位来存放某种状态，通常用来判断某个数据是否存在。例如下标1和2的位置值是1，代表数字1和2存在，下标位置值为0则代表对应数字不存在。利用Bitmap这一特点，可以扩展为每一位代表一个用户的状态。使用Bitmap存储标签数据最大的优点是节省存储空间。在一种可能的实施方式中，可以在第一目标标签集合存储系统的数据库(例如MongoDB)中通过键值对(key-value pairs)的方式存储维护每一个用户与Bitmap下标的映射关系。

MongoDB作为存储第一目标标签集合的数据库，可以在高并发的时候快速查询用户的标签数据，便于规则引擎匹配规则。用户标签的一个典型应用就是人群包圈选。在生成第一目标标签集合后，工作人员可以通过画像产品进行标签组合，进而圈定目标人群包。具体地，可以在调用统一的标签接口时，将预设人群规则拼接成字符串，通过MongoDB查询引擎返回符合预设人群规则的目标用户，从而圈定目标人群包。其中，预设人群规则可以基于用户标识信息、用户标签以及用户标签之间的逻辑运算关系确定。进一步地，可以基于目标人群包中每个目标用户的用户状态调用相应的触达渠道以触达目标用户。触达渠道可以是发送网页或APP的系统消息或者发送短信等等。示例地，对于忠诚用户，可以在其登录相应网页或APP时发送系统消息；对于活跃用户，可通过预留的联系方式，发送短信或者邮箱等。可以看出，本申请实施例可以实现自动化的用户触达，用户跟进以及人群推广。

可以看出，采用Bitmap存储方式存储第一目标标签集合，可以解决大宽表、ElasticSearch等存储方法存在的存储资源占用较高以及存储效率低等问题，能够降低第一目标标签集合存储资源，并提高第一目标标签集合存储效率。

计算所述第一目标标签集合中每一个标签对应的异常值；将所述第一目标标签集合中异常值大于或等于第三预设阈值的标签标记为异常标签集合；对所述异常标签集合进行修正，得到第二目标标签集合。

在本申请实施例中，异常值可以是指标签偏离置信度的数值范围。异常值可以通过人为主观的计算，也可以通过机器学习模型的确定，还可以通过其他方式来计算标签的异常值，对此不做出限定。第三预设阈值是预先设定的参数，具体可以根据历史经验进行设置，也可以根据实际情况进行具体分析设置。示例地，第三预设阈值可以设置为60％。也就是说，可以将第一目标标签集合中异常值大于或等于60％的标签标记为异常标签集合。

在一种可能的实施方式中，所述对所述异常标签集合进行修正，得到第二目标标签集合，可以包括以下步骤：

根据用户输入的指令对所述异常标签集合进行修正，得到第二目标标签集合。

在本申请实施例中，用户可以在网页或者APP上自定义设置标签，也可以自定义修改标签。也就是说，用户可以对第一目标标签集合进行增删，或者对第一目标标签集合中的异常标签进行修正。具体地，服务器读取用户输入的标签修正指令，可以根据用户输入的标签修正指令对异常标签集合进行修正，从而得到第二目标标签集合。示例地，第一目标标签集合中A用户的月薪为40000-50000元，但是A用户的实际月薪是30000-40000元，A用户可以将标签修正为30000-40000元。

可以看出，根据用户输入的指令对异常标签进行修正，得到第二目标标签集合，可以提高第二目标标签集合的准确性和灵活性。

根据工作人员输入的指令对所述异常标签集合进行修正，得到第二目标标签集合。

工作人员可以是从事标签维护的技术人员，或者可以是从事营销策划的人员，还可以是其他相关的人员，对此不做出限定。具体地，服务器读取工作人员输入的标签修正指令，可以根据工作人员输入的标签修正指令对异常标签集合进行修正，从而得到第二目标标签集合。示例地，用户A在第一目标标签集合中的状态标签被标注为“不活跃用户”，工作人员在对用户A进行跟进后，确定用户A为“活跃用户”。工作人员可以将用户A的状态标签修正为“活跃用户”。

可以看出，根据工作人员输入的指令对异常标签进行修正，得到第二目标标签集合，可以提高第二目标标签集合的准确性。

根据标签修正模型对所述异常标签集合进行修正，得到第二目标标签集合。

在本申请实施例中，标签修正模型可以是基于聚类算法训练得到的聚类模型，也可以是神经网络模型，还可以是深度学习模型或者是卷积神经网络模型等等。示例地，可以是CNN、RNN、FCN；也可以是LSTM、SVM等模型中的一种或多种，对此不做限定。

具体地，可以将异常标签集合输入至预先训练好的标签修正模型中进行标签修正，将该异常标签集合修正为正确的标签集合，即第二目标标签集合。该标签修正模型是预先根据多个异常标签集合和每个异常标签集合所对应的修正标签集合进行训练得到的。因此，通过该标签修正模型，可以将异常标签集合修正为正确的标签集合。示例地，用户A年龄段为“30-40岁”，但是第一目标标签集合标注成了“3-4岁”，即异常标签为“3-4岁”。通过将该异常标签输入至标签修正模型中，可以将该异常标签修正为“30-40岁”。或者，用户B在第一目标标签集合中的状态标签被标注为“活跃用户”，但是该标签的异常值大于第三预设阈值，为异常标签。可以将该状态标签输入至标签修正模型中，得到标签修正结果为“流失用户”，也就是说用户B的状态标签从异常的“活跃用户”被修正为“流失用户”，将修正后的状态标签“流失用户”替换掉第一目标标签集合中的“活跃用户”，以得到第二目标标签集合。

可以看出，利用标签修正模型对异常标签集合进行修正，相比人工修正方法，可以节省人力和时间，还可以减少主观因素带来的误差，提高了第二目标标签集合的准确性。

在具体的应用中，也可以根据实际情况同时采用上述多种方法对异常标签集合进行修正，得到第二目标标签集合。若同时采用三种方式进行修正，可以对不同的修正方式得到的结果分别赋予预设权值。预设权值具体可以根据历史经验进行设置，如根据用户输入的指令进行修正得到的结果的预设权值为0.95；根据工作人员输入的指令进行修正得到的修正结果的预设权值为0.7；根据标签修正模型进行修正得到的修正结果的预设权值为0.8。或者，也可以根据标签修正结果进行具体分析设置，对此不做出限定。然后根据各修正结果的预设权值对修正结果进行加权计算，将计算得到的最终修正结果作为目标第二标签集合。

可以看出，通过对不同的修正方式得到的结果分别赋予权重值，再基于权重值和修正结果确定目标第二标签集合。如此，可以提高标签修正的全面性和多样性，从而提高标签修正的准确性。

在图2所示的方法中，获取用户的数据信息(包括离线数据和实时数据)之后，从数据信息中获取用户自定义标签集合。然后基于离线数据生成离线数据集合，再基于实时数据和离线标签集合生成实时标签集合。最后基于用户自定义标签集合和实时标签集合生成第一目标标签集合。如此，通过用户自定义标签集合以及实时标签集合融合生成的第一目标标签集合，包含的信息更加丰富，实时性也更好，具有较高的准确性和灵活性。进一步地，根据第一目标标签集合构成的用户画像，可以更有针对性地圈选出目标人群包，进而使得精细化营销过程具有更强、更准确的针对性。

上述详细阐述了本申请实施例的方法，下面提供了本申请实施例的装置。

请参照图3，图3是本申请实施例提供的一种标签管理的装置的结构示意图。该装置应用于服务器。如图3所示，该标签管理的装置300包括通信单元301和处理单元302，各个单元的详细描述如下：

通信单元301用于获取用户的数据信息，所述数据信息包括离线数据和实时数据；从所述数据信息中获取用户自定义标签集合；

处理单元302用于基于所述离线数据生成离线标签集合；基于所述实时数据和所述离线标签集合生成实时标签集合；基于所述用户自定义标签集合和所述实时标签集合生成第一目标标签集合。

在一种可能的实施方式中，通信单元301具体用于从所述数据信息中获取用户的备注信息；处理单元302具体用于基于所述备注信息确定用户自定义标签集合。

在一种可能的实施方式中，通信单元301具体用于从所述离线数据中获取用户历史行为数据、用户历史位置信息和用户历史偏好信息；处理单元302具体用于对所述用户历史行为数据、所述用户历史位置信息和所述用户历史偏好信息进行特征提取，得到第一特征向量；将所述第一特征向量输入至标签生成模型，得到第一标签集合，其中，所述标签生成模型是基于机器学习算法训练得到的；将所述第一标签集合中置信度大于或等于第一预设阈值的标签作为离线标签集合。

在一种可能的实施方式中，通信单元301具体用于从所述离线数据中获取用户历史行为数据、用户历史位置信息和用户历史偏好信息；处理单元302具体用于基于所述用户历史行为数据生成历史行为标签；基于所述用户历史位置信息生成历史位置标签；基于所述用户历史偏好信息生成历史偏好标签；对所述历史行为标签、所述历史位置标签和所述历史偏好标签进行加权计算，得到离线标签集合。

在一种可能的实施方式中，处理单元302具体用于对所述实时数据进行特征提取，得到第二特征向量；将所述第二特征向量和所述离线标签进行特征融合，得到第三特征向量；将所述第三特征向量输入至所述标签生成模型，得到第二标签集合；将所述第二标签集合中置信度大于或等于第二预设阈值的标签作为实时标签。

在一种可能的实施方式中，处理单元302还用于计算所述第一目标标签集合中每一个标签对应的异常值；将所述第一目标标签集合中异常值大于或等于第三预设阈值的标签标记为异常标签集合；对所述异常标签集合进行修正，得到第二目标标签集合。

在一种可能的实施方式中，处理单元302具体用于根据用户输入的指令对所述异常标签集合进行修正，得到第二目标标签集合；根据工作人员输入的指令对所述异常标签集合进行修正，得到第二目标标签集合；根据标签修正模型对所述异常标签集合进行修正，得到第二目标标签集合。

需要说明的是，各个单元的实现还可以对应参照图2所示的方法实施例的相应描述。

请参照图4，图4是本申请实施例提供的一种计算机设备的结构示意图。如图4所示，该计算机设备400包括处理器401、存储器402和通信接口403，其中存储器402存储有计算机程序404。处理器401、存储器402、通信接口403以及计算机程序404之间可以通过总线405连接。

当计算机设备为服务器时，上述计算机程序404用于执行以下步骤的指令：

从所述数据信息中获取用户自定义标签集合；

基于所述离线数据生成离线标签集合；

基于所述实时数据和所述离线标签集合生成实时标签集合；

基于所述用户自定义标签集合和所述实时标签集合生成第一目标标签集合

在一种可能的实施方式中，在所述数据信息包括用户的备注信息，所述从所述数据信息中获取用户自定义标签集合方面，所述计算机程序404具体用于执行以下步骤的指令：

从所述数据信息中获取用户的备注信息；

基于所述备注信息确定用户自定义标签集合。

在一种可能的实施方式中，在所述基于所述离线数据生成离线标签方面，所述计算机程序404具体用于执行以下步骤的指令：

从所述离线数据中获取用户历史行为数据、用户历史位置信息和用户历史偏好信息；

对所述用户历史行为数据、所述用户历史位置信息和所述用户历史偏好信息进行特征提取，得到第一特征向量；

将所述第一特征向量输入至标签生成模型，得到第一标签集合，其中，所述标签生成模型是基于机器学习算法训练得到的；

将所述第一标签集合中置信度大于或等于第一预设阈值的标签作为离线标签集合。

基于所述用户历史行为数据生成历史行为标签；

基于所述用户历史位置信息生成历史位置标签；

基于所述用户历史偏好信息生成历史偏好标签；

对所述历史行为标签、所述历史位置标签和所述历史偏好标签进行加权计算，得到离线标签集合。

在一种可能的实施方式中，在所述基于所述实时数据和所述离线标签集合生成实时标签集合方面，所述计算机程序404具体用于执行以下步骤的指令：

对所述实时数据进行特征提取，得到第二特征向量；

将所述第二特征向量和所述离线标签进行特征融合，得到第三特征向量；

将所述第三特征向量输入至所述标签生成模型，得到第二标签集合；

将所述第二标签集合中置信度大于或等于第二预设阈值的标签作为实时标签集合。

在一种可能的实施方式中，在所述基于所述用户自定义标签和所述实时标签生成第一目标标签之后，所述计算机程序404还用于执行以下步骤的指令：

计算所述第一目标标签集合中每一个标签对应的异常值；

将所述第一目标标签集合中异常值大于或等于第三预设阈值的标签标记为异常标签集合；

对所述异常标签集合进行修正，得到第二目标标签集合。

在一种可能的实施方式中，在所述对所述异常标签集合进行修正，得到第二目标标签集合方面，所述计算机程序404具体用于执行以下步骤的指令：

根据用户输入的指令对所述异常标签集合进行修正，得到第二目标标签集合；

根据工作人员输入的指令对所述异常标签集合进行修正，得到第二目标标签集合；

本领域技术人员可以理解，为了便于说明，图4中仅示出了一个存储器和处理器。在实际的终端或服务器中，可以存在多个处理器和存储器。存储器402也可以称为存储介质或者存储设备等，本申请实施例对此不做限定。

应理解，在本申请实施例中，处理器401可以是中央处理单元(centralprocessing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field－programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

还应理解，本申请实施例中提及的存储器402可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double datarate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器synchronize link DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

需要说明的是，当处理器401为通用处理器、DSP、ASIC、FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件时，存储器(存储模块)集成在处理器中。

应注意，本文描述的存储器402旨在包括但不限于这些和任意其它适合类型的存储器。

该总线405除包括数据总线之外，还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见，在图中将各种总线都标为总线。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block，ILB)和步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

在上述实施例中，计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。例如，区块链中可存储CNN算法、RNN算法、FCN算法等；也可以是LSTM算法、SVM算法，还可以存储聚类算法中的k-means算法、FCM算法、DBSCAN算法等，在此不做限定。

其中，本申请实施例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种标签管理的方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种标签管理的方法的部分或全部步骤。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种标签管理的方法，其特征在于，包括：

从所述数据信息中获取用户自定义标签集合；

基于所述离线数据生成离线标签集合；

基于所述实时数据和所述离线标签集合生成实时标签集合；

2.根据权利要求1所述的方法，其特征在于，所述数据信息包括用户的备注信息，所述从所述数据信息中获取用户自定义标签集合，包括：

从所述数据信息中获取用户的备注信息；

基于所述备注信息确定用户自定义标签集合。

3.根据权利要求1所述的方法，其特征在于，所述基于所述离线数据生成离线标签，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述离线数据生成离线标签，包括：

基于所述用户历史行为数据生成历史行为标签；

基于所述用户历史位置信息生成历史位置标签；

基于所述用户历史偏好信息生成历史偏好标签；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于所述实时数据和所述离线标签集合生成实时标签集合，包括：

对所述实时数据进行特征提取，得到第二特征向量；

6.根据权利要求1中所述的方法，其特征在于，在所述基于所述用户自定义标签和所述实时标签生成第一目标标签之后，还包括：

计算所述第一目标标签集合中每一个标签对应的异常值；

对所述异常标签集合进行修正，得到第二目标标签集合。

7.根据权利要求6所述的方法，其特征在于，所述对所述异常标签集合进行修正，得到第二目标标签集合，所述方法包括以下至少一种：

8.一种标签管理的装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括处理器、存储器和通信接口，其中，所述存储器存储有计算机程序，所述计算机程序被配置由所述处理器执行，所述计算机程序包括用于执行权利要求1-7中任一项方法中的步骤的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序使得计算机执行以实现权利要求1-7中任一项所述的方法。