CN112015775B

CN112015775B - 标签数据处理方法、装置、设备和存储介质

Info

Publication number: CN112015775B
Application number: CN202011037355.XA
Authority: CN
Inventors: 全威龙; 王冬; 赵煜杨
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-27
Filing date: 2020-09-27
Publication date: 2023-11-21
Anticipated expiration: 2040-09-27
Also published as: JP2021170409A; US20210286791A1; EP3937027A1; CN112015775A; EP3937027B1; KR20210110781A; JP7221342B2

Abstract

本申请公开了标签数据处理方法、装置、设备和存储介质，涉及大数据技术领域。具体实现方案为：根据当前用户标识信息，确定当前用户分段号；根据所述当前用户分段号，确定当前用户分桶号；将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。本申请能够降低标签数据存储空间。

Description

标签数据处理方法、装置、设备和存储介质

技术领域

本申请涉及数据处理技术领域，尤其涉及大数据技术领域，具体涉及一种标签数据处理方法、装置、设备和存储介质。

背景技术

随着用户画像与特征工程的不断发展，用户标签数据的维度日益丰富，应用场景也不断丰富。例如，业务方可以根据用户画像及行为特征定向定位人群，对人群内的用户进行精准触达，从而可以有效提升业务方的经营效率，增加用户黏性。

业务方每天的标签数据在TB(万亿字节)级别以上，如何对标签数据进行存储、查询等处理是业内重要问题。

发明内容

本公开提供了一种用于标签数据处理方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种标签数据处理方法，包括：

根据当前用户标识信息，确定当前用户分段号；

根据所述当前用户分段号，确定当前用户分桶号；

将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。

根据本公开的一方面，提供了一种标签数据处理装置，包括：

分段模块，用于根据当前用户标识信息，确定当前用户分段号；

分桶模块，用于根据所述当前用户分段号，确定当前用户分桶号；

数据存储模块，用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。

根据第三方面，提供了一种电子设备，该电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如本申请实施例中任一项所述的标签数据处理方法。

根据第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的标签数据处理方法。

根据本申请的技术能够降低标签数据存储空间。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1a是根据本申请实施例提供的一种标签数据处理方法的流程示意图；

图1b是根据本申请实施例提供的一种位图数据示意图；

图2是根据本申请实施例提供的另一种标签数据处理方法的流程示意图；

图3a是根据本申请实施例提供的又一种标签数据处理方法的流程示意图；

图3b是根据本申请实施例提供的一种全局字典工作示意图；

图3c是根据本申请实施例提供的一种标签数据处理示意图；

图4a是根据本申请实施例提供的再一种标签数据处理方法的流程示意图；

图4b是根据本申请实施例提供的物化视图的示意图；

图5是根据本申请实施例提供的一种标签数据处理装置的结构示意图；

图6是用来实现本申请实施例的标签数据处理方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1a是根据本申请实施例提供的标签数据处理方法的流程示意图。本实施例可适用于对海量用户标签数据进行存储、查询等处理的情况。本实施例公开的标签数据处理方法可以由电子设备执行，具体可以由标签数据处理装置来执行，该装置可以由软件和/或硬件的方式实现，配置于电子设备中。参见图1a，本实施例提供的标签数据处理方法包括：

S110、根据当前用户标识信息，确定当前用户分段号。

S120、根据所述当前用户分段号，确定当前用户分桶号。

S130、将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。

其中，当前用户是指待将标签数据存储到数据库中的用户。当前用户是数据库的新用户，也就是说，数据库中之前未存储有当前用户的标签数据。具体的，可以记录数据库中已有用户的标识符(User ID)，将当前用户的标识符与已有数据的标识符进行匹配；若匹配失败，则确定当前用户为新用户。其中，标识符可以为字符串，不同用户体系具有不同形式的用户标识符，本申请实施例对此不作具体限定。

其中，当前用户分段号是指当前用户所属的分段标识，可以为整数。当前用户分段除了包括当前用户，还包括至少一个其他用户，也就是说，一个分段至少包括两个用户。数据库中包括至少两个数据桶，每个数据桶具有自己的唯一分桶号，即分桶号是数据桶的唯一标识，也可以为整数。具体的，可以采用当前用户分段号对数据库中桶总数取余，根据取余结果得到当前用户分桶号。以当前用户分段号为4，且桶总数为3为例，则当前用户分桶号可以为1。

其中，与当前用户分桶号关联的数据桶(可以简称为当前数据桶)中不仅存储有当前用户的标签数据，还存储有当前用户分段中其他用户的标签数据。通过根据当前用户分段号确定当前用户分桶号，即对分段号相同的不同用户统一进行分桶，使分段号相同的不同用户划分到同一数据桶中。相比于根据用户标识信息对不同标识用户分别进行分桶，能够提高数据桶中标签数据的聚合度(即稠密度)，从而可以降低数据存储空间，提高数据查询效率。

在本申请实施例中，位图数据可以包括至少一个标签维度和用户位图标识(id_bitmap)维度，其中标签可以为用户画像标签、行为特征标签等，例如可以为性别、年龄和兴趣爱好等。每一条位图数据中标签维度取值唯一即不同条位图数据中标签维度取值不同，每一条位图数据中用户位图标识用于表征具有该标签维度取值的用户信息。

具体的，可以通过如下方式将数据桶内的用户标签数据聚合成位图数据：对标签维度取值相同的用户标签数据进行聚合；根据聚合的各用户标识信息(用户ID)构建用户位图标识。在构建用户位图标识过程中，可以对用户标识信息做哈希计算得到映射后的整数N，则将用户位图标识中的第N位置为1，也就是说用户位图标识以每一位取值为0或1表示该位置上是否存在用户。图1b是根据本申请实施例提供的一种位图数据示意图。参考图1b，该条位图数据中用户位图标识为1000001，是指性别为1、年龄为20且兴趣爱好为1001的用户有两个，且这两个用户的用户标识信息经哈希映射后的整数分别为1和7。

通过将数据桶内的用户标签数据聚合成位图数据，使标签维度取值相同的用户标签数据聚合成一条位图数据，能够进一步提高标签数据的聚合度，从而进一步降低标签数据所需的存储空间。

本申请实施例的技术方案，通过根据当前用户分段号确定当前用户分桶号，即对分段号相同的不同用户统一进行分桶，使分段号相同的不同用户划分到同一数据桶中，能够提高数据桶中标签数据的聚合度(稠密度)，从而可以降低标签数据存储空间，提高标签数据查询效率。并且，通过将数据桶内的用户标签数据聚合成位图数据，使标签维度取值相同的用户标签数据聚合成一条位图数据，能够进一步提高标签数据的聚合度，从而进一步降低数据存储空间，提高数据查询效率。

图2是根据本申请实施例提供的一种标签数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2，本实施例提供的标签数据处理方法包括：

S210、根据数据库的预估用户总数和数据库中桶总数，确定单桶用户数量。

其中，预估用户总数可以是人为设定的经验值，桶总数是指数据库中数据桶的总数量。具体的，可以将预估用户总数除以桶总数的商作为单桶用户数阈值，单桶用户数量可以等于或大于单桶用户数阈值。

S220、根据当前用户标识信息和单桶用户数量，确定当前用户分段号。

其中，当前用户标识信息可以为唯一整数，即为与其他用户标识信息不同的整数。具体的，可以将当前用户标识信息除以单桶用户数量的商作为当前用户分段号。其中，当前用户分段号也为整数。

S230、根据当前用户分段号和数据库中桶总数，确定当前用户分桶号。

具体的，可以采用当前用户分段号对数据库中桶总数取余，根据取余结果得到当前用户分桶号。通过根据数据库的预估用户总数、桶总数和当前用户标识信息确定当前用户分段号，使不同分段内用户数量均匀。通过根据当前用户分段号确定当前用户分桶号，使不同数据桶中用户互不交叉，进而使得后续在做查询计算时，可以直接数据桶的计算结果做简单汇总，无需去重，能够提高标签数据查询效率。

S240、将当前用户的标签数据存储到与当前用户分桶号关联的数据桶中，且将数据桶内的用户标签数据聚合成位图数据进行存储。

在一种可选实施方式中，所述方法还包括：响应于标签查询请求，根据数据库中至少两个数据桶的位图数据，确定至少两个数据桶的查询结果；对所述至少两个数据桶的查询结果进行汇总，得到标签查询结果。

具体的，响应于包括标签查询条件的查询请求，对不同数据桶中的用户标签数据执行位图聚合操作得到不同数据桶的位图数据；根据每一数据桶的位图数据确定该数据桶中符合标签查询条件的查询结果；对不同数据桶的查询结果进行汇总得到标签查询结果，即标签查询结果中的用户数量为不同数据桶中符合标签查询条件的用户数量之和。以数据库中包括两个数据桶，数据桶1中用户标识信息经哈希映射后的整数分别为1和7的两位用户符合标签查询条件，且数据桶2中用户标识信息经哈希映射后的整数为3的一位用户符合标签查询条件为例，则标签查询结果为上述3位用户。

由于不同数据桶中用户互不交叉，因此标签数据查询过程无需去重；也就说，无需对不同数据桶的位图数据进行交、并、补、差运算，产出数据库汇总位图数据；基于数据库汇总位图数据确定查询结果。不同数据桶中用户互不交叉进一步提高了标签数据的查询效率。

本申请实施例的技术方案，通过数据存储过程中，使不同数据桶中用户互不交叉，使标签数据查询过程无需去重，可以分别获取不同数据桶的查询结果，将不同数据桶的查询结果直接汇总即可得到数据库的查询结果，进一步提高了标签数据的查询效率。

图3a是根据本申请实施例提供的一种标签数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3a，本实施例提供的标签数据处理方法包括：

S310、确定当前用户标识数值，作为所述当前用户标识信息。

其中，当前用户标识数值为唯一整数，且与其他用户的用户标识数值连续。具体的，可以基于插件式独立全局字典机制，将不同用户ID标识符映射成一段连续区间内的整数，也就是说为每个用户生成全局唯一整数，且不同用户标识数值连续。其中，插件式独立全局字典是指与数据存储、查询引擎解耦的全局字典，可以支持多种数据处理引擎，也就是说多种数据处理引擎可以复用全局字典。

图3b是根据本申请实施例提供的一种全局字典工作示意图。参考图3b，插件式全局字典可以将不同数据源的用户ID标识符(userID)处理成全局唯一整数，且不同用户的标识数值连续。需要说明的是，本申请实施例可以通过大数据离线处理技术构建用户ID标识符到全局唯一用户标识数值之间的映射关系，相比于通过单机构建用户标识数值，还能够提高用户标识数值的构建效率和可支持的数据量。

由于用户标识数值全局唯一，能够避免用户标识数值冲突问题；且不同用户标识数值连续，即将用户ID标识映射成了连续区间范围内的值，能够提高候选数据桶中位图数据的稠密度，进一步降低后续数据桶中位图数据的存储空间且提高位图数据的查询效率。

在一种可选实施方式中，确定当前用户标识数值，包括：基于数据库的元数据，确定所述数据库中最新用户标识数值；根据所述最新用户标识数值，确定所述当前用户标识数值；其中，所述当前用户标识数值与所述最新用户标识数值连续。

其中，数据库中具有用于记录最新用户标识数值的元数据，进一步的数据库可以为MPP(Massively Parallel Processing，大规模并行处理)数据库。具体的，可以将最新用户标识数值加1得到当前用户标识数值。通过从数据库的元数据中直接获取最新用户标识数值，相比于遍历数据库中已有的用户标识数值得到最新用户标识数值，能够进一步提高用户标识数值的确定效率。

S320、根据当前用户标识信息，确定当前用户分段号。

具体的，可以将当前用户标识信息除以单桶用户数量的商作为当前用户分段号。由于用户标识信息连续，因此一个分段号中的不同用户标识信息连续。

S330、根据所述当前用户分段号，确定当前用户分桶号。

可选的，采用当前用户分段号对数据库中桶总数取余，根据取余结果得到当前用户分桶号。可以将同一分段号中用户标识信息连续的不同用户统一哈希到同一数据桶中。

S340、将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。

由于不同用户标识数值唯一且连续，通过上述方式确定用户的分桶后，每个数据桶中用户标识数值连续且不重叠，即每个数据桶中存储的是连续用户标识数值，使映射得到的用户位图标识位数少，从而能够提高数据存储和查询效率。具体的，由于不同用户标识数值连续，某一用户位图标识中第1位和第7位均取值为1，其他位取值为0，即该用户位图标识只需有7位数即可。如果用户标识数值随机不连续，则可能某一用户位图标识中第1位和第10000位取值为1，其他位取值均为0，即该用户位图标识至少需要有10000位数，耗费存储空间，且计算效率低下。

图3c是根据本申请实施例提供的一种标签数据处理示意图。参考图3c，以用户标签数据包括用户ID标识、性别、年龄和兴趣爱好这四个维度，且有用户1、用户2、用户3和用户4共四位用户为例，基于全局字典分别将用户ID标识：用户1、用户2、用户3和用户4，分别转换为连续的用户标识信息：1、2、3和4；确定用户标识信息1和2的分段号为1，用户标识信息3和4的分段号为2；将分段号1中两个用户划分到数据桶1中，分段号2中的两个用户划分到数据桶2中。并且，还将每一数据桶中的用户标签数据聚合成位图数据，得到用户位图标识。具体的，数据桶1中包括性别1、年龄20、兴趣爱好1001且用户位图标识为0001的一条位图数据，以及性别1、年龄30、兴趣爱好1005且用户位图标识为0010的另一条位图数据；数据桶2中包括性别2、年龄20、兴趣爱好1005且用户位图标识为1100的一条位图数据。

本申请实施例的技术方案，通过全局字典将不同数据源的用户ID标识符处理成全局唯一且连续的整数，能够避免用户标识数值冲突问题；且每个数据桶中存储的是连续用户标识数值，使映射得到的用户位图标识位数少，从而能够提高候选数据桶中位图数据的稠密度，进一步提高数据存储和查询效率，减少存储空间占用。

图4a是根据本申请实施例提供的再一种标签数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图4a，本实施例提供的标签数据处理方法包括：

S410、根据当前用户标识信息，确定当前用户分段号。

S420、根据所述当前用户分段号，确定当前用户分桶号。

S430、将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。

S440、根据标签维度的访问频次，生成至少一个标签维度组；其中，所述标签维度组中包括至少一个标签维度。

具体的，可以根据标签维度的访问频次例如人群定向过程中用户画像、行为特征维度的使用频次，选择至少一个标签维度构成标签维度组。需要说明的是，本申请实施例对标签维度组的构建方式不作具体限定。以有1，2，…，8和9共9个标签维度为例，可以按照访问频次对各标签维度进行排名，将访问频次前3的标签维度作为一组，访问频次中间的3个标签维度作为一组，访问频次较低的3个标签维度作为一组。也可以将访问频次前3的标签维度作为一组，访问频次前5的标签维度作为一组。需要说明的是，标签维度组的聚合维度与标签维度组中标签维度数量呈负相关。例如可以将只有1个标签维度的标签维度组作为高维，将有3个标签维度的标签维度组作为中维。

S450、根据所述至少一个标签维度的位图数据，生成所述标签维度组的物化视图。

其中，物化视图用于存储基于远程表的数据，数据仓库创建的物化视图是聚合视图，且可以定期更新。本申请实施例采用空间换时间，通过为数据量大且处理耗时的数据表生成物化视图，使部分查询请求能够直接命中物化视图得到查询结果，从而进一步提高查询效率。

在一种可选实施方式中，所述方法还包括：响应于携带有筛选条件的标签查询请求，将满足所述筛选条件的数据表作为候选数据表；其中，所述数据表包括位图数据表和物化视图表；确定所述候选数据表的属性信息；其中，所述属性信息包括如下至少一项：机房信息、维度数量和标签记录数量；根据所述候选数据表的属性信息，从所述候选数据表中选择目标数据表；基于所述目标数据表，确定标签查询结果。

其中，位图数据表可以称为基础数据表，是数据库中各数据桶的位图数据汇总表。物化视图表是标签维度组的物化视图关联的数据表。具体的，机房信息越集中，维度数量越少、标签记录数量越少，候选数据表选作目标数据表的概率越大。

通过采用空间换时间，通过为常用的中高维度在数据库中提前做预聚合操作，构建物化视图，具有如下优点：

a)直接命中物化视图，物化视图对于上层查询是透明的。对于一个查询语句，底层通常会有1张基础数据表和至少一张物化视图表能够满足筛选需求；在做多条件交叉组合筛选时，根据维度和指标等统计信息，智能选择最优的表查询，避免传统方式上需要通过获取多个条件对应的单标签维度用户位图进行动态计算，极大减少耗时。例如：在查询年龄＝20的用户数量时，直接命中高维物化视图(参考图4b)；查询age＝20和interest＝1005的用户数量时，直接命中中维物化视图(参考图4b)。

b)间接命中，即命中基础数据表，或者，命中至少一个中高维度物化视图，但仍旧需要进一步聚合计算才能得到查询结果。由于中高维度物化视图相比基础数据表已经做了预聚合操作，因此维度和记录数量更少，查询性能会有成倍提高。例如：查询interest＝1005的用户时，间接命中了中维物化视图(参考图4b)。

本申请实施例的技术方案，基于MPP数据库和高效压缩位图存储技术，创新型的提出了插件式的全局字典、构建稠密位图数据和预聚合生成物化视图等技术，极大降低了用户标签数据的存储量和加快了用户群体预估查询，有效解决了超大规模数据场景下的存储和查询性能问题。

图5是本申请实施例提供的一种标签数据处理装置的结构示意图。参见图5，本申请实施例提供的标签数据处理装置500可以包括：

分段模块501，用于根据当前用户标识信息，确定当前用户分段号；

分桶模块502，用于根据所述当前用户分段号，确定当前用户分桶号；

数据存储模块503，用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储。

在一种可选实施方式中，所述分段模块501包括：

桶用户数单元，用于根据数据库的预估用户总数和数据库中桶总数，确定单桶用户数量；

分段单元，用于根据所述当前用户标识信息和所述单桶用户数量，确定当前用户分段号。

在一种可选实施方式中，所述分桶模块502具体用于：

根据所述当前用户分段号和数据库中桶总数，确定当前用户分桶号。

在一种可选实施方式中，所述装置500还包括：

标识值模块，用于确定当前用户标识数值，作为所述当前用户标识信息；其中，所述当前用户标识数值为唯一整数，且与其他用户的用户标识数值连续。

在一种可选实施方式中，所述标识值模块包括：

最新标识值单元，用于基于数据库的元数据，确定所述数据库中最新用户标识数值；

当前标识值单元，用于根据所述最新用户标识数值，确定所述当前用户标识数值；其中，所述当前用户标识数值与所述最新用户标识数值连续。

在一种可选实施方式中，所述装置500还包括物化视图模块，所述物化视图模块包括：

维度组单元，用于根据标签维度的访问频次，生成至少一个标签维度组；其中，所述标签维度组中包括至少一个标签维度；

物化视图单元，用于根据所述至少一个标签维度的位图数据，生成所述标签维度组的物化视图。

在一种可选实施方式中，所述装置500还包括第一查询模块，所述第一查询模块包括：

候选表单元，用于响应于携带有筛选条件的标签查询请求，将满足所述筛选条件的数据表作为候选数据表；其中，所述数据表包括位图数据表和物化视图表；

属性单元，用于确定所述候选数据表的属性信息；其中，所述属性信息包括如下至少一项：机房信息、维度数量和标签记录数量；

目标表单元，用于根据所述候选数据表的属性信息，从所述候选数据表中选择目标数据表；

查询结果单元，用于基于所述目标数据表，确定标签查询结果。

在一种可选实施方式中，所述装置500还包括第二查询模块，所述第二查询模块包括：

分桶查询单元，用于响应于标签查询请求，根据数据库中至少两个数据桶的位图数据，确定至少两个数据桶的查询结果；

结果汇总单元，用于对所述至少两个数据桶的查询结果进行汇总，得到标签查询结果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图6所示，是根据本申请实施例的标签数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的标签数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的标签数据处理方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的标签数据处理方法对应的程序指令/模块(例如，附图5所示的分段模块501、分桶模块502和数据存储模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及标签数据处理，即实现上述方法实施例中的标签数据处理方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据标签数据处理电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存储存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至标签数据处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

标签数据处理方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与标签数据处理电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种标签数据处理方法，包括：

根据当前用户标识信息，确定当前用户分段号；

根据所述当前用户分段号，确定当前用户分桶号；

将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储；

其中，所述根据当前用户标识信息，确定当前用户分段号，包括：

根据数据库的预估用户总数和数据库中桶总数，确定单桶用户数量；

根据所述当前用户标识信息和所述单桶用户数量，确定当前用户分段号；

所述方法还包括：

响应于标签查询请求，根据数据库中至少两个数据桶的位图数据，确定至少两个数据桶的查询结果；

对所述至少两个数据桶的查询结果进行汇总，得到标签查询结果。

2.根据权利要求1所述的方法，其中，所述根据所述当前用户分段号，确定当前用户分桶号，包括：

3.根据权利要求1-2中任一项所述的方法，所述根据当前用户标识信息，确定当前用户分段号之前，还包括：

确定当前用户标识数值，作为所述当前用户标识信息；其中，所述当前用户标识数值为唯一整数，且与其他用户的用户标识数值连续。

4.根据权利要求3所述方法，其中，所述确定当前用户标识数值，包括：

基于数据库的元数据，确定所述数据库中最新用户标识数值；

根据所述最新用户标识数值，确定所述当前用户标识数值；其中，所述当前用户标识数值与所述最新用户标识数值连续。

5.根据权利要求1所述的方法，所述将所述数据桶内的用户标签数据聚合成位图数据进行存储之后，还包括：

根据标签维度的访问频次，生成至少一个标签维度组；其中，所述标签维度组中包括至少一个标签维度；

根据所述至少一个标签维度的位图数据，生成所述标签维度组的物化视图。

6.根据权利要求5所述的方法，还包括：

响应于携带有筛选条件的标签查询请求，将满足所述筛选条件的数据表作为候选数据表；其中，所述数据表包括位图数据表和物化视图表；

确定所述候选数据表的属性信息；其中，所述属性信息包括如下至少一项：机房信息、维度数量和标签记录数量；

根据所述候选数据表的属性信息，从所述候选数据表中选择目标数据表；

基于所述目标数据表，确定标签查询结果。

7.一种标签数据处理装置，包括：

数据存储模块，用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中，且将所述数据桶内的用户标签数据聚合成位图数据进行存储；

其中，所述分段模块包括：

分段单元，用于根据所述当前用户标识信息和所述单桶用户数量，确定当前用户分段号；

所述装置还包括第二查询模块，所述第二查询模块包括：

8.根据权利要求7所述的装置，其中，所述分桶模块具体用于：

9.根据权利要求7-8中任一项所述的装置，还包括：

10.根据权利要求9所述装置，其中，所述标识值模块包括：

11.根据权利要求7所述的装置，还包括物化视图模块，所述物化视图模块包括：

12.根据权利要求11所述的装置，还包括第一查询模块，所述第一查询模块包括：

13. 一种电子设备，其中，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。