CN112015775B - 标签数据处理方法、装置、设备和存储介质 - Google Patents

标签数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112015775B
CN112015775B CN202011037355.XA CN202011037355A CN112015775B CN 112015775 B CN112015775 B CN 112015775B CN 202011037355 A CN202011037355 A CN 202011037355A CN 112015775 B CN112015775 B CN 112015775B
Authority
CN
China
Prior art keywords
data
current user
determining
label
user identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011037355.XA
Other languages
English (en)
Other versions
CN112015775A (zh
Inventor
全威龙
王冬
赵煜杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011037355.XA priority Critical patent/CN112015775B/zh
Publication of CN112015775A publication Critical patent/CN112015775A/zh
Priority to EP21174227.5A priority patent/EP3937027B1/en
Priority to US17/334,354 priority patent/US20210286791A1/en
Priority to JP2021126596A priority patent/JP7221342B2/ja
Priority to KR1020210109552A priority patent/KR20210110781A/ko
Application granted granted Critical
Publication of CN112015775B publication Critical patent/CN112015775B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了标签数据处理方法、装置、设备和存储介质,涉及大数据技术领域。具体实现方案为:根据当前用户标识信息,确定当前用户分段号;根据所述当前用户分段号,确定当前用户分桶号;将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。本申请能够降低标签数据存储空间。

Description

标签数据处理方法、装置、设备和存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及大数据技术领域,具体涉及一种标签数据处理方法、装置、设备和存储介质。
背景技术
随着用户画像与特征工程的不断发展,用户标签数据的维度日益丰富,应用场景也不断丰富。例如,业务方可以根据用户画像及行为特征定向定位人群,对人群内的用户进行精准触达,从而可以有效提升业务方的经营效率,增加用户黏性。
业务方每天的标签数据在TB(万亿字节)级别以上,如何对标签数据进行存储、查询等处理是业内重要问题。
发明内容
本公开提供了一种用于标签数据处理方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种标签数据处理方法,包括:
根据当前用户标识信息,确定当前用户分段号;
根据所述当前用户分段号,确定当前用户分桶号;
将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
根据本公开的一方面,提供了一种标签数据处理装置,包括:
分段模块,用于根据当前用户标识信息,确定当前用户分段号;
分桶模块,用于根据所述当前用户分段号,确定当前用户分桶号;
数据存储模块,用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
根据第三方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如本申请实施例中任一项所述的标签数据处理方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如本申请实施例中任一项所述的标签数据处理方法。
根据本申请的技术能够降低标签数据存储空间。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1a是根据本申请实施例提供的一种标签数据处理方法的流程示意图;
图1b是根据本申请实施例提供的一种位图数据示意图;
图2是根据本申请实施例提供的另一种标签数据处理方法的流程示意图;
图3a是根据本申请实施例提供的又一种标签数据处理方法的流程示意图;
图3b是根据本申请实施例提供的一种全局字典工作示意图;
图3c是根据本申请实施例提供的一种标签数据处理示意图;
图4a是根据本申请实施例提供的再一种标签数据处理方法的流程示意图;
图4b是根据本申请实施例提供的物化视图的示意图;
图5是根据本申请实施例提供的一种标签数据处理装置的结构示意图;
图6是用来实现本申请实施例的标签数据处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1a是根据本申请实施例提供的标签数据处理方法的流程示意图。本实施例可适用于对海量用户标签数据进行存储、查询等处理的情况。本实施例公开的标签数据处理方法可以由电子设备执行,具体可以由标签数据处理装置来执行,该装置可以由软件和/或硬件的方式实现,配置于电子设备中。参见图1a,本实施例提供的标签数据处理方法包括:
S110、根据当前用户标识信息,确定当前用户分段号。
S120、根据所述当前用户分段号,确定当前用户分桶号。
S130、将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
其中,当前用户是指待将标签数据存储到数据库中的用户。当前用户是数据库的新用户,也就是说,数据库中之前未存储有当前用户的标签数据。具体的,可以记录数据库中已有用户的标识符(User ID),将当前用户的标识符与已有数据的标识符进行匹配;若匹配失败,则确定当前用户为新用户。其中,标识符可以为字符串,不同用户体系具有不同形式的用户标识符,本申请实施例对此不作具体限定。
其中,当前用户分段号是指当前用户所属的分段标识,可以为整数。当前用户分段除了包括当前用户,还包括至少一个其他用户,也就是说,一个分段至少包括两个用户。数据库中包括至少两个数据桶,每个数据桶具有自己的唯一分桶号,即分桶号是数据桶的唯一标识,也可以为整数。具体的,可以采用当前用户分段号对数据库中桶总数取余,根据取余结果得到当前用户分桶号。以当前用户分段号为4,且桶总数为3为例,则当前用户分桶号可以为1。
其中,与当前用户分桶号关联的数据桶(可以简称为当前数据桶)中不仅存储有当前用户的标签数据,还存储有当前用户分段中其他用户的标签数据。通过根据当前用户分段号确定当前用户分桶号,即对分段号相同的不同用户统一进行分桶,使分段号相同的不同用户划分到同一数据桶中。相比于根据用户标识信息对不同标识用户分别进行分桶,能够提高数据桶中标签数据的聚合度(即稠密度),从而可以降低数据存储空间,提高数据查询效率。
在本申请实施例中,位图数据可以包括至少一个标签维度和用户位图标识(id_bitmap)维度,其中标签可以为用户画像标签、行为特征标签等,例如可以为性别、年龄和兴趣爱好等。每一条位图数据中标签维度取值唯一即不同条位图数据中标签维度取值不同,每一条位图数据中用户位图标识用于表征具有该标签维度取值的用户信息。
具体的,可以通过如下方式将数据桶内的用户标签数据聚合成位图数据:对标签维度取值相同的用户标签数据进行聚合;根据聚合的各用户标识信息(用户ID)构建用户位图标识。在构建用户位图标识过程中,可以对用户标识信息做哈希计算得到映射后的整数N,则将用户位图标识中的第N位置为1,也就是说用户位图标识以每一位取值为0或1表示该位置上是否存在用户。图1b是根据本申请实施例提供的一种位图数据示意图。参考图1b,该条位图数据中用户位图标识为1000001,是指性别为1、年龄为20且兴趣爱好为1001的用户有两个,且这两个用户的用户标识信息经哈希映射后的整数分别为1和7。
通过将数据桶内的用户标签数据聚合成位图数据,使标签维度取值相同的用户标签数据聚合成一条位图数据,能够进一步提高标签数据的聚合度,从而进一步降低标签数据所需的存储空间。
本申请实施例的技术方案,通过根据当前用户分段号确定当前用户分桶号,即对分段号相同的不同用户统一进行分桶,使分段号相同的不同用户划分到同一数据桶中,能够提高数据桶中标签数据的聚合度(稠密度),从而可以降低标签数据存储空间,提高标签数据查询效率。并且,通过将数据桶内的用户标签数据聚合成位图数据,使标签维度取值相同的用户标签数据聚合成一条位图数据,能够进一步提高标签数据的聚合度,从而进一步降低数据存储空间,提高数据查询效率。
图2是根据本申请实施例提供的一种标签数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图2,本实施例提供的标签数据处理方法包括:
S210、根据数据库的预估用户总数和数据库中桶总数,确定单桶用户数量。
其中,预估用户总数可以是人为设定的经验值,桶总数是指数据库中数据桶的总数量。具体的,可以将预估用户总数除以桶总数的商作为单桶用户数阈值,单桶用户数量可以等于或大于单桶用户数阈值。
S220、根据当前用户标识信息和单桶用户数量,确定当前用户分段号。
其中,当前用户标识信息可以为唯一整数,即为与其他用户标识信息不同的整数。具体的,可以将当前用户标识信息除以单桶用户数量的商作为当前用户分段号。其中,当前用户分段号也为整数。
S230、根据当前用户分段号和数据库中桶总数,确定当前用户分桶号。
具体的,可以采用当前用户分段号对数据库中桶总数取余,根据取余结果得到当前用户分桶号。通过根据数据库的预估用户总数、桶总数和当前用户标识信息确定当前用户分段号,使不同分段内用户数量均匀。通过根据当前用户分段号确定当前用户分桶号,使不同数据桶中用户互不交叉,进而使得后续在做查询计算时,可以直接数据桶的计算结果做简单汇总,无需去重,能够提高标签数据查询效率。
S240、将当前用户的标签数据存储到与当前用户分桶号关联的数据桶中,且将数据桶内的用户标签数据聚合成位图数据进行存储。
在一种可选实施方式中,所述方法还包括:响应于标签查询请求,根据数据库中至少两个数据桶的位图数据,确定至少两个数据桶的查询结果;对所述至少两个数据桶的查询结果进行汇总,得到标签查询结果。
具体的,响应于包括标签查询条件的查询请求,对不同数据桶中的用户标签数据执行位图聚合操作得到不同数据桶的位图数据;根据每一数据桶的位图数据确定该数据桶中符合标签查询条件的查询结果;对不同数据桶的查询结果进行汇总得到标签查询结果,即标签查询结果中的用户数量为不同数据桶中符合标签查询条件的用户数量之和。以数据库中包括两个数据桶,数据桶1中用户标识信息经哈希映射后的整数分别为1和7的两位用户符合标签查询条件,且数据桶2中用户标识信息经哈希映射后的整数为3的一位用户符合标签查询条件为例,则标签查询结果为上述3位用户。
由于不同数据桶中用户互不交叉,因此标签数据查询过程无需去重;也就说,无需对不同数据桶的位图数据进行交、并、补、差运算,产出数据库汇总位图数据;基于数据库汇总位图数据确定查询结果。不同数据桶中用户互不交叉进一步提高了标签数据的查询效率。
本申请实施例的技术方案,通过数据存储过程中,使不同数据桶中用户互不交叉,使标签数据查询过程无需去重,可以分别获取不同数据桶的查询结果,将不同数据桶的查询结果直接汇总即可得到数据库的查询结果,进一步提高了标签数据的查询效率。
图3a是根据本申请实施例提供的一种标签数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图3a,本实施例提供的标签数据处理方法包括:
S310、确定当前用户标识数值,作为所述当前用户标识信息。
其中,当前用户标识数值为唯一整数,且与其他用户的用户标识数值连续。具体的,可以基于插件式独立全局字典机制,将不同用户ID标识符映射成一段连续区间内的整数,也就是说为每个用户生成全局唯一整数,且不同用户标识数值连续。其中,插件式独立全局字典是指与数据存储、查询引擎解耦的全局字典,可以支持多种数据处理引擎,也就是说多种数据处理引擎可以复用全局字典。
图3b是根据本申请实施例提供的一种全局字典工作示意图。参考图3b,插件式全局字典可以将不同数据源的用户ID标识符(userID)处理成全局唯一整数,且不同用户的标识数值连续。需要说明的是,本申请实施例可以通过大数据离线处理技术构建用户ID标识符到全局唯一用户标识数值之间的映射关系,相比于通过单机构建用户标识数值,还能够提高用户标识数值的构建效率和可支持的数据量。
由于用户标识数值全局唯一,能够避免用户标识数值冲突问题;且不同用户标识数值连续,即将用户ID标识映射成了连续区间范围内的值,能够提高候选数据桶中位图数据的稠密度,进一步降低后续数据桶中位图数据的存储空间且提高位图数据的查询效率。
在一种可选实施方式中,确定当前用户标识数值,包括:基于数据库的元数据,确定所述数据库中最新用户标识数值;根据所述最新用户标识数值,确定所述当前用户标识数值;其中,所述当前用户标识数值与所述最新用户标识数值连续。
其中,数据库中具有用于记录最新用户标识数值的元数据,进一步的数据库可以为MPP(Massively Parallel Processing,大规模并行处理)数据库。具体的,可以将最新用户标识数值加1得到当前用户标识数值。通过从数据库的元数据中直接获取最新用户标识数值,相比于遍历数据库中已有的用户标识数值得到最新用户标识数值,能够进一步提高用户标识数值的确定效率。
S320、根据当前用户标识信息,确定当前用户分段号。
具体的,可以将当前用户标识信息除以单桶用户数量的商作为当前用户分段号。由于用户标识信息连续,因此一个分段号中的不同用户标识信息连续。
S330、根据所述当前用户分段号,确定当前用户分桶号。
可选的,采用当前用户分段号对数据库中桶总数取余,根据取余结果得到当前用户分桶号。可以将同一分段号中用户标识信息连续的不同用户统一哈希到同一数据桶中。
S340、将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
由于不同用户标识数值唯一且连续,通过上述方式确定用户的分桶后,每个数据桶中用户标识数值连续且不重叠,即每个数据桶中存储的是连续用户标识数值,使映射得到的用户位图标识位数少,从而能够提高数据存储和查询效率。具体的,由于不同用户标识数值连续,某一用户位图标识中第1位和第7位均取值为1,其他位取值为0,即该用户位图标识只需有7位数即可。如果用户标识数值随机不连续,则可能某一用户位图标识中第1位和第10000位取值为1,其他位取值均为0,即该用户位图标识至少需要有10000位数,耗费存储空间,且计算效率低下。
图3c是根据本申请实施例提供的一种标签数据处理示意图。参考图3c,以用户标签数据包括用户ID标识、性别、年龄和兴趣爱好这四个维度,且有用户1、用户2、用户3和用户4共四位用户为例,基于全局字典分别将用户ID标识:用户1、用户2、用户3和用户4,分别转换为连续的用户标识信息:1、2、3和4;确定用户标识信息1和2的分段号为1,用户标识信息3和4的分段号为2;将分段号1中两个用户划分到数据桶1中,分段号2中的两个用户划分到数据桶2中。并且,还将每一数据桶中的用户标签数据聚合成位图数据,得到用户位图标识。具体的,数据桶1中包括性别1、年龄20、兴趣爱好1001且用户位图标识为0001的一条位图数据,以及性别1、年龄30、兴趣爱好1005且用户位图标识为0010的另一条位图数据;数据桶2中包括性别2、年龄20、兴趣爱好1005且用户位图标识为1100的一条位图数据。
本申请实施例的技术方案,通过全局字典将不同数据源的用户ID标识符处理成全局唯一且连续的整数,能够避免用户标识数值冲突问题;且每个数据桶中存储的是连续用户标识数值,使映射得到的用户位图标识位数少,从而能够提高候选数据桶中位图数据的稠密度,进一步提高数据存储和查询效率,减少存储空间占用。
图4a是根据本申请实施例提供的再一种标签数据处理方法的流程示意图。本实施例是在上述实施例的基础上提出的一种可选方案。参见图4a,本实施例提供的标签数据处理方法包括:
S410、根据当前用户标识信息,确定当前用户分段号。
S420、根据所述当前用户分段号,确定当前用户分桶号。
S430、将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
S440、根据标签维度的访问频次,生成至少一个标签维度组;其中,所述标签维度组中包括至少一个标签维度。
具体的,可以根据标签维度的访问频次例如人群定向过程中用户画像、行为特征维度的使用频次,选择至少一个标签维度构成标签维度组。需要说明的是,本申请实施例对标签维度组的构建方式不作具体限定。以有1,2,…,8和9共9个标签维度为例,可以按照访问频次对各标签维度进行排名,将访问频次前3的标签维度作为一组,访问频次中间的3个标签维度作为一组,访问频次较低的3个标签维度作为一组。也可以将访问频次前3的标签维度作为一组,访问频次前5的标签维度作为一组。需要说明的是,标签维度组的聚合维度与标签维度组中标签维度数量呈负相关。例如可以将只有1个标签维度的标签维度组作为高维,将有3个标签维度的标签维度组作为中维。
S450、根据所述至少一个标签维度的位图数据,生成所述标签维度组的物化视图。
其中,物化视图用于存储基于远程表的数据,数据仓库创建的物化视图是聚合视图,且可以定期更新。本申请实施例采用空间换时间,通过为数据量大且处理耗时的数据表生成物化视图,使部分查询请求能够直接命中物化视图得到查询结果,从而进一步提高查询效率。
在一种可选实施方式中,所述方法还包括:响应于携带有筛选条件的标签查询请求,将满足所述筛选条件的数据表作为候选数据表;其中,所述数据表包括位图数据表和物化视图表;确定所述候选数据表的属性信息;其中,所述属性信息包括如下至少一项:机房信息、维度数量和标签记录数量;根据所述候选数据表的属性信息,从所述候选数据表中选择目标数据表;基于所述目标数据表,确定标签查询结果。
其中,位图数据表可以称为基础数据表,是数据库中各数据桶的位图数据汇总表。物化视图表是标签维度组的物化视图关联的数据表。具体的,机房信息越集中,维度数量越少、标签记录数量越少,候选数据表选作目标数据表的概率越大。
通过采用空间换时间,通过为常用的中高维度在数据库中提前做预聚合操作,构建物化视图,具有如下优点:
a)直接命中物化视图,物化视图对于上层查询是透明的。对于一个查询语句,底层通常会有1张基础数据表和至少一张物化视图表能够满足筛选需求;在做多条件交叉组合筛选时,根据维度和指标等统计信息,智能选择最优的表查询,避免传统方式上需要通过获取多个条件对应的单标签维度用户位图进行动态计算,极大减少耗时。例如:在查询年龄=20的用户数量时,直接命中高维物化视图(参考图4b);查询age=20和interest=1005的用户数量时,直接命中中维物化视图(参考图4b)。
b)间接命中,即命中基础数据表,或者,命中至少一个中高维度物化视图,但仍旧需要进一步聚合计算才能得到查询结果。由于中高维度物化视图相比基础数据表已经做了预聚合操作,因此维度和记录数量更少,查询性能会有成倍提高。例如:查询interest=1005的用户时,间接命中了中维物化视图(参考图4b)。
本申请实施例的技术方案,基于MPP数据库和高效压缩位图存储技术,创新型的提出了插件式的全局字典、构建稠密位图数据和预聚合生成物化视图等技术,极大降低了用户标签数据的存储量和加快了用户群体预估查询,有效解决了超大规模数据场景下的存储和查询性能问题。
图5是本申请实施例提供的一种标签数据处理装置的结构示意图。参见图5,本申请实施例提供的标签数据处理装置500可以包括:
分段模块501,用于根据当前用户标识信息,确定当前用户分段号;
分桶模块502,用于根据所述当前用户分段号,确定当前用户分桶号;
数据存储模块503,用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储。
在一种可选实施方式中,所述分段模块501包括:
桶用户数单元,用于根据数据库的预估用户总数和数据库中桶总数,确定单桶用户数量;
分段单元,用于根据所述当前用户标识信息和所述单桶用户数量,确定当前用户分段号。
在一种可选实施方式中,所述分桶模块502具体用于:
根据所述当前用户分段号和数据库中桶总数,确定当前用户分桶号。
在一种可选实施方式中,所述装置500还包括:
标识值模块,用于确定当前用户标识数值,作为所述当前用户标识信息;其中,所述当前用户标识数值为唯一整数,且与其他用户的用户标识数值连续。
在一种可选实施方式中,所述标识值模块包括:
最新标识值单元,用于基于数据库的元数据,确定所述数据库中最新用户标识数值;
当前标识值单元,用于根据所述最新用户标识数值,确定所述当前用户标识数值;其中,所述当前用户标识数值与所述最新用户标识数值连续。
在一种可选实施方式中,所述装置500还包括物化视图模块,所述物化视图模块包括:
维度组单元,用于根据标签维度的访问频次,生成至少一个标签维度组;其中,所述标签维度组中包括至少一个标签维度;
物化视图单元,用于根据所述至少一个标签维度的位图数据,生成所述标签维度组的物化视图。
在一种可选实施方式中,所述装置500还包括第一查询模块,所述第一查询模块包括:
候选表单元,用于响应于携带有筛选条件的标签查询请求,将满足所述筛选条件的数据表作为候选数据表;其中,所述数据表包括位图数据表和物化视图表;
属性单元,用于确定所述候选数据表的属性信息;其中,所述属性信息包括如下至少一项:机房信息、维度数量和标签记录数量;
目标表单元,用于根据所述候选数据表的属性信息,从所述候选数据表中选择目标数据表;
查询结果单元,用于基于所述目标数据表,确定标签查询结果。
在一种可选实施方式中,所述装置500还包括第二查询模块,所述第二查询模块包括:
分桶查询单元,用于响应于标签查询请求,根据数据库中至少两个数据桶的位图数据,确定至少两个数据桶的查询结果;
结果汇总单元,用于对所述至少两个数据桶的查询结果进行汇总,得到标签查询结果。
本申请实施例的技术方案,基于MPP数据库和高效压缩位图存储技术,创新型的提出了插件式的全局字典、构建稠密位图数据和预聚合生成物化视图等技术,极大降低了用户标签数据的存储量和加快了用户群体预估查询,有效解决了超大规模数据场景下的存储和查询性能问题。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的标签数据处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的标签数据处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的标签数据处理方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的标签数据处理方法对应的程序指令/模块(例如,附图5所示的分段模块501、分桶模块502和数据存储模块503)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及标签数据处理,即实现上述方法实施例中的标签数据处理方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据标签数据处理电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存储存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至标签数据处理电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
标签数据处理方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与标签数据处理电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本申请实施例的技术方案,基于MPP数据库和高效压缩位图存储技术,创新型的提出了插件式的全局字典、构建稠密位图数据和预聚合生成物化视图等技术,极大降低了用户标签数据的存储量和加快了用户群体预估查询,有效解决了超大规模数据场景下的存储和查询性能问题。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种标签数据处理方法,包括:
根据当前用户标识信息,确定当前用户分段号;
根据所述当前用户分段号,确定当前用户分桶号;
将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储;
其中,所述根据当前用户标识信息,确定当前用户分段号,包括:
根据数据库的预估用户总数和数据库中桶总数,确定单桶用户数量;
根据所述当前用户标识信息和所述单桶用户数量,确定当前用户分段号;
所述方法还包括:
响应于标签查询请求,根据数据库中至少两个数据桶的位图数据,确定至少两个数据桶的查询结果;
对所述至少两个数据桶的查询结果进行汇总,得到标签查询结果。
2.根据权利要求1所述的方法,其中,所述根据所述当前用户分段号,确定当前用户分桶号,包括:
根据所述当前用户分段号和数据库中桶总数,确定当前用户分桶号。
3.根据权利要求1-2中任一项所述的方法,所述根据当前用户标识信息,确定当前用户分段号之前,还包括:
确定当前用户标识数值,作为所述当前用户标识信息;其中,所述当前用户标识数值为唯一整数,且与其他用户的用户标识数值连续。
4.根据权利要求3所述方法,其中,所述确定当前用户标识数值,包括:
基于数据库的元数据,确定所述数据库中最新用户标识数值;
根据所述最新用户标识数值,确定所述当前用户标识数值;其中,所述当前用户标识数值与所述最新用户标识数值连续。
5.根据权利要求1所述的方法,所述将所述数据桶内的用户标签数据聚合成位图数据进行存储之后,还包括:
根据标签维度的访问频次,生成至少一个标签维度组;其中,所述标签维度组中包括至少一个标签维度;
根据所述至少一个标签维度的位图数据,生成所述标签维度组的物化视图。
6.根据权利要求5所述的方法,还包括:
响应于携带有筛选条件的标签查询请求,将满足所述筛选条件的数据表作为候选数据表;其中,所述数据表包括位图数据表和物化视图表;
确定所述候选数据表的属性信息;其中,所述属性信息包括如下至少一项:机房信息、维度数量和标签记录数量;
根据所述候选数据表的属性信息,从所述候选数据表中选择目标数据表;
基于所述目标数据表,确定标签查询结果。
7.一种标签数据处理装置,包括:
分段模块,用于根据当前用户标识信息,确定当前用户分段号;
分桶模块,用于根据所述当前用户分段号,确定当前用户分桶号;
数据存储模块,用于将所述当前用户的标签数据存储到与所述当前用户分桶号关联的数据桶中,且将所述数据桶内的用户标签数据聚合成位图数据进行存储;
其中,所述分段模块包括:
桶用户数单元,用于根据数据库的预估用户总数和数据库中桶总数,确定单桶用户数量;
分段单元,用于根据所述当前用户标识信息和所述单桶用户数量,确定当前用户分段号;
所述装置还包括第二查询模块,所述第二查询模块包括:
分桶查询单元,用于响应于标签查询请求,根据数据库中至少两个数据桶的位图数据,确定至少两个数据桶的查询结果;
结果汇总单元,用于对所述至少两个数据桶的查询结果进行汇总,得到标签查询结果。
8.根据权利要求7所述的装置,其中,所述分桶模块具体用于:
根据所述当前用户分段号和数据库中桶总数,确定当前用户分桶号。
9.根据权利要求7-8中任一项所述的装置,还包括:
标识值模块,用于确定当前用户标识数值,作为所述当前用户标识信息;其中,所述当前用户标识数值为唯一整数,且与其他用户的用户标识数值连续。
10.根据权利要求9所述装置,其中,所述标识值模块包括:
最新标识值单元,用于基于数据库的元数据,确定所述数据库中最新用户标识数值;
当前标识值单元,用于根据所述最新用户标识数值,确定所述当前用户标识数值;其中,所述当前用户标识数值与所述最新用户标识数值连续。
11.根据权利要求7所述的装置,还包括物化视图模块,所述物化视图模块包括:
维度组单元,用于根据标签维度的访问频次,生成至少一个标签维度组;其中,所述标签维度组中包括至少一个标签维度;
物化视图单元,用于根据所述至少一个标签维度的位图数据,生成所述标签维度组的物化视图。
12.根据权利要求11所述的装置,还包括第一查询模块,所述第一查询模块包括:
候选表单元,用于响应于携带有筛选条件的标签查询请求,将满足所述筛选条件的数据表作为候选数据表;其中,所述数据表包括位图数据表和物化视图表;
属性单元,用于确定所述候选数据表的属性信息;其中,所述属性信息包括如下至少一项:机房信息、维度数量和标签记录数量;
目标表单元,用于根据所述候选数据表的属性信息,从所述候选数据表中选择目标数据表;
查询结果单元,用于基于所述目标数据表,确定标签查询结果。
13. 一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
CN202011037355.XA 2020-09-27 2020-09-27 标签数据处理方法、装置、设备和存储介质 Active CN112015775B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202011037355.XA CN112015775B (zh) 2020-09-27 2020-09-27 标签数据处理方法、装置、设备和存储介质
EP21174227.5A EP3937027B1 (en) 2020-09-27 2021-05-18 Method and apparatus for processing label data, device, and storage medium
US17/334,354 US20210286791A1 (en) 2020-09-27 2021-05-28 Method and apparatus for processing label data, device, and storage medium
JP2021126596A JP7221342B2 (ja) 2020-09-27 2021-08-02 ラベルデータ処理方法、装置、機器及び記憶媒体
KR1020210109552A KR20210110781A (ko) 2020-09-27 2021-08-19 라벨 데이터 처리 방법, 장치, 기기 및 저장 매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011037355.XA CN112015775B (zh) 2020-09-27 2020-09-27 标签数据处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112015775A CN112015775A (zh) 2020-12-01
CN112015775B true CN112015775B (zh) 2023-11-21

Family

ID=73528373

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011037355.XA Active CN112015775B (zh) 2020-09-27 2020-09-27 标签数据处理方法、装置、设备和存储介质

Country Status (5)

Country Link
US (1) US20210286791A1 (zh)
EP (1) EP3937027B1 (zh)
JP (1) JP7221342B2 (zh)
KR (1) KR20210110781A (zh)
CN (1) CN112015775B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559522A (zh) * 2020-12-07 2021-03-26 百度在线网络技术(北京)有限公司 数据存储方法、装置、查询方法、电子设备及可读介质
KR20220062669A (ko) * 2020-12-07 2022-05-17 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 데이터 저장 방법, 장치, 조회 방법, 전자 설비 및 판독가능 매체
CN112800062A (zh) * 2021-01-29 2021-05-14 北京读我网络技术有限公司 一种标签数据存储方法及系统
CN113157695B (zh) * 2021-03-29 2023-06-06 抖音视界有限公司 数据处理方法、装置、可读介质及电子设备
CN113297617A (zh) * 2021-05-26 2021-08-24 杭州安恒信息技术股份有限公司 权限数据获取方法、装置、计算机设备和存储介质
CN113516506B (zh) * 2021-06-10 2024-04-26 深圳市云网万店科技有限公司 一种数据处理方法、装置及电子设备
CN113420263B (zh) * 2021-06-30 2023-08-04 北京百度网讯科技有限公司 数据统计方法、装置、设备和存储介质
CN113641769B (zh) * 2021-08-20 2024-02-20 湖南快乐阳光互动娱乐传媒有限公司 一种数据处理方法及装置
CN113935407A (zh) * 2021-09-29 2022-01-14 光大科技有限公司 一种异常行为识别模型确定方法及装置
CN115114359B (zh) * 2022-05-27 2023-11-14 马上消费金融股份有限公司 用户数据处理方法及装置
CN115630117B (zh) * 2022-12-21 2023-04-07 网易(杭州)网络有限公司 数据分析方法、物化视图生成方法及相关设备
CN115982206B (zh) * 2023-02-09 2023-08-29 中国证券登记结算有限责任公司 一种处理数据的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421662B1 (en) * 1999-06-04 2002-07-16 Oracle Corporation Generating and implementing indexes based on criteria set forth in queries
CN108415978A (zh) * 2018-02-09 2018-08-17 北京腾云天下科技有限公司 用户标签存储方法、用户画像计算方法及计算设备
CN111443899A (zh) * 2020-04-17 2020-07-24 广州汇量信息科技有限公司 一种元素处理方法、装置、电子设备及存储介质
CN111581216A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 数据处理方法、装置、设备以及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06251067A (ja) * 1993-02-26 1994-09-09 Toshiba Corp 並列データ検索装置
JP2000242538A (ja) 1999-02-22 2000-09-08 Nec Corp ディレクトリ検索システム、ディレクトリ検索方法およびディレクトリ検索用プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4782490B2 (ja) 2005-06-29 2011-09-28 富士通株式会社 データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法
US9798789B2 (en) * 2006-09-12 2017-10-24 Facebook, Inc. Method and system for tracking changes to user content in an online social network
US9021362B2 (en) * 2010-07-19 2015-04-28 Soasta, Inc. Real-time analytics of web performance using actual user measurements
JP5673224B2 (ja) 2011-03-04 2015-02-18 日本電気株式会社 情報管理装置、情報管理方法、及びプログラム
US10282446B2 (en) * 2014-06-30 2019-05-07 Netscout Systems Texas, Llc Dynamic selection of source table for DB rollup aggregation and query rewrite based on model driven definitions and cardinality estimates
US20160026579A1 (en) * 2014-07-22 2016-01-28 Lsi Corporation Storage Controller and Method for Managing Metadata Operations in a Cache
US20160104166A1 (en) * 2014-10-08 2016-04-14 Morgan Stanley Computerized account database access tool
US10380181B1 (en) 2014-12-19 2019-08-13 HCA Holdings, Inc. Randomized compliant searching
US11017303B2 (en) * 2017-05-03 2021-05-25 Oracle International Corporation Object count prediction using distributed processing
US20200104340A1 (en) 2018-09-28 2020-04-02 Microsoft Technology Licensing, Llc A/b testing using quantile metrics
CN112368731A (zh) * 2018-10-23 2021-02-12 谷歌有限责任公司 针对生成热图的数据减少

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6421662B1 (en) * 1999-06-04 2002-07-16 Oracle Corporation Generating and implementing indexes based on criteria set forth in queries
CN108415978A (zh) * 2018-02-09 2018-08-17 北京腾云天下科技有限公司 用户标签存储方法、用户画像计算方法及计算设备
CN111443899A (zh) * 2020-04-17 2020-07-24 广州汇量信息科技有限公司 一种元素处理方法、装置、电子设备及存储介质
CN111581216A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 数据处理方法、装置、设备以及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
A bucket-interleaving multiplexer for efficient near-on-demand streaming to resource-constrained clients;Y. Birk等;Proceedings. IEEE International Conference on Multimedia and Expo;全文 *
基于改进决策树算法的Web数据库查询结果自动分类方法;孟祥福;马宗民;张霄雁;王星;;计算机研究与发展(12);全文 *
基于高维稀疏数据的k-分桶高效skyline查询算法;徐妍妍;王宏志;高宏;李建中;;新型工业化(08);全文 *
对象存储系统中对象查找及标识符分配管理策略;刘景宁;吕满;童薇;冯丹;;小型微型计算机系统(09);全文 *

Also Published As

Publication number Publication date
JP2021170409A (ja) 2021-10-28
US20210286791A1 (en) 2021-09-16
EP3937027A1 (en) 2022-01-12
CN112015775A (zh) 2020-12-01
EP3937027B1 (en) 2023-11-01
KR20210110781A (ko) 2021-09-09
JP7221342B2 (ja) 2023-02-13

Similar Documents

Publication Publication Date Title
CN112015775B (zh) 标签数据处理方法、装置、设备和存储介质
CN111966677B (zh) 数据报表的处理方法、装置、电子设备及存储介质
EP3816817B1 (en) Method and apparatus for importing data into graph database, electronic device and medium
CN111241108B (zh) 基于键值对kv系统的索引方法、装置、电子设备和介质
US9740734B2 (en) Group-by processing for data containing singleton groups
CN111259107B (zh) 行列式文本的存储方法、装置以及电子设备
CN113051446A (zh) 拓扑关系查询方法、装置、电子设备和介质
CN112559522A (zh) 数据存储方法、装置、查询方法、电子设备及可读介质
Von der Weth et al. Multiterm keyword search in NoSQL systems
CN111259090A (zh) 关系数据的图生成方法、装置、电子设备和存储介质
CN112328658A (zh) 用户档案数据处理方法、装置、设备及存储介质
CN115934724A (zh) 构建数据库索引的方法、检索方法、装置、设备及介质
US10885157B2 (en) Determining a database signature
US10067678B1 (en) Probabilistic eviction of partial aggregation results from constrained results storage
EP3872703A2 (en) Method and device for classifying face image, electronic device and storage medium
CN111506737B (zh) 图数据处理方法、检索方法、装置及电子设备
CN112069541B (zh) 权限管理、查询方法和装置
CN106156166B (zh) 关系链查询系统、文档检索方法、索引建立方法及装置
US20220365941A1 (en) Method for searching instant messaging object, electronic device and storage medium
CN111488430B (zh) 事件的数据处理的方法、装置、设备以及存储介质
US11093483B2 (en) Multilevel data lineage view
CN113032402B (zh) 存储数据和获取数据的方法、装置、设备和存储介质
CN112069875B (zh) 人脸图像的分类方法、装置、电子设备和存储介质
CN116610751A (zh) 元数据处理方法和装置
JP2023509812A (ja) データ記憶方法、装置、クエリ方法、電子機器および可読媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant