CN113641769A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN113641769A CN113641769A CN202110961375.4A CN202110961375A CN113641769A CN 113641769 A CN113641769 A CN 113641769A CN 202110961375 A CN202110961375 A CN 202110961375A CN 113641769 A CN113641769 A CN 113641769A
- Authority
- CN
- China
- Prior art keywords
- entity
- bit
- tag
- bit sequence
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000013507 mapping Methods 0.000 claims description 209
- 238000000034 method Methods 0.000 claims description 40
- 238000007405 data analysis Methods 0.000 claims description 18
- 230000008859 change Effects 0.000 claims description 13
- 238000013144 data compression Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据处理方法及装置,包括:基于待处理数据中包括实体成员的标签数据,构建构建待处理实体类别包括的每个实体成员的标签比特位序列、以及待处理实体类别包括的每个标签的实体比特位序列,并存储所构建的标签比特位序列以及实体比特位序列,其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签。可见,本申请,通过将实体成员所具有的标签用标签比特位序列表示,将具有相同标签的实体成员用实体比特位序列方式表示,实现对数据的压缩,从而减小存储所占用的内存,降低对设备性能的影响。
Description
技术领域
本申请涉及计算机数据的压缩与分布式环境下的数据分发领域,尤其涉及一种数据处理方法及装置。
背景技术
随着大数据与推荐技术的发展,大数据分析平台收集用户在网站或应用程序内的行为,将用户的行为,处理成实体成员的标签数据,再将实体成员的标签数据反馈到各个业务子系统中,能够帮助企业形成更精细化的业务运作模式。但是离线、在线大数据分析平台首要的能力是应对海量的企业数据,在访问时效性上往往难以与在线实时业务系统做直接对接。
为了将大数据分析平台产出的结果数据应用于实时业务系统,往往需要再借助离线定时任务或实时消息队列,将之写入关系型数据库中进行存储,才能供实时业务系统查询使用。然而直接采用关系型数据库存储大数据分析平台产出的结果数据,需要消耗大量的内存,影响设备性能。
发明内容
本申请提供了一种数据处理方法及装置,目的在于解决现有方案中直接采用关系型数据库存储大数据分析平台产出的结果数据,需要消耗大量的内存,影响设备性能的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种数据处理方法,包括:
获取大数据分析平台发送的待处理数据;所述待处理数据中包括待处理实体类别,或待处理实体类别和实体成员的标签数据;
判断所述待处理数据中包括的待处理实体类别是否为已存在的实体类别;
若所述待处理数据中包括的待处理实体类别为已存在的实体类别,则当预先存储的各个标签比特位序列和实体比特位序列中不存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列;其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签;
存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列。
上述的方法,可选的,还包括:
若所述待处理数据中包括的待处理实体类别不为已存在的实体类别,为所述待处理实体类别配置标签数量;
存储所述待处理实体类别和所述标签数量。
上述的方法,可选的,还包括:
则当预先存储的各个标签比特位序列和实体比特位序列中存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,对所述待处理数据中包括的实体成员的标签数据进行解析,得到待变更实体成员的成员标识信息、待变更标签的标签标识信息、以及指示所述待变更实体成员是否具有所述待变更标签的指示信息;
基于所述成员标识信息和所述标签标识信息,从预先存储的所述待处理实体类别对应的标签比特位序列和实体比特位序列中,确定待变更标签比特位序列、待变更实体比特位序列、以及所述待变更比特位序列中的待变更比特位和所述待变更实体比特位序列中的待变更比特位;
基于所述指示信息,对所述待变更标签比特位序列中的待变更比特位的值和所述待变更实体比特位序列中的待变更比特位的值进行变更。
上述的方法,可选的,所述基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列,包括:
基于所述待处理数据中包括实体成员的标签数据,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系;其中,所述标签比特位映射关系用于表征所述待处理实体类别的各个标签与待构建的标签比特位序列中的各个比特位之间的映射关系,所述实体比特位映射关系用于表征所述待处理实体类别的各个实体成员与待构建的实体比特位序列中的各个比特位之间的映射关系;
基于所述标签比特位映射关系,构建所述待处理实体类别包括的每个实体成员的标签比特位序列,并基于所述实体比特位映射关系,构建所述待处理实体类别包括的每个标签的实体比特位序列。
上述的方法,可选的,所述基于所述待处理数据中包括实体成员的标签数据,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系,包括:
对所述待处理数据中包括的实体成员的标签数据进行解析,得到所述待处理实体类别包括的各个实体成员、以及每个实体成员具有的标签;
获取预先配置的所述待处理实体类别的标签数量;
基于所述标签数量、所述待处理实体类别包括的各个实体成员、以及每个实体成员的具有的标签,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系。
上述的方法,可选的,还包括:
获取预先存储的在预设时间段内发生变更的比特位映射关系;所述比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系;
将在预设时间段内发生变更的比特位映射关系发送至所述客户端,以便于所述客户端基于所述比特位映射关系,对自身预先存储的比特位映射关系进行更新。
上述的方法,可选的,还包括:
响应于客户端发送的数据查询请求,获取预先存储的与所述数据查询请求对应的比特位序列;所述比特位序列包括标签比特位序列和/或实体比特位序列;
判断预先存储的各个比特位映射关系在目标时间段内是否发生变更;所述比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系;所述目标时间段的开始时间为客户端上一次发送数据查询请求的请求时间,或最近一次向所述客户端反馈比特位映射关系的反馈时间,所述目标时间段的结束时间为当前时间;
若存在比特位映射关系在目标时间段内发生变更,则将发生变更的比特位映射关系和与所述数据查询请求对应的比特位序列发送至所述客户端;
若各个比特位映射关系在目标时间段内均未发生变更,则将与所述数据查询请求对应的比特位序列发送至所述客户端。
上述的方法,可选的,所述获取预先存储的与所述数据查询请求对应的比特位序列,包括:
基于所述数据查询请求中包括的请求类型,查找预先存储的与所述请求类型对应的比特位序列;
基于所述数据查询请求中包括的请求实体类别,从与所述请求类型对应的比特位序列中查找与所述请求实体类别对应的比特位序列;
基于所述数据查询请求中包括的序列标识,从与所述请求实体类别对应的比特位序列中查找与所述序列标识对应的比特位序列;所述序列标识包括实体成员的成员标识信息和/或标签的标签标识信息;
将与所述序列标识对应的比特位序列确定为与所述数据查询请求对应的比特位序列。
上述的方法,可选的,所述判断预先存储的各个比特位映射关系在目标时间段内是否发生变更,包括:
获取预先存储的各个比特位映射关系的变更时间;
针对每个所述比特位映射关系,判断所述比特位映射关系的变更时间是否在所述目标时间段内,若所述变更时间在所述目标时间段内,则确定出比特位映射关系在所述目标时间段内发生变更,若所述变更时间不在所述目标时间段内,则确定出比特位映射关系在所述目标时间段内未发生变更。
一种数据处理装置,包括:
第一获取单元,用于获取大数据分析平台发送的待处理数据;所述待处理数据中包括待处理实体类别,或待处理实体类别和实体成员的标签数据;
第一判断单元,用于判断所述待处理数据中包括的待处理实体类别是否为已存在的实体类别;
第一构建单元,用于若所述待处理数据中包括的待处理实体类别为已存在的实体类别,则当预先存储的各个标签比特位序列和实体比特位序列中不存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列;其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签;
第一存储单元,用于存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列。
一种存储介质,所述存储介质存储有指令集,其中,所述指令集被处理器执行时实现如上述的数据处理方法。
一种电子设备,包括:
存储器,用于存储至少一组指令集;
处理器,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上述的数据处理方法。
与现有技术相比,本申请包括以下优点:
本申请提供了一种数据处理方法及装置,包括:在待处理数据中包括的待处理实体类别为已存在的实体类别,且预先存储的各个标签比特位序列和实体比特位序列中不存在与待处理实体类别对应的标签比特位序列和实体比特位序列时,基于待处理数据中包括实体成员的标签数据,构建待处理实体类别包括的每个实体成员的标签比特位序列、以及待处理实体类别包括的每个标签的实体比特位序列,并存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列,其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签。可见,本申请方案,通过将实体成员所具有的标签用标签比特位序列表示,将具有相同标签的实体成员用实体比特位序列方式表示,实现对数据的压缩,从而减小存储所占用的内存,降低对设备性能的影响。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种数据处理方法的方法流程图;
图2为本申请提供的一种数据处理方法的又一方法流程图;
图3为本申请提供的一种数据处理方法的又一方法流程图;
图4为本申请提供的一种数据处理方法的又一方法流程图;
图5为本申请提供的一种数据处理方法的又一方法流程图;
图6为本申请提供的一种数据处理方法的又一方法流程图;
图7为本申请提供的一种数据处理系统的结构示意图;
图8为本申请提供的一种数据处理装置的结构示意图;
图9为本申请提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本申请公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本申请公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
现有的方案中,为了将大数据分析平台产出的结果数据应用于实时业务系统,往往需要再借助离线定时任务或实时消息队列,将之写入关系型数据库中进行存储,才能供实时业务系统查询使用。然而直接采用关系型数据库存储大数据分析平台产出的结果数据,需要消耗大量的内存,影响设备性能。
发明人通过研究发现,实体成员的标签数据往往具有以下特点:实体成员是否具备某个或某些标签特性一般具有二元性,即:要么具有,要么不具有;实体类别的数量较小且固定,每个实体类别下实体成员的数量较大;标签类别的数量较小且固定,具有同一标签的实体成员的数量较大。基于此,将每个实体成员是否具有某一类别标签用0或1来表示,实体类别和标签类别的数量相对较小且变化频率低,可以预定义后全量传递给业务应用来做压缩与解压缩时的数据语义恢复。
对本申请提及的部分名词进行定义如下:
标签:用以表明任意实体成员的某个特性的描述,可以存在多个类别;
实体成员:具备一个或多个特性的成员,存在多个类别,并且每个类别下,存在海量数量,每个实体成员拥有基于整数数值的唯一标识。
本申请中,将主要解决两个场景下的标签与实体成员的关系定义如下:
对于场景1:当内存系统存在t1个标签,而某一实体成员x具有若干个标签时,可以用一个标签比特位序列bitmap来表征该实体成员x的标签拥有情况,其中,标签比特位序列中的比特位与t1个标签中的标签一一对应,每一比特位的取值为0或1,示例性的,标签比特位序列比如为[011...10],其中标签比特位序列bitmap的总长度为t1,标签比特位序列bitmap中比特位的值为1表示实体成员x具有该比特位对应的标签,相应具备该比特位所对应标签表示的特性,标签比特位序列bitmap中比特位的值为0表示实体成员x不具有该比特位对应的标签,相应不具备该比特位所对应的标签表示的特性,从而通过标签比特位序列bitmap可以表征一个实体成员总共具有哪些标签;
对于场景2:当内存系统存在针对某个实体类别具有同一标签的所有实体成员时,可以用一个实体比特位序列bitmap来表征拥有同一标签的实体成员情况,其中,实体比特位序列中的比特位与实体成员一一对应,每一比特位的取值为0或1,示例性的,实体比特位序比如为:[101…01],其中实体比特位序列bitmap的总长度为t2,t2等于具有该标签的所有实体成员可能达到的总数量,比如容量10亿实体成员,使用10^8约等于120*(2^10)*8约等于120MB大小的实体比特位序列bitmap,足以表达具有某一标签的各个实体成员。
基于此,本申请实施例提供了一种数据处理方法,该方法可以应用于存储系统中,其执行主体可以为存储系统的处理器,所述数据处理方法的流程图如图1所示,具体包括:
S101、获取大数据分析平台发送的待处理数据。
本实施例中,大数据分析平台通过消息队列,发送待处理数据,其中,待处理数据为大数据分析平台产出的结果数据,可选的,待处理数据包括实体类别、或实体类别和实体成员的标签数据,也就是说,待处理数据可以包括实体类别,也可以包括实体类别和实体成员的标签数据。
S102、判断待处理数据中包括的待处理实体类别是否为已存在的实体类别,若否,执行S103,若是,执行S104。
本实施例中,存储系统中预先存储了多个实体类别,其中,部分实体类别下不存在与其对应的标签比特位序列和实体比特位系列,部分实体类别下存在与其对应的标签比特位序列和实体比特位序列。
本实施例中,标签比特位序列中的每个比特位的值用于表征该标签比特位序列对应的实体成员是否具有该比特位对应标签,实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该实体比特位序列对应的标签。
本实施例中,每一个标签比特位序列中每一个比特位对应的标签,基于该标签比特位序列所属的实体类别的标签比特位映射关系确定;每一个实体比特位序列中的每一个比特位对应的实体成员,基于该标签比特位序列所属实体类别的实体比特位映射关系确定。
本实施例中,判断待处理数据中包括的待处理实体类别是否为已存在的实体类别,具体的,将待处理数据中包括的待处理实体类别和预先存储的各个实体类别进行比对,判断预先存储的各个实体类别中是否存在与待处理数据中包括的待处理实体类别相匹配的实体类别,若存在,则确定出待处理数据中包括的待处理实体类别为已存在的实体类别,若不存在,则确定出待处理数据中包括的待处理实体类别不为已存在的实体类别。
S103、为待处理实体类别配置标签数量,并存储该待处理实体类别和标签数量。
本实施例中,基于预设配置规则,确定待配置至待处理实体类别的标签数量,并为待处理实体类别配置该标签数量,其中,预设配置规则可以是基于业务经验设定的规则,也可以是基于对大数据分配平台发送的数据进行清洗、筛选、统计得到的结果所设定的规则。
需要说明的是,为待处理实体类别配置标签数量,即限定了该待处理实体类别下的每个实体成员最多与该标签数量的标签关联,以及限定了该待处理实体类别下每个实体成员待构建标签比特位序列的初始大小,例如,为待处理实体类别配置的标签数量为8,则该实体类别下的每个实体成员最多与8个标签关联,以及该实体类别下的每个实体成员待构建的标签比特位序列的初始大小为1Byte(字节)。
本实施例中,存储该待处理实体类别和标签数量,可选的,可以在列式存储中存储该待处理实体类别和标签数量。
S104、判断预先存储的各个标签比特位序列和实体比特位序列中是否存在与该待处理实体类别对应的标签比特位序列和实体比特位序列,若是,执行S105,若否,执行S106。
S105、对待处理数据中包括的实体成员的标签数据进行解析,得到待变更实体成员的成员标识信息、待变更标签的标签标识信息、以及指示待变更实体成员是否具有待变更标签的指示信息。
本实施例中,若预先存储的各个标签比特位序列和实体比特位序列中存在与待处理实体类别对应的标签比特位序列和实体比特位序列,说明需要对对应的标签比特位序列和实体比特位序列进行更新,具体的,先对待处理数据中包括的实体成员的标签数据进行解析,得到待变更实体成员的成员标识信息、待变更标签的标签标识信息、以及指示待变更实体成员是否具有待变更标签的指示信息;其中,成员标识信息包括但不限于实体成员ID,标签标识信息包括但不限于标签ID。
S106、基于待处理数据中包括实体成员的标签数据,构建待处理实体类别包括的每个实体成员的标签比特位序列、以及待处理实体类别包括的每个标签的实体比特位序列。
本实施例中,若预先存储的各个标签比特位序列和实体比特位序列中不存在与待处理实体类别对应的标签比特位序列和实体比特位序列,说明需要构建标签比特位序列和实体比特位序列,具体的,基于待处理数据中包括实体成员的标签数据,构建待处理实体类别包括的每个实体成员的标签比特位序列、以及待处理实体类别包括的每个标签的实体比特位序列。其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签。
参阅图2,基于待处理数据中包括实体成员的标签数据,构建待处理实体类别包括的每个实体成员的标签比特位序列、以及待处理实体类别包括的每个标签的实体比特位序列的过程,具体包括:
S201、基于待处理数据中包括实体成员的标签数据,按预设的映射策略,构建待处理实体类别的标签比特位映射关系和实体比特位映射关系。
本实施例中,若预先存储的各个标签比特位序列和实体比特位序列中不存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列,说明需要构建该待处理实体类别对应的标签比特位序列和实体比特位序列。具体的,先基于待处理数据中包括实体成员的标签数据,按预设的映射策略,构建待处理实体类别下各个标签的比特位映射关系、以及构建待处理实体类别下各个实体成员的比特位映射关系,也就是构建待处理实体类别的标签比特位映射关系和实体比特位映射关系。也就是定义实体类别的各个标签与待构建的标签比特位序列中的各个比特位之间的关系,以及定义实体类别的各个实体成员与待构建的实体比特位序列中的各个比特位之间的关系。其中,标签比特位映射关系用于表征待处理实体类别的各个标签与待构建的标签比特位序列中的各个比特位之间的映射关系,实体比特位映射关系用于表征待处理实体类别的各个实体成员与待构建的实体比特位序列中的各个比特位之间的映射关系。
可选的,还可以将所构建的标签比特位序列和实体比特位序列进行存储。
参阅图3,基于待处理数据中包括实体成员的标签数据,按预设的映射策略,构建待处理实体类别的标签比特位映射关系和实体比特位映射关系的过程,具体包括以下步骤:
S301、对待处理数据中包括的实体成员的标签数据进行解析,得到待处理实体类别包括的各个实体成员、以及每个实体成员具有的标签。
S302、获取预先配置的待处理实体类别的标签数量。
S303、基于标签数量、待处理实体类别包括的各个实体成员、以及每个实体成员的具有的标签,按预设的映射策略,构建待处理实体类别的标签比特位映射关系和实体比特位映射关系。
本实施例中,对待处理数据中包括的实体成员的标签数据进行解析,得到待处理实体类别包括的各个实体成员,以及每个实体成员具有的标签,也就是得到实体类别包括的各个实体成员的成员标识信息、以及每个实体成员具有的标签的标签标识信息,获取预先配置的该待处理实体类别的标签数量,从而基于标签数量、待处理实体类别包括的各个实体成员、以及每个实体成员具有的标签,按预设的映射策略,构建待处理实体类别的标签比特位映射关系和实体比特位映射关系,可选的,预设的映射策略可以是按标签标识信息从小到大的顺序,依次将标签比特位序列中的各个比特位映射为对应的标签,以及按实体成员标签信息从小到大的顺序,依次将实体比特位序列中的各个比特位映射为对应的实体成员,例如,标签a的标签标识信息为1,标签b的标签标识信息为2,标签c的标签标识信息为3,则将待构建的标签比特位序列中的第一个比特位映射为标签a,将待构建的标签比特位序列中的第二个比特位映射为标签b,将待构建的标签比特位序列中的第三个比特位映射为标签c。例如,实体成员a的成员标识信息为1,实体成员b的成员标识信息为2,实体成员c的成员标识信息为3,则将待构建的实体比特位序列中的第一个比特位映射为实体成员a,将待构建的实体比特位序列中的第二个比特位映射为实体成员b,将待构建的实体比特位序列中的第三个比特位映射为实体成员c。
S202、基于标签比特位映射关系,构建待处理实体类别包括的每个实体成员的标签比特位序列,并基于实体比特位映射关系,构建待处理实体类别包括的每个标签的实体比特位序列。
本实施例中,基于标签比特位映射关系,构建待处理实体类别对应的每个实体成员的标签比特位序列,具体的,针对每一个实体成员,基于标签比特位映射关系,确定每个标签在待构建的标签比特位序列中的位置,基于该实体成员具有的标签,确定待构建的标签比特位序列中每一个比特位的值,从而基于每个标签在待构建的标签比特位序列中的位置、以及所确定的待构建的标签比特位序列中每一个比特位的值,构建该实体成员对应的标签比特位序列。
本实施例中,基于实体比特位映射关系,构建待处理实体类别对应的每个标签的实体比特位序列,具体的,针对每一个标签,基于实体比特位映射关系,确定每个实体成员在待构建的实体比特位序列中的位置,基于每一个实体成员具有的标签,确定待构建的实体比特位序列中的每一个比特位的值,从而基于每个实体成员在待构建的实体比特位序列中的位置、以及所确定的待构建的实体比特位序列中的每一个比特位的值,构建该标签对应的实体比特位序列。
需要说明的是,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签。
S107、存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列。
本实施例中,将所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列进行存储。
本实施例中,可选的,针对该待处理实体类别,还可以通过列式存储的方式存储该待处理实体类别下每个实体成员具有的各个标签的标签标识信息,也就是每一列用于存储一个实体成员的各个标签标识信息,每一个实体成员所在的列中的每一行用于存储标签标识信息。可选的,还可以通过列式存储的方式存储该待处理实体类别下具有同一标签的实体成员的成员标识信息,每一个标签所在的列中的每一行用于存储具有该标签的实体成员的成员标识信息。
可选的,为实现对数据的进一步压缩,本申请还可以利用压缩算法,对各个标签比特位序列和实体比特位序列进行压缩存储。
S108、基于成员标识信息和标签标识信息,从预先存储的实体类别对应的标签比特位序列和实体比特位序列中,确定待变更标签比特位序列、待变更实体比特位序列、以及待变更比特位序列中的待变更比特位和待变更实体比特位序列中的待变更比特位。
本实施例中,基于成员标识信息,从预先存储的待处理实体类别对应的标签比特位序列中,查找与该成员标识信息对应的实体成员,将与该成员标识信息对应的实体成员所对应的标签比特位序列确定为待变更标签比特位序列,并基于标签标识信息和预先存储的该待处理实体类别对应的标签比特位映射关系,确定的待变更标签比特位序列中与该标签标识对应的比特位,将待变更标签比特位序列中与该标签标识对应的比特位确定为待变更标签比特位序列中的待变更比特位。
本实施例中,基于标签标识信息,从预先存储的待处理实体类别对应的实体比特位序列中,查找与该标签标识信息对应的标签,将与该标签标识信息对应的标签所对应的实体比特位序列确定为待变更实体比特位序列,并基于成员标识信息和预先存储的该待处理实体类别对应的实体比特位映射关系,确定的待变更实体比特位序列中与该成员标识对应的比特位,将待变更实体比特位序列中与该成员标识对应的比特位确定为待变更实体比特位序列中的待变更比特位。
S109、基于指示信息,对待变更标签比特位序列中的待变更比特位的值和待变更实体比特位序列中的待变更比特位的值进行变更。
本实施例中,基于指示信息,对待变更标签比特位序列中待变更比特位的值和待变更实体比特位序列中的待变更比特位的值进行变更,具体的,若指示信息指示待变更实体成员具有待变更标签的指示信息,则将待变更标签比特位序列中待变更比特位的值变更为1,将待变更实体比特位序列中的待变更比特位的值变更为1;若指示信息指示待变更实体成员不具有待变更标签的指示信息,则将待变更标签比特位序列中待变更比特位的值更为0,将待变更实体比特位序列中的待变更比特位的值变更为0。
可选的,在基于指示信息,对待变更标签比特位序列中的待变更比特位的值和待变更实体比特位序列中的待变更比特位的值进行变更之后,还可以包括:对列式存储中的待变更实体成员对应的列进行数据的增加或删除、以及对列式存储中的待变更标签对应的列进行数据的增加或删除,也就是当指示信息指示待变更实体成员具有待变更标签时,在列式存储中的待变更实体成员对应的列中增加一行用于存储待变更标签的标签标识信息、以及在列式存储的待变更标签所在的列中增加一行用于存储待变更实体成员的成员标识信息;当指示信息指示待变更实体成员不具有待变更标签时,删除列式存储中待变更实体成员对应的列中待变更标签的标签标识信息所在的行、以及对列式存储中待变更标识对应的列中待变更实体成员的成员标识信息所在的行。
需要说明的是,不同实体类别包括的标签可以是完全相同、完全不不同、或部分相同。
需要说明的是,对于不同实体类别下的标签比特位序列,可能存在标签比特位序列中比特位次序一样的情况,例如,实体类别A的标签比特位序列为[10101],实体类别B的标签比特位同样为[10101],但是标签比特位序列所表达的业务语义可以是不同的,也就是标签比特位映射关系可以是不同的。
本申请实施例提供的数据处理方法中,基于实体成员的标签数据所具有的特点,构建待处理实体类别下的标签的比特位映射关系和实体成员的比特位映射关系,也就是构建待处理实体类别的标签比特位映射关系和实体比特位映射关系,从而基于标签比特位映射关系和实体比特位映射关系,将实体成员所具有的标签用标签比特位序列表示,将具有相同标签的实体成员用实体比特位序列方式表示,实现对数据的压缩,从而减小存储所占用的内存,降低对设备性能的影响。
参阅图4,上述提及的数据处理方法,还可以包括以下步骤:
S401、获取预先存储的在预设时间段内发生变更的比特位映射关系。
本实施中,获取预先存储的在预设时间段内发生变更的比特位映射关系,其中,比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系,
需要说明的是,预设时间段为人为设定的时间周期,可以根据需求进行调整。
S402、将在预设时间段内发生变更的比特位映射关系发送至客户端,以便于客户端基于比特位映射关系,对自身预先存储的比特位映射关系进行更新。
本实施例中,存储系统将在预设时间段内发生变更的比特位映射关系发送至客户端,具体的,将在预设时间段内发送变更的标签比特位映射关系和/或实体比特位映射关系发送至客户端的SDK(Software Development Kit,软件开发工具包)。
客户端的SDK基于比特位映射关系,对自身预先存储的标签比特位映射关系和实体比特位映射关系进行更新。具体的,查找到预先存储的与在预设时间段内发送变更的比特位映射关系对应的比特位映射关系,基于所查找到的预先存储的与在预设时间内发送变更的比特位映射关系对应的比特位映射关系,替换为存储系统发送的在预设时间段内发送变更的比特位映射关系。
本申请实施例提供的数据处理方法中,获取预先存储的在预设时间段生变更的比特位映射关系,并将比特位映射关系发送至客户端,以便于客户端基于比特位映射关系,对自身预先存储的比特位映射关系进行更新,从而实现存储系统与客户端中比特位映射关系的同步。
参阅图5,上述提及的数据处理方法,还可以包括以下步骤:
S501、响应于客户端发送的数据查询请求,获取预先存储的与数据查询请求对应的比特位序列。
本实施例中,客户端通过SDK,向存储系统发送数据查询请求,可选的,数据查询请求中包括请求类型、请求实体类别和序列标识,其中,请求类型用于指示请求查询的是实体成员的标签比特位序列,还是标签的实体比特位序列、还是实体成员的标签比特位序列和标签的实体比特位序列;序列标识包括实体成员的成员标识信息、或标签的标签标识信息。
本实施例中,基于数据查询请求包括的请求类型、请求实体类别和序列标识,获取预先存储的与数据查询请求对应的比特位序列,其中,比特位序列包括标签比特位序列和/或实体比特位序列。
参阅图6,获取预先存储的与数据查询请求对应的比特位序列的过程,具体包括以下步骤:
S601、基于数据查询请求中包括的请求类型,查找预先存储的与请求类型对应的比特位序列。
本实施例中,基于数据查询请求中包括的请求类型,查找预先存储的与请求类型对应的比特位序列,其中,若数据查询请求中包括的请求类型指示请求查询实体成员的标签比特位序列,则查找预先存储的所有标签比特位序列,若数据查询请求中包括的请求类型指示查询标签的实体比特位序列,则获取预先存储的所有实体比特位序列,若数据查询请求中包括的请求类型指示请求查询实体成员的标签比特位序列和标签的实体比特为序列,则查找预先存储的所有的标签比特位序列和实体比特位序列。
S602、基于数据查询请求中包括的请求实体类别,从与请求类型对应的比特位序列中查找与请求实体类别对应的比特位序列。
本实施例中,确定与请求类型对应的比特位序列所属的实体类别,将与请求类型对应的比特位序列所属的实体类别与数据查询请求中包括的请求实体类别进行比对,将比对一致的实体类别所包括的比特位序列确定为请求实体类别对应的比特位序列。
S603、基于数据查询请求中包括的序列标识,从与请求实体类别对应的比特位序列中查找与序列标识对应的比特位序列。
本实施例中,确定与请求实体类别对应的比特位序列所属的序列标识,将与请求实体类别对应的比特位序列所属的序列标识与数据查询请求中包括的序列标识进行比对,确定比对一致的序列标识所包括的比特位序列,比对一致的序列标识所包括的比特位序列即为所查找的与序列标识对应的比特位序列。
S604、将与序列标识对应的比特位序列确定为与数据查询请求对应的比特位序列。
本实施例中,将与序列标识对应的比特位序列确定为与数据查询请求对应的比特位序列。
S502、判断预先存储的各个比特位映射关系在目标时间段内是否发生变更,若是,执行S503,若否,执行S504。
在查找到与数据查询请求对应的比特位序列后,判断预先存储的各个比特位映射关系在目标时间段内是否发生变更,其中,目标时间段的开始时间为客户端上一次发送数据查询请求的请求时间,或最近一次向客户端反馈比特位映射关系的反馈时间,目标时间段的结束时间为当前时间。
本实施例中,通过判断预先存储的各个比特位映射关系在目标时间段内是否发生变更,以确定在存储系统与客户端是否已经同步了所有的比特位映射关系。
具体的,判断预先存储的各个比特位映射关系在目标时间段内是否发生变更的过程,包括以下步骤:获取预先存储的各个比特位映射关系的变更时间;针对每个比特位映射关系,判断比特位映射关系的变更时间是否在所述目标时间段内,若所述变更时间在目标时间段内,则确定出比特位映射关系在目标时间段内发生变更,若变更时间不在目标时间段内,则确定出比特位映射关系在目标时间段内未发生变更。
S503、将发生变更的比特位映射关系和与数据查询请求对应的比特位序列发送至客户端。
本实施例中,若存在任意一个比特位映射关系在目标时间段内发生变更,则将获取发生变更的比特位映射关系,并将发生变更的比特位映射关系和与数据查询请求对应的比特位序列发送至客户端,具体的,将发生变更的比特位映射关系和与数据查询请求对应的比特位序列发送至客户端的SDK。
客户端的SDK基于发生变更的比特位映射关系,对预先存储的比特位映射关系进行变更,从而基于变更后的比特位映射关系中,查找与数据查询请求对应的比特位序列对应的变更后的比特位映射关系,基于所查找到的变更后的比特位映射关系,对与数据查询请求对应的比特位序列进行解析,从而解析得到实体成员具有的各个标签,或者具有同一标签的各个实体成员。
可选的,客户端的SDK还可以将解析得到实体成员具有的各个标签,或者具有同一标签的各个实体成员进行展示。
S504、将与数据查询请求对应的比特位序列发送至客户端。
本实施例中,若所有的比特位映射关系在目标时间段内均为发生变更,则直接将与数据查询请求对应的比特位序列发送至客户端,也就是发送至客户端的SDK。
客户端的SDK,基从预先存储的比特位映射关系中查找与数据查询请求对应的比特位序列对应的比特位映射关系,基于查找到的比特位映射关系,对与数据查询请求对应的比特位序列进行解析,从而解析得到实体成员具有的各个标签,或者具有同一标签的各个实体成员。
本申请实施例提供的数据处理方法中,通过数据查询请求中包括的请求类型、请求实体类别和序列标识,从预先存储的比特位序列中查找与数据查询请求对应的比特位序列,由于只需通过请求类型、请求实体类别和序列标识即可查找到对应的比特位序列,从而提高了数据查询的效率。
参阅图7,本申请实施例还提供了一种数据处理系统,具体包括:
大数据分析平台701、消息队列702、内存系统703和客户端704。
大数据分析平台701,用于通过消息队列702将待处理数据发送至内存系统703。
内存系统703,用于执行上文任一实施例公开的数据处理方法。其中,内存系统包括:接口服务模块7031、内存缓存管理模块7032、元数据管理模块7033、同步模块7034、关系型数据库7035和列式存储7036,接口服务器模块用于接收发送至内存系统的数据,以及将数据发送至客户端;内存缓存管理模块用于存储每个实体类别下每一个实体成员的标签比特位序列、以及存储每个实体类别下每一个标签的实体比特位序列;关系型数据库用于存储实体类别的标签比特位映射关系和实体比特位映射关系,元数据管理模块用于将实体类别的标签比特位映射关系和实体比特位映射关系存储至关系型数据库,或从关系型数据库中或实体类别的标签比特位映射关系和实体比特位映射关系;列式存储用于存储每个实体类别下每个实体成员所具有的各个标签的标签标识信息、以及每个实体类别下每个标签的各个实体成员的成员标签信息,同步模块用于对列式存储所存储的数据进行更新。
客户端704,用于基于比特位映射关系,对内存系统反馈的比特位序列进行解析,从而解析得到实体成员具有的各个标签,或者具有同一标签的各个实体成员。其中,客户端包括SDK。
本申请实施例提供的数据处理系统中,基于实体成员的标签数据所具有的特点,构建待处理实体类别下的标签的比特位映射关系和实体成员的比特位映射关系,也就是构建待处理实体类别的标签比特位映射关系和实体比特位映射关系,从而基于标签比特位映射关系和实体比特位映射关系,将实体成员所具有的标签用标签比特位序列表示,将具有相同标签的实体成员用实体比特位序列方式表示,实现对数据的压缩,从而减小存储所占用的内存,降低对设备性能的影响;并且通过数据查询请求中包括的请求类型、请求实体类别和序列标识,从预先存储的比特位序列中查找与数据查询请求对应的比特位序列,由于只需通过请求类型、请求实体类别和序列标识即可查找到对应的比特位序列,从而提高了数据查询的效率。
对上述提及的数据处理方法进行举例说明如下:
在数据推荐的业务场景中,推荐算法人员在大数据分析平台通过推荐算法的执行获得了对10,000,000条视频数据的1,000个标签分类。
算法人员可将1000个标签预录入到内存系统中,平均每个标签使用4个字符(4*2Bytes(字节))来描述,即标签的描述信息(例如:80后、男性、电视剧、综艺等字符串)需要8KB左右空间;
再之,将执行推荐算法得到的结果通过消息队列导入到内存系统,每条视频数据用8Bytes的长整型数的id表示,从而构造一千万个125Bytes大小的标签比特位序列。大约占用内存1.25GB;
更进一步地,可以利用LRU等算法仅保留最近访问到的一万个数据,可以将所占内存进一步压缩,即10000*(8+125)B约等于1.33MB的数据,可选的,非热点数据则保存到列式存储或顺序写入磁盘当中;
对比将直接通过消息队列,将数据存入一般关系型数据库中,则需要构造有一千万条视频数据的表,对于长整型数的id,假设每个视频数据平均关联有10个标签,表中需一个BIGINT类型的id列(8Bytes)与一个VARCHAR(可变长字符串)类型的标签列(10*4*2Bytes),所需硬盘空间大约880MB。因此此关系型数据库访问性能远低于本申请的内存系统的访问性能。
再进一步地,将该结果表通过消息队列系统存入内存缓存系统中,则需要构造有一千万个键值对。以缓存系统Redis的SDS(simple dynamic string,简单动态字符串)结构为例。对于长整型数的id键,考虑平均需要32Bytes+8Bytes来表示;同样,假设每个视频数据平均关联有10个标签,而10个4字符的标签值,需要(10*4*2)Bytes+8Bytes来表示。一千万个此类键值对,总量大约1.28GB,因此,同样需要消耗大量的内存,访问性能远低于本申请的内存系统的访问性能。
需要说明的是,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。
应当理解,本申请公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本申请公开的范围在此方面不受限制。
与图1所述的方法相对应,本申请实施例还提供了一种数据处理装置,用于对图1中方法的具体实现,其结构示意图如图8示,具体包括:
第一获取单元801,用于获取大数据分析平台发送的待处理数据;所述待处理数据中包括待处理实体类别,或待处理实体类别和实体成员的标签数据;
第一判断单元802,用于判断所述待处理数据中包括的待处理实体类别是否为已存在的实体类别;
第一构建单元803,用于若所述待处理数据中包括的待处理实体类别为已存在的实体类别,则当预先存储的各个标签比特位序列和实体比特位序列中不存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列;其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签;
第一存储单元805,用于存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列。
本申请实施例提供的数据处理装置中,基于实体成员的标签数据所具有的特点,构建待处理实体类别下的标签的比特位映射关系和实体成员的比特位映射关系,也就是构建待处理实体类别的标签比特位映射关系和实体比特位映射关系,从而基于标签比特位映射关系和实体比特位映射关系,将实体成员所具有的标签用标签比特位序列表示,将具有相同标签的实体成员用实体比特位序列方式表示,实现对数据的压缩,从而减小存储所占用的内存,降低对设备性能的影响。
在本申请的一个实施例中,基于前述方案,还可以配置为:
分配单元,用于若所述待处理数据中包括的待处理实体类别不为已存在的实体类别,为所述待处理实体类别配置标签数量;
第二存储单元,用于存储所述待处理实体类别和所述标签数量。
在本申请的一个实施例中,基于前述方案,还可以配置为:
解析单元,用于则当预先存储的各个标签比特位序列和实体比特位序列中存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,对所述待处理数据中包括的实体成员的标签数据进行解析,得到待变更实体成员的成员标识信息、待变更标签的标签标识信息、以及指示所述待变更实体成员是否具有所述待变更标签的指示信息;
确定单元,用于基于所述成员标识信息和所述标签标识信息,从预先存储的所述待处理实体类别对应的标签比特位序列和实体比特位序列中,确定待变更标签比特位序列、待变更实体比特位序列、以及所述待变更比特位序列中的待变更比特位和所述待变更实体比特位序列中的待变更比特位;
变更单元,用于基于所述指示信息,对所述待变更标签比特位序列中的待变更比特位的值和所述待变更实体比特位序列中的待变更比特位的值进行变更。
在本申请的一个实施例中,基于前述方案,第一构建单元803具体用于:
基于所述待处理数据中包括实体成员的标签数据,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系;其中,所述标签比特位映射关系用于表征所述待处理实体类别的各个标签与待构建的标签比特位序列中的各个比特位之间的映射关系,所述实体比特位映射关系用于表征所述待处理实体类别的各个实体成员与待构建的实体比特位序列中的各个比特位之间的映射关系;
基于所述标签比特位映射关系,构建所述待处理实体类别包括的每个实体成员的标签比特位序列,并基于所述实体比特位映射关系,构建所述待处理实体类别包括的每个标签的实体比特位序列。
在本申请的一个实施例中,基于前述方案,第一构建单元803在基于所述待处理数据中包括实体成员的标签数据,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系时,具体用于:
对所述待处理数据中包括的实体成员的标签数据进行解析,得到所述待处理实体类别包括的各个实体成员、以及每个实体成员具有的标签;
获取预先配置的所述待处理实体类别的标签数量;
基于所述标签数量、所述待处理实体类别包括的各个实体成员、以及每个实体成员的具有的标签,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系。
在本申请的一个实施例中,基于前述方案,还可以配置为:
第二获取单元,用于获取预先存储的在预设时间段内发生变更的比特位映射关系;所述比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系;
第一发送单元,用于将在所述预设时间段内发生变更的比特位映射关系发送至所述客户端,以便于所述客户端基于所述比特位映射关系,对自身预先存储的比特位映射关系进行更新。
在本申请的一个实施例中,基于前述方案,还可以配置为:
第三获取单元,用于响应于客户端发送的数据查询请求,获取预先存储的与所述数据查询请求对应的比特位序列;所述比特位序列包括标签比特位序列和/或实体比特位序列;
第二判断单元,用于判断预先存储的各个比特位映射关系在目标时间段内是否发生变更;所述比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系;所述目标时间段的开始时间为客户端上一次发送数据查询请求的请求时间,或最近一次向所述客户端反馈比特位映射关系的反馈时间,所述目标时间段的结束时间为当前时间;
第二发送单元,用于若存在比特位映射关系在目标时间段内发生变更,则将发生变更的比特位映射关系和与所述数据查询请求对应的比特位序列发送至所述客户端;
第三发送单元,用于若各个比特位映射关系在目标时间段内均未发生变更,则将与所述数据查询请求对应的比特位序列发送至所述客户端。
在本申请的一个实施例中,基于前述方案,第三获取单元具体用于:
基于所述数据查询请求中包括的请求类型,查找预先存储的与所述请求类型对应的比特位序列;
基于所述数据查询请求中包括的请求实体类别,从与所述请求类型对应的比特位序列中查找与所述请求实体类别对应的比特位序列;
基于所述数据查询请求中包括的序列标识,从与所述请求实体类别对应的比特位序列中查找与所述序列标识对应的比特位序列;所述序列标识包括实体成员的成员标识信息和/或标签的标签标识信息;
将与所述序列标识对应的比特位序列确定为与所述数据查询请求对应的比特位序列。
在本申请的一个实施例中,基于前述方案,第二判断单元具体用于:
获取预先存储的各个比特位映射关系的变更时间;
针对每个所述比特位映射关系,判断所述比特位映射关系的变更时间是否在所述目标时间段内,若所述变更时间在所述目标时间段内,则确定出比特位映射关系在所述目标时间段内发生变更,若所述变更时间不在所述目标时间段内,则确定出比特位映射关系在所述目标时间段内未发生变更。
本申请实施例还提供了一种存储介质,所述存储介质存储有指令集,其中,在所述指令集运行时执行如上文任一实施例公开的数据处理方法。
本申请实施例还提供了一种电子设备,其结构示意图如图9所示,具体包括存储器901,用于存储至少一组指令集;处理器902,用于执行所述存储器中存储的指令集,通过执行所述指令集实现如上文任一实施例公开的数据处理方法。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本申请公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
以上描述仅为本申请公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种数据处理方法,其特征在于,包括:
获取大数据分析平台发送的待处理数据;所述待处理数据中包括待处理实体类别,或待处理实体类别和实体成员的标签数据;
判断所述待处理数据中包括的待处理实体类别是否为已存在的实体类别;
若所述待处理数据中包括的待处理实体类别为已存在的实体类别,则当预先存储的各个标签比特位序列和实体比特位序列中不存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列;其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签;
存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述待处理数据中包括的待处理实体类别不为已存在的实体类别,为所述待处理实体类别配置标签数量;
存储所述待处理实体类别和所述标签数量。
3.根据权利要求1所述的方法,其特征在于,还包括:
则当预先存储的各个标签比特位序列和实体比特位序列中存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,对所述待处理数据中包括的实体成员的标签数据进行解析,得到待变更实体成员的成员标识信息、待变更标签的标签标识信息、以及指示所述待变更实体成员是否具有所述待变更标签的指示信息;
基于所述成员标识信息和所述标签标识信息,从预先存储的所述待处理实体类别对应的标签比特位序列和实体比特位序列中,确定待变更标签比特位序列、待变更实体比特位序列、以及所述待变更比特位序列中的待变更比特位和所述待变更实体比特位序列中的待变更比特位;
基于所述指示信息,对所述待变更标签比特位序列中的待变更比特位的值和所述待变更实体比特位序列中的待变更比特位的值进行变更。
4.根据权利要求1所述的方法,其特征在于,所述基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列,包括:
基于所述待处理数据中包括实体成员的标签数据,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系;其中,所述标签比特位映射关系用于表征所述待处理实体类别的各个标签与待构建的标签比特位序列中的各个比特位之间的映射关系,所述实体比特位映射关系用于表征所述待处理实体类别的各个实体成员与待构建的实体比特位序列中的各个比特位之间的映射关系;
基于所述标签比特位映射关系,构建所述待处理实体类别包括的每个实体成员的标签比特位序列,并基于所述实体比特位映射关系,构建所述待处理实体类别包括的每个标签的实体比特位序列。
5.根据权利要求4所述的方法,其特征在于,所述基于所述待处理数据中包括实体成员的标签数据,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系,包括:
对所述待处理数据中包括的实体成员的标签数据进行解析,得到所述待处理实体类别包括的各个实体成员、以及每个实体成员具有的标签;
获取预先配置的所述待处理实体类别的标签数量;
基于所述标签数量、所述待处理实体类别包括的各个实体成员、以及每个实体成员的具有的标签,按预设的映射策略,构建所述待处理实体类别的标签比特位映射关系和实体比特位映射关系。
6.权利要求1所述的方法,其特征在于,还包括:
获取预先存储的在预设时间段内发生变更的比特位映射关系;所述比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系;
将在预设时间段内发生变更的比特位映射关系发送至所述客户端,以便于所述客户端基于所述比特位映射关系,对自身预先存储的比特位映射关系进行更新。
7.根据权利要求1所述的方法,其特征在于,还包括:
响应于客户端发送的数据查询请求,获取预先存储的与所述数据查询请求对应的比特位序列;所述比特位序列包括标签比特位序列和/或实体比特位序列;
判断预先存储的各个比特位映射关系在目标时间段内是否发生变更;所述比特位映射关系包括标签比特位映射关系和/或实体比特位映射关系;所述目标时间段的开始时间为客户端上一次发送数据查询请求的请求时间,或最近一次向所述客户端反馈比特位映射关系的反馈时间,所述目标时间段的结束时间为当前时间;
若存在比特位映射关系在目标时间段内发生变更,则将发生变更的比特位映射关系和与所述数据查询请求对应的比特位序列发送至所述客户端;
若各个比特位映射关系在目标时间段内均未发生变更,则将与所述数据查询请求对应的比特位序列发送至所述客户端。
8.根据权利要求7所述的方法,其特征在于,所述获取预先存储的与所述数据查询请求对应的比特位序列,包括:
基于所述数据查询请求中包括的请求类型,查找预先存储的与所述请求类型对应的比特位序列;
基于所述数据查询请求中包括的请求实体类别,从与所述请求类型对应的比特位序列中查找与所述请求实体类别对应的比特位序列;
基于所述数据查询请求中包括的序列标识,从与所述请求实体类别对应的比特位序列中查找与所述序列标识对应的比特位序列;所述序列标识包括实体成员的成员标识信息和/或标签的标签标识信息;
将与所述序列标识对应的比特位序列确定为与所述数据查询请求对应的比特位序列。
9.根据权利要求7所述的方法,其特征在于,所述判断预先存储的各个比特位映射关系在目标时间段内是否发生变更,包括:
获取预先存储的各个比特位映射关系的变更时间;
针对每个所述比特位映射关系,判断所述比特位映射关系的变更时间是否在所述目标时间段内,若所述变更时间在所述目标时间段内,则确定出比特位映射关系在所述目标时间段内发生变更,若所述变更时间不在所述目标时间段内,则确定出比特位映射关系在所述目标时间段内未发生变更。
10.一种数据处理装置,其特征在于,包括:
第一获取单元,用于获取大数据分析平台发送的待处理数据;所述待处理数据中包括待处理实体类别,或待处理实体类别和实体成员的标签数据;
第一判断单元,用于判断所述待处理数据中包括的待处理实体类别是否为已存在的实体类别;
第一构建单元,用于若所述待处理数据中包括的待处理实体类别为已存在的实体类别,则当预先存储的各个标签比特位序列和实体比特位序列中不存在与所述待处理实体类别对应的标签比特位序列和实体比特位序列时,基于所述待处理数据中包括实体成员的标签数据,构建所述待处理实体类别包括的每个实体成员的标签比特位序列、以及所述待处理实体类别包括的每个标签的实体比特位序列;其中,每个实体成员的标签比特位序列中的每个比特位的值用于表征该实体成员是否具有该比特位对应标签,每个标签的实体比特位序列中的每个比特位的值用于表征该比特位对应的实体成员是否具备该标签;
第一存储单元,用于存储所构建的每个实体成员的标签比特位序列、以及每个标签的实体比特位序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961375.4A CN113641769B (zh) | 2021-08-20 | 2021-08-20 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110961375.4A CN113641769B (zh) | 2021-08-20 | 2021-08-20 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641769A true CN113641769A (zh) | 2021-11-12 |
CN113641769B CN113641769B (zh) | 2024-02-20 |
Family
ID=78423071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110961375.4A Active CN113641769B (zh) | 2021-08-20 | 2021-08-20 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641769B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643761A (zh) * | 2021-10-13 | 2021-11-12 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012095973A1 (ja) * | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | データ処理装置及びデータ保管装置 |
CN108415978A (zh) * | 2018-02-09 | 2018-08-17 | 北京腾云天下科技有限公司 | 用户标签存储方法、用户画像计算方法及计算设备 |
CN110648185A (zh) * | 2019-11-28 | 2020-01-03 | 苏宁云计算有限公司 | 一种目标人群圈选方法、装置及计算机设备 |
CN110990473A (zh) * | 2019-11-28 | 2020-04-10 | 北京海益同展信息科技有限公司 | 标签数据处理系统和方法 |
CN112015775A (zh) * | 2020-09-27 | 2020-12-01 | 北京百度网讯科技有限公司 | 标签数据处理方法、装置、设备和存储介质 |
-
2021
- 2021-08-20 CN CN202110961375.4A patent/CN113641769B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012095973A1 (ja) * | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | データ処理装置及びデータ保管装置 |
CN108415978A (zh) * | 2018-02-09 | 2018-08-17 | 北京腾云天下科技有限公司 | 用户标签存储方法、用户画像计算方法及计算设备 |
CN110648185A (zh) * | 2019-11-28 | 2020-01-03 | 苏宁云计算有限公司 | 一种目标人群圈选方法、装置及计算机设备 |
CN110990473A (zh) * | 2019-11-28 | 2020-04-10 | 北京海益同展信息科技有限公司 | 标签数据处理系统和方法 |
CN112015775A (zh) * | 2020-09-27 | 2020-12-01 | 北京百度网讯科技有限公司 | 标签数据处理方法、装置、设备和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643761A (zh) * | 2021-10-13 | 2021-11-12 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
CN113643761B (zh) * | 2021-10-13 | 2022-01-18 | 苏州赛美科基因科技有限公司 | 一种用于解读二代测序结果所需数据的提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113641769B (zh) | 2024-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10691646B2 (en) | Split elimination in mapreduce systems | |
CN111400408B (zh) | 数据同步方法、装置、设备及存储介质 | |
JP6088506B2 (ja) | 範囲に基づく検索のためのデータ格納の管理 | |
US9639542B2 (en) | Dynamic mapping of extensible datasets to relational database schemas | |
US9298775B2 (en) | Changing the compression level of query plans | |
US11023452B2 (en) | Data dictionary with a reduced need for rebuilding | |
US9940360B2 (en) | Streaming optimized data processing | |
CN111258966A (zh) | 一种数据去重方法、装置、设备及存储介质 | |
US10685031B2 (en) | Dynamic hash partitioning for large-scale database management systems | |
US20180329974A1 (en) | Synopsis Based Advanced Partition Elimination | |
CN109739854A (zh) | 一种数据存储方法及装置 | |
CN107451280B (zh) | 数据打通方法、装置及电子设备 | |
CN113641769B (zh) | 一种数据处理方法及装置 | |
CN107844536B (zh) | 应用程序选择的方法、装置和系统 | |
CN113687825A (zh) | 一种软件模块的构建方法、装置、设备及存储介质 | |
US11620284B2 (en) | Backend data aggregation system and method | |
CN117312370A (zh) | 数据查询方法、系统及相关设备 | |
CN111831688A (zh) | 运维数据的管理方法和管理系统 | |
CN115481026A (zh) | 测试案例的生成方法、装置、计算机设备、存储介质 | |
US9268779B2 (en) | Methods, computer program products, and apparatuses for dispersing content items | |
CN114490720A (zh) | 查杀方法、装置、计算机设备和存储介质 | |
US12032578B1 (en) | Data compression, store, and search system | |
JP7293544B2 (ja) | 質問回答システムの更新処理方法及び装置 | |
US10860558B2 (en) | Techniques for managing index structures for database tables | |
CN111651475B (zh) | 信息生成方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |