CN115098029A - 数据处理方法及装置 - Google Patents
数据处理方法及装置 Download PDFInfo
- Publication number
- CN115098029A CN115098029A CN202210758030.3A CN202210758030A CN115098029A CN 115098029 A CN115098029 A CN 115098029A CN 202210758030 A CN202210758030 A CN 202210758030A CN 115098029 A CN115098029 A CN 115098029A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- event
- attribute information
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
- G06F16/24556—Aggregation; Duplicate elimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供数据处理方法及装置,其中所述数据处理方法包括:获取针对目标对象在预设历史时间区间内的用户行为明细数据;基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;基于目标数据压缩结构对目标聚合数据进行格式转换,获得目标对象的用户路径数据,通过这种对大量的用户行为明细数据的处理,以减少数据存储空间,针对压缩后的数据进行查询时,也能够提升查询效率,完成对用户行为数据的分析。
Description
技术领域
本申请涉及计算机技术领域,特别涉及数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着计算机技术的不断发展,用户对于数据的处理需求越来越多。为了便于相关技术人员可以了解到应用程序中用户的使用情况,可以对采集应用程序中用户行为的明细数据进行数据分析,即可对用户在应用程序中不同的行为数据进行路径分析,进而,根据路径分析结果完成人群圈选等数据分析的任务。但是,随着用户行为明细数据的数据量不断增加,不仅会占用较大的存储空间,也会影响数据分析的效率,影响用户体验。
因此,如何缩小数据存储空间,又能提升对用户行为数据的分析效率,成为本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的数据存储空间较大,影响数据分析效率。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
获取针对目标对象在预设历史时间区间内的用户行为明细数据;
基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;
按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;
基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
根据本申请实施例的第二方面,提供了一种数据处理装置,包括:
数据获取模块,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;
初始聚合模块,被配置为基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;
目标聚合模块,被配置为按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;
数据转换模块,被配置为基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。
本申请提供的数据处理方法,获取针对目标对象在预设历史时间区间内的用户行为明细数据;基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
本申请一实施例,通过对目标对象在预设历史时间区间内的用户行为明细数据进行聚合处理,并按照划分时间区间对聚合数据中的用户事件属性信息进行划分,以确定目标聚合数据,进而,对该目标聚合数据按照目标数据压缩结构进行格式转换,以确定目标对象的用户路径数据,通过这种对大量的用户行为明细数据的处理,以减少数据存储空间,进而,针对压缩后的数据进行查询时,也能够提升查询效率,完成对用户行为数据的分析。
附图说明
图1是本申请一实施例提供的一种数据处理方法应用于数据处理系统的系统结构示意图;
图2是本申请一实施例提供的一种数据处理方法的流程图;
图3是本申请一实施例提供的一种数据处理方法中标签用户路径图的展示界面示意图;
图4是本申请一实施例提供的一种应用于用户路径分析场景的数据处理方法的处理流程图;
图5是本申请一实施例提供的一种数据处理装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
流量漏斗、路径分析:分析给定期望的用户行为路径终点、途经点和最大事件时间间隔,统计出每条路径的用户数,并按照用户数对路径进行倒序排列。
漏斗:专门来分析某一些用户行为的,从它的起始行为一直分析到跳转到某些页面的行为,包括路径分析也是类似这种需求;漏斗也可以理解为路径分析,漏斗是针对某一位用户具有针对性的路径分析。
DWD:(DataWarehouse Detail,数据明细层),也称为ODS层,是业务层与数据仓库的隔离层。
DWB:(DataWarehouse Base,数据基础层),存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
DWS:(DataWarehouse Service,数据服务层),基于DWB上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。
hive:数据仓库工具,能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce(MapReduce是一个基于集群的高性能并行计算平台)任务来执行。
ClickHouse(列式存储数据库):全称是Click Stream DataWareHouse;用于在线分析处理查询(OLAP:OnlineAnalytical Processing)MPP架构的列式存储数据库(DBMS:Database Management System),能够使用SQL查询实时生成分析数据报告。
高阶函数:ClickHouse数据库自带的查询方法。
BitMap技术:可以理解为通过一个bit数组来存储特定数据的一种数据结构;由于bit是数据的最小单位,所以这种数据结构往往是非常节省存储空间。
RBM(Roaring Bitmap)数据结构:Roaring BitMaps(简称RBM)就是一种压缩算法。Bitmap是一种比较常用的数据结构,位图索引被广泛应用与数据库和搜索引擎中,能快速定位一个数值是否在存在,是一种高效的数据压缩算法,能显著加快查询速度。但是BitMap还是会占用大量内存(线性增长),所以一般还需要对BitMap进行压缩处理,减少内存占用并提高效率。
ClickHouse物化视图:物化视图是查询结果集的一份持久化存储,与普通视图完全不同,而非常趋近于表。ClickHouse的物化视图实现更像是触发器,若view中预先定义了聚合函数,那么(在不指定populate关键字的情况下)聚合函数仅适用于新插入的数据。对源表数据的更改都不会更改物化视图,是ClickHouse的独特功能之一。
字典映射:字典是唯一的内建的映射类型,可以使用任何不可变的对象作为字典的关键字(如字符串、数字、元组等)。
标签:全称是用户画像标签,用户标签是构成用户画像的核心因素,是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的形容词。
人群:即用户人群,用户人群是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的用户集群。
人群圈选:在标签画像的基础上,圈选出具有共同用户行为的一群人,便于后续的数据分析。
为了便于相关技术人员可以了解到应用程序中用户的使用情况,可以实时采集和记录用户在使用应用程序过程中产生的用户行为明细数据,进而便于后续对用户行为进行数据分析;在流量业务分析场景中,根据用户行为明细数据可以查看到所有用户在客户端或者网页上的路径流转信息,在业务日益增长的情况下,用户行为明细数据的数量也越来越大,进而,对用户漏斗、路径精细化分析诉求将逐渐增加。
目前,大多数的数据分析平台将会增加漏斗分析的功能,漏斗分析在业界常见解决此类场景是利用了ClickHouse数据库,该数据库可提供一种windowFunnel的函数来实现对明细数据的漏斗分析。而路径分析技术一般可分为两种,一种是对明细数据做简单的路径分析,另一种是复杂的路径分析,又叫做智能路径分析,可以通过ClickHouse数据库提供的高阶函数进行路径分析。虽然ClickHouse数据库的查询性能非常优越,高阶函数也可以提供分析支持到大部分漏斗、路径分析,但是目前的流量漏斗、路径分析都是基于明细数据进行的。因此,在应用程序中,将会产生下述痛点:(1)存储资源消耗大;每天千亿增量数据存储日增几十T的存储量;(2)分析查询比较慢;基于明细数据的分析查询智能到分钟级,使得数据查询较慢且用户体验较差;(3)功能较为单薄;仅支持单纯的漏斗、路径分析,不支持关联标签和人群,更不支持相关的转化分析功能。
基于此,本申请实施例提供的一种数据处理方法,是一种新的漏斗、路径分析,将通过离线方式的建模分层、用户路径粒度的预聚合、存储为RBM(数据压缩算法)物化视图等技术,将每天千亿数据压缩为几十亿,这样使得数据查询效率也从分钟级优化到了秒级,另外还能够支持关联标签和人群,便于后续提供各种转化查询分析。具体的,新的漏斗、路径分析通过建模分层来处理千亿明细数据,再通过维度裁剪利用用户标识进行聚合,同一个路径的用户标识汇总聚合到一起,再引入RBM数据类型存储聚合后的设备,最终落到hive表(数据库表)。将hive数据导入ClickHouse,这个阶段从表结构设计上,采用了ClickHouse的物化视图和RBM数据结构,大大缩小了存储。在查询上也做到了秒级查询,也实现了标签画像和人群圈选等功能。
在本申请中,提供了数据处理方法,本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本申请一实施例提供的数据处理方法应用于数据处理系统的系统结构示意图。
图1中为本申请实施例提供的数据处理方法所应用的数据处理系统100,其中,该数据处理系统100中包括数据仓库102以及数据库104,数据仓库102中包括数据明细层、数据基础层以及数据服务层。
需要说明的是,该数据仓库可以实现对应用程序或网页中的用户行为明细数据的采集,以及通过各个数据仓库中的分层结构,对用户行为明细数据分层处理,并将处理后的数据可存储至数据库;该数据库可对数据仓库输出的数据进行存储,并支持数据查询功能,同时,本实施例中对数据库的类型不作具体限定,包括但不限于ClickHouse数据库。
实际应用中,数据处理系统100可以理解为数据分析平台对应的服务器,并利用数据仓库102对应用程序中用户行为明细数据进行数据预处理,并将处理后的用户行为数据存储至数据库104中,以便于后续该数据处理系统100接收到数据查询请求时,可以直接在数据库104中实现快速地数据查询操作;具体实施时,该数据仓库102中的数据明细层可获取到应用程序在预设历史时间区间内的所有用户行为明细数据,并输入至数据仓库102的数据基础层,并利用数据基础层对用户行为明细数据进行聚合处理,再将聚合后的用户行为明细数据输入至数据服务层,完成对用户行为明细数据的用户路径数据的汇总,同时,还可对用户路径数据进行压缩处理,进而,可将压缩处理后的用户路径数据存储至数据库104中。
综上,本实施例提供的数据处理方法,通过对应用程序的用户行为明细数据进行聚合、汇总以及压缩处理,不仅能够实现减少用户行为数据的存储空间,也通过查询压缩后的存储数据提升数据查询效率。
图2示出了根据本申请一实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤202:获取针对目标对象在预设历史时间区间内的用户行为明细数据。
其中,目标对象可以理解为输出用户行为明细数据的对象,例如,应用软件、网页等等;预设历史时间区间可以理解为在历史段内预先设定的时间区间,例如,预设历史时间区间为2021年6月5日至6月6日;用户行为明细数据是指用户使用目标对象产生的所有用户行为数据,例如,用户在应用程序上的浏览页面的行为数据、点击页面链接的行为数据等等。
实际应用中,数据仓库中的DWD层可获取到预设历史时间区间2021年6月1日00:00至2021年6月1日24:00,这24小时内应用程序中的用户行为明细数据,该用户行为明细数据中包括用户1浏览购物页面的行为数据、用户2点击商品订单的行为数据等等。
通过数据仓库中的数据明细层,获取目标对象在预设历史时间区间内的用户行为明细数据,便于后续对预设历史时间区间内的用户行为明细数据做进一步的聚合处理。
步骤204:基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息。
其中,初始聚合数据可以理解为数据仓库中的数据基础层对数据明细层中的用户行为明细数据进行聚合处理后的聚合数据,包括用户属性信息和事件属性信息这两种聚合数据类型。
用户属性信息可以理解为与用户具有关联性的用户行为数据,包括用户标识数据、用户使用设备数据、用户设备所使用的系统类型数据以及用户设备型号数据等等,比如[用户1,设备1,系统1,机型2]、[用户2,设备2,系统1,机型1];事件属性信息可以理解为与用户在应用程序中所发生与事件关联的用户行为数据,包括用户在应用程序中所发生事件的事件标识数据以及事件所触发的时间数据等,比如[事件1,时间1]、[事件2,时间2];本申请实施例对用户属性信息以及事件属性信息所包含的具体属性字段并不做具体限制,但本实施例中以上述包括的数据内容为例进行方案说明。
实际应用中,由于大量的用户行为明细数据会占据较大的存储空间,因此数据仓库中的DWB层可对大量的用户行为明细数据进行聚合处理,以获得用户路径分析的轻度汇总表。具体的,可以用户行为明细数据中的用户标识为聚合粒度,对用户行为明细数据进行聚合处理,获得初始聚合数据并落地到hive表中,同时,该初始聚合数据中可包括两种类型的数据,即用户属性信息和事件属性信息。
需要说明的是,本申请实施例提供的数据处理方法,所述用户属性信息包括用户标识信息、用户设备信息、设备系统信息、设备型号信息的至少一项。
例如,用户标识信息可以为用户的ID号,001、002等;用户设备信息可以为手机设备、电脑设备、平板设备等;设备系统信息可以为IOS系统、Android系统等;设备型号信息可以为A型号、B型号等。
进一步地,基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,包括:
确定所述用户行为明细数据中与事件类型对应的初始事件属性信息;
裁剪所述初始事件属性信息,获得目标用户行为明细数据;
基于所述用户行为明细数据中的用户标识,对所述目标用户行为明细数据进行聚合处理,获得初始聚合数据。
其中,初始事件属性信息可以理解为用户行为明细数据中所有与事件类型对应的用户行为数据,包括用户的浏览事件标识、浏览事件时间、浏览事件执行次数、曝光事件标识、曝光事件时间、曝光事件执行次数等。
实际应用中,由于需要对用户行为数据进行路径分析,因此可对用户行为明细数据进行维度裁剪,进而能够减少与路径分析无关的用户明细数据,减少数据存储空间;具体的,先在用户行为明细数据中确定出与事件类型对应的初始事件属性信息,该初始事件属性信息则为与事件类型强相关的所有属性字段对应的明细数据,并对初始事件属性信息进行裁剪操作,以获得目标用户行为明细数据,进而,再以用户行为明细数据中的用户标识为聚合粒度,对目标用户行为明细数据进行聚合处理,获得初始聚合数据。
更进一步地,在对初始事件属性信息进行裁剪时,需要将用户行为明细数据中变化较为频繁的明细数据进行裁剪,因为在对用户路径分析中,变化较为频繁的明细数据对于用户行为不一定会具有代表性;具体的,裁剪所述初始事件属性信息,获得目标用户行为明细数据,包括:
在所述初始事件属性信息中确定事件属性信息和待裁剪属性信息;
保留所述用户行为明细数据中所述事件属性信息,裁剪所述用户行为明细数据中所述待裁剪属性信息,获得目标用户行为明细数据。
其中,待裁剪属性信息可以理解为与事件类型相关的用户行为明细数据中,除了事件标识信息和事件时间信息以外的,需要进行维度裁剪的属性字段对应的明细数据。
实际应用中,数据仓库的DWB层对用户行为明细数据进行裁剪,将用户行为明细数据中的事件属性信息按照用户标识粒度进行保留,并裁剪掉用户行为明细数据中待裁剪属性信息,以获得目标用户行为明细数据。
进一步地,在所述初始事件属性信息中确定事件属性信息和待裁剪属性信息,包括:
确定所述初始事件属性信息中的事件标识信息和事件时间信息,为事件属性信息;
确定所述初始事件属性信息中除所述事件标识信息和所述事件时间信息以外的其他事件属性信息,为待裁剪属性信息。
实际应用中,数据库中可调用函数做一些查询维度上的裁剪,舍弃掉一些变化较为频繁的属性信息对应的明细数据,保留用户粒度下的属性信息对应的明细数据;具体实施时,将初始事件属性信息中的事件标识信息和事件时间信息作为事件属性信息进行留存,而将初始时间属性信息中的除了事件标识信息和事件时间信息以外的其他属性信息对应的明细数据作为待裁剪属性信息,执行数据裁剪的操作。
沿用上例,初始事件属性信息中包括用户的浏览事件标识、浏览事件时间、浏览事件执行次数、曝光事件标识、曝光事件时间、曝光事件执行次数,则可将用户的浏览事件标识、浏览事件时间、曝光事件标识、曝光事件时间作为事件属性信息;将浏览事件执行次数、曝光事件执行次数作为待裁剪属性信息(上报的次数参数可能变化较为频繁,比如,用户会在短时间内反复操作多次浏览或者曝光事件)。
需要说明的是,待裁剪属性信息即理解为一些变化较为频繁的属性信息,上述实施例中以事件执行次数作为待裁剪属性信息为例进行裁剪操作的说明,但对此并不做任何限定。
数据仓库的DWB层在执行维度裁剪之后,即可按照用户标识粒度,对维度裁剪后的目标用户行为明细数据进行聚合处理,以减小明细数据的数据量;具体的,基于所述用户行为明细数据中的用户标识,对所述目标用户行为明细数据进行聚合处理,获得初始聚合数据,包括:
在所述用户行为明细数据中确定目标用户标识;
根据所述目标用户标识在所述目标用户行为明细数据中确定目标用户行为子数据;
对所述目标用户行为子数据中的用户属性信息执行去重处理,获得所述目标用户标识对应的用户属性信息;
根据用户属性信息对所述事件属性信息执行聚合处理,获得所述用户属性信息对应的事件属性信息;
拼接所述用户属性信息和所述事件属性信息,获得所述目标用户标识对应的初始聚合数据。
实际应用中,数据仓库的DWB层可在用户行为明细数据中确定出目标用户标识,并根据该目标用户标识,在目标用户行为明细数据中确定与该目标用户标识相对应的用户目标行为子数据,该过程可以理解为将目标用户标识对应的明细数据进行筛选的操作过程;在以每个目标用户标识为粒度进行筛选之后,可对目标用户行为子数据中的用户属性信息执行去重处理,将具有重复的用户属性信息进行删除,保证每一条用户属性信息均不相同,例如,三条用户属性信息分别为第一条:[用户1,设备1,系统1,机型2]、第二条:[用户1,设备2,系统1,机型1]、第三条:[用户1,设备1,系统1,机型2];在对这三条用户属性信息进行去重操作后,即可获得两条用户属性信息,分别为[用户1,设备1,系统1,机型2]和[用户1,设备2,系统1,机型1],因此,这两条用户属性信息则为用户1对应的用户属性信息。
进一步地,在目标用户行为子数据中,除了目标用户标识对应的各个用户属性信息,还包括对应的事件属性信息,因此,将用户属性信息为粒度,对事件属性信息执行聚合处理,以获得每条用户属性信息对应的事件属性信息,比如第一条用户属性信息[用户1,设备1,系统1,机型2],对应的事件属性信息为[事件1|时间1,事件2|时间2,事件2|时间3,事件2|时间3,事件3|时间4,事件1|时间2]。最后,还可对用户属性信息和事件属性信息执行拼接操作,以获得该目标用户标识对应的初始聚合数据,比如,[用户1,设备1,系统1,机型2],[事件1|时间1,事件2|时间2,事件2|时间3,事件2|时间3,事件3|时间4,事件1|时间2]。
需要说明的是,本实施例中以一个用户标识为例,对聚合步骤进行说明,因此该用户行为明细数据中的每一个用户标识对应的明细数据,均参考上述数据聚合方式。
本申请实施例提供的数据处理方法,通过对每个用户标识对应的明细数据执行用户属性信息的去重,以及以用户属性信息为粒度对事件属性信息进行聚合,以完成对用户行为明细数据的再处理,减少数据量,保留能够完成用户路径分析的明细数据。
另外,在对事件属性信息进行聚合处理时,还可按照事件属性信息中的事件时间信息进行事件标识信息的拼接,进而获得用户属性信息对应的事件属性信息;具体的,所述事件属性信息包括事件标识信息和事件时间信息;
根据用户属性信息对所述事件属性信息执行聚合处理,获得所述用户属性信息对应的事件属性信息,包括:
基于事件时间信息对所述事件标识信息进行拼接,获得所述用户属性信息对应的事件属性信息。
沿用上例,事件属性信息为[事件1|时间1,事件2|时间2,事件2|时间3,事件2|时间3,事件3|时间4,事件1|时间2];进而,可根据事件时间信息的时间顺序,将对应的用户行为事件的事件标识进行重排,比如事件时间顺序为[时间1-时间2-时间3-时间4],那么对应地调整事件标识,则为[事件1-事件2、事件1-事件2、事件2-事件3],即事件属性信息为[事件1|时间1-事件2、事件1|时间2-事件2、事件2|时间3-事件3|时间4]。
进而,该目标用户标识对应的初始聚合数据可以为,[用户1,设备1,系统1,机型2],[事件1|时间1-事件2、事件1|时间2-事件2、事件2|时间3-事件3|时间4]。
此外,在确定目标用户标识对应的初始聚合数据时,还可对同一时间某一用户反复操作的事件进行干扰过滤处理,以删除掉干扰用户行为的事件数据;具体的,拼接所述用户属性信息和所述事件属性信息,获得所述目标用户标识对应的初始聚合数据,包括:
确定所述事件属性信息中满足预设干扰条件的事件标识为干扰事件标识,其中,所述预设干扰条件为用户在预设时间区间内反复发生的行为事件条件;
删除所述事件属性信息中干扰事件标识以及所述干扰事件标识对应的事件时间;
将执行删除操作后的事件属性信息与所述用户属性信息进行拼接,获得所述目标用户标识对应的初始聚合数据。
实际应用中,数据仓库还可对事件属性信息中属于干扰事件对应的事件标识进行删除,以及删除干扰事件标识对应的事件时间,需要说明的是,用户行为对应的事件在预设时间区间内反复发生的行为事件,则可理解为干扰事件,比如,在同一时间,用户执行点击操作执行了三次,那么可认为短时间内重复的事件为干扰事件,可通过去重等手段进行干扰事件过滤;进一步地,将执行干扰事件过滤的删除操作后的事件属性信息与用户属性信息进行拼接,获得最终的目标用户标识对应的初始聚合数据;沿用上例,初始聚合数据可以为,[用户1,设备1,系统1,机型2],[事件1|时间1-事件2、事件1|时间2-事件2|时间3-事件3|时间4],即将时间3对应的两个事件2删除掉一个,仅保留一个事件2。
需要说明的是,对干扰事件过滤可以在数据仓库的DWB层进行,也可以在数据仓库的DWS层进行,本申请实施例对此不作具体限定。
步骤206:按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合。
进一步地,所述目标聚合数据为对所述初始聚合数据进行再处理的聚合数据。
其中,事件标识集合可以理解为用户行为数据在预设划分时间区间内所对应的事件标识的集合,比如事件标识集合为[事件1,事件2,事件4]。
实际应用中,数据仓库的DWS层,可按照预设划分时间区间对初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,预设划分时间区间可以理解为30min、1h、2h等,本实施例中对具体的划分时间区间不作具体限定,而是与前端应用中需要查询用户路径数据的时间区间相关联。
进一步地,按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,包括:
按照预设划分时间区间,对所述初始聚合数据中的事件时间信息进行划分,获得至少一个事件时间区间;
将每个事件时间区间所对应的事件标识确定为事件标识集合,并基于所述事件标识集合以及所述用户属性信息生成目标聚合数据。
实际应用中,将初始聚合数据中的事件时间信息进行划分,比如事件时间信息为[时间1-时间2-时间3-时间4],按照预设划分时间区间,划分事件时间信息,则每个事件时间区间为[时间1-时间2]、[时间3-时间4];进一步地,可针对每个事件时间区间对应的事件标识确定为事件标识集合,即将时间1对应的事件1,时间2对应的事件2、事件1确定为事件标识集合为[事件1,事件2、事件1];根据时间3对应的事件2、和时间4对应的事件3确定事件标识集合为[事件2,事件3]。
进一步地,根据事件标识集合以及用户属性信息,可生成目标聚合数据;即[事件1,事件2、事件1],[用户1,设备1,系统1,机型2];[-1,-1,事件2,事件3],[用户1,设备1,系统1,机型2]。需要说明的是,事件标识集合中可采取补位操作,对事件标识集合进行处理,以便于后续执行数据查询。
需要说明的是,本申请实施例上述提及的初始聚合数据的处理过程、以及目标聚合数据的处理过程,均可理解为对用户行为明细数据的预聚合过程,本实施例中为了实现数据存储的压缩,同时又能提高后续数据查询的效率,可以对待存储的用户行为明细数据进行预聚合处理,而面对大量的用户行为明细数据,预聚合的方式也是本申请实施例所体现的要点。
步骤208:基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
其中,目标数据压缩结构是指可以实现对数据进行压缩的数据结果,例如,BitMap数据结构;格式转换是指将聚合数据转换为与目标数据压缩结构对应的格式;用户事件数据是指基于目标数据压缩结构对聚合数据进行格式转换后,得到的数据。
在实际应用中,基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据,包括:
基于目标数据压缩结构将所述目标聚合数据的用户属性信息中的用户标识进行格式转换,获得所述目标对象的用户路径数据。
具体的,确定聚合数据的用户属性信息中的用户标识;基于目标数据压缩结构对用户标识进行格式转换,得到目标数据压缩结构的用户标识;由目标数据压缩结构的用户标识以及用户属性信息除用户标识外的用户属性信息和事件属性信息,组成目标对象对应的用户路径数据。
在本申请一具体实施方式中,确定聚合数据K以及目标数据压缩结构BitMap;确定目标数据压缩结构BitMap对应的数据字典,并基于数据字典将聚合数据K中用户属性信息的用户标识转换为BitMap数据结构;由BitMap数据结构的用户标识和聚合数据K中除用户标识外的用户属性信息和事件属性信息,拼接为应用程序在预设时间区间内对应的用户路径数据。
通过将聚合数据中的用户标识转换为目标数据压缩结构,再基于目标数据压缩结构的用户标识生成用户事件数据,实现了对聚合数据的进一步压缩,从而使得用户行为明细数据进一步缩小。
在实际应用中,为了便于基于标签对数据进行分析,基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据之后,还可以获取目标对象的标签数据,从而便于后续的数据分析,具体方法包括:
获取针对目标对象的用户标识以及所述用户标识对应的属性标签;
基于目标数据压缩结构对所述用户标识进行格式转换,基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据。
其中,属性标签是指与用户标识对应的标签字段,例如,用户A在注册应用程序时选择的标签为“动漫”、“娱乐”,即用户A的属性标签为“动漫”、“娱乐”;用户标签数据是指由属性标签和转换后的用户标识组成的数据。
在本申请一具体实施方式中,获取应用程序中的用户标识以及每个用户标识对应的属性标签,具体的,获取用户标识“s1”以及用户标识“s1”对应的属性标签“动画、电影、美食”;BitMap数据结构对应的数据字典,并基于数据字典将用户标识“s1”映射为BitMap数据结构;由用户标识“s1”对应的属性标签“动画、电影、美食”和BitMap数据结构的用户标识“s1”组成用户标签数据。
通过确定目标对象的用户标识,并获取用户标识对应的属性标签;对用户标识进行格式转换,并基于转换后的用户标识和属性标签生成用户标签数据,从而丰富了用于数据分析的数据。
在实际应用中,基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据之后,还包括:
将所述目标对象的用户路径数据存储至数据库;
相应地,所述基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据之后,还包括:
将所述目标对象的用户标签数据存储至数据库。
其中,数据库是指可以存储目标数据压缩结构的数据库,例如,ClickHouse数据库;具体的,在数据库为ClickHouse数据库的情况下,可以基于ClickHouse物化视图对为ClickHouse数据库中执行的数据查询结果进行存储,从而提升数据查询效率。
通过将压缩得到的用户标签数据和用户路径数据代替用户明细数据存储至数据库,节省了数据库存储空间,由于数据量的减少,进而提升了后续的数据分析效率。
在将用户路径数据和用户标签数据存储至数据库之后,还可调用该数据库中的函数完成对用户路径数据的查询;具体的,本申请一实施例提供的数据处理方法,将所述目标对象的用户路径数据存储至数据库之后,还包括:
接收针对目标对象的用户路径数据查询请求,其中,所述用户路径数据查询请求中携带有基础配置查询条件;
基于所述基础配置查询条件在所述数据库中的用户路径数据中,查询对应的用户路径数据,其中,所述基础配置查询条件包括事件时间条件、中心事件条件、用户设备条件的至少一项;
基于所述用户路径数据生成用户路径图,并将所述用户路径图发送至所述目标对象的用户路径图展示界面。
其中,用户路径数据查询请求是指在数据库中查询符合查询条件的用户路径数据的请求;基础配置查询条件是指在数据库中查询用户路径数据的条件,基础配置查询条件包括事件时间条件、中心事件条件、用户设备条件的至少一项;用户路径图是指根据用户路径数据生成的用户路径图。
在实际应用中,接收到针对目标对象的用户路径数据查询请求后,确定用户路径数据查询请求中的基础配置查询条件;根据基础配置查询条件在数据库的用户路径数据中筛选符合基础配置查询条件的用户路径数据;基于用户路径数据生成的用户路径图,并将该用户路径图发送至应用程序的用户路径图展示界面,如,电脑设备的展示界面对用户路径图进行展示。
在本申请一具体实施方式中,服务器接收中心事件为“目标播放页面浏览”的用户路径数据查询请求;基于基础配置查询条件中的事件时间条件、用户设备条件等,在数据库的用户路径数据中查询与基础配置查询条件对应的目标用户路径数据;基于目标用户路径数据生成用户路径图,并将用户路径图发送至用户路径图展示界面。
通过基于基础配置查询条件在数据库的用户路径数据中查询数据,由于数据库中存储为压缩得到的用户路径数据,数据数量相较于用户行为明细数据较少,故可以提升查询请求的处理效率。
具体的,本申请另一实施例提供的数据处理方法,将所述目标对象的用户标签数据存储至数据库之后,还包括:
接收针对目标对象的用户路径数据查询请求,其中,所述用户路径数据查询请求携带有基础配置查询条件以及标签数据查询条件;
基于所述基础配置查询条件从数据库的用户路径数据中,确定待处理用户路径数据,以及基于所述标签数据查询条件从数据库的用户标签数据中,确定待处理用户标签数据;
根据预设数据处理方式,对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据;
基于所述标签用户路径数据生成标签用户路径图,并将所述标签用户路径图发送至所述目标对象的用户路径图展示界面。
其中,用户路径数据查询请求是指在数据库中查询符合查询条件的用户路径数据与用户标签数据的请求;标签数据查询条件是指在数据库中查询用户标签数据的条件,比如,可在应用程序的前端界面中的标签查询条件框中输入相应的标签数据,90后、女生、动漫、娱乐。
实际应用中,数据库在接收到针对某一应用程序的用户路径数据查询请求之后,该查询请求中携带有基础配置查询条件以及标签数据查询条件;进而,根据基础配置查询条件从数据库的用户路径数据中,确定出待处理用户路径数据,其中,待处理用户路径数据为根据基础配置查询条件在数据库中筛选出的用户路径数据,便于后续对该待处理用户路径数据进行交并计算处理;再根据标签数据查询条件从数据库的标签用户路径数据中,确定出待处理用户标签数据,便于后续对该待处理用户标签数据进行交并计算处理;需要说明的是,存储在数据库的用户路径数据以及用户标签数据,由于其用户标识已经转换为RBM存储结构,因此,后续可根据预设数据处理方式,对待处理用户路径数据以及待处理用户标签数据进行处理,以获得标签用户路径数据,进而,根据该标签用户路径数据生成标签用户路径图,再将该标签用户路径图发送至应用程序的用户路径图展示界面。
参见图3,图3示出了本申请实施例提供的数据处理方法中标签用户路径图的展示界面示意图。
图3中的选择路径分析事件、配置条件的部分可以理解为基础配置查询条件以及标签数据查询条件的输入、选择框,用户在确定了这两个查询条件之后,即可点击图3界面中的“查询”按钮,进而可为用户展示图3中下半部分的用户路径图,其中,该用户路径图可以理解为根据上述查询条件,在数据库中查询的用户路径图,便于后续直接根据该用户路径图为相关人员提供数据分析的基础。另外,上述两个查询条件还可通过点击“保存”按钮进行存储,便于后续可快速地查询到相应的查询条件。
进一步地,根据预设数据处理方式,对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据,包括:
确定所述基础配置查询条件以及所述标签数据查询条件之间的关联关系,基于所述关联关系确定预设数据处理方式;
基于所述预设数据处理方式对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据。
其中,预设数据处理方式是指根据两个查询条件确定的数据相互计算的方式,比如交计算、并计算等。
实际应用中,可确定基础配置查询条件与标签数据查询条件之间的关联关系,确定这两个条件所筛选出的数据所执行的处理方式,即数据集合的交计算方式或者并计算方式。进而,根据确定的预设数据处理方式对待处理用户路径数据以及待处理用户标签数据进行交计算或者并计算等,以获得标签用户路径数据。
综上,本申请实施例提供的数据处理方法,通过将大量的用户行为明细数据进行处理,获得RBM数据结构的数据,在数据库中预先存储,既能压缩存储减少内存空间,又能提升数据查询效率;同时,将用户行为数据与用户标签数据进行融合,有助于后续根据查询标签数据以确定标签对应的人群的用户路径数据,进而实现精准地人群圈选。
参见图4,图4示出了本申请一实施例提供的一种应用于用户路径分析场景的数据处理方法的处理流程图,具体包括以下步骤:
步骤402:数据仓库的DWD层离线处理应用程序APP中千亿(1200亿)的用户行为APP端数据明细表;具体的明细数据可参见图4中DWD层所示意的明细数据。
步骤404:数据仓库的DWB层将明细数据进行维度裁剪,并按照用户标识进行数据聚合;聚合后的数据可参见图4中DWB层所示意的聚合数据。
需要说明的是,明细数据即流量数据可分为私有参数(与事件类型相关联的属性字段对应的明细数据)和公有参数(与用户相关联的属性字段对应的明细数据),其中,公有参数在用户粒度下是不会经常改变的,因为可利用hive表中的函数执行查询维度的裁剪,舍弃掉一些变化比较频繁的私有参数,保留用户粒度下的公有参数,并且通过buvid(用户标识)粒度进行聚合,将同一个buvid的所有事件根据时间线串联聚合到一个字段中,聚合之后的数据形成DWB层落地到hive表。
步骤406:数据仓库的DWS层将聚合后的数据执行干扰事件过滤,并按照RBM存储结构类型实现压缩存储;干扰事件过滤后处理的数据可参见图4中DWS层所示意的聚合数据。
在DWB层的数据进行路径的汇总的基础上,将同一个路径的buvid汇总聚合到一个数组结构中,这个过程出现很多干扰事件,比如某些路径会频繁出现,会乱序而干扰真正的用户行为,所以可通过去重等手段进行干扰事件过滤,即可获得图4中DWS层所示意的聚合数据;其中,图4中[事件1,事件2,事件4]的事件标识集合可理解为将同一用户粒度下对应的事件,在预设事件时间区间内进行聚合后的事件串;图4中事件串中的“-1”可理解为存储补位的操作,对此不作过多限定。
另外,还引入了RBM数据存储结构,将聚合后的用户路径数据按照RBM存储结构进行格式转换,最终落到hive表,整个过程都是通过spark脚本利用代码和算法实现的,对此本实施例不做过多的解释与限定。
步骤408:数据仓库的DWS层可将用户路径数据利用出仓脚本将hive数据导入ClickHouse,这个阶段也进行了优化处理,从ClickHouse表结构设计上,采用了ClickHouse的物化视图技术和RBM数据结构,利用数组物化RBM的方式大大压缩了存储。
步骤410:数据库在接收到用户路径数据的查询请求后,由于已经将明细数据的千亿数据量经过聚合、压缩为几十亿,进而,可利用ClickHouse查询引擎可以做到秒级查询。
另外,在接收到用户路径数据查询请求中还携带有标签查询条件时,可通过Bitmap的交并计算实现了标签画像和人群圈选等转化分析功能,需要说明的是,由于用户路径数据以及用户标签数据均能够引入了RBM数据存储结构,即可实现Bitmap存储结构的交并计算。
需要说明的是,用户标签数据可通过在应用程序中获取用户标识以及用户标识对应的标签数据,并引入RBM数据存储结构,以获得能够实现与用户路径数据实现交并计算的标签数据。
综上,本申请实施例提供的新的漏斗、路径分析,通过将数据进行建模分层,相比较以往的处理千亿明细数据,离线在DWB和DWS层实现了对数据的压缩,在数据库中预先存储通过数据仓库汇总后的数据,以替代了原先的明细数据,减少数据存储空间,提升数据查询效率。
与上述方法实施例相对应,本申请还提供了数据处理装置实施例,图5示出了本申请一实施例提供的一种数据处理装置的结构示意图。如图5所示,该装置包括:
数据获取模块502,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;
初始聚合模块504,被配置为基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;
目标聚合模块506,被配置为按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;
数据转换模块508,被配置为基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
可选地,所述初始聚合模块504,进一步被配置为:
确定所述用户行为明细数据中与事件类型对应的初始事件属性信息;
裁剪所述初始事件属性信息,获得目标用户行为明细数据;
基于所述用户行为明细数据中的用户标识,对所述目标用户行为明细数据进行聚合处理,获得初始聚合数据。
可选地,所述初始聚合模块504,进一步被配置为:
在所述初始事件属性信息中确定事件属性信息和待裁剪属性信息;
保留所述用户行为明细数据中所述事件属性信息,裁剪所述用户行为明细数据中所述待裁剪属性信息,获得目标用户行为明细数据。
可选地,所述初始聚合模块504,进一步被配置为:
确定所述初始事件属性信息中的事件标识信息和事件时间信息,为事件属性信息;
确定所述初始事件属性信息中除所述事件标识信息和所述事件时间信息以外的其他事件属性信息,为待裁剪属性信息。
可选地,所述初始聚合模块504,进一步被配置为:
在所述用户行为明细数据中确定目标用户标识;
根据所述目标用户标识在所述目标用户行为明细数据中确定目标用户行为子数据;
对所述目标用户行为子数据中的用户属性信息执行去重处理,获得所述目标用户标识对应的用户属性信息;
根据用户属性信息对所述事件属性信息执行聚合处理,获得所述用户属性信息对应的事件属性信息;
拼接所述用户属性信息和所述事件属性信息,获得所述目标用户标识对应的初始聚合数据。
可选地,所述事件属性信息包括事件标识信息和事件时间信息;
根据用户属性信息对所述事件属性信息执行聚合处理,获得所述用户属性信息对应的事件属性信息,包括:
基于事件时间信息对所述事件标识信息进行拼接,获得所述用户属性信息对应的事件属性信息。
可选地,所述初始聚合模块504,进一步被配置为:
确定所述事件属性信息中满足预设干扰条件的事件标识为干扰事件标识,其中,所述预设干扰条件为用户在预设时间区间内反复发生的行为事件条件;
删除所述事件属性信息中干扰事件标识以及所述干扰事件标识对应的事件时间;
将执行删除操作后的事件属性信息与所述用户属性信息进行拼接,获得所述目标用户标识对应的初始聚合数据。
可选地,所述目标聚合模块506,进一步被配置为:
按照预设划分时间区间,对所述初始聚合数据中的事件时间信息进行划分,获得至少一个事件时间区间;
将每个事件时间区间所对应的事件标识确定为事件标识集合,并基于所述事件标识集合以及所述用户属性信息生成目标聚合数据。
可选地,所述数据转换模块508,进一步被配置为:
基于目标数据压缩结构将所述目标聚合数据的用户属性信息中的用户标识进行格式转换,获得所述目标对象的用户路径数据。
可选地,所述装置,还包括:
标签数据确定模块,被配置为获取针对目标对象的用户标识以及所述用户标识对应的属性标签;
基于目标数据压缩结构对所述用户标识进行格式转换,基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据。
可选地,所述装置,还包括:
数据存储模块,被配置为将所述目标对象的用户路径数据存储至数据库;
可选地,所述数据存储模块,进一步被配置为:
将所述目标对象的用户标签数据存储至数据库。
可选地,所述装置,还包括:
数据查询模块,被配置为接收针对目标对象的用户路径数据查询请求,其中,所述用户路径数据查询请求中携带有基础配置查询条件;
基于所述基础配置查询条件在所述数据库中的用户路径数据中,查询对应的用户路径数据,其中,所述基础配置查询条件包括事件时间条件、中心事件条件、用户设备条件的至少一项;
基于所述用户路径数据生成用户路径图,并将所述用户路径图发送至所述目标对象的用户路径图展示界面。
可选地,所述数据查询模块,进一步被配置为:
接收针对目标对象的用户路径数据查询请求,其中,所述用户路径数据查询请求携带有基础配置查询条件以及标签数据查询条件;
基于所述基础配置查询条件从数据库的用户路径数据中,确定待处理用户路径数据,以及基于所述标签数据查询条件从数据库的用户标签数据中,确定待处理用户标签数据;
根据预设数据处理方式,对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据;
基于所述标签用户路径数据生成标签用户路径图,并将所述标签用户路径图发送至所述目标对象的用户路径图展示界面。
可选地,所述数据查询模块,进一步被配置为:
确定所述基础配置查询条件以及所述标签数据查询条件之间的关联关系,基于所述关联关系确定预设数据处理方式;
基于所述预设数据处理方式对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据。
可选地,所述用户属性信息包括用户标识信息、用户设备信息、设备系统信息、设备型号信息的至少一项。
可选地,所述目标聚合数据为对所述初始聚合数据进行再处理的聚合数据。
综上,本申请实施例提供的数据处理装置,通过将大量的用户行为明细数据进行处理,获得RBM数据结构的数据,在数据库中预先存储,既能压缩存储减少内存空间,又能提升数据查询效率;同时,将用户行为数据与用户标签数据进行融合,有助于后续根据查询标签数据以确定标签对应的人群的用户路径数据,进而实现精准地人群圈选。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图6示出了根据本申请一实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620执行所述计算机指令时实现所述的数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (19)
1.一种数据处理方法,其特征在于,包括:
获取针对目标对象在预设历史时间区间内的用户行为明细数据;
基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;
按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;
基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
2.如权利要求1所述的方法,其特征在于,基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,包括:
确定所述用户行为明细数据中与事件类型对应的初始事件属性信息;
裁剪所述初始事件属性信息,获得目标用户行为明细数据;
基于所述用户行为明细数据中的用户标识,对所述目标用户行为明细数据进行聚合处理,获得初始聚合数据。
3.如权利要求2所述的方法,其特征在于,裁剪所述初始事件属性信息,获得目标用户行为明细数据,包括:
在所述初始事件属性信息中确定事件属性信息和待裁剪属性信息;
保留所述用户行为明细数据中所述事件属性信息,裁剪所述用户行为明细数据中所述待裁剪属性信息,获得目标用户行为明细数据。
4.如权利要求3所述的方法,其特征在于,在所述初始事件属性信息中确定事件属性信息和待裁剪属性信息,包括:
确定所述初始事件属性信息中的事件标识信息和事件时间信息,为事件属性信息;
确定所述初始事件属性信息中除所述事件标识信息和所述事件时间信息以外的其他事件属性信息,为待裁剪属性信息。
5.如权利要求3所述的方法,其特征在于,基于所述用户行为明细数据中的用户标识,对所述目标用户行为明细数据进行聚合处理,获得初始聚合数据,包括:
在所述用户行为明细数据中确定目标用户标识;
根据所述目标用户标识在所述目标用户行为明细数据中确定目标用户行为子数据;
对所述目标用户行为子数据中的用户属性信息执行去重处理,获得所述目标用户标识对应的用户属性信息;
根据用户属性信息对所述事件属性信息执行聚合处理,获得所述用户属性信息对应的事件属性信息;
拼接所述用户属性信息和所述事件属性信息,获得所述目标用户标识对应的初始聚合数据。
6.如权利要求5所述的方法,其特征在于,根据用户属性信息对所述事件属性信息执行聚合处理,获得所述用户属性信息对应的事件属性信息,包括:
基于事件时间信息对所述事件标识信息进行拼接,获得所述用户属性信息对应的事件属性信息。
7.如权利要求5所述的方法,其特征在于,拼接所述用户属性信息和所述事件属性信息,获得所述目标用户标识对应的初始聚合数据,包括:
确定所述事件属性信息中满足预设干扰条件的事件标识为干扰事件标识,其中,所述预设干扰条件为用户在预设时间区间内反复发生的行为事件条件;
删除所述事件属性信息中干扰事件标识以及所述干扰事件标识对应的事件时间;
将执行删除操作后的事件属性信息与所述用户属性信息进行拼接,获得所述目标用户标识对应的初始聚合数据。
8.如权利要求1所述的方法,其特征在于,按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,包括:
按照预设划分时间区间,对所述初始聚合数据中的事件时间信息进行划分,获得至少一个事件时间区间;
将每个事件时间区间所对应的事件标识确定为事件标识集合,并基于所述事件标识集合以及所述用户属性信息生成目标聚合数据。
9.如权利要求1所述的方法,其特征在于,基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据,包括:
基于目标数据压缩结构将所述目标聚合数据的用户属性信息中的用户标识进行格式转换,获得所述目标对象的用户路径数据。
10.如权利要求1所述的方法,其特征在于,基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据之后,还包括:
获取针对目标对象的用户标识以及所述用户标识对应的属性标签;
基于目标数据压缩结构对所述用户标识进行格式转换,基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据。
11.如权利要求10所述的方法,其特征在于,基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据之后,还包括:
将所述目标对象的用户路径数据存储至数据库;
相应地,所述基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据之后,还包括:
将所述目标对象的用户标签数据存储至数据库。
12.根据权利要求11所述的方法,其特征在于,将所述目标对象的用户路径数据存储至数据库之后,还包括:
接收针对目标对象的用户路径数据查询请求,其中,所述用户路径数据查询请求中携带有基础配置查询条件;
基于所述基础配置查询条件在所述数据库中的用户路径数据中,查询对应的用户路径数据,其中,所述基础配置查询条件包括事件时间条件、中心事件条件、用户设备条件的至少一项;
基于所述用户路径数据生成用户路径图,并将所述用户路径图发送至所述目标对象的用户路径图展示界面。
13.根据权利要求11所述的方法,其特征在于,将所述目标对象的用户标签数据存储至数据库之后,还包括:
接收针对目标对象的用户路径数据查询请求,其中,所述用户路径数据查询请求携带有基础配置查询条件以及标签数据查询条件;
基于所述基础配置查询条件从数据库的用户路径数据中,确定待处理用户路径数据,以及基于所述标签数据查询条件从数据库的用户标签数据中,确定待处理用户标签数据;
根据预设数据处理方式,对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据;
基于所述标签用户路径数据生成标签用户路径图,并将所述标签用户路径图发送至所述目标对象的用户路径图展示界面。
14.根据权利要求13所述的方法,其特征在于,根据预设数据处理方式,对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据,包括:
确定所述基础配置查询条件以及所述标签数据查询条件之间的关联关系,基于所述关联关系确定预设数据处理方式;
基于所述预设数据处理方式对所述待处理用户路径数据以及所述待处理用户标签数据进行处理,获得标签用户路径数据。
15.如权利要求1所述的方法,其特征在于,所述用户属性信息包括用户标识信息、用户设备信息、设备系统信息、设备型号信息的至少一项。
16.如权利要求1所述的方法,其特征在于,所述目标聚合数据为对所述初始聚合数据进行再处理的聚合数据。
17.一种数据处理装置,其特征在于,包括:
数据获取模块,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;
初始聚合模块,被配置为基于所述用户行为明细数据中的用户标识,将所述用户行为明细数据进行聚合处理,获得初始聚合数据,其中,初始聚合数据包括用户属性信息和事件属性信息;
目标聚合模块,被配置为按照预设划分时间区间对所述初始聚合数据中的事件属性信息进行划分,获得目标聚合数据,其中,目标聚合数据包括用户属性信息和事件标识集合;
数据转换模块,被配置为基于目标数据压缩结构对所述目标聚合数据进行格式转换,获得所述目标对象的用户路径数据。
18.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-16任意一项所述方法的步骤。
19.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-16任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210758030.3A CN115098029A (zh) | 2022-06-30 | 2022-06-30 | 数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210758030.3A CN115098029A (zh) | 2022-06-30 | 2022-06-30 | 数据处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115098029A true CN115098029A (zh) | 2022-09-23 |
Family
ID=83294503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210758030.3A Pending CN115098029A (zh) | 2022-06-30 | 2022-06-30 | 数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115098029A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501778A (zh) * | 2023-05-16 | 2023-07-28 | 湖北省珍岛数字智能科技有限公司 | 基于ClickHouse的实时用户行为数据分析方法 |
-
2022
- 2022-06-30 CN CN202210758030.3A patent/CN115098029A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116501778A (zh) * | 2023-05-16 | 2023-07-28 | 湖北省珍岛数字智能科技有限公司 | 基于ClickHouse的实时用户行为数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907244B2 (en) | Modifying field definitions to include post-processing instructions | |
CN108416620B (zh) | 一种基于大数据的画像数据的智能社交广告投放平台 | |
US11914588B1 (en) | Determining a user-specific approach for disambiguation based on an interaction recommendation machine learning model | |
US10885026B2 (en) | Translating a natural language request to a domain-specific language request using templates | |
CN111475509A (zh) | 一种基于大数据的用户画像和多维分析系统 | |
US20190034498A1 (en) | Determining a presentation format for search results based on a presentation recommendation machine learning model | |
CN112214611A (zh) | 一种企业知识图谱的构建系统和方法 | |
CN111708774B (zh) | 一种基于大数据的产业分析系统 | |
CN102193917A (zh) | 一种数据处理和查询方法和装置 | |
CN110362544A (zh) | 日志处理系统、日志处理方法、终端及存储介质 | |
US20190034499A1 (en) | Navigating hierarchical components based on an expansion recommendation machine learning model | |
CN113360554A (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
CN112817834B (zh) | 数据表评估方法及装置 | |
US20190034430A1 (en) | Disambiguating a natural language request based on a disambiguation recommendation machine learning model | |
CN115408381A (zh) | 数据处理方法及相关设备 | |
CN113515610B (zh) | 一种基于面向对象语言处理的档案管理方法 | |
CN115098029A (zh) | 数据处理方法及装置 | |
Anderson et al. | Architectural Implications of Social Media Analytics in Support of Crisis Informatics Research. | |
Lian | Implementation of computer network user behavior forensic analysis system based on speech data system log | |
CN106919566A (zh) | 一种基于海量数据的查询统计方法及系统 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN111984625A (zh) | 数据库负载特征处理方法、装置、介质和电子设备 | |
CN112685557B (zh) | 可视化信息资源管理方法及装置 | |
CN113971213A (zh) | 智慧城市管理公共信息共享系统 | |
CN115048059A (zh) | 数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |