CN115048059A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN115048059A
CN115048059A CN202210760241.0A CN202210760241A CN115048059A CN 115048059 A CN115048059 A CN 115048059A CN 202210760241 A CN202210760241 A CN 202210760241A CN 115048059 A CN115048059 A CN 115048059A
Authority
CN
China
Prior art keywords
user
data
event
attribute information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210760241.0A
Other languages
English (en)
Inventor
赵卓男
陆志君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202210760241.0A priority Critical patent/CN115048059A/zh
Publication of CN115048059A publication Critical patent/CN115048059A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供数据处理方法及装置,其中所述数据处理方法包括:获取针对目标对象在预设历史时间区间内的用户行为明细数据;确定所述用户行为明细数据中的用户属性信息和事件属性信息;根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。通过对用户行为明细数据中的用户属性信息和事件属性信息进行聚合,并将聚合数据转换为用户事件数据,缩小用户行为明细数据占据的存储空间,进而提升了存储效率。

Description

数据处理方法及装置
技术领域
本申请涉及计算机技术领域,特别涉及一种数据处理方法。本申请同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着计算机技术的不断发展,用户对于数据的处理需求越来越多;为了便于相关技术人员可以了解到应用程序的使用情况,可以对在应用程序中采集到明细数据进行事件分析,即确定不同事件的执行情况,还可以对明细数据进留存分析,即确定用户对应用程序的吸引力大小,从而实现用户对应用程序数据的分析。
然而,由于明细数据的数量庞大并且不断增加,会占用较多存储空间;并且,在明细数据的数据量较大的情况下,会影响对数据的分析效率,影响用户体验。
因此,如何缩小数据存储空间,进而提升对数据的分析效率,成为本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种数据处理方法。本申请同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的数据占据存储空间较大,数据分析效率较低的技术问题。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
获取针对目标对象在预设历史时间区间内的用户行为明细数据;
确定所述用户行为明细数据中的用户属性信息和事件属性信息;
根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;
基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
根据本申请实施例的第二方面,提供了一种数据处理装置,包括:
获取模块,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;
确定模块,被配置为确定所述用户行为明细数据中的用户属性信息和事件属性信息;
聚合模块,被配置为根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;
转换模块,被配置为基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。
本申请提供的数据处理方法,获取针对目标对象在预设历史时间区间内的用户行为明细数据;确定所述用户行为明细数据中的用户属性信息和事件属性信息;根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
本申请一实施例实现了通过对用户行为明细数据中的用户属性信息和事件属性信息进行聚合,获得聚合数据,实现了对用户行为明细数据的初步压缩;基于目标数据压缩结构对聚合数据进行格式转换,获得用户事件数据,实现了对用户行为明细数据的进一步压缩,缩小了用户行为明细数据占据的存储空间。
附图说明
图1是本申请一实施例提供的数据处理方法应用于数据处理系统的系统结构示意图;
图2是本申请一实施例提供的一种数据处理方法的流程图;
图3是本申请一实施例提供的标签用户事件统计图的展示界面示意图;
图4是本申请一实施例提供的一种应用于视频播放应用程序的数据处理方法的处理流程图;
图5是本申请一实施例提供的数据处理方法的示意图;
图6是本申请一实施例提供的一种数据处理装置的结构示意图;
图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
流量事件、留存分析:事件是指用户行为或业务过程的追踪,记录和描述。留存率是衡量产品、业务、活动策略的重要指标,留存率的高低代表应用程序对用户的持续吸引力大小。事件、留存分析可以用于日常功能分析或者活跃用户数分析。
DWD:(DataWarehouseDetail,数据明细层),也称为ODS层,是业务层与数据仓库的隔离层。
DWB:(DataWarehouseBase,数据基础层),存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。
hive:数据仓库工具,能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce(MapReduce是一个基于集群的高性能并行计算平台)任务来执行。
ClickHouse(列式存储数据库):全称是ClickStreamDataWareHouse;用于在线分析处理查询(OLAP:OnlineAnalyticalProcessing)MPP架构的列式存储数据库(DBMS:DatabaseManagementSystem),能够使用SQL查询实时生成分析数据报告。
高阶函数:ClickHouse数据库自带的查询方法。
BitMap技术:可以理解为通过一个bit数组来存储特定数据的一种数据结构;由于bit是数据的最小单位,所以这种数据结构往往是非常节省存储空间。
RBM(RoaringBitmap)数据结构:RoaringBitMaps(简称RBM)就是一种压缩算法。Bitmap是一种比较常用的数据结构,位图索引被广泛应用与数据库和搜索引擎中,能快速定位一个数值是否在存在,是一种高效的数据压缩算法,能显著加快查询速度。但是BitMap还是会占用大量内存(线性增长),所以一般还需要对BitMap进行压缩处理,减少内存占用并提高效率。
ClickHouse物化视图:物化视图是查询结果集的一份持久化存储,与普通视图完全不同,而非常趋近于表。ClickHouse的物化视图实现更像是触发器,若view中预先定义了聚合函数,那么(在不指定populate关键字的情况下)聚合函数仅适用于新插入的数据。对源表数据的更改都不会更改物化视图,是ClickHouse的独特功能之一。
字典映射:字典是唯一的内建的映射类型,可以使用任何不可变的对象作为字典的关键字(如字符串、数字、元组等)。
标签:全称是用户画像标签,用户标签是构成用户画像的核心因素,是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的形容词。
用户分群:即用户人群,用户人群是将用户在平台内所产生的行为数据,分析提炼后生成具有差异性特征的用户集群。
spark-udf:spark引擎的一种自定义函数,对数据的每个列中的每个元素进行操作,只返回一个结果。
当前,事件、留存分析用于日常功能分析或者活跃用户数分析;事件、留存分析以应用程序的明细数据为基础,通过ClickHouse查询引擎的指标函数,例如uniq(),可以支持单个事件分析、多个事件的对比分析以及多个事件的复合指标运算,指定时间内参与后续行为的用户占参与初始行为用户的比值,通过筛选、分组等组件满足多样化的分析需求。
虽然ClickHouse查询性能非常优越,ClickHouse的高阶函数可以提供分析支持到大部分事件、留存的分析场景,但是当前的事件、留存分析都是基于明细数据进行的。每天增加的数据量较大,存储压力大。基于明细数据的分析查询效率不高,并且由于明细数据数量大,导致只能支持30天的时间窗口,功能单薄,用户体验差。
为了解决以上问题,本申请的事件、留存分析通过离线方式的建模分层、账户事件时间粒度的预聚合压缩、spark-udf查询加速等手段,将每天千亿数据压缩到每天几十亿,大大缩小存储的同时也提高了查询性能,每天用户慢查询可降到10s以内,时间窗口可扩大到45天甚至更长。并且对高复杂的查询比如用户留存,用户分群等分析场景可以更好的支持。
本申请的事件、留存分析通过聚合压缩处理千亿明细行为数据,以账户、事件、时间粒度进行聚合,将同等粒度下的事件属性信息通过计数的方式并入hive的map数据结构,结合特定的spark-udf保证查询指标的支持,离线在DWB层实现了对数据的压缩,最终落到hive表。将hive数据导入ClickHouse,这个阶段也进行了优化处理,从表结构设计上,引入BitMap字典映射,支持RBM交并计算,olap层也通过汇总后的数据替代了原先的明细数据,大大缩小了存储的同时提高了查询性能,也实现了画像标签和人群圈选等功能。
在本申请中,提供了一种数据处理方法,本申请同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
参见图1,图1示出了本申请一实施例提供的数据处理方法应用于数据处理系统的系统结构示意图。
图1中为本申请实施例提供的数据处理方法所应用的数据处理系统100,其中,该数据处理系统100中包括数据仓库102以及数据库104,数据仓库102中包括数据明细层、数据基础层。
需要说明的是,该数据仓库可以实现对应用程序或网页中的用户行为明细数据的采集,以及通过各个数据仓库中的分层结构,对用户行为明细数据分层处理,并将处理后的数据可存储至数据库;该数据库可对数据仓库输出的数据进行存储,并支持数据查询功能,同时,本实施例中对数据库的类型不作具体限定,包括但不限于ClickHouse数据库。
实际应用中,数据处理系统100可以理解为数据分析平台对应的服务器,并利用数据仓库102对应用程序中用户行为明细数据进行数据预处理,并将处理后的用户行为数据存储至数据库104中,以便于后续该数据处理系统100接收到数据查询请求时,可以直接在数据库104中实现快速地数据查询操作;具体实施时,该数据仓库102中的数据明细层可获取到应用程序在预设历史时间区间内的所有用户行为明细数据,并输入至数据仓库102的数据基础层,并利用数据基础层对用户行为明细数据进行聚合处理,完成对用户事件数据的汇总,得到hive表;同时,还可对用户事件数据进行压缩处理,进而,可将压缩处理后的用户事件数据存储至数据库104中。
综上,本实施例提供的数据处理方法,实现了通过对用户行为明细数据中的用户属性信息和事件属性信息进行聚合,获得聚合数据,实现了对用户行为明细数据的初步压缩;基于目标数据压缩结构对聚合数据进行格式转换,实现了对用户行为明细数据的进一步压缩,获得用户事件数据,缩小了用户行为明细数据占据的存储空间,不仅能够实现减少用户行为数据的存储空间,也可以通过查询压缩后的存储数据提升数据查询效率。
图2示出了根据本申请一实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤202:获取针对目标对象在预设历史时间区间内的用户行为明细数据。
为了可以满足数据分析需求,可以在接收到数据分析请求之前,实时采集和记录用户在使用应用程序过程中产生的明细数据,进而便于后续的数据分析;由于不同用户在使用应用程序的过程中会产生不同的明细数据,在用户数量较大的情况下,明细数据的数量较大,故可以获取在设置的时间区间内的明细数据用于后续的分析。
其中,目标对象是指输出用户行为明细数据的对象,例如,应用软件、网页等等;预设历史时间区间是指在历史段内预先设定的时间区间,例如,预设历史时间区间为2021年6月5日至6月6日;用户行为明细数据是指用户使用目标对象产生的数据,例如,用户在即时通信软件中使用聊天功能产生的数据、用户在购物网页中的浏览网页产生的数据等等。
在本申请一具体实施方式中,获取在预设历史时间区间2021年6月1日至6月7日购物应用的用户行为明细数据,在用户行为明细数据中包括用户1浏览购物页面的数据、用户2购买商品的订单数据等等。
通过获取针对目标对象在预设历史时间区间内的用户行为明细数据,便于后续对预设历史时间区间内的用户行为明细数据做进一步的处理。
步骤204:确定所述用户行为明细数据中的用户属性信息和事件属性信息。
在实际应用中,为了便于后续对用户行为明细数据做进一步地处理,可以确定用户行为明细数据中不同类型的信息。
其中,用户属性信息是指与用户对应的属性信息,例如,用户属性信息为用户属性信息包括用户设备信息、用户标识信息和用户等级信息中的至少一个;事件属性信息是指与事件类型对应的属性信息,例如,事件属性信息为事件类型信息、事件时间信息、事件状态信息中的至少一个。
具体的,确定所述用户行为明细数据中的用户属性信息和事件属性信息的方法可以包括:
确定所述用户行为明细数据中与用户标识对应的信息为用户属性信息;
确定所述用户行为明细数据中与事件类型对应的信息为事件属性信息。
其中,用户标识是指可唯一表示用户的字段,如,用户IP地址、用户编号等等;事件类型是指事件的类型,如,点击类型、浏览类型、埋点类型、曝光类型等等。
具体的,在用户行为明细数据中确定至少一个用户标识,基于每个用户标识在用户行为明细数据中确定与每个用户标识对应的用户属性信息;在用户行为明细数据中确定至少一个事件类型,并确定每个事件类型对应的事件属性信息。
在本申请一具体实施方式中,在用户行为明细数据中确定用户标识包含:用户编号1、用户编号2以及用户编号3;在用户行为明细数据中确定每个用户标识对应的用户属性信息,即分别获取用户编号1、用户编号2以及用户编号3对应的用户IP地址、用户设备信息和用户等级信息;确定用户行为明细数据中的事件类型包含浏览事件类型、点击事件类型和曝光事件类型;在用户行为明细数据中确定每个事件类型对应的事件属性信息,即分别获取浏览事件类型、点击事件类型和曝光事件类型对应的事件执行次数、事件执行时间和事件执行状态。
通过在用户行为明细数据中确定用户属性信息和事件属性信息,以便后续可以基于用户行为明细数据中不同类型的属性信息,对用户行为明细数据做进一步的处理。
步骤206:根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果。
在确定用户行为明细数据中不同类型的属性信息后,可以分别对不同类型的属性信息进行的处理,再对处理后的数据进行聚合,得到用户明细数据对应的聚合数据。
其中,聚合数据是指基于用户标识对用户属性信息和事件属性信息进行聚合得到的数据;事件统计结果是指通过对事件属性信息进行统计得到的统计结果。
在实际应用中,根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据的方法包括:
在所述用户行为明细数据中确定目标用户标识;
根据所述目标用户标识在所述用户行为明细数据中确定用户行为子数据;
对所述用户行为子数据中的用户属性信息执行去重处理,获得所述目标用户标识对应的用户属性信息;
根据所述目标用户标识对应的用户属性信息对所述用户行为子数据中的事件属性信息执行聚合处理,获得所述用户属性信息对应的聚合数据。
其中,目标用户标识是指在用户行为明细数据中确定的用户标识之一,例如,在用户行为明细数据中确定了用户标识1、用户标识2和用户标识3,则可以将用户标识1作为目标用户标识;用户行为子数据是指与目标用户标识对应的数据,例如,在用户行为明细数据中,根据目标用户标识1确定对应的用户行为明细数据作为用户行为子数据;去重处理是指将相同的多条数据合并为一条数据的数据处理方式,例如,数据1“用户a、设备类型b”和数据2“用户a、设备类型b”为两条相同的数据,则可以仅保留数据1或仅保留数据2从而完成对数据的去重处理;目标用户标识对应的用户属性信息是指执行去重处理后得到的用户属性信息。
具体的,在用户行为明细数据中确定目标用户标识;根据目标用户标识在用户行为明细数据中筛选与目标用户标识对应的用户行为明细数据作为用户行为子数据;确定每条用户行为子数据中的用户属性信息,并对用户属性信息进行去重处理,得到用户标识对应的用户属性信息;确定每条用户行为子数据中的事件属性信息,并根据用户属性信息对事件属性信息进行聚合处理,获得用户属性信息对应的聚合数据;可以将处理后的用户属性信息和事件属性信息以相同的数据结构进行聚合,如,均以map数据结构进行聚合,得到聚合数据。
在本申请一具体实施方式中,在用户行为明细数据中确定目标用户标识2;根据目标用户标识2在用户行为明细数据中确定对应的用户行为子数据1(用户ID:2、设备类型:e1、用户等级v1、事件类型:浏览、事件执行次数:3)和用户行为子数据2(用户ID:2、设备类型:e1、用户等级v1、事件类型:点击、事件执行次数:5);确定每条用户行为子数据中的用户属性信息,具体为确定用户行为子数据1中的用户属性信息“用户ID:2、设备类型:e1、用户等级v1”和用户行为子数据2中的用户属性信息“用户ID:2、设备类型:e1、用户等级v1”;对用户属性信息进行去重处理,得到目标用户标识2对应的用户属性信息“用户ID:2、设备类型:e1、用户等级v1”;根据用户属性信息对用户行为子数据1和用户行为子数据2中的事件属性信息进行合并,得到用户属性信息对应的聚合数据。
进一步地,根据所述目标用户标识对应的用户属性信息对所述用户行为子数据中的事件属性信息执行聚合处理,获得所述用户属性信息对应的聚合数据的方法包括:
在所述用户行为子数据中确定所述用户属性信息对应的目标用户行为子数据;
根据所述事件属性信息统计所述目标用户行为子数据中每个事件的执行次数,获得事件统计结果,其中,所述事件统计结果包括事件类型和事件类型对应的执行次数;
拼接所述用户属性信息和所述事件统计结果,获得所述用户属性信息对应的聚合数据。
其中,目标用户行为子数据是指用户行为子数据中的数据,根据用户属性信息进行确定,例如,根据用户属性信息“用户ID:5、设备类型:a1”在用户行为子数据中确定包含用户属性信息的目标用户行为子数据m和目标用户行为子数据n;每个事件的执行次数是指在目标用户行为子数据中每个事件的执行总次数。
具体的,在获得去重处理后的用户属性信息后,在用户行为子数据中筛选与用户属性信息对应的目标用户行为子数据;确定目标用户行为子数据中的事件属性信息,根据事件属性信息统计目标用户行为子数据中每个事件的执行次数,获得事件统计结果;对用户属性信息和事件统计结果进行拼接,得到用户属性信息对应的聚合数据;例如,可采用spark算法实现聚合数据的实时生成。
在本申请一具体实施方式中,确定用户属性信息“用户ID:23,用户设备类型:d1”对应的目标用户行为子数据m1(用户ID:23,用户设备类型:d1,事件类型:点击,事件次数:5,事件类型:浏览,事件次数:3)和目标用户行为子数据m2(用户ID:23,用户设备类型:d1,事件类型:点击,事件次数:7,事件类型:浏览,事件次数:6);确定目标用户行为子数据中的事件属性信息“事件类型:点击,事件次数:5,事件类型:浏览,事件次数:3”和“事件类型:点击,事件次数:7,事件类型:浏览,事件次数:6”,并根据事件属性信息统计目标用户行为子数据中浏览事件对应的总次数为9,点击事件对应的执行总次数为12,得到事件统计结果为“事件类型:点击,事件次数:12;事件类型:浏览,事件次数:9”;将用户属性信息和事件统计结果进行拼接,得到聚合数据为“用户ID:23,用户设备类型:d1,事件类型:点击,事件次数:12;事件类型:浏览,事件次数:9”。
通过根据用户标识对用户属性信息和事件属性信息进行聚合,得到聚合数据,实现了对用户行为明细数据的存储空间进行压缩的效果,避免相同数据的重复存储。
步骤208:基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
在获得用户行为明细数据对应的聚合数据后,可以对聚合数据做进一步的处理,从而实现对用户行为明细数据的进一步压缩。
其中,目标数据压缩结构是指可以实现对数据进行压缩的数据结果,例如,BitMap数据结构、RBM数据结构等;格式转换是指将聚合数据转换为与目标数据压缩结构对应的格式;用户事件数据是指基于目标数据压缩结构对聚合数据进行格式转换后,得到的数据。
实际应用中,基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户路径数据的方法可以包括:
基于目标数据压缩结构将所述聚合数据的用户属性信息中的用户标识进行格式转换,获得所述目标对象的用户事件数据。
具体的,确定聚合数据的用户属性信息中的用户标识;基于目标数据压缩结构对用户标识进行格式转换,得到目标数据压缩结构的用户标识;由目标数据压缩结构的用户标识以及用户属性信息除用户标识外的用户属性信息和事件属性信息,组成目标对象对应的用户事件数据。
在本申请一具体实施方式中,确定聚合数据K以及目标数据压缩结构BitMap;确定目标数据压缩结构BitMap对应的数据字典,并基于数据字典将聚合数据K中用户属性信息的用户标识转换为BitMap数据结构;由BitMap数据结构的用户标识和聚合数据K中除用户标识外的用户属性信息和事件属性信息,拼接为应用程序G在预设时间区间内对应的用户事件数据。
通过将聚合数据中的用户标识转换为目标数据压缩结构,再基于目标数据压缩结构的用户标识生成用户事件数据,实现了对聚合数据的进一步压缩,从而使得用户行为明细数据进一步缩小。
实际应用中,为了便于基于标签对数据进行分析,在基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户路径数据之后,还可以获取目标对象的标签数据,从而便于后续的数据分析,具体方法包括:
获取针对目标对象的用户标识以及所述用户标识对应的属性标签;
基于目标数据压缩结构对所述用户标识进行格式转换,基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据。
其中,属性标签是指与用户标识对应的标签字段,例如,用户A在注册应用程序H时选择的标签为“动漫”、“娱乐”,即用户A的属性标签为“动漫”、“娱乐”;用户标签数据是指由属性标签和转换后的用户标识组成的数据。
在本申请一具体实施方式中,获取应用程序J中的用户标识以及每个用户标识对应的属性标签,具体的,获取用户标识“s1”以及用户标识“s1”对应的属性标签“动画、电影、美食”;BitMap数据结构对应的数据字典,并基于数据字典将用户标识“s1”映射为BitMap数据结构;由用户标识“s1”对应的属性标签“动画、电影、美食”和BitMap数据结构的用户标识“s1”组成用户标签数据。
通过确定目标对象的用户标识,并获取用户标识对应的属性标签;对用户标识进行格式转换,并基于转换后的用户标识和属性标签生成用户标签数据,从而丰富了用于数据分析的数据。
实际应用中,基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据之后,还包括:
将所述目标对象的用户事件数据存储至数据库;
相应地,所述基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据之后,还包括:
将所述目标对象的用户标签数据存储至数据库。
其中,数据库是指可以存储目标数据压缩结构的数据库,例如,ClickHouse数据库;具体的,在数据库为ClickHouse数据库的情况下,可以基于ClickHouse物化视图对为ClickHouse数据库中执行的数据查询结果进行存储,从而提升数据查询效率。
通过将压缩得到的用户标签数据和用户事件数据代替用户明细数据存储至数据库,节省了数据库存储空间,由于数据量的减少,进而提升了后续的数据分析效率。
具体的,将所述目标对象的用户事件数据存储至数据库之后,还包括:
接收针对目标对象的用户事件数据查询请求,其中,所述用户事件数据查询请求中携带有基础配置查询条件;
基于所述基础配置查询条件在所述数据库中的用户事件数据中,查询对应的用户事件数据,其中,所述基础配置查询条件包括事件时间条件、埋点事件条件、用户设备条件的至少一项;
基于所述用户事件数据生成用户事件统计图,并将所述用户事件统计图发送至所述目标对象的用户事件统计图展示界面。
其中,用户事件数据查询请求是指在数据库中查询符合查询条件的用户事件数据的请求;基础配置查询条件是指在数据库中查询用户事件数据的条件,基础配置查询条件包括事件时间条件、埋点事件条件、用户设备条件中的至少一项;用户事件统计图是指对用户事件数据进行处理得到统计图,实际应用中,用户事件统计图可以是折线图、表格等便于用户查看的统计图形式。
实际应用中,接收到针对目标对象的用户事件数据查询请求后,确定用户事件数据查询请求中的基础配置查询条件;根据基础配置查询条件在数据库的用户事件数据中筛选符合基础配置查询条件的用户事件数据,例如,在ClickHouse数据库中使用高阶函数进行数据查询;基于用户事件统计图对应的统计图生成方式,并根据符合基础配置查询条件的用户事件数据和统计图生成方式生成用户事件统计图;生成的用户事件统计图可以发送至目标对象的用户事件统计图展示界面,如,电脑设备的屏幕,由用户事件统计图展示界面对用户事件统计图进行展示。
进一步地,在基于所述用户事件数据生成用户事件统计图之前,需要基于自定义函数对用户事件数据解码,得到用于生成用户事件统计图的数据,其中,自定义函数可以是spark-udf、ClickHouse-udf等。
在本申请一具体实施方式中,服务器接收埋点事件条件为“播放页面浏览”的用户事件数据查询请求;基于埋点事件条件在数据库的用户事件数据中查询与埋点事件条件对应的目标用户事件数据;基于目标用户事件数据和折线图生成方法生成折线统计图,并将折线统计图发送至用户事件统计图展示界面。
通过基于基础配置查询条件在数据库的用户事件数据中查询数据,由于数据库中存储为压缩得到的用户事件数据,数据数量相较于用户行为明细数据较少,故可以提升查询请求的处理效率。
具体的,将所述目标对象的用户标签数据存储至数据库之后,还包括:
接收针对目标对象的用户事件数据查询请求,其中,所述用户事件数据查询请求携带有基础配置查询条件以及标签数据查询条件;
基于所述基础配置查询条件从数据库的用户事件数据中,确定待处理用户事件数据,以及基于所述标签数据查询条件从数据库的用户标签数据中,确定待处理用户标签数据;
根据预设数据处理方式,对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据;
基于所述标签用户事件数据生成标签用户事件统计图,并将所述标签用户事件统计图发送至所述目标对象的用户事件统计图展示界面。
其中,用户事件数据查询请求是指在数据库中查询符合查询条件的用户事件数据与用户标签数据的请求;标签数据查询条件是指在数据库中查询用户标签数据的条件,比如,可在应用程序的前端界面中的标签查询条件框中输入相应的标签数据,90后、女生、动漫、娱乐。
实际应用中,数据库在接收到针对某一应用程序的用户事件数据查询请求之后,该查询请求中携带有基础配置查询条件以及标签数据查询条件;进而,根据基础配置查询条件从数据库的用户事件数据中,确定出待处理用户事件数据,其中,待处理用户事件数据为根据基础配置查询条件在数据库中筛选出的用户事件数据,便于后续对该待处理用户事件数据进行交并计算处理;再根据标签数据查询条件从数据库的用户标签数据中,确定出待处理用户标签数据,便于后续对该待处理用户标签数据进行交并计算处理;需要说明的是,存储在数据库的用户事件数据以及用户标签数据,由于其用户标识已经转换为RBM存储结构,因此,后续可根据预设数据处理方式,对待处理用户事件数据以及待处理用户标签数据进行处理,以获得标签用户事件数据,进而,根据该标签用户事件数据生成标签用户事件统计图,再将该标签用户事件统计图发送至应用程序的用户事件统计图展示界面。
参见图3,图3示出了本申请实施例提供的标签用户事件统计图的展示界面示意图。
图3中的埋点事件选择的部分可以理解为基础配置查询条件以及标签数据查询条件的输入、选择框,用户在确定了查询条件之后,即可点击图3界面中的“查询”按钮,进而可为用户展示图3中下半部分的用户事件统计图,其中,该用户事件统计图可以理解为根据上述查询条件,在数据库中查询的用户事件统计图,便于后续直接根据该用户事件统计图为相关人员提供数据分析的基础。另外,上述两个查询条件还可通过点击“保存”按钮进行存储,便于后续可快速地查询到相应的查询条件。
进一步地,根据预设数据处理方式,对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据,包括:
确定所述基础配置查询条件以及所述标签数据查询条件之间的关联关系,基于所述关联关系确定预设数据处理方式;
基于所述预设数据处理方式对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据。
其中,预设数据处理方式是指根据两个查询条件确定的数据相互计算的方式,比如交计算、并计算等。
实际应用中,可确定基础配置查询条件与标签数据查询条件之间的关联关系,确定这两个条件所筛选出的数据所执行的处理方式,即数据集合的交计算方式或者并计算方式。进而,根据确定的预设数据处理方式对待处理用户事件数据以及待处理用户标签数据进行交计算或者并计算等,以获得标签用户事件数据。
此外,在获得数据查询结果后,可以将数据查询结果存储至数据库中,例如,利用ClickHouse物化视图技术将查询结果存储至数据库。
综上,本申请实施例提供的数据处理方法,通过将大量的用户行为明细数据进行处理,获得RBM数据结构的数据,在数据库中预先存储,既能压缩存储减少内存空间,又能提升数据查询效率;同时,将用户行为数据与用户标签数据进行融合,有助于后续根据查询标签数据以确定标签对应的人群的用户路径数据,进而实现精准地人群圈选。
下述结合附图4,以本申请提供的数据处理方法在视频播放应用程序的应用为例,对所述数据处理方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种应用于视频播放应用程序的数据处理方法的处理流程图,具体包括以下步骤:
步骤402:获取针对视频播放应用程序在预设历史时间区间内的用户行为明细数据。
具体的,如图5所示,图5为本申请的数据处理方法示意图,图5中数据仓库的DWD层(数据明细层)采集视频播放应用程序,在预设历史时间区间内的用户行为明细数据。
步骤404:确定用户行为明细数据中与用户标识对应的信息为用户属性信息,以及确定用户行为明细数据中与事件类型对应的信息为事件属性信息。
步骤406:对用户属性信息执行去重处理,获得用户标识对应的用户属性信息。
步骤408:根据事件属性信息统计每个事件的执行次数,获得事件统计结果。
步骤410:拼接用户属性信息和事件统计结果,获得用户属性信息对应的聚合数据。
步骤412:基于目标数据压缩结构将聚合数据的用户属性信息中的用户标识进行格式转换,获得视频播放应用程序的用户事件数据。
具体的,如图5所示,数据仓库的DWD层(数据明细层)将用户行为明细数据传输至DWB层(基础数据层),由DWB层(基础数据层)执行步骤404至步骤412的内容。
步骤414:获取视频播放应用程序中的用户标识以及用户标识对应的属性标签。
步骤416:基于目标数据压缩结构对用户标识进行格式转换,基于转换后的用户标识以及属性标签,确定视频播放应用程序的用户标签数据。
步骤418:将视频播放应用程序的用户事件数据和用户标签数据存储至数据库。
具体的,如图5所示,将上述生成的视频播放应用程序的用户事件数据,以及视频播放应用程序的用户标签数据存储至数据库。
本申请的数据处理方法,获取针对目标对象在预设历史时间区间内的用户行为明细数据;确定所述用户行为明细数据中的用户属性信息和事件属性信息;根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。通过对用户行为明细数据中的用户属性信息和事件属性信息进行聚合,并将聚合数据转换为用户事件数据,缩小用户行为明细数据占据的存储空间,进而提升了存储效率,节省存储空间。
与上述方法实施例相对应,本申请还提供了数据处理装置实施例,图6示出了本申请一实施例提供的一种数据处理装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;
确定模块604,被配置为确定所述用户行为明细数据中的用户属性信息和事件属性信息;
聚合模块606,被配置为根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;
转换模块608,被配置为基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
可选地,所述聚合模块606,进一步被配置为:
在所述用户行为明细数据中确定目标用户标识;
根据所述目标用户标识在所述用户行为明细数据中确定用户行为子数据;
对所述用户行为子数据中的用户属性信息执行去重处理,获得所述目标用户标识对应的用户属性信息;
根据所述目标用户标识对应的用户属性信息对所述用户行为子数据中的事件属性信息执行聚合处理,获得所述用户属性信息对应的聚合数据。
可选地,所述聚合模块606,进一步被配置为:
在所述用户行为子数据中确定所述用户属性信息对应的目标用户行为子数据;
根据所述事件属性信息统计所述目标用户行为子数据中每个事件的执行次数,获得事件统计结果,其中,所述事件统计结果包括事件类型和事件类型对应的执行次数;
拼接所述用户属性信息和所述事件统计结果,获得所述用户属性信息对应的聚合数据。
可选地,所述确定模块604,进一步被配置为:
确定所述用户行为明细数据中与用户标识对应的信息为用户属性信息;
确定所述用户行为明细数据中与事件类型对应的信息为事件属性信息。
可选地,所述转换模块608,进一步被配置为:
基于目标数据压缩结构将所述聚合数据的用户属性信息中的用户标识进行格式转换,获得所述目标对象的用户事件数据。
可选地,所述装置还包括,转换子模块,被配置为:
获取针对目标对象的用户标识以及所述用户标识对应的属性标签;
基于目标数据压缩结构对所述用户标识进行格式转换,基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据。
可选地,所述装置还包括,存储模块,被配置为:
将所述目标对象的用户事件数据存储至数据库;
相应地,所述基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据之后,还包括:
将所述目标对象的用户标签数据存储至数据库。
可选地,所述装置还包括,第一查询模块,被配置为:
接收针对目标对象的用户事件数据查询请求,其中,所述用户事件数据查询请求中携带有基础配置查询条件;
基于所述基础配置查询条件在所述数据库中的用户事件数据中,查询对应的用户事件数据,其中,所述基础配置查询条件包括事件时间条件、埋点事件条件、用户设备条件的至少一项;
基于所述用户事件数据生成用户事件统计图,并将所述用户事件统计图发送至所述目标对象的用户事件统计图展示界面。
可选地,所述装置还包括,第二查询模块,被配置为:
接收针对目标对象的用户事件数据查询请求,其中,所述用户事件数据查询请求携带有基础配置查询条件以及标签数据查询条件;
基于所述基础配置查询条件从数据库的用户事件数据中,确定待处理用户事件数据,以及基于所述标签数据查询条件从数据库的用户标签数据中,确定待处理用户标签数据;
根据预设数据处理方式,对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据;
基于所述标签用户事件数据生成标签用户事件统计图,并将所述标签用户事件统计图发送至所述目标对象的用户事件统计图展示界面。
可选地,所述第二查询模块,进一步被配置为:
确定所述基础配置查询条件以及所述标签数据查询条件之间的关联关系,基于所述关联关系确定预设数据处理方式;
基于所述预设数据处理方式对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据。
可选地,所述用户属性信息包括用户设备信息、用户标识信息和用户等级信息中的至少一个;所述事件属性信息包括事件类型信息、事件时间信息和事件状态信息中的至少一个。
本申请提供的数据处理装置,获取模块,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;确定模块,被配置为确定所述用户行为明细数据中的用户属性信息和事件属性信息;聚合模块,被配置为根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;转换模块,被配置为基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。通过对用户行为明细数据中的用户属性信息和事件属性信息进行聚合,并将聚合数据转换为用户事件数据,缩小用户行为明细数据占据的存储空间,进而提升了存储效率,节省存储空间。
上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理法的技术方案的描述。
图7示出了根据本申请一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720执行所述计算机指令时实现所述的数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取针对目标对象在预设历史时间区间内的用户行为明细数据;
确定所述用户行为明细数据中的用户属性信息和事件属性信息;
根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;
基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
2.如权利要求1所述的方法,其特征在于,根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,包括:
在所述用户行为明细数据中确定目标用户标识;
根据所述目标用户标识在所述用户行为明细数据中确定用户行为子数据;
对所述用户行为子数据中的用户属性信息执行去重处理,获得所述目标用户标识对应的用户属性信息;
根据所述目标用户标识对应的用户属性信息对所述用户行为子数据中的事件属性信息执行聚合处理,获得所述用户属性信息对应的聚合数据。
3.如权利要求2所述的方法,其特征在于,根据所述目标用户标识对应的用户属性信息对所述用户行为子数据中的事件属性信息执行聚合处理,获得所述用户属性信息对应的聚合数据,包括:
在所述用户行为子数据中确定所述用户属性信息对应的目标用户行为子数据;
根据所述事件属性信息统计所述目标用户行为子数据中每个事件的执行次数,获得事件统计结果,其中,所述事件统计结果包括事件类型和事件类型对应的执行次数;
拼接所述用户属性信息和所述事件统计结果,获得所述用户属性信息对应的聚合数据。
4.如权利要求1所述的方法,其特征在于,确定所述用户行为明细数据中的用户属性信息和事件属性信息,包括:
确定所述用户行为明细数据中与用户标识对应的信息为用户属性信息;
确定所述用户行为明细数据中与事件类型对应的信息为事件属性信息。
5.如权利要求1所述的方法,其特征在于,基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户路径数据,包括:
基于目标数据压缩结构将所述聚合数据的用户属性信息中的用户标识进行格式转换,获得所述目标对象的用户事件数据。
6.如权利要求1所述的方法,其特征在于,基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户路径数据之后,还包括:
获取针对目标对象的用户标识以及所述用户标识对应的属性标签;
基于目标数据压缩结构对所述用户标识进行格式转换,基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据。
7.如权利要求6所述的方法,其特征在于,基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据之后,还包括:
将所述目标对象的用户事件数据存储至数据库;
相应地,所述基于转换后的用户标识以及所述属性标签,确定所述目标对象的用户标签数据之后,还包括:
将所述目标对象的用户标签数据存储至数据库。
8.根据权利要求7所述的方法,其特征在于,将所述目标对象的用户事件数据存储至数据库之后,还包括:
接收针对目标对象的用户事件数据查询请求,其中,所述用户事件数据查询请求中携带有基础配置查询条件;
基于所述基础配置查询条件在所述数据库中的用户事件数据中,查询对应的用户事件数据,其中,所述基础配置查询条件包括事件时间条件、埋点事件条件、用户设备条件的至少一项;
基于所述用户事件数据生成用户事件统计图,并将所述用户事件统计图发送至所述目标对象的用户事件统计图展示界面。
9.根据权利要求7所述的方法,其特征在于,将所述目标对象的用户标签数据存储至数据库之后,还包括:
接收针对目标对象的用户事件数据查询请求,其中,所述用户事件数据查询请求携带有基础配置查询条件以及标签数据查询条件;
基于所述基础配置查询条件从数据库的用户事件数据中,确定待处理用户事件数据,以及基于所述标签数据查询条件从数据库的用户标签数据中,确定待处理用户标签数据;
根据预设数据处理方式,对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据;
基于所述标签用户事件数据生成标签用户事件统计图,并将所述标签用户事件统计图发送至所述目标对象的用户事件统计图展示界面。
10.根据权利要求9所述的方法,其特征在于,根据预设数据处理方式,对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据,包括:
确定所述基础配置查询条件以及所述标签数据查询条件之间的关联关系,基于所述关联关系确定预设数据处理方式;
基于所述预设数据处理方式对所述待处理用户事件数据以及所述待处理用户标签数据进行处理,获得标签用户事件数据。
11.如权利要求1所述的方法,其特征在于,所述用户属性信息包括用户设备信息、用户标识信息和用户等级信息中的至少一个;所述事件属性信息包括事件类型信息、事件时间信息和事件状态信息中的至少一个。
12.一种数据处理装置,其特征在于,包括:
获取模块,被配置为获取针对目标对象在预设历史时间区间内的用户行为明细数据;
确定模块,被配置为确定所述用户行为明细数据中的用户属性信息和事件属性信息;
聚合模块,被配置为根据所述用户行为明细数据中的用户标识对所述用户属性信息和所述事件属性信息进行聚合,获得聚合数据,其中,所述聚合数据包括用户属性信息和事件统计结果;
转换模块,被配置为基于目标数据压缩结构对所述聚合数据进行格式转换,获得所述目标对象的用户事件数据。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-11任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-11任意一项所述方法的步骤。
CN202210760241.0A 2022-06-30 2022-06-30 数据处理方法及装置 Pending CN115048059A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210760241.0A CN115048059A (zh) 2022-06-30 2022-06-30 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210760241.0A CN115048059A (zh) 2022-06-30 2022-06-30 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN115048059A true CN115048059A (zh) 2022-09-13

Family

ID=83166220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210760241.0A Pending CN115048059A (zh) 2022-06-30 2022-06-30 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN115048059A (zh)

Similar Documents

Publication Publication Date Title
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
CN110362544B (zh) 日志处理系统、日志处理方法、终端及存储介质
CN111475509A (zh) 一种基于大数据的用户画像和多维分析系统
CN110674228A (zh) 数据仓库模型构建和数据查询方法、装置及设备
US8943087B2 (en) Processing data from diverse databases
CN110647512A (zh) 一种数据存储和分析方法、装置、设备和可读介质
CN113609374A (zh) 基于内容推送的数据处理方法、装置、设备及存储介质
CN108765052A (zh) 电商推荐/推送方法及装置、存储介质及计算设备
CN108133058B (zh) 一种视频检索方法
CN104077415A (zh) 搜索方法及装置
CN105843842A (zh) 一种大数据环境下多维聚集查询与展示系统及方法
US20140337274A1 (en) System and method for analyzing big data in a network environment
CN115269877A (zh) 领域实体与事件双中心知识图谱构建方法、系统及设备
CN116049153B (zh) 数据库的数据处理方法、装置、电子设备及存储介质
CN113032420A (zh) 数据查询方法、装置和服务器
Gaurav et al. An outline on big data and big data analytics
CN115098029A (zh) 数据处理方法及装置
CN115809311B (zh) 知识图谱的数据处理方法、装置及计算机设备
CN112100177A (zh) 数据存储方法、装置、计算机设备及存储介质
CN116506498A (zh) 一种基于云计算的数据精准推送方法
CN115048059A (zh) 数据处理方法及装置
CN115757975A (zh) 一种基于大数据的视听信息分析系统
CN115563394A (zh) 搜索召回方法、召回模型训练方法、装置和计算机设备
WO2008055202A2 (en) System and method for distributing queries to a group of databases and expediting data access
CN114817344A (zh) 一种数据获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination