CN112417281A - 数据分析方法、装置及设备 - Google Patents
数据分析方法、装置及设备 Download PDFInfo
- Publication number
- CN112417281A CN112417281A CN202011309541.4A CN202011309541A CN112417281A CN 112417281 A CN112417281 A CN 112417281A CN 202011309541 A CN202011309541 A CN 202011309541A CN 112417281 A CN112417281 A CN 112417281A
- Authority
- CN
- China
- Prior art keywords
- user
- target
- event
- information
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 6
- 238000012550 audit Methods 0.000 description 17
- 230000008859 change Effects 0.000 description 12
- 238000007726 management method Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 101150009448 CPQ gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2358—Change logging, detection, and notification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据分析方法、装置及设备,该方法包括:获取记录目标事件的历史事件信息;历史事件信息包括与目标事件相关的用户和所记录的目标事件的状态信息;根据历史事件信息,获得用户信息表和事件记录表;用户信息表用于记录相对应状态信息为目标状态的第一目标用户,事件记录表用于记录第一目标用户的目标事件;在读取到根据用户执行目标事件记录的采集数据后,确定采集数据中的目标事件的状态信息为目标状态且未在用户信息表中记录的第二目标用户;将第二目标用户添加至用户信息表,以及根据采集数据,将第二目标用户的目标事件写入至事件记录表中。采用该方法,能够解决针对内容属性变化活跃的数据,无法提供准确数据分析结果的问题。
Description
技术领域
本发明涉及数据处理技术领域,尤其是指一种数据分析方法、装置及设备。
背景技术
目前,网络数据的批量分析处理是各应用场景必不可少的技术。例如,对于画屏应用程序App,分析的事件主要是用户上传公开作品,其中内容生产者指的是某统计期间内已"通过审核,状态正常"的公开作品的用户,而内容生产者又分为专业生产内容的注册用户PGCP(Professional Generated Content Producer),如艺术机构、艺术家,以及非专业生产内容的注册用户UGCP(User Generated Content Producer)。
作品的状态是会发生改变的,如:从"通过审核,状态正常"转变为"不通过"、"审核中",因此内容生产者可能会变成非生产者;此外,用户的状态也可能发生改变,如:从普通用户升级为艺术家,或者从艺术机构变为普通用户等,即生产者还可能从PGCP变UGCP或从UGCP变为PGCP,该些特性给统计分析增加了难度。
采用通常的数据库管理系统,通常无法满足内容属性会随着状态改变而改变的要求,因此针对内容属性的多次变化,无法提供准确的数据分析结果。
发明内容
本发明实施例提供了一种数据分析方法、装置及设备,用于解决现有的数据分析方法,针对内容属性变化活跃的数据,无法提供准确的数据分析结果的问题。
本发明实施例提供一种数据分析方法,其中,包括:
获取记录目标事件的历史事件信息;所述历史事件信息包括与所述目标事件相关的用户和所记录的所述目标事件的状态信息;
根据所述历史事件信息,获得用户信息表和事件记录表;其中,所述用户信息表用于记录相对应所述状态信息为目标状态的第一目标用户,所述事件记录表用于记录所述第一目标用户的目标事件;
在读取到根据用户执行所述目标事件记录的采集数据后,确定所述采集数据中的目标事件的状态信息为目标状态且为未在所述用户信息表中记录的第二目标用户;
将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中。
可选地,所述的数据分析方法,其中,根据所述历史事件信息,获得用户信息表,包括:
选择出所述历史事件信息中的所述状态信息为目标状态的目标事件;
将所选择出的目标事件相对应的第一目标用户的用户标识,记录为用户标识字段,获得记录所述第一目标用户的用户信息表。
可选地,所述的数据分析方法,其中,所述方法还包括:
根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性;
将所述第一目标用户的属性,记录为属性字段,写入所述用户信息表中。
可选地,所述的数据分析方法,其中,所述属性包括用户类型和事件产品类型;
其中,根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性,包括:
根据所述属性表,获得所述第一目标用户的用户类型;
根据所述用户类型,确定所述事件产品类型;
根据所述事件产品类型,生成所述属性字段。
可选地,所述的数据分析方法,其中,根据所述历史事件信息,获得事件记录表,包括:
将所述第一目标用户的用户标识与所述历史事件信息中的目标事件相关联,获得与所述第一目标用户相对应的目标事件;
记录所述第一目标用户相对应的目标事件,获得所述事件记录表。
可选地,所述的数据分析方法,其中,确定所述采集数据中的目标事件的状态信息为目标状态且未在所述用户信息表中记录的第二目标用户,包括:
选择所述采集数据中的状态信息为目标状态的目标事件;
将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,在所述用户信息表中不存在相关联用户时,确定相对应的用户为所述第二目标用户。
可选地,所述的数据分析方法,其中,在所述用户信息表中用户标识字段和用户类型字段时,将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,包括:
将相对应用户的用户标识字段和用户类型字段分别与用户信息表相关联,若所述用户信息表中不存在与所述用户标识字段和所述用户类型标识字段相关联的用户,则确定相对应的用户为所述第二目标用户。
可选地,所述的数据分析方法,其中,所述方法还包括:
在将所述第二目标用户的目标事件写入至所述事件记录表时,增加第一次记录字段,所述第一次记录字段在所述事件记录表中与所述第二目标用户相关联记录。
可选地,所述的数据分析方法,其中,所述方法还包括:
获取在所述事件记录表中进行目标条件查询的查询信息;
根据所述查询信息,在所述事件记录表中查找最后一次记录的状态信息为符合所述目标条件的第三目标用户。
本发明实施例还提供一种数据分析装置,其中,包括:
第一信息获取模块,用于获取记录目标事件的历史事件信息;所述历史事件信息包括与所述目标事件相关的用户和所记录的所述目标事件的状态信息;
第二信息获取模块,用于根据所述历史事件信息,获得用户信息表和事件记录表;其中,所述用户信息表用于记录所述状态信息为目标状态的第一目标用户,所述事件记录表用于记录所述第一目标用户的目标事件;
第一处理模块,用于在读取到根据用户执行所述目标事件记录的采集数据后,确定所述采集数据中的目标事件的状态信息为目标状态且为未在所述用户信息表中记录的第二目标用户;
第二处理模块,用于将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中。
本发明实施例还提供一种处理设备,其中,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述的数据分析方法。
本发明实施例还提供一种可读存储介质,其中,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上任一项所述的数据分析方法中的步骤。
本发明具体实施例上述技术方案中的至少一个具有以下有益效果:
采用本发明实施例所述方法,基于历史数据信息初始化生成的用户信息表和事件记录表,在后续批量处理关于该目标事件的采集数据后,从该采集数据中筛选目标事件的相对应状态信息为目标状态的用户,根据所筛选出的用户和该用户相相对应的目标事件,能够维护用户信息表和事件记录表,该方法适用于对应目标事件的状态信息变化活跃的数据分析场景中,对应用户关于目标事件的状态信息频繁变化,根据所维护的用户信息表和事件记录表,能够准确地分析出对应该目标事件的状态信息首次成为目标状态的用户,解决针对内容属性变化活跃的数据,无法提供准确的数据分析结果的问题。
附图说明
为了更清楚地说明本发明文本实施例或相关技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明文本的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所述数据分析方法的流程示意图;
图2为本发明实施例所述方法的部分执行过程的流程示意图;
图3为本发明实施例方法的另一部分执行过程的流程示意图;
图4为本发明实施例所述数据分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有的数据分析方法,对于内容属性变化活跃的数据,无法提供准确的数据分析结果的问题,本发明实施例提供一种数据分析方法,如图1所示,所述方法包括:
S110,获取记录目标事件的历史事件信息;所述历史事件信息包括与所述目标事件相关的用户和所记录的所述目标事件的状态信息;
S120,根据所述历史事件信息,获得用户信息表和事件记录表;其中,所述用户信息表用于记录相对应所述状态信息为目标状态的第一目标用户,所述事件记录表用于记录所述第一目标用户的目标事件;
S130,在读取到根据用户执行所述目标事件记录的采集数据后,确定所述采集数据中的目标事件的状态信息为目标状态且为未在所述用户信息表中记录的第二目标用户;
S140,将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中。
采用该数据分析方法,将目标事件的历史数据与用户相关联,获得历史事件信息,历史事件信息包括与目标事件相关的用户和所记录目标事件的状态信息,该历史事件信息也即为初始化内容事件表;基于该历史事件信息,以用户为维度,抽取出对应该目标事件的状态信息为目标状态的第一目标用户,作为初始化的目标事件生成的生产者表,也即为生成用户信息表;以及抽取出与该第一目标用户相应的目标事件,生成事件记录表,用于记录与该第一目标用户相对应的目标事件。在此基础上,在读取到目标事件的采集数据后,可以通过批量处理该采集数据,筛选出对应该目标事件首次触发为目标状态的第二目标用户,并将该第二目标用户加入至用户信息表中,同时将第二目标事件加入至事件记录表中。
采用上述实施方式,基于历史数据信息初始化生成的用户信息表和事件记录表,在后续批量处理关于该目标事件的采集数据后,从该采集数据中筛选目标事件的相对应状态信息为目标状态的用户,根据所筛选出的用户和该用户相相对应的目标事件,能够维护用户信息表和事件记录表,该方法适用于对应目标事件的状态信息变化活跃的数据分析场景中,对应用户关于目标事件的状态信息频繁变化,根据所维护的用户信息表和事件记录表,能够准确地分析出对应该目标事件的状态信息首次成为目标状态的用户。
本发明实施例中,可选地,该数据分析方法可以应用于公开作品上传后的审核状态统计,能够统计出所上传作品的审核状态首次转换为“通过审核,状态正常”的用户,并获得相应用户上传的作品。
需要说明的是,对于用户上传公开作品,通常将“统计期间内已"通过审核,状态正常"的公开作品的用户”称之为内容生产者。对于内容生产者,又被划分为:专业生产内容的注册用户(Professional Generated Content Producer,PGCP),如为艺术机构或艺术家等;以及,非专业生产内容的注册用户(User Generated Content Producer,UGCP)。
其中,所上传作品的状态是会发生改变的,如:从"通过审核,状态正常”转变为“不通过”或“审核中”,所以内容生产者也可能会转变成为非生产者。因此,用户的状态属性也可能发生改变,如:从普通用户升级为艺术家,或者从艺术机构变为普通用户等,即生产者还可能从PGCP转变为UGCP,或者从UGCP转变为PGCP。
所述数据分析方法以应用于上述场景为例,本发明实施例中,可选地,目标事件可以为作品上传事件,其中一实施方式,目标事件的状态信息可以为上传之后的状态,其中目标状态为“通过审核,状态正常"的状态;可选地,另一实施方式,目标事件的状态信息还可以包括所上传作品对应用户的用户状态属性。
针对上述的生产者属性会随着事件的状态信息改变而改变的复杂性,本发明提供一种能够准确地计算出累计、新增和活跃的内容生产者等相关指标的数据分析方式,也即能够准确地分析出目标事件的状态信息属于目标状态的用户。
具体地,通过维护目标事件的状态信息转换为目标状态的用户信息表和对应的事件记录表,以便于后续的查询能够确定相应用户在预设时间段内的最后一条数据作为用户的属性用于指标计算。
本发明实施例所述数据分析方法,可选地,可以适用于数据分析处理的列式数据库管理系统,如为Clickhouse。该数据库管理系统适合于读多于写、大量行少量列、数据批量写入、无需更新等对数据一致性要求没那高的场景。然而,对于Clickhouse数据库管理系统,所存在缺陷为:不支持事务操作、不支持升级操作;大数据量添加时,性能下降。采用本发明实施例所述数据分析方法,能够保证Clickhouse数据库管理系统在查询速度方面的优势,并避免上述所存在缺陷,提供一种能够准确进行累计、新增和活跃内容生产者等相关指标的数据分析方式,实现即使用户内容生产者属性中间经过多少次变化,也能提供准确的数据分析的效果。
以下以利用Clickhouse数据库管理系统,应用于用户上传公开作品的数据分析为例,对本发明实施例所述数据分析方法的具体实施方式进行详细说明。
可选地,在步骤S110,所获取的目标事件的历史事件信息,可以为多个用户上传的作品表,该作品表中包括多个用户分别上传的公开作品,以及所对应上传作品上传后的状态。
其中,在步骤S120,根据所述历史事件信息,获得用户信息表,包括:
选择出所述历史事件信息中的所述状态信息为目标状态的目标事件;
将所选择出的目标事件相对应的第一目标用户的用户标识,记录为用户标识字段,获得记录所述第一目标用户的用户信息表。
可选地,状态信息为公开作品的上传后状态,目标状态为“通过审核,状态正常”,也即根据历史事件信息,如为作品表,筛选出所有“通过审核,状态正常"的公开作品。
也即,用户信息表为记录所选择出的上传的公开作品的状态为“通过审核,状态正常”的第一目标用户。
可选地,所述方法还包括:
根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性;
将所述第一目标用户的属性,记录为属性字段,写入所述用户信息表中。
可选地,所述属性包括用户类型和事件产品类型;
其中,根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性,包括:
根据所述属性表,获得所述第一目标用户的用户类型;
根据所述用户类型,确定所述事件产品类型;
根据所述事件产品类型,生成所述属性字段。
在目标事件为用户上传公开作品时,用户类型可以标记为user_type,如可以包括艺术机构、艺术家或普通用户等;
事件产品类型可以标记为productor_type,用于区分专业生产内容的注册用户PGCP、非专业生产内容的注册用户UGCP还是普通用户。
具体地,根据第一目标用户相关联的属性表,获得所述第一目标用户的属性的具体过程为:
以作品表中的用户id关联用户的属性(用户类型),获取user_type(;
根据user_type内容判断该用户是PGCP、UGCP还是普通用户,生成标识字段productor_type(也即为用于标识事件产品类型的字段)。
根据以上,将所述第一目标用户的属性,记录为属性字段,写入所述用户信息表中,包括:
将所生成的事件产品类型的字段信息插入用户信息表中,用户信息表初始化完成。
以所生成的用户信息表记录为productor_info为例,具体地,将所生成的标识字段productor_type插入Clickhouse中对应的productor_info表中,内容生产者表初始化完成。
本发明实施例中,可选地,根据所述历史事件信息,获得事件记录表,包括:
将所述第一目标用户的用户标识与所述历史事件信息中的目标事件相关联,获得与所述第一目标用户相对应的目标事件;
记录所述第一目标用户相对应的目标事件,获得所述事件记录表。
可选地,可以将事件记录表记录为product_event表,将用户信息表中的第一目标用户的用户标识与历史事件信息中的目标事件相关联,可选地,在用户信息表中记录有属性字段时,将用户标识与历史事件信息相关联时,可以将历史事件信息按照用户标识关联用户信息表中的属性字段,获得相应的目标事件,也即上传作品的全量历史作品表,插入到Clickhouse中对应的product_event表中,获得初始化完成的事件记录表。
根据以上,以利用Clickhouse数据库管理系统,应用于用户上传公开作品的数据分析为例,根据所述历史事件信息,获得用户信息表和事件记录表的过程可以为如图2所示,包括:
复制历史作品集,也即复制历史事件信息;
筛选审核通过的公开作品,也即筛选出目标状态为“通过审核,状态正常”的公开作品,确定出公开作品为审核通过的第一目标用户;
关联用户属性表增加用户类别字段user_type,也即根据属性表确定与第一目标用户的用户类型字段,写入用户信息表;
根据user_type内容确定生产者类别productor_type,也即确定事件产品类型;
将上述得到的第一目标用户的用户标识、用户类别字段user_type和生产者类别productor_type插入至Clickhouse中对应的productor_info表中,获得初始化内容生产者表productor_info表,也即获得初始化的用户信息表;
在根据user_type内容确定生产者类别productor_type后,获得初始化内容生产者表productor_info表的同时,关联原始的历史事件信息;
历史事件信息按照用户标识与上述用户类别字段user_type和生产者类别productor_type相关联,获得全量历史作品表,插入至Clickhouse中对应的product_event表中,内容事件表(也即事件记录表)初始化完成。
本发明实施例中,结合图1,在步骤S130,确定所述采集数据中的目标事件的状态信息为目标状态且未在所述用户信息表中记录的第二目标用户,包括:
选择所述采集数据中的状态信息为目标状态的目标事件;
将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,在所述用户信息表中不存在相关联用户时,确定相对应的用户为所述第二目标用户。
需要说明的是,目标事件的采集数据也即为目标事件的埋点数据,如为上传公开作品时的埋点数据。
通过上述的过程,维护首次成为内容生产者的用户,读取埋点数据,在用户信息表中筛选出"通过审核,状态正常"的公开作品数据。
可选地,在所述用户信息表中用户标识字段和用户类型字段时,将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,包括:
将相对应用户的用户标识字段和用户类型字段分别与用户信息表相关联,若所述用户信息表中不存在与所述用户标识字段和所述用户类型标识字段相关联的用户,则确定相对应的用户为所述第二目标用户。
例如,以用户类型字段包括user_type为例,将用户标识字段和user_type两个字段关联productor_info(也即对应的用户信息表),找出关联不上的用户,即为首次成为PGCP或UGCP的用户(第二目标用户),将该些用户插入到productor_info表中。
进一步地,在步骤S140,将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中时,读取采集数据,关联用户信息表,将所采集数据中相对应第二目标用户对应的上传作品插入至事件记录表中。
可选地,所述方法还包括:
在将所述第二目标用户的目标事件写入至所述事件记录表时,增加第一次记录字段,所述第一次记录字段在所述事件记录表中与所述第二目标用户相关联记录。
如在将所采集数据中相对应第二目标用户对应的上传作品插入至事件记录表时,增加第一次记录firsttime字段,用于后续能够根据该firsttime字段,确定出目标事件的状态信息首次成为目标状态,以便于进行条件筛选。
可选地,所述方法还包括:
获取在所述事件记录表中进行目标条件查询的查询信息;
根据所述查询信息,在所述事件记录表中查找最后一次记录的状态信息为符合所述目标条件的第三目标用户。
举例说明,在计算PGCP和UGCP相关指标时,以该用户在预设时间范围内最后一条事件所处的状态为准配合其他筛选条件进行计算,如计算新增PGCP/UGCP时,找出最后一条事件处于该状态且首次成为生产者的时间firsttime在该时间范围内的用户。
因此,根据以上,结合图3,根据所读取的目标事件的采集数据,将第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中,具体过程包括:
读取目标事件的埋点数据,也即采集数据;
筛选审核通过的公开作品,也即将采集数据中相对应状态信息的目标状态为审核通过的公开作品;
将所筛选出的公开作品,与用户信息表相关联;举例说明,本发明实施例中,用户信息表为productor_info表,也即将所筛选出的公开作品,与productor_info表相关联;
确定所筛选出的公开作品的相对应用户,不存在于用户信息表中的用户,也即确定出productor_info表首次成为生产者的用户;
若能够确定出不存在于用户信息表中的用户,则所确定的用户为第二目标用户,将所确定的第二目标用户插入用户信息表,也即插入productor_info表;
在将所确定的第二目标用户插入用户信息表后,将采集数据关联用户信息表,获得相应的目标事件,也即相对应的上传作品,以及增加firsttime字段;
将所确定的相对应的目标事件以及所增加firsttime字段,插入事件记录表,本发明实施例中,也即插入productor_info表中。
需要说明的是,上述数据分析方法,以目标事件为上传作品,目标事件的状态信息的目标状态为审核通过为例,对本发明实施例所述方法进行详细了说明,采用该方法,根据实时变化的关于该上传作品的采集数据,能够维护上传作品为首次审核通过的用户,并将所确定的用户加入至用户信息表中,以及将所确定用户的事件数据关联用户信息表后,插入到事件记录表中。
利用上述分析获得的用户信息表和事件记录表,在进行数据查询时,可以利用在预设时间范围内最后一条数据作为该用户的属性用于各数据指标的计算。
需要说明的是,上述的数据分析方法,不限于仅能够应用于上传作品分析时的场景,也可以应用于其他数据分析的场景,如为微博数据的分析等,所维护的用户信息表也不限于仅能够为上传作品为审核通过的用户,如也可以为上传作品为审核不通过的用户等,对于不同的应用场景时的不同属性参数的分析方式,具体原理可以参阅以上的详细描述,在此不再一一举例说明。
本发明实施例所述数据分析方法,针对画屏App平台上关于上传公开作品的审核状态改变导致内容生产者属性会发生改变的复杂特点,选择维护用户首次变成内容生产者的时间,并且在查询时以最后一条事件所处的状态为准,分析结果更鲜明、准确和可靠;
此外,采用本发明实施例所述方法,所维护的内容事件表不包含更新和删除操作,能够保留用户作品相关的所有事件,符合大数据的特点,留存细粒度数据,为后续更深入的分析做好准备;
进一步地,考虑到Clickhouse查询性能,将关联操作都放在数据进入Clickhouse之前,既保留了Clickhouse查询速度快的高性能,又降低了后续查询的成本,利用简单sql就能得到想要的结果。
本发明实施例另一方面还提供一种数据分析装置,如图4所示,包括:
第一信息获取模块410,用于获取记录目标事件的历史事件信息;所述历史事件信息包括与所述目标事件相关的用户和所记录的所述目标事件的状态信息;
第二信息获取模块420,用于根据所述历史事件信息,获得用户信息表和事件记录表;其中,所述用户信息表用于记录所述状态信息为目标状态的第一目标用户,所述事件记录表用于记录所述第一目标用户的目标事件;
第一处理模块430,用于在读取到根据用户执行所述目标事件记录的采集数据后,确定所述采集数据中的目标事件的状态信息为目标状态且为未在所述用户信息表中记录的第二目标用户;
第二处理模块440,用于将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中。
可选地,所述的数据分析装置,其中,第二信息获取模块420根据所述历史事件信息,获得用户信息表,包括:
选择出所述历史事件信息中的所述状态信息为目标状态的目标事件;
将所选择出的目标事件相对应的第一目标用户的用户标识,记录为用户标识字段,获得记录所述第一目标用户的用户信息表。
可选地,所述的数据分析装置,其中,第二信息获取模块420还用于:
根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性;
将所述第一目标用户的属性,记录为属性字段,写入所述用户信息表中。
可选地,所述的数据分析装置,其中,所述属性包括用户类型和事件产品类型;
其中,第二信息获取模块420根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性,包括:
根据所述属性表,获得所述第一目标用户的用户类型;
根据所述用户类型,确定所述事件产品类型;
根据所述事件产品类型,生成所述属性字段。
可选地,所述的数据分析装置,其中,第二信息获取模块420根据所述历史事件信息,获得事件记录表,包括:
将所述第一目标用户的用户标识与所述历史事件信息中的目标事件相关联,获得与所述第一目标用户相对应的目标事件;
记录所述第一目标用户相对应的目标事件,获得所述事件记录表。
可选地,所述的数据分析装置,其中,第一处理模块430确定所述采集数据中的目标事件的状态信息为目标状态且未在所述用户信息表中记录的第二目标用户,包括:
选择所述采集数据中的状态信息为目标状态的目标事件;
将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,在所述用户信息表中不存在相关联用户时,确定相对应的用户为所述第二目标用户。
可选地,所述的数据分析装置,其中,在所述用户信息表中用户标识字段和用户类型字段时,第一处理模块430将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,包括:
将相对应用户的用户标识字段和用户类型字段分别与用户信息表相关联,若所述用户信息表中不存在与所述用户标识字段和所述用户类型标识字段相关联的用户,则确定相对应的用户为所述第二目标用户。
可选地,所述的数据分析装置,其中,第二处理模块440还用于:
在将所述第二目标用户的目标事件写入至所述事件记录表时,增加第一次记录字段,所述第一次记录字段在所述事件记录表中与所述第二目标用户相关联记录。
可选地,所述的数据分析装置,其中,第二处理模块440还用于:
获取在所述事件记录表中进行目标条件查询的查询信息;
根据所述查询信息,在所述事件记录表中查找最后一次记录的状态信息为符合所述目标条件的第三目标用户。
本发明实施例还提供一种处理设备,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述的数据分析方法。
本发明实施例还提供一种可读存储介质,其中,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上任一项所述的数据分析方法中的步骤。
采用本发明实施例所述数据分析方法、装置及设备,在Clickhouse的基础上,利用维护作品内容生产者表、作品内容事件表、合适的计算方式,很好的解决了内容生产者会随着内容状态改变而身份发生改变的问题,克服了clickhouse不支持事务无法做更新操作,也不适合做大量的join的局限的问题,能够准确的计算出内容生产者相关指标,以提供准确的数据分析结果,为管理层精准决策提供数据依据。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (12)
1.一种数据分析方法,其特征在于,包括:
获取记录目标事件的历史事件信息;所述历史事件信息包括与所述目标事件相关的用户和所记录的所述目标事件的状态信息;
根据所述历史事件信息,获得用户信息表和事件记录表;其中,所述用户信息表用于记录相对应所述状态信息为目标状态的第一目标用户,所述事件记录表用于记录所述第一目标用户的目标事件;
在读取到根据用户执行所述目标事件记录的采集数据后,确定所述采集数据中的目标事件的状态信息为目标状态且为未在所述用户信息表中记录的第二目标用户;
将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中。
2.根据权利要求1所述的数据分析方法,其特征在于,根据所述历史事件信息,获得用户信息表,包括:
选择出所述历史事件信息中的所述状态信息为目标状态的目标事件;
将所选择出的目标事件相对应的第一目标用户的用户标识,记录为用户标识字段,获得记录所述第一目标用户的用户信息表。
3.根据权利要求2所述的数据分析方法,其特征在于,所述方法还包括:
根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性;
将所述第一目标用户的属性,记录为属性字段,写入所述用户信息表中。
4.根据权利要求3所述的数据分析方法,其特征在于,所述属性包括用户类型和事件产品类型;
其中,根据所述第一目标用户相关联的属性表,获得所述第一目标用户的属性,包括:
根据所述属性表,获得所述第一目标用户的用户类型;
根据所述用户类型,确定所述事件产品类型;
根据所述事件产品类型,生成所述属性字段。
5.根据权利要求2所述的数据分析方法,其特征在于,根据所述历史事件信息,获得事件记录表,包括:
将所述第一目标用户的用户标识与所述历史事件信息中的目标事件相关联,获得与所述第一目标用户相对应的目标事件;
记录所述第一目标用户相对应的目标事件,获得所述事件记录表。
6.根据权利要求1所述的数据分析方法,其特征在于,确定所述采集数据中的目标事件的状态信息为目标状态且未在所述用户信息表中记录的第二目标用户,包括:
选择所述采集数据中的状态信息为目标状态的目标事件;
将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,在所述用户信息表中不存在相关联用户时,确定相对应的用户为所述第二目标用户。
7.根据权利要求6所述的数据分析方法,其特征在于,在所述用户信息表中用户标识字段和用户类型字段时,将状态信息为目标状态的目标事件相对应的用户与所述用户信息表相关联,包括:
将相对应用户的用户标识字段和用户类型字段分别与用户信息表相关联,若所述用户信息表中不存在与所述用户标识字段和所述用户类型标识字段相关联的用户,则确定相对应的用户为所述第二目标用户。
8.根据权利要求1-7任一项所述的数据分析方法,其特征在于,所述方法还包括:
在将所述第二目标用户的目标事件写入至所述事件记录表时,增加第一次记录字段,所述第一次记录字段在所述事件记录表中与所述第二目标用户相关联记录。
9.根据权利要求1-7任一项所述的数据分析方法,其特征在于,所述方法还包括:
获取在所述事件记录表中进行目标条件查询的查询信息;
根据所述查询信息,在所述事件记录表中查找最后一次记录的状态信息为符合所述目标条件的第三目标用户。
10.一种数据分析装置,其特征在于,包括:
第一信息获取模块,用于获取记录目标事件的历史事件信息;所述历史事件信息包括与所述目标事件相关的用户和所记录的所述目标事件的状态信息;
第二信息获取模块,用于根据所述历史事件信息,获得用户信息表和事件记录表;其中,所述用户信息表用于记录所述状态信息为目标状态的第一目标用户,所述事件记录表用于记录所述第一目标用户的目标事件;
第一处理模块,用于在读取到根据用户执行所述目标事件记录的采集数据后,确定所述采集数据中的目标事件的状态信息为目标状态且为未在所述用户信息表中记录的第二目标用户;
第二处理模块,用于将所述第二目标用户添加至所述用户信息表,以及根据所述采集数据,将所述第二目标用户的目标事件写入至所述事件记录表中。
11.一种处理设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至9任一项所述的数据分析方法。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至9任一项所述的数据分析方法中的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309541.4A CN112417281B (zh) | 2020-11-20 | 2020-11-20 | 数据分析方法、装置及设备 |
PCT/CN2021/125812 WO2022105540A1 (zh) | 2020-11-20 | 2021-10-22 | 数据分析方法、装置及设备 |
US17/908,423 US12026146B2 (en) | 2020-11-20 | 2021-10-22 | Data analysis method, apparatus and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011309541.4A CN112417281B (zh) | 2020-11-20 | 2020-11-20 | 数据分析方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417281A true CN112417281A (zh) | 2021-02-26 |
CN112417281B CN112417281B (zh) | 2024-07-30 |
Family
ID=74773797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011309541.4A Active CN112417281B (zh) | 2020-11-20 | 2020-11-20 | 数据分析方法、装置及设备 |
Country Status (3)
Country | Link |
---|---|
US (1) | US12026146B2 (zh) |
CN (1) | CN112417281B (zh) |
WO (1) | WO2022105540A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022105540A1 (zh) * | 2020-11-20 | 2022-05-27 | 京东方科技集团股份有限公司 | 数据分析方法、装置及设备 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108566486A (zh) * | 2018-03-21 | 2018-09-21 | 北京小米移动软件有限公司 | 记录信息的方法和装置 |
CN109525680A (zh) * | 2019-01-17 | 2019-03-26 | 恒峰信息技术有限公司 | 一种基于web系统的数据推送方法 |
CN109597833A (zh) * | 2018-10-15 | 2019-04-09 | 平安科技(深圳)有限公司 | 基于大数据的事件预测方法、装置、计算机设备及存储介质 |
CN109634756A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 页面事件处理方法、装置、计算机设备及存储介质 |
CN110471945A (zh) * | 2019-07-05 | 2019-11-19 | 中国平安人寿保险股份有限公司 | 活跃数据的处理方法、系统、计算机设备和存储介质 |
CN110928917A (zh) * | 2019-11-11 | 2020-03-27 | 北京齐尔布莱特科技有限公司 | 一种目标用户的确定方法、装置、计算设备及介质 |
CN111301317A (zh) * | 2020-02-28 | 2020-06-19 | 深圳市元征科技股份有限公司 | 一种事件生成方法、事件生成装置及车载设备 |
CN111651453A (zh) * | 2020-04-30 | 2020-09-11 | 中国平安财产保险股份有限公司 | 用户历史行为查询方法、装置、电子设备及存储介质 |
CN111813765A (zh) * | 2020-06-19 | 2020-10-23 | 北京金堤科技有限公司 | 一种异常数据处理的方法、装置、电子设备、计算机可读介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105841808B (zh) * | 2016-04-28 | 2017-12-08 | 京东方科技集团股份有限公司 | 紫外线监测设备、监测方法及系统 |
CN110020166B (zh) * | 2017-12-21 | 2023-02-10 | 腾讯科技(深圳)有限公司 | 一种数据分析方法及相关设备 |
CN110222032A (zh) * | 2019-05-22 | 2019-09-10 | 武汉掌游科技有限公司 | 一种基于软件数据分析的通用事件模型 |
CN110489412B (zh) * | 2019-07-12 | 2022-04-22 | 北京字节跳动网络技术有限公司 | 一种数据处理的方法、装置、介质和电子设备 |
CN111953763B (zh) * | 2020-08-06 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 一种业务数据推送方法、装置及存储介质 |
CN112417281B (zh) * | 2020-11-20 | 2024-07-30 | 京东方科技集团股份有限公司 | 数据分析方法、装置及设备 |
-
2020
- 2020-11-20 CN CN202011309541.4A patent/CN112417281B/zh active Active
-
2021
- 2021-10-22 US US17/908,423 patent/US12026146B2/en active Active
- 2021-10-22 WO PCT/CN2021/125812 patent/WO2022105540A1/zh active Application Filing
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108566486A (zh) * | 2018-03-21 | 2018-09-21 | 北京小米移动软件有限公司 | 记录信息的方法和装置 |
CN109597833A (zh) * | 2018-10-15 | 2019-04-09 | 平安科技(深圳)有限公司 | 基于大数据的事件预测方法、装置、计算机设备及存储介质 |
CN109634756A (zh) * | 2018-11-26 | 2019-04-16 | 平安科技(深圳)有限公司 | 页面事件处理方法、装置、计算机设备及存储介质 |
CN109525680A (zh) * | 2019-01-17 | 2019-03-26 | 恒峰信息技术有限公司 | 一种基于web系统的数据推送方法 |
CN110471945A (zh) * | 2019-07-05 | 2019-11-19 | 中国平安人寿保险股份有限公司 | 活跃数据的处理方法、系统、计算机设备和存储介质 |
CN110928917A (zh) * | 2019-11-11 | 2020-03-27 | 北京齐尔布莱特科技有限公司 | 一种目标用户的确定方法、装置、计算设备及介质 |
CN111301317A (zh) * | 2020-02-28 | 2020-06-19 | 深圳市元征科技股份有限公司 | 一种事件生成方法、事件生成装置及车载设备 |
CN111651453A (zh) * | 2020-04-30 | 2020-09-11 | 中国平安财产保险股份有限公司 | 用户历史行为查询方法、装置、电子设备及存储介质 |
CN111813765A (zh) * | 2020-06-19 | 2020-10-23 | 北京金堤科技有限公司 | 一种异常数据处理的方法、装置、电子设备、计算机可读介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022105540A1 (zh) * | 2020-11-20 | 2022-05-27 | 京东方科技集团股份有限公司 | 数据分析方法、装置及设备 |
US12026146B2 (en) | 2020-11-20 | 2024-07-02 | Boe Technology Group Co., Ltd. | Data analysis method, apparatus and device |
Also Published As
Publication number | Publication date |
---|---|
US12026146B2 (en) | 2024-07-02 |
WO2022105540A1 (zh) | 2022-05-27 |
US20230087098A1 (en) | 2023-03-23 |
CN112417281B (zh) | 2024-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108921221B (zh) | 用户特征的生成方法、装置、设备及存储介质 | |
CN109561326B (zh) | 一种数据查询方法及装置 | |
CN105912587A (zh) | 一种数据采集方法和系统 | |
CN110443552B (zh) | 一种产品主数据信息自动传输的方法及装置 | |
CN112100052B (zh) | 一种接口测试场景的回放方法及装置 | |
CN109828993B (zh) | 一种统计数据的查询方法及装置 | |
CN110866024B (zh) | 一种矢量数据库增量更新方法及系统 | |
WO2021171099A2 (en) | Method for atomically tracking and storing video segments in multi-segment audio-video compositions | |
KR101171551B1 (ko) | 이벤트 이력 기억 장치, 이벤트 이력 추적 장치, 이벤트 이력 기억 방법, 이벤트 이력 기억 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체 및 데이터 구조를 기록한 컴퓨터 판독 가능한 기록 매체 | |
CN113704343A (zh) | 一种数据治理中的数据血缘可视化实现方法及系统 | |
CN112417281B (zh) | 数据分析方法、装置及设备 | |
CN101751248B (zh) | 为Web应用设计时间敏感的性能测试用例的方法和系统 | |
CN113138990B (zh) | 一种数据血缘构建、追溯方法、装置及设备 | |
CN110569447B (zh) | 一种网络资源的推荐方法、装置及存储介质 | |
CN117093556A (zh) | 日志分类方法、装置、计算机设备及计算机可读存储介质 | |
CN116186119A (zh) | 用户行为分析方法、装置、设备及存储介质 | |
CN111639117B (zh) | 基于数据加工的业务处理方法及装置 | |
CN113868141A (zh) | 数据测试方法、装置、电子设备及存储介质 | |
US7203707B2 (en) | System and method for knowledge asset acquisition and management | |
CN112866742B (zh) | 一种音视频文件管理方法、装置及电子设备 | |
CN112381229B (zh) | 一种基于三维数模的知识集成系统及方法 | |
CN117786182B (zh) | 基于erp系统的业务数据存储系统及方法 | |
US8423532B1 (en) | Managing data indexed by a search engine | |
US12072855B2 (en) | Methods, systems, and computer readable media for utilizing machine learning for merging duplicate data records | |
CN114398378B (zh) | 确定索引代价的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |