CN111352969A - 一种埋点数据分析方法、装置及电子设备 - Google Patents

一种埋点数据分析方法、装置及电子设备 Download PDF

Info

Publication number
CN111352969A
CN111352969A CN202010129194.0A CN202010129194A CN111352969A CN 111352969 A CN111352969 A CN 111352969A CN 202010129194 A CN202010129194 A CN 202010129194A CN 111352969 A CN111352969 A CN 111352969A
Authority
CN
China
Prior art keywords
data
buried point
combined
user behavior
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010129194.0A
Other languages
English (en)
Other versions
CN111352969B (zh
Inventor
史一帆
李静连
金昊
周辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Qianjun Network Technology Co ltd
Original Assignee
Guangzhou Qianjun Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Qianjun Network Technology Co ltd filed Critical Guangzhou Qianjun Network Technology Co ltd
Priority to CN202010129194.0A priority Critical patent/CN111352969B/zh
Publication of CN111352969A publication Critical patent/CN111352969A/zh
Application granted granted Critical
Publication of CN111352969B publication Critical patent/CN111352969B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

本发明提供了一种埋点数据分析方法、装置及电子设备,可以使用代码埋点方式和组合埋点方式对同一用户行为进行采集,得到代码埋点数据以及组合埋点数据,然后基于数据校验参数,对代码埋点数据以及组合埋点数据进行分析,得到所述第一统计数据和所述第二统计数据,然后基于第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。即通过本发明就可以确定出将组合埋点方式替换已有的代码埋点方式时,组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性,进而就可以在差异性较小时,使用组合埋点方式替换代码埋点方式,则可以保证使用组合埋点方式采集的数据较准确,从而基于该数据分析得到的用户行为更准确。

Description

一种埋点数据分析方法、装置及电子设备
技术领域
本发明涉及数据采集领域,更具体的说,涉及一种埋点数据分析方法、装置及电子设备。
背景技术
埋点是指针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。埋点分为代码埋点和自动化埋点两种方式,自动化埋点的使用便捷度强于代码埋点,因此可以将部分用户行为或事件的采集使用自动化埋点方式替换代码埋点方式,但是某些功能性的用户行为或事件的采集不能使用自动化埋点方式实现,只能使用代码埋点方式实现,进而出现了组合埋点方式,组合埋点方式既包括代码埋点,也包括自动化埋点,适合使用自动化埋点方式的用户行为或事件的采集使用自动化埋点方式实现,不适合使用自动化埋点方式的用户行为或事件的采集仍使用代码埋点方式实现。
在将组合埋点方式替换已有的代码埋点方式时,可能会出现对同一用户行为或事件,使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据不同,进而导致使用组合埋点方式采集的数据不准确,从而基于该数据分析得到的用户行为不准确。
发明内容
有鉴于此,本发明提供一种埋点数据分析方法、装置及电子设备,以解决在将组合埋点方式替换已有的代码埋点方式时,使用组合埋点方式采集的数据不准确,从而基于该数据分析得到的用户行为不准确的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种埋点数据分析方法,包括:
获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
获取数据校验参数;
分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
可选地,获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据,包括:
获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
分别对所述代码埋点数据和所述组合埋点数据进行数据清洗。
可选地,对所述组合埋点数据进行数据清洗,包括:
对所述组合埋点数据进行数据清洗,得到中间数据;
获取预先设定的用户行为采集标识与标准用户行为标识的对应关系;代码埋点方式在采集所述用户行为时使用标准用户行为标识记录用户行为;所述组合埋点方式中的自动化埋点方式采集所述用户行为时使用用户行为采集标识记录用户行为;
依据所述对应关系,将所述中间数据中的用户行为采集标识替换为对应的标准用户行为标识。
可选地,根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果,包括:
计算所述第一统计数据和所述第二统计数据的差异率;
若所述差异率小于预设差异率,则确定所述埋点方式分析结果为第一分析结果;
若所述差异率不小于预设差异率,则确定所述埋点方式分析结果为第二分析结果;
所述第一分析结果和所述第二分析结果均表征所述组合埋点方式与所述代码埋点方式采集用户行为数据的差异程度;且所述第一分析结果表征的差异程度小于所述第二分析结果表征的差异程度。
可选地,在根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果之后,还包括:
在所述埋点方式分析结果为第一分析结果的情况下,将所述组合埋点数据进行数据清洗得到的数据清洗结果替换所述代码埋点数据进行数据清洗得到的数据清洗结果。
一种埋点数据分析装置,包括:
数据获取模块,用于获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
参数获取模块,用于获取数据校验参数;
数据分析模块,用于分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
埋点分析模块,用于根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
可选地,所述数据获取模块包括:
数据获取子模块,用于获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
数据清洗子模块,用于分别对所述代码埋点数据和所述组合埋点数据进行数据清洗。
可选地,所述数据清洗子模块包括:
数据清洗单元,用于对所述组合埋点数据进行数据清洗,得到中间数据;
关系获取单元,用于获取预先设定的用户行为采集标识与标准用户行为标识的对应关系;代码埋点方式在采集所述用户行为时使用标准用户行为标识记录用户行为;所述组合埋点方式中的自动化埋点方式采集所述用户行为时使用用户行为采集标识记录用户行为;
标识替换单元,用于依据所述对应关系,将所述中间数据中的用户行为采集标识替换为对应的标准用户行为标识。
可选地,所述埋点分析模块包括:
差异率计算子模块,用于计算所述第一统计数据和所述第二统计数据的差异率;
结果分析子模块,用于若所述差异率小于预设差异率,则确定所述埋点方式分析结果为第一分析结果;若所述差异率不小于预设差异率,则确定所述埋点方式分析结果为第二分析结果;
所述第一分析结果和所述第二分析结果均表征所述组合埋点方式与所述代码埋点方式采集用户行为数据的差异程度;且所述第一分析结果表征的差异程度小于所述第二分析结果表征的差异程度。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
获取数据校验参数;
分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种埋点数据分析方法、装置及电子设备,可以使用代码埋点方式和组合埋点方式对同一用户行为进行采集,得到代码埋点数据以及组合埋点数据,然后基于数据校验参数,对代码埋点数据以及组合埋点数据进行分析,得到所述第一统计数据和所述第二统计数据,然后基于第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。即通过本发明就可以确定出将组合埋点方式替换已有的代码埋点方式时,组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性,进而就可以在差异性较小时,使用组合埋点方式替换代码埋点方式,则可以保证使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据的差异程度较小,使用组合埋点方式采集的数据较准确,从而基于该数据分析得到的用户行为更准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种埋点数据分析方法的方法流程图;
图2为本发明实施例提供的又一种埋点数据分析方法的方法流程图;
图3为本发明实施例提供的再一种埋点数据分析方法的方法流程图;
图4为本发明实施例提供的一种埋点数据分析装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
埋点是指针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。埋点分为代码埋点和自动化埋点两种方式,自动化埋点的使用便捷度强于代码埋点,因此可以将部分用户行为或事件的采集使用自动化埋点方式替换代码埋点方式,但是某些功能性的用户行为或事件的采集不能使用自动化埋点方式实现,只能使用代码埋点方式实现,进而出现了组合埋点方式,组合埋点方式既包括代码埋点,也包括自动化埋点,适合使用自动化埋点方式的用户行为或事件的采集使用自动化埋点方式实现,不适合使用自动化埋点方式的用户行为或事件的采集仍使用代码埋点方式实现。
代码埋点和组合埋点是两种不同的前端埋点方式。通过埋点上报数据并统计分析,可以很好的了解用户的行为习惯,为产品的决策和优化做出重要的数据参考。
其中,代码埋点的优点:使用者控制精准,可以非常精确地选择什么时候发送数据,使用者可以比较方便地设置自定义属性、自定义事件,传递比较丰富的数据到服务端。缺点:埋点代价比较大,每一个控件的埋点都需要添加相应的代码,不仅工作量大,而且限定了必须是技术人员才能完成;更新代价比较大,每一次更新,都需要更新埋点方案,然后通过各个应用市场进行分发,而且有的用户还不一定更新,这样你就获取不到这批用户数据。
自动化埋点的优点:将所有的行为点都上报到统计后台管理,有漏报和错报可以由技术人员外的产品等其他人员修复,也不需要等发版才可以获得想要统计的数据。缺点:有些功能性的点还是不能通过自动化埋点获得,比如用户点击主播封面时,需要附带主播封面在模块中的位置信息等。
在将组合埋点方式替换已有的代码埋点方式时,可能会出现对同一用户行为或事件,使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据不同,进而导致使用组合埋点方式采集的数据不准确,从而基于该数据分析得到的用户行为不准确。经过分析发现,这是由于在将组合埋点方式替换已有的代码埋点方式时,并未验证组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性(或差异程度),只有在差异性较小(可接受的范围内)时,才可以使用组合埋点方式替换代码埋点方式,进而才可以保证使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据的差异性较小,从而使得使用组合埋点方式采集的数据较准确,从而基于该数据分析得到的用户行为较准确,即可以保证代码埋点方式和组合埋点方式分析的用户行为相差较小。
为此,提出了一种验证组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性的方法,即埋点数据分析方法,该方法可以应用于服务器,具体的,参照图1,可以包括:
S11、获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据。
在实际应用中,分别使用代码埋点方式和组合埋点方式对同一用户行为进行采集,分别得到代码埋点数据以及组合埋点数据。
本实施例中的用户行为可以是使用某一应用软件APP的用户的行为,如使用千帆直播的用户的用户行为。用户行为可以包括但不限于赠送礼物、点赞、转发、评论等行为。
在使用代码埋点方式和组合埋点方式采集用户行为时,前端上报数据的接口(供前端上报用户行为数据给服务端的一个接口)不同,代码埋点方式的数据上报接口可以是stat.gif,即只支持代码埋点方式的上报,组合埋点方式的数据上报接口可以是stat2.gif,该数据上报接口既支持代码埋点方式采集的数据上报,也支持组合埋点方式采集的数据上报。
另外,组合埋点方式在数据上报方式也不同于代码埋点方式,传统的代码埋点方式是采集到数据即上报,组合埋点方式中的代码埋点方式是,在采集到重要埋点数据时立即上报,非重要埋点数据则可以每隔固定时间上报,这样可以减少数据上报接口的工作频率,降低数据上报接口的工作负担以及服务器接收数据的工作负担。
本发明的另一实现方式中,在获取到代码埋点数据以及组合埋点数据之后,还需要对数据进行数据清洗操作。具体的,步骤S11可以包括:
1)获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
2)分别对所述代码埋点数据和所述组合埋点数据进行数据清洗。
对代码埋点数据和所述组合埋点数据进行数据清洗的过程不同,对于代码埋点数据,代码埋点数据为一条条的日志,将该日志经过海杜普hadoop清洗之后,可以得到清洗后的代码埋点数据,该清洗后的代码埋点数据为一张hive表,该hive表的名称可以是:qf_mobile_log。其中,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
hive表中会包括记录用户行为的标准用户行为标识statId,一个标识对应一用户行为数据。
需要说明的是,不管是代码埋点方式还是组合埋点方式,在采集数据时,均会用标识记录用户行为,代码埋点方式采用用户预先设定的标准用户行为标识statId来记录用户行为,一个标识对应一用户行为数据。但是组合埋点方式中的自动化埋点方式,在采集用户行为时,并未直接使用标准用户行为标识来记录用户行为,而是采用前端自己记录用户行为的用户行为采集标识eventId来记录用户行为,但是用户行为采集标识后端数据业务人员并不能识别,则需要将用户行为采集标识转换成标准用户行为标识,因此需要用户预先构建用户行为采集标识eventId与标准用户行为标识statId的对应关系,称为映射表。
在对组合埋点数据进行数据清洗时,具体参照图2,可以包括:
S21、对所述组合埋点数据进行数据清洗,得到中间数据。
本实施例中的数据清洗与上述的数据清洗过程类似,请参照上述相应说明,清洗得到的中间数据可以存储到名称为qf_stat2_log的hive表中。
代码埋点方式的hive表与组合埋点方式的hive表,除了一些基础的共有的数据字段信息(如设备/版本信息等)外,还有区分自动化埋点和代码埋点的两个字段:econtent字段存储的是可自动化埋点的一些行为信息(如用户所有的控件点击行为,比如点击注册按钮、点击送礼按钮、点击登录按钮的等行为),用户的行为点用控件路径获取程序系统生成的eventId标识;scontent字段存储的是不能进行自动化埋点只能进行代码埋点的一些功能性行为点信息(如需要附带一些行为其他信息的数据。如注册成功/失败、送礼成功/失败、点击了哪个主播、socket连接成功/失败等),用户的行为点沿用旧代码埋点方式中产品定义的statId标识。一条记录表征一条用户行为,则这两个字段会分别存在不同的记录中,不存在同一条记录中。
S22、获取预先设定的用户行为采集标识与标准用户行为标识的对应关系;代码埋点方式在采集所述用户行为时使用标准用户行为标识记录用户行为;所述组合埋点方式中的自动化埋点方式采集所述用户行为时使用用户行为采集标识记录用户行为。
S23、依据所述对应关系,将所述中间数据中的用户行为采集标识替换为对应的标准用户行为标识。
依据上述描述,依据用户行为采集标识eventId与标准用户行为标识statId的对应关系,将中间数据中的用户行为采集标识替换为对应的标准用户行为标识,得到的数据均是可以被数据业务人员识别的数据。
在实际应用中,将qf_stat2_log表中包含eventId的记录根据映射表转成让数据业务人员理解的行为点statId标识,并将映射后的记录存入qf_stat2_mobile_log中,具体转化过程是采用了两个表进行leftjoin联表操作实现的,通过两个表的左连接操作,将包含eventId信息的自动化埋点上报数据映射成包含产品自定义的statId信息的数据,并存入qf_stat2_mobile_log表。
S12、获取数据校验参数。
本实施例中的数据校验参数是指用于校验代码埋点数据和组合埋点数据的差异性的参数,如可以是预设功能的点击次数、点击用户数、转化率等。具体的数据校验参数可以在不同的应用场景下,如针对不同的APP,设定不同的数据校验参数。
S13、分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据。
在实际应用中,对代码埋点数据进行数据统计分析,得到所述数据校验参数对应的第一统计数据,举例来说,数据校验参数包括点击送礼按钮的次数以及点击之后,送礼成功的占比,即转化率,此时,从代码埋点数据中找到与点击送礼按钮的数据,然后分析点击次数以及转化率即可。对于组合埋点数据做同样的处理。
具体的,利用hive表及各种编程语言根据上报的statId等行为字段统计出业务所需的各种数据指标。
举例来说,用qf_mobile_log和qf_stat2_mobile_log两张表分别计算数据业务人员定义的所有statId行为点的点击次数和点击用户数,对比两份数据统计结果,计算数据相差比例,即差异率,差异率用于验证新埋点方式的准确性,辅助前端埋点技术人员修复优化埋点程序。
统计数据相差比例,即差异率的计算公式如下,以点击次数为例:
DiffstatId=(Cntnew-Cntotd)/Cntotd
其中,Cntotd代表代码埋点上报方式(表qf_mobile_log)统计出来的点击次数,Cntnew代表组合埋点上报方式(表qf_mobile_stat2_log)统计出来的点击次数,DiffstatId表示由不同上报方式统计出来的数据相差比例,即差异率。通过分析各行为点统计项的相差比例,可对组合埋点上报方式的可行性评估提供可靠的数据依据。
S14、根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
其中,由于采集方式的不同,第一统计数据和第二统计数据完全相同的概率较小,此时需要分析二者的差异值,然后根据差异值确定埋点方式分析结果。其中,埋点方式分析结果可以是使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据的差异性较小或较大。
在实际应用中,参照图3,步骤S14的具体实现过程可以包括:
S31、计算所述第一统计数据和所述第二统计数据的差异率。
由于是相比较第二统计数据相比于第一统计数据的差异性,则差异率为上述的DiffstatId
S32、若所述差异率小于预设差异率,则确定所述埋点方式分析结果为第一分析结果。
S33、若所述差异率不小于预设差异率,则确定所述埋点方式分析结果为第二分析结果;
所述第一分析结果和所述第二分析结果均表征所述组合埋点方式与所述代码埋点方式采集用户行为数据的差异程度;且所述第一分析结果表征的差异程度小于所述第二分析结果表征的差异程度。
具体的,若差异率较小,即为第一分析结果,则说明第一统计数据和所述第二统计数据的差异程度较小,进而说明组合埋点方式采集得到的数据与代码埋点方式采集的数据的差异程度较小,则可以使用组合埋点方式替代代码埋点方式。
若差异率较大,即为第二分析结果,则说明第一统计数据和所述第二统计数据的差异程度较大,进而说明组合埋点方式采集得到的数据与代码埋点方式采集的数据的差异程度较大,则不可以使用组合埋点方式替代代码埋点方式。
在实际应用中,若可以使用组合埋点方式替代代码埋点方式,那么需要进一步考虑之前使用代码埋点方式累计的旧统计代码的复用问题,旧统计代码是利用清洗后的hive表统计不同数据指标(如千帆app的dau((Daily Active User),日活跃用户数)、登录用户等)的代码。若直接舍弃旧统计代码,重新编写新统计代码,则会造成旧统计代码的浪费以及编写新统计代码浪费人力和时间的问题。为此,进一步的,在所述埋点方式分析结果为第一分析结果的情况下,将所述组合埋点数据进行数据清洗得到的数据清洗结果替换所述代码埋点数据进行数据清洗得到的数据清洗结果。
具体来说,将清洗后的组合埋点数据替代原有清洗后的代码埋点数据,这样就可以使用原有的数据统计分析的代码,也即将数据统计分析的数据源从原有的代码埋点方式采集的数据替换成了使用组合埋点方式采集的数据,但是后续的数据统计分析过程并未改变,从而实现了在埋点方式改变时,代码复用的问题。
在实际应用中,如分析得到可以使用组合埋点方式替换代码埋点方式,当最新版本的组合埋点方式已经覆盖到97%以上的启动设备,即至少97%以上的用户使用组合埋点方式,便可直接将qf_stat2_log通过映射后的数据直接写入旧hive表qf_mobile_log中,复用之前编写的统计代码,从而实现新旧埋点方式的平稳过渡。
本实施例中,可以使用代码埋点方式和组合埋点方式对同一用户行为进行采集,得到代码埋点数据以及组合埋点数据,然后基于数据校验参数,对代码埋点数据以及组合埋点数据进行分析,得到所述第一统计数据和所述第二统计数据,然后基于第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。即通过本发明就可以确定出将组合埋点方式替换已有的代码埋点方式时,组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性,进而就可以在差异性较小时,使用组合埋点方式替换代码埋点方式,则可以保证使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据的差异程度较小,使用组合埋点方式采集的数据较准确,从而基于该数据分析得到的用户行为更准确。
另外,在埋点方式更改时,仍会复用原有的部分代码,如数据统计分析代码,进而避免旧代码的浪费以及解决编写新代码浪费人力和时间的问题。
可选地,在上述埋点数据分析方法的实施例的基础上,本发明的另一实施例提供了一种埋点数据分析装置,参照图4,可以包括:
数据获取模块11,用于获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
参数获取模块12,用于获取数据校验参数;
数据分析模块13,用于分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
埋点分析模块14,用于根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
进一步,所述数据获取模块包括:
数据获取子模块,用于获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
数据清洗子模块,用于分别对所述代码埋点数据和所述组合埋点数据进行数据清洗。
进一步,所述数据清洗子模块包括:
数据清洗单元,用于对所述组合埋点数据进行数据清洗,得到中间数据;
关系获取单元,用于获取预先设定的用户行为采集标识与标准用户行为标识的对应关系;代码埋点方式在采集所述用户行为时使用标准用户行为标识记录用户行为;所述组合埋点方式中的自动化埋点方式采集所述用户行为时使用用户行为采集标识记录用户行为;
标识替换单元,用于依据所述对应关系,将所述中间数据中的用户行为采集标识替换为对应的标准用户行为标识。
进一步,所述埋点分析模块包括:
差异率计算子模块,用于计算所述第一统计数据和所述第二统计数据的差异率;
结果分析子模块,用于若所述差异率小于预设差异率,则确定所述埋点方式分析结果为第一分析结果;若所述差异率不小于预设差异率,则确定所述埋点方式分析结果为第二分析结果;
所述第一分析结果和所述第二分析结果均表征所述组合埋点方式与所述代码埋点方式采集用户行为数据的差异程度;且所述第一分析结果表征的差异程度小于所述第二分析结果表征的差异程度。
进一步,还包括:
数据替换模块,用于在埋点分析模块14根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果之后,在所述埋点方式分析结果为第一分析结果的情况下,将所述组合埋点数据进行数据清洗得到的数据清洗结果替换所述代码埋点数据进行数据清洗得到的数据清洗结果。
本实施例中,可以使用代码埋点方式和组合埋点方式对同一用户行为进行采集,得到代码埋点数据以及组合埋点数据,然后基于数据校验参数,对代码埋点数据以及组合埋点数据进行分析,得到所述第一统计数据和所述第二统计数据,然后基于第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。即通过本发明就可以确定出将组合埋点方式替换已有的代码埋点方式时,组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性,进而就可以在差异性较小时,使用组合埋点方式替换代码埋点方式,则可以保证使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据的差异程度较小,使用组合埋点方式采集的数据较准确,从而基于该数据分析得到的用户行为更准确。
另外,在埋点方式更改时,仍会复用原有的部分代码,如数据统计分析代码,进而避免旧代码的浪费以及解决编写新代码浪费人力和时间的问题。
需要说明的是,本实施例中的各个模块、子模块和单元的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选地,在上述埋点数据分析方法及装置的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
获取数据校验参数;
分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
本实施例中,可以使用代码埋点方式和组合埋点方式对同一用户行为进行采集,得到代码埋点数据以及组合埋点数据,然后基于数据校验参数,对代码埋点数据以及组合埋点数据进行分析,得到所述第一统计数据和所述第二统计数据,然后基于第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。即通过本发明就可以确定出将组合埋点方式替换已有的代码埋点方式时,组合埋点方式与已有的代码埋点方式采集用户行为数据的差异性,进而就可以在差异性较小时,使用组合埋点方式替换代码埋点方式,则可以保证使用组合埋点方式采集的数据与使用已有的代码埋点方式采集的数据的差异程度较小,使用组合埋点方式采集的数据较准确,从而基于该数据分析得到的用户行为更准确。
另外,在埋点方式更改时,仍会复用原有的部分代码,如数据统计分析代码,进而避免旧代码的浪费以及解决编写新代码浪费人力的问题。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种埋点数据分析方法,其特征在于,包括:
获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
获取数据校验参数;
分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
2.根据权利要求1所述的埋点数据分析方法,其特征在于,获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据,包括:
获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
分别对所述代码埋点数据和所述组合埋点数据进行数据清洗。
3.根据权利要求2所述的埋点数据分析方法,其特征在于,对所述组合埋点数据进行数据清洗,包括:
对所述组合埋点数据进行数据清洗,得到中间数据;
获取预先设定的用户行为采集标识与标准用户行为标识的对应关系;代码埋点方式在采集所述用户行为时使用标准用户行为标识记录用户行为;所述组合埋点方式中的自动化埋点方式采集所述用户行为时使用用户行为采集标识记录用户行为;
依据所述对应关系,将所述中间数据中的用户行为采集标识替换为对应的标准用户行为标识。
4.根据权利要求1所述的埋点数据分析方法,其特征在于,根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果,包括:
计算所述第一统计数据和所述第二统计数据的差异率;
若所述差异率小于预设差异率,则确定所述埋点方式分析结果为第一分析结果;
若所述差异率不小于预设差异率,则确定所述埋点方式分析结果为第二分析结果;
所述第一分析结果和所述第二分析结果均表征所述组合埋点方式与所述代码埋点方式采集用户行为数据的差异程度;且所述第一分析结果表征的差异程度小于所述第二分析结果表征的差异程度。
5.根据权利要求4所述的埋点数据分析方法,其特征在于,在根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果之后,还包括:
在所述埋点方式分析结果为第一分析结果的情况下,将所述组合埋点数据进行数据清洗得到的数据清洗结果替换所述代码埋点数据进行数据清洗得到的数据清洗结果。
6.一种埋点数据分析装置,其特征在于,包括:
数据获取模块,用于获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
参数获取模块,用于获取数据校验参数;
数据分析模块,用于分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
埋点分析模块,用于根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
7.根据权利要求6所述的埋点数据分析装置,其特征在于,所述数据获取模块包括:
数据获取子模块,用于获取对相同用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
数据清洗子模块,用于分别对所述代码埋点数据和所述组合埋点数据进行数据清洗。
8.根据权利要求7所述的埋点数据分析装置,其特征在于,所述数据清洗子模块包括:
数据清洗单元,用于对所述组合埋点数据进行数据清洗,得到中间数据;
关系获取单元,用于获取预先设定的用户行为采集标识与标准用户行为标识的对应关系;代码埋点方式在采集所述用户行为时使用标准用户行为标识记录用户行为;所述组合埋点方式中的自动化埋点方式采集所述用户行为时使用用户行为采集标识记录用户行为;
标识替换单元,用于依据所述对应关系,将所述中间数据中的用户行为采集标识替换为对应的标准用户行为标识。
9.根据权利要求6所述的埋点数据分析装置,其特征在于,所述埋点分析模块包括:
差异率计算子模块,用于计算所述第一统计数据和所述第二统计数据的差异率;
结果分析子模块,用于若所述差异率小于预设差异率,则确定所述埋点方式分析结果为第一分析结果;若所述差异率不小于预设差异率,则确定所述埋点方式分析结果为第二分析结果;
所述第一分析结果和所述第二分析结果均表征所述组合埋点方式与所述代码埋点方式采集用户行为数据的差异程度;且所述第一分析结果表征的差异程度小于所述第二分析结果表征的差异程度。
10.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取对同一用户行为使用代码埋点方式采集得到的代码埋点数据以及使用组合埋点方式采集得到的组合埋点数据;
获取数据校验参数;
分析所述代码埋点数据,以获取所述数据校验参数对应的第一统计数据,以及分析所述组合埋点数据,以获取所述数据校验参数对应的第二统计数据;
根据所述第一统计数据和所述第二统计数据的差异值,确定埋点方式分析结果。
CN202010129194.0A 2020-02-28 2020-02-28 一种埋点数据分析方法、装置及电子设备 Active CN111352969B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129194.0A CN111352969B (zh) 2020-02-28 2020-02-28 一种埋点数据分析方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010129194.0A CN111352969B (zh) 2020-02-28 2020-02-28 一种埋点数据分析方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111352969A true CN111352969A (zh) 2020-06-30
CN111352969B CN111352969B (zh) 2023-12-05

Family

ID=71197222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010129194.0A Active CN111352969B (zh) 2020-02-28 2020-02-28 一种埋点数据分析方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111352969B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199265A (zh) * 2020-10-15 2021-01-08 苏州龙盈软件开发有限公司 一种快应用统计方法及系统
CN113472858A (zh) * 2021-06-10 2021-10-01 北京达佳互联信息技术有限公司 埋点数据处理方法、装置及电子设备
CN115967839A (zh) * 2022-12-30 2023-04-14 北京华心维联网络科技有限公司 一种直播礼物推荐方法及其装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832216A (zh) * 2017-11-08 2018-03-23 无线生活(杭州)信息科技有限公司 一种埋点测试方法及装置
CN109597949A (zh) * 2018-10-22 2019-04-09 平安科技(深圳)有限公司 基于数据标准化的第三方埋点标识生成方法和设备
CN109740089A (zh) * 2018-11-30 2019-05-10 东软集团股份有限公司 数据采集方法、装置、系统、可读存储介质及电子设备
CN110362480A (zh) * 2019-06-19 2019-10-22 平安普惠企业管理有限公司 客户端埋点测试方法、装置、设备及存储介质
CN110569185A (zh) * 2019-08-02 2019-12-13 贝壳技术有限公司 一种前端埋点方法和装置
CN110737588A (zh) * 2019-09-10 2020-01-31 北京字节跳动网络技术有限公司 一种自动埋点的方法、装置、介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832216A (zh) * 2017-11-08 2018-03-23 无线生活(杭州)信息科技有限公司 一种埋点测试方法及装置
CN109597949A (zh) * 2018-10-22 2019-04-09 平安科技(深圳)有限公司 基于数据标准化的第三方埋点标识生成方法和设备
CN109740089A (zh) * 2018-11-30 2019-05-10 东软集团股份有限公司 数据采集方法、装置、系统、可读存储介质及电子设备
CN110362480A (zh) * 2019-06-19 2019-10-22 平安普惠企业管理有限公司 客户端埋点测试方法、装置、设备及存储介质
CN110569185A (zh) * 2019-08-02 2019-12-13 贝壳技术有限公司 一种前端埋点方法和装置
CN110737588A (zh) * 2019-09-10 2020-01-31 北京字节跳动网络技术有限公司 一种自动埋点的方法、装置、介质和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199265A (zh) * 2020-10-15 2021-01-08 苏州龙盈软件开发有限公司 一种快应用统计方法及系统
CN113472858A (zh) * 2021-06-10 2021-10-01 北京达佳互联信息技术有限公司 埋点数据处理方法、装置及电子设备
CN113472858B (zh) * 2021-06-10 2023-09-29 北京达佳互联信息技术有限公司 埋点数据处理方法、装置及电子设备
CN115967839A (zh) * 2022-12-30 2023-04-14 北京华心维联网络科技有限公司 一种直播礼物推荐方法及其装置

Also Published As

Publication number Publication date
CN111352969B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN111352969B (zh) 一种埋点数据分析方法、装置及电子设备
CN109388566B (zh) 一种代码覆盖率分析方法、装置、设备及存储介质
CN113381890B (zh) 告警信息关联方法、装置、电子设备和可读存储介质
CN112612675A (zh) 微服务架构下的分布式大数据日志链路跟踪方法及系统
CN109947746A (zh) 一种基于etl流程的数据质量管控方法和系统
CN107193920B (zh) 用于客户端的数据处理方法和装置
CN113746703B (zh) 一种异常链路监控方法、系统和装置
CN111552607A (zh) 应用程序的健康评估方法、装置、设备及存储介质
KR102269286B1 (ko) 어노테이션 자동 진단 시스템
CN113448854A (zh) 一种回归测试方法和装置
JP2020522822A (ja) ソフトウェア動作を追跡、監視する方法、装置、およびデバイス
CN107347016B (zh) 一种信令流程模型识别方法及异常信令流程辨识方法
KR20150058709A (ko) 빅 데이터 해석기반의 연구 능률 관리 및 운영 통합 시스템, 그리고 그 방법
CN110134583B (zh) 软件测试及数据处理方法及装置
US20180060890A1 (en) Standardized custom surveys
CN114629949A (zh) 业务监控方法、电子设备及计算机存储介质
CN101989228A (zh) 测试计划执行时间的估算方法及装置
CN109104381B (zh) 一种基于第三方流量http报文的移动应用识别方法
CN111124891A (zh) 接入状态的检测方法和装置、存储介质及电子装置
CN111143724A (zh) 一种数据处理方法、装置、设备及介质
CN114996080A (zh) 数据处理方法、装置、设备及存储介质
CN115291942A (zh) 应用程序的处理方法、装置及计算机可读存储介质
CN113094088A (zh) 数据库配置信息采集方法、装置、计算机设备及存储介质
CN114531361A (zh) 一种分布式系统的服务拓扑分析方法、装置及存储介质
CN113626236A (zh) 一种分布式文件系统的故障诊断方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant