CN110502591A - 一种数据提取方法、装置及设备 - Google Patents
一种数据提取方法、装置及设备 Download PDFInfo
- Publication number
- CN110502591A CN110502591A CN201910796259.4A CN201910796259A CN110502591A CN 110502591 A CN110502591 A CN 110502591A CN 201910796259 A CN201910796259 A CN 201910796259A CN 110502591 A CN110502591 A CN 110502591A
- Authority
- CN
- China
- Prior art keywords
- data
- message
- bury
- point data
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 238000013075 data extraction Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 38
- 238000012795 verification Methods 0.000 claims description 18
- 230000001960 triggered effect Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 230000006872 improvement Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 238000012216 screening Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/546—Message passing systems or structures, e.g. queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/54—Indexing scheme relating to G06F9/54
- G06F2209/547—Messaging middleware
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书实施例公开了一种数据提取方法、装置及设备。该数据提取方案包括:流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;将确定出的目标消息存储至数据库。
Description
本申请涉及计算机数据处理技术领域,尤其涉及一种数据提取方法、装置及设备。
背景技术
随着信息技术的发展,数据库被广泛应用于对电子数据进行存储、处理的过程中。数据库可以对企业运行过程中所涉及的各种业务数据进行汇总,以便于后续的使用。目前,当企业工作人员需要使用指定数据时,需从数据库中进行数据提取。由于数据库中存储有海量数据,因此,从数据库中提取指定数据时,需对大量数据进行筛选,耗时较长,数据提取效率较低。
发明内容
有鉴于此,本申请实施例提供了一种数据提取方法、装置及设备,用于解决需要提供效率更高的数据提取方法的问题。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种数据提取方法,包括:
流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
本说明书实施例提供的一种埋点验证方法,包括:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于上述数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
本说明书实施例提供的一种数据提取装置,包括:
第一获取模块,用于基于流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
第二获取模块,用于从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
确定模块,用于将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
存储模块,用于将确定出的目标消息存储至数据库。
本说明书实施例提供的一种埋点验证装置,包括:
获取模块,用于获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于上述的数据提取方法提取出的;
验证模块,用于根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
本说明书实施例提供的一种数据提取设备,包括:
至少一个处理器;所述处理器中包含流数据处理引擎;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
基于所述流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
本说明书实施例提供的一种埋点验证设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于上述的数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
本说明书实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:
基于流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
本说明书实施例提供的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于上述的数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:
当需要获取待提取数据时,可以预先确定待提取数据的数据标识(即待提取数据标识),使用流数据处理引擎从消息中间件处获取订阅消息集合,并将该订阅消息集合中与待提取数据标识对应的消息,存储至数据库。该方案通过流数据处理引擎对从消息中间件处获取的消息进行逐条筛选,以得到待提取数据,无需对数据库中的大量数据进行筛选,减少了筛选次数,从而可以提高数据提取效率。由于流数据处理引擎与消息中间件可以对终端上报的消息进行实时发布与消费,从令流数据处理引擎可以实时的提取到终端上报的待提取数据,该方案对数据提取的实时性也较好。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例一提供的一种数据提取方法的流程示意图;
图2为本说明书实施例一中方法的一种应用场景示意图;
图3为本说明书实施例二提供的一种埋点验证方法的流程示意图;
图4为本说明书实施例二提供的一种埋点验证界面的示意图;
图5为本说明书实施例三提供的对应于图1中方法的一种数据提取装置的结构示意图;
图6为本说明书实施例四提供的对应于图3中方法的一种埋点验证装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1为本说明书实施例一提供的一种数据提取方法的流程示意图。从程序角度而言,流程的执行主体可以是搭载于服务器上的流数据处理引擎。
如图1所示,该流程可以包括以下步骤:
步骤101:流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息。
在本说明书实施例中,流数据处理引擎需预先建立与消息中间件之间的订阅关系,从而可以从消息中间件处获取订阅消息,进而可以从订阅消息中提取待提取数据(即目标消息)。具体的,可以预先确定包含待提取数据的流数据所写入的消息中间件中的指定主题,流数据处理引擎可以发送订阅请求至消息中间件,以请求订阅所述指定主题中的消息。在实际应用中,流数据处理引擎只需可以对消息中间件处发布的订阅消息进行消费,并可以识别目标消息,将目标消息写入数据库即可。而消息中间件只需可以接收流数据,并将流数据写入消息队列进行发布即可。例如,所述流数据处理引擎可以通过Spark或Flink实现;所述消息中间件可以通过Kafka、RabbitMQ或RocketMQ实现。
在本说明书实施例中,消息中间件的指定主题中所发布的消息可以为终端设备实时上报的流数据。由于流数据处理引擎与消息中间件可以对终端上报的数据进行实时发布与消费,从而令流数据处理引擎提取到的待提取数据的实时性较好,适用于对消息提取实时性要求较高的应用场景。
在本说明书实施例中,消息中间件的指定主题中所发布的消息也可以是数据仓库对终端设备上报的数据进行汇总后而发送给消息中间件的。具体的,当需要从数据仓库中存储的大量数据中获取待提取数据时,可以将数据仓库中包含待提取数据的数据集合发送至消息中间件,并基于图1中的方法从消息中间件发布的订阅消息中提取待提取数据。例如,当需要提取设备标识为A及B的两个终端设备在19年1月1日生成的埋点数据时,可以将数据仓库中存储的生成时间为19年1月1日的全部埋点数据写入消息中间件,将A及B作为待提取数据标识集合中的待提取数据标识,基于图1中的方法提取待提取数据。由于流数据处理引擎对消息消费、筛选的效率高于数据仓库对数据筛选的效率,因此,可以提升数据提取效率。
在本说明书实施例中,待提取数据标识集合可以是基于实际需求而人工指定的。待提取数据标识集合中可以包含一个或多个待提取数据标识,该待提取数据标识可以用于确定从消息中间件处获取的各条订阅消息是否为待提取数据(即目标消息)。
步骤102:从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的。
在本说明书实施例中,流数据处理引擎可以周期性的从消息中间件处获取订阅消息,流数据处理引擎每次从消息中间件处获取的消息可以为消息中间件在指定时间段内发布的,所述指定时间段对应的时长可以为毫秒级时长,例如,10毫秒、500毫秒等;或者,所述指定时间段对应的时长也可以为秒级时长或分钟级时长。当指定时间段越短时,意为流数据处理引擎从消息中间件处获取订阅消息的频率越高,有利于提高提取到的数据的实时性。在本说明书实施例中,指定时间段所对应的时长可以根据实际需求确定,在此不做具体限定。
步骤103:将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息。
在本说明书实施例中,从消息中间件处获取的每条订阅消息都具有对应的数据标识,可以通过比对订阅消息的数据标识与待提取数据标识是否一致,以确定订阅消息集合中的一条订阅消息是否为目标消息。
具体的,步骤103可以包括:对于所述订阅消息集合中的任意一条订阅消息,确定所述任意一条订阅消息的数据标识;判断所述任意一条订阅消息的数据标识是否与所述待提取数据标识集合中的至少一个待提取数据标识一致;若是,则将所述任意一条订阅消息确定为一条目标消息;若否,则将所述任意一条订阅消息确定为非目标消息。
在实际应用中,所述订阅消息集合中的订阅消息通常由消息头与消息体构成,其中,消息头用于描述消息体中携带的数据,而消息体则为终端设备(或数据仓库)发送至消息中间件的数据。订阅消息的数据标识既可以携带于消息头中,与可以携带于消息体中。当订阅消息的数据标识携带于消息体中时,需对订阅消息进行解析,以确定订阅消息的数据标识。
在本说明书实施例中,可以将一条订阅消息的数据标识与待提取数据标识集合中的各个待提取数据标识依序进行比对,直至比对结果表示待提取数据标识集合中存在与该订阅消息的数据标识相同的待提取数据标识,此时,可以将该订阅消息确定为目标消息。或者,直至比对结果表示待提取数据标识集合中不存在与该订阅消息的数据标识相同的待提取数据标识,此时,可以将该订阅消息确定为非目标消息。
步骤104:将确定出的目标消息存储至数据库。并不对非目标消息进行存储。
在本说明书实施例中,通过流数据处理引擎对从消息中间件处获取的订阅消息进行逐条筛选,以得到待提取数据,无需对数据库中的大量数据进行筛选,减少了筛选次数,从而可以提高数据提取效率。由于流数据处理引擎与消息中间件可以对终端上报的消息进行实时发布与消费,从令流数据处理引擎可以实时的提取到终端上报的待提取数据,该方案对数据提取的实时性较好。
基于图1中的方法,本说明书实施例还提供了该方法的一些具体实施方式,下面进行说明。
在本说明书实施例中,实施例一中的数据提取方法可以应用于多种场景。
应用场景一:用于提取目标埋点数据的场景。
步骤101具体可以包括:流数据处理引擎从数据库获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识是根据人工经验而预先设置,所述待提取数据标识集合中的待提取数据标识包括用户唯一标识及设备唯一标识中的至少一种,所述待提取数据标记用于标记指定终端设备生成的埋点数据,或者,所述待提取数据标识用于标记指定用户的埋点数据。
步骤102之前还可以包括:发送订阅请求至消息中间件,以请求订阅指定主题的消息。
对应的,步骤102具体可以包括:从消息中间件处获取所述指定主题中的消息,得到订阅消息集合,所述指定主题中的消息是终端设备基于即时通信网关发送至所述消息中间件的埋点数据。
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;并将确定出的目标消息存储至数据库。
在本应用场景中,当需要提取指定终端设备生成的埋点数据时,可以将指定终端设备的设备唯一标识作为待提取数据标识;其中,设备唯一标识可以采用国际移动设备识别码(International Mobile Equipment Identity,IMEI)、设备IP(InternetProtocolAddress)地址或设备PIN码(Personal Identification Number)等实现。当需要提取指定用户的埋点数据时,可以将指定用户的用户唯一标识作为待提取数据标识;其中,用户唯一标识具体可以采用用户在目标应用客户端处的已注册账户的账户标识实现。
在本应用场景中,终端设备可以通过即时通信网关将生成的埋点数据实时发送至消息中间件,消息中间件将接收的埋点数据实时写入消息队列,流数据处理引擎从消息中间件处实时获取订阅消息,并从订阅消息中提取出目标埋点数据。令目标埋点数据自终端设备上报时刻至提取到目标埋点数据的时刻之间的时间差控制在秒级之内。而目前从数据库中提取埋点数据的方法自终端设备上报时刻至提取到目标埋点数据的时刻之间的时间差通常为分钟级。可知,基于实施例一的方法提取目标埋点数据的实时性较好,进而为实时埋点验证方法提供了实现条件。
图2为实施例一中的数据提取方法应用于目标埋点数据提取的应用场景示意图。如图2所示,第一用户可以在第一终端设备201上使用其所搭载的目标应用客户端,第二用户可以在第二终端设备202上使用其所搭载的目标应用客户端。第一终端设备201及第二终端设备202均将基于用户操作而生成的埋点数据上报至网关203,网关203将第一终端设备201及第二终端设备202上报的埋点数据发送至消息中间件204,消息中间件204将网关203上报的埋点数据发布至指定主题中。流数据处理引擎205从消息中间件204处获取指定主题中的订阅消息,流数据处理引擎205获取到的订阅消息包含第一用户的第一终端设备201上报的埋点数据及第二用户的第二终端设备202上报的埋点数据。假定,流数据处理引擎205从数据库206中获取的待提取数据标识集合中仅包含第一用户的标识或第一终端设备的标识,则流数据处理引擎205可以根据待提取数据标识将订阅消息中的第一用户的第一终端设备201上报的数据确定为目标消息,并存储至数据库206,以便于后续对目标数据的分析。
应用场景二:用于提取目标用户的场景。
在本应场景中,所述待提取数据标识集合中的待提取数据标识可以根据实际需求而预先设置。例如,当需要提取浏览过某一商品的用户数据时,可以将该商品标识作为待提取数据标识。当需要提取在指定时间段内打开过某一音频的用户数据时,可以将指定时间段标识及该音频标识作为一个待提取数据标识。对于待提取数据标识只需可以用于确定待提取数据即可,本说明书实施例中对此不做具有限定。
对应的,消息中间件发布的消息可以为用户对各个商品展示页面的浏览记录,或者,用户对音频展示页面中的各个音频的播放记录。消息中间件发布的消息中均具有数据标识,根据待提取数据标识与消息的数据标识进行比对,即可确定出目标消息。实施例一中对确定目标消息的实现方式已进行描述,在此不再赘述。
通过上述内容,可知,实施例一中的数据提取方法适用于从大量数据中提取携带有指定数据标识的数据的应用场景,相较于从数据库中存储的大量数据中提取携带有指定数据标识的数据的方法,实施例一中方法对数据的提取效率较高。当消息中间件中的消息是终端设备实时上报的数据时,实施例一中方法提取的数据的实时性好,适用于对数据的实时性要求较高的数据分析场景。
图3为本说明书实施例二提供的一种埋点验证方法的流程示意图。从程序角度而言,流程的执行主体可以是搭载于服务器上的用于埋点验证的程序。
如图3所示,该流程可以包括以下步骤:
步骤301:获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于实施例一中的数据提取方法提取出的。
在本说明书实施例中,目标应用客户端的应用程序中可以无需预先植入用于埋点的代码,目标应用客户端的应用程序被配置为可以根据埋点配置文件进行埋点数据采集。具体的,目标应用客户端可以从云服务器处获取与该目标客户端的版本信息所对应的最新埋点配置文件,在设置埋点时,需对最新埋点配置文件进行解析,并根据解析到的埋点配置信息中控件、埋点及埋点采集信息三者之间的关联关系,设置控件的埋点,以在控件被触发后,采集所需的埋点采集信息,生成埋点数据。
或者,目标应用客户端也可以通过更新版本,而对设置的埋点进行更新。则根据该目标应用客户端的最新版本的应用程序,可以确定出最新埋点配置文件。该最新埋点配置文件中的埋点配置信息用于描述控件、埋点及埋点采集信息三者之间的关联关系。
在实际应用中,在目标应用客户端的埋点更新后,需对更新后的目标应用客户端生成的埋点数据进行验证,以确定目标应用客户端更新后的埋点是否运行正常。因此,需获取埋点更新后的目标应用客户端上报的埋点数据进行埋点验证。
在本说明书实施例中,可以将搭载有埋点更新后的目标应用客户端的终端设备的设备唯一标识,或者,埋点更新后的目标应用客户端上登录的账户所对应的用户唯一标识,确定为待提取数据标识,得到待提取数据标识集合。采用实施例一中的方法根据该待提取数据标识集合,从全部终端设备上报的埋点数据中,提取埋点更新后的目标应用客户端上报的埋点数据,并存储至数据库中。当需要进行埋点验证时,直接对数据库中的埋点数据进行检测即可。由于实施例一中方法提取的数据的实时性好,因此,当对采用实施例一中方法提取的埋点数据进行检测时,该埋点检测方法的实时性也较好。
步骤302:根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
在本说明书实施例中,所述最新埋点配置文件中的埋点配置信息包括:控件标识、埋点标识及埋点采集信息三者之间的关联关系;所述埋点配置信息还可以包括:控件、埋点及埋点采集信息的具体内容。其中,埋点采集信息可以用于指示埋点所需采集的数据,具体的,所述埋点采集信息可以用于指示待采集字段。例如,针对支付按钮这一控件设置埋点时,与该支付按钮的控件标识具有关联关系的埋点采集信息可以用于指示采集商品标识及应付金额等,则该埋点采集信息可以包含:商品标识字段及应付金额字段。在本说明书实施例中,埋点采集信息可以根据实际需求而设定,在此不做具体限定。
对于步骤302,具体可以包括:对于所述待验证埋点数据集合中的任意一个埋点数据,确定所述任意一个埋点数据对应的埋点标识;从所述最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息;判断所述任意一个埋点数据与所述埋点采集信息是否匹配;若是,则确定所述任意一个埋点数据通过验证;否则,确定所述任意一个埋点数据未通过验证。
在本说明书实施例中,一个埋点数据中可以包括:埋点标识及埋点采集信息所指示采集的数据。通过对埋点数据进行解析,可以确定出该埋点数据对应的埋点标识。
其中,从所述最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息,具体可以包括:从所述最新埋点配置文件中确定与所述任意一个埋点数据的埋点标识所对应的埋点配置信息,将确定出的埋点配置信息中的埋点采集信息,确定为与所述任意一个埋点数据的埋点标识具有关联关系的埋点采集信息。
其中,所述判断所述任意一个埋点数据与所述埋点采集信息是否匹配,具体可以包括:判断所述任意一个埋点数据中是否包含所述埋点采集信息所指示的全部待采集字段,且所述任意一个埋点数据中的各个字段均不为空。若是,则确定所述任意一个埋点数据通过验证,即生成该埋点数据的埋点运行正常。若否,则确定所述任意一个埋点数据未通过验证,即生成该埋点数据的埋点运行异常,需对埋点进行设置。
具体的,对于埋点采集信息所指示采集的任意一个字段,判断所述任意一个埋点数据中是否包含所述任意一个字段,若是,则确定所述任意一个埋点数据中包含的所述任意一个字段是否包含字符型数据或数字型数据,若是,则所述任意一个埋点数据通过验证。
在本说明书实施例中,根据最新埋点配置文件,对采用实施例一中方法提取的埋点更新后的目标应用客户端生成的埋点数据进行检测,该埋点检测方法的实时性较好,可以方便、实时的验证新设置的埋点运行是否正常,从而可以提升故障排查效率。
基于图3中的方法,本说明书实施例还提供了该方法的一些具体实施方式,下面进行说明。
在本具体实施方式中,一种埋点验证方法具体可以包括:
获取用户在埋点验证界面输入的待验证数据标识,所述待验证数据标识为用户唯一标识或设备唯一标识,与所述待验证数据标识对应的终端设备中存储有从云服务器处获取的最新埋点配置文件,以便于该终端设备中的目标应用客户端根据该最新埋点配置文件更新设置的埋点。
从数据库中获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据的数据标识与所述待验证数据标识一致,所述待验证埋点数据集合是采用实施例一中的数据提取方法根据所述待验证数据标识提取出的。具体的,可以将部分获取了最新埋点配置文件的终端设备的设备唯一标识,或部分获取了最新埋点配置文件的应用账户对应的用户唯一标识,作为待提取数据标识集合中的待提取数据标识。流数据处理引擎从消息中间件处获取订阅消息集合,该订阅消息集合中的消息是各个终端设备通过即时通信网关上报的埋点数据。将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息,并存储至数据库。用户在埋点验证界面输入的待验证数据标识应为待提取数据标识集合中的待提取数据标识,由于流数据引擎实时的将与待提取数据标识对应的消息存储至数据库,因此,埋点验证程序可以从数据库中获取实时性较好的待验证埋点数据集合。
生成埋点验证界面,所述埋点验证界面上显示有所述待验证埋点数据集合中的各个待验证埋点数据的标识信息。
对待验证埋点数据集合中的任意一个埋点数据按以下方式进行验证:
确定所述任意一个埋点数据对应的埋点标识;从最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息;判断该埋点数据中是否包含确定出的埋点采集信息所指示的全部待采集字段,且该埋点数据中的各个字段均不为空。若是,则通过验证;否则,未通过验证。
对于待验证埋点数据集合中的任意一个埋点数据,在该埋点数据未通过验证时,在所述埋点验证界面中生成验证未通过提示信息,所述验证未通过提示信息用于表示所述任意一个埋点数据未通过验证。在该埋点数据通过验证时,在所述埋点验证界面中生成验证通过提示信息,所述验证通过提示信息用于表示所述任意一个埋点数据通过验证。
在实际应用中,一个埋点数据中除包含埋点标识及埋点采集信息所指示采集的字段外,还可以包含一些其他信息,例如,设备唯一标识、用户唯一标识、埋点数据采集时间、数据上报方式、设备操作系统标识、应用版本标识等信息。其中,设备唯一标识及用户唯一标识可以作为埋点数据的数据标识使用。其中,应用版本标识用于表示生成埋点数据的目标应用客户端的版本信息,目标应用客户端的版本与最新埋点配置文件的版本相同,从而令目标应用客户端可以基于该最新埋点配置文件进行埋点设置,并令埋点验证程序可以基于该最新埋点配置文件进行埋点数据验证。
图4为本说明书实施例二提供的一种埋点验证界面的示意图。
如图4所示,该埋点验证界面包括:待验证目标应用程序的版本信息显示区域401,待验证数据标识输入区域402,操作选项403,埋点数据的标识信息显示区域404及埋点数据详细内容展示区域405。其中,待验证目标应用程序的版本信息显示区域401显示有“安卓/5.6.0/目标应用程序”,意为对应用版本为5.6.0的运行于安卓操作系统的目标应用程序生成的埋点数据进行验证。操作选项403显示有“停止收集”意为埋点验证程序正在采集待验证数据标识为“123”的埋点数据。
在图4中,埋点数据的标识信息显示区域404展示有两条埋点数据,其中,埋点标识为“s_buy”的埋点数据4041处于选中状态,则埋点数据详细内容展示区域405展示的埋点数据内容为埋点数据4041的具体内容。埋点数据的标识信息显示区域404展示的埋点数据可以按埋点数据携带的时间戳的先后顺序进行排列,图4中埋点标识为“s_buy”的埋点数据4041的时间戳为“19-1-112:10:00”,意为该埋点数据4041是在2019年1月1日12时10分整时生成的。埋点标识为“s_home_freecolun”的埋点数据的时间戳则为“2019-1-112:05:00”。在本说明书实施例中埋点数据携带的时间戳有利于确定埋点故障发生的时间。
假定,在应用版本为5.6.0的运行于安卓操作系统的目标应用程序的最新埋点配置文件中,与埋点标识“s_buy”所对应的埋点配置信息为:
可知,该埋点配置信息用于表示:给控件标识为“Saybook_buyvipagain”的控件设置埋点标识为“s_buy”的埋点,以采集"Product Tokens"字段及"payment"字段。
由于图4中埋点标识为“s_buy”的埋点数据4041的具体内容为:
通过验证,可知,埋点数据4041中的“ProductTokens”字段内容缺失且“payment”字段缺失。对应的,该埋点验证业务上还显示有验证未通过提示信息4042,该验证未通过提示信息4042用于提示埋点数据4041未通过验证,具体原因为埋点数据4041中的“ProductTokens”字段内容缺失且“payment”字段缺失。
在本说明书实施例中,在对埋点数据进行验证时,用户只需在埋点验证界面输入待验证数据标识,即可实现对埋点数据的验证,无需人工基于经验对埋点数据进行检验,既节省了人力,也降低了对埋点验证操作人员的要求,方便快捷。且由于获取到的待验证埋点数据的实时性较好,因此,可以更迅速的对埋点更新后的目标应用程序生成的埋点数据进行跟踪,从而便于及时发现埋点更新后的目标应用程序运行时所存在的问题。
基于同样的思路,本说明书实施例三还提供了与图1中方法对应的装置。图5为本说明书实施例三提供的对应于图1中方法的一种数据提取装置的结构示意图。如图5所示,该装置可以包括:
第一获取模块501,用于基于流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息。所述流数据处理引擎为Spark或Flink中的任意一种。
第二获取模块502,用于从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的。;所述消息中间件为Kafka、RabbitMQ或RocketMQ中的任意一种。
确定模块503,用于将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息。
存储模块504,用于将确定出的目标消息存储至数据库。
所述确定模块503,具体可以用于:
对于所述订阅消息集合中的任意一条订阅消息,确定所述任意一条订阅消息的数据标识;判断所述任意一条订阅消息的数据标识是否与所述待提取数据标识集合中的至少一个待提取数据标识一致;若是,则将所述任意一条订阅消息确定为一条目标消息。
所述数据提取装置,还可以包括:
发送模块,用于发送订阅请求至消息中间件,以请求订阅指定主题的消息;
所述第二获取模块502,具体可以用于:
从消息中间件处获取所述指定主题中的消息,得到订阅消息集合,所述指定主题中的消息是终端设备基于即时通信网关发送至所述消息中间件的埋点数据。
所述第一获取模块501,具体可以用于:
流数据处理引擎从数据库获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识是根据人工经验而预先设置,所述待提取数据标识集合中的待提取数据标识包括用户唯一标识及设备唯一标识中的至少一种,所述待提取数据标记用于标记指定终端设备生成的埋点数据,或者,所述待提取数据标识用于标记指定用户的埋点数据。
基于同样的思路,本说明书实施例四还提供了与图3中方法对应的装置。图6为本说明书实施例四提供的对应于图3中方法的一种埋点验证装置的结构示意图。如图6所示,该埋点验证装置,可以包括:
获取模块601,用于获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于实施例一中所述的数据提取方法提取出的。
验证模块602,用于根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
所述验证模块602,具体可以用于:
对于所述待验证埋点数据集合中的任意一个埋点数据,确定所述任意一个埋点数据对应的埋点标识。
从所述最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息;所述最新埋点配置文件中的埋点配置信息包括:控件标识、埋点标识及埋点采集信息三者之间的关联关系。
判断所述任意一个埋点数据与所述埋点采集信息是否匹配。
若是,则确定所述任意一个埋点数据通过验证。
否则,确定所述任意一个埋点数据未通过验证。
所述埋点采集信息用于指示待采集字段。
其中,所述判断所述任意一个埋点数据与所述埋点采集信息是否匹配,具体包括:
判断所述任意一个埋点数据中是否包含所述埋点采集信息所指示的全部待采集字段,且所述任意一个埋点数据中的各个字段均不为空。
所述埋点验证装置,还可以包括:
埋点验证界面生成模块,用于生成埋点验证界面,所述埋点验证界面上显示有所述待验证埋点数据集合中的各个待验证埋点数据的标识信息。
提示信息生成模块,用于在所述埋点验证界面中生成验证未通过提示信息,所述验证未通过提示信息用于表示所述任意一个埋点数据未通过验证。
获取模块601,具体可以用于:
获取用户在埋点验证界面输入的待验证数据标识,所述待验证数据标识为用户唯一标识或设备唯一标识,与所述待验证数据标识对应的终端设备中存储有从云服务器处获取的所述最新埋点配置文件。
从数据库中获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据的数据标识与所述待验证数据标识一致,所述待验证埋点数据集合是采用实施例一中所述的数据提取方法根据所述待验证数据标识提取出的。
基于同样的思路,本说明书实施例五还提供了与图1中方法对应的数据提取设备。该数据提取设备,可以包括:
至少一个处理器;所述处理器中包含流数据处理引擎;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
基于所述流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息。
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的。
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息。
将确定出的目标消息存储至数据库。
基于同样的思路,本说明书实施例六还提供了与图3中方法对应的埋点验证设备。该埋点验证设备,可以包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于实施例一中所述的数据提取方法提取出的。
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
基于同样的思路,本说明书实施例七还提供了与图1中方法对应的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时可以实现如下的步骤:
基于流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息。
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的。
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息。
将确定出的目标消息存储至数据库。
基于同样的思路,本说明书实施例八还提供了与图3中方法对应的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时可以实现如下的步骤:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于实施例一中所述的数据提取方法提取出的。
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、非易失性计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供的装置、设备、非易失性计算机可读存储介质与方法是对应的,因此,装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述对应装置、设备、非易失性计算机存储介质的有益技术效果。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(FieldProgrammableGateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、AtmelAT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,应包含在本申请的权利要求范围之内。
Claims (20)
1.一种数据提取方法,其特征在于,包括:
流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
2.如权利要求1所述的方法,其特征在于,所述将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息,具体包括:
对于所述订阅消息集合中的任意一条订阅消息,确定所述任意一条订阅消息的数据标识;
判断所述任意一条订阅消息的数据标识是否与所述待提取数据标识集合中的至少一个待提取数据标识一致;
若是,则将所述任意一条订阅消息确定为一条目标消息。
3.如权利要求1所述的方法,其特征在于,所述从消息中间件处获取订阅消息集合之前,还包括:
发送订阅请求至消息中间件,以请求订阅指定主题的消息;
所述从消息中间件处获取订阅消息集合,具体包括:
从消息中间件处获取所述指定主题中的消息,得到订阅消息集合,所述指定主题中的消息是终端设备基于即时通信网关发送至所述消息中间件的埋点数据。
4.如权利要求3所述的方法,其特征在于,所述流数据处理引擎获取待提取数据标识集合,具体包括:
流数据处理引擎从数据库获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识是根据人工经验而预先设置,所述待提取数据标识集合中的待提取数据标识包括用户唯一标识及设备唯一标识中的至少一种,所述待提取数据标记用于标记指定终端设备生成的埋点数据,或者,所述待提取数据标识用于标记指定用户的埋点数据。
5.如权利要求1所述的方法,其特征在于,所述流数据处理引擎为Spark或Flink中的任意一种;所述消息中间件为Kafka、RabbitMQ或RocketMQ中的任意一种。
6.一种埋点验证方法,其特征在于,包括:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于权利要求1中的数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
7.如权利要求6所述的方法,其特征在于,所述最新埋点配置文件中的埋点配置信息包括:控件标识、埋点标识及埋点采集信息三者之间的关联关系;
所述根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,具体包括:
对于所述待验证埋点数据集合中的任意一个埋点数据,确定所述任意一个埋点数据对应的埋点标识;
从所述最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息;
判断所述任意一个埋点数据与所述埋点采集信息是否匹配;
若是,则确定所述任意一个埋点数据通过验证;
否则,确定所述任意一个埋点数据未通过验证。
8.如权利要求7所述的方法,其特征在于,所述埋点采集信息用于指示待采集字段;
所述判断所述任意一个埋点数据与所述埋点采集信息是否匹配,具体包括:
判断所述任意一个埋点数据中是否包含所述埋点采集信息所指示的全部待采集字段,且所述任意一个埋点数据中的各个字段均不为空。
9.如权利要求7或8所述的方法,其特征在于,所述获取待验证埋点数据集合之后,还包括:
生成埋点验证界面,所述埋点验证界面上显示有所述待验证埋点数据集合中的各个待验证埋点数据的标识信息;
所述确定所述任意一个埋点数据验证未通过之后,还包括:
在所述埋点验证界面中生成验证未通过提示信息,所述验证未通过提示信息用于表示所述任意一个埋点数据未通过验证。
10.如权利要求9所述的方法,其特征在于,所述获取待验证埋点数据集合,具体包括:
获取用户在埋点验证界面输入的待验证数据标识,所述待验证数据标识为用户唯一标识或设备唯一标识,与所述待验证数据标识对应的终端设备中存储有从云服务器处获取的所述最新埋点配置文件;
从数据库中获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据的数据标识与所述待验证数据标识一致,所述待验证埋点数据集合是采用权利要求1中的数据提取方法根据所述待验证数据标识提取出的。
11.一种数据提取装置,其特征在于,包括:
第一获取模块,用于基于流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
第二获取模块,用于从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
确定模块,用于将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
存储模块,用于将确定出的目标消息存储至数据库。
12.如权利要求11所述的装置,其特征在于,所述确定模块,具体用于:
对于所述订阅消息集合中的任意一条订阅消息,确定所述任意一条订阅消息的数据标识;
判断所述任意一条订阅消息的数据标识是否与所述待提取数据标识集合中的至少一个待提取数据标识一致;
若是,则将所述任意一条订阅消息确定为一条目标消息。
13.如权利要求11所述的装置,其特征在于,所述装置还包括:
发送模块,用于发送订阅请求至消息中间件,以请求订阅指定主题的消息;
所述第二获取模块,具体用于:
从消息中间件处获取所述指定主题中的消息,得到订阅消息集合,所述指定主题中的消息是终端设备基于即时通信网关发送至所述消息中间件的埋点数据。
14.一种埋点验证装置,其特征在于,包括:
获取模块,用于获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于权利要求1中的数据提取方法提取出的;
验证模块,用于根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
15.如权利要求14所述的装置,其特征在于,所述最新埋点配置文件中的埋点配置信息包括:控件标识、埋点标识及埋点采集信息三者之间的关联关系;
所述验证模块,具体用于:
对于所述待验证埋点数据集合中的任意一个埋点数据,确定所述任意一个埋点数据对应的埋点标识;
从所述最新埋点配置文件中确定与所述埋点标识具有关联关系的埋点采集信息;
判断所述任意一个埋点数据与所述埋点采集信息是否匹配;
若是,则确定所述任意一个埋点数据通过验证;
否则,确定所述任意一个埋点数据未通过验证。
16.如权利要求15所述的装置,其特征在于,所述装置还包括:
埋点验证界面生成模块,用于生成埋点验证界面,所述埋点验证界面上显示有所述待验证埋点数据集合中的各个待验证埋点数据的标识信息;
提示信息生成模块,用于在所述埋点验证界面中生成验证未通过提示信息,所述验证未通过提示信息用于表示所述任意一个埋点数据未通过验证。
17.一种数据提取设备,其特征在于,包括:
至少一个处理器;所述处理器中包含流数据处理引擎;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
基于所述流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
18.一种埋点验证设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于权利要求1中的数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:
基于流数据处理引擎获取待提取数据标识集合,所述待提取数据标识集合中的待提取数据标识用于标记目标消息;
从消息中间件处获取订阅消息集合,所述订阅消息集合中的订阅消息是所述消息中间件在指定时间段内发布的;
将所述订阅消息集合中与所述待提取数据标识对应的消息,确定为目标消息;
将确定出的目标消息存储至数据库。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时实现如下的步骤:
获取待验证埋点数据集合,所述待验证埋点数据集合中的埋点数据是终端设备中搭载的目标应用客户端基于最新埋点配置文件设置的埋点被触发后生成的,所述待验证埋点数据集合中的埋点数据是基于权利要求1中的数据提取方法提取出的;
根据所述最新埋点配置文件,对所述待验证埋点数据集合中的埋点数据进行埋点验证,得到埋点验证结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910796259.4A CN110502591A (zh) | 2019-08-27 | 2019-08-27 | 一种数据提取方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910796259.4A CN110502591A (zh) | 2019-08-27 | 2019-08-27 | 一种数据提取方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110502591A true CN110502591A (zh) | 2019-11-26 |
Family
ID=68589801
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910796259.4A Pending CN110502591A (zh) | 2019-08-27 | 2019-08-27 | 一种数据提取方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110502591A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444037A (zh) * | 2020-03-26 | 2020-07-24 | 公安部第三研究所 | 实现针对标识数据处理及对应关系验证处理的方法 |
CN113194129A (zh) * | 2021-04-22 | 2021-07-30 | 山东浪潮通软信息科技有限公司 | 一种数据的摆渡方法、设备及介质 |
CN114070879A (zh) * | 2021-11-26 | 2022-02-18 | 安天科技集团股份有限公司 | 一种数据采集器控制方法、装置及相关设备 |
CN114780434A (zh) * | 2022-05-13 | 2022-07-22 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649670A (zh) * | 2016-12-14 | 2017-05-10 | 北京五八信息技术有限公司 | 基于流式计算的数据监控方法及装置 |
CN106844217A (zh) * | 2017-01-26 | 2017-06-13 | 网易(杭州)网络有限公司 | 对应用的控件进行埋点的方法及装置、可读存储介质 |
US20170201556A1 (en) * | 2016-01-12 | 2017-07-13 | International Business Machines Corporation | Scalable event stream data processing using a messaging system |
CN109885624A (zh) * | 2019-01-23 | 2019-06-14 | 金蝶软件(中国)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN109895815A (zh) * | 2017-12-11 | 2019-06-18 | 比亚迪股份有限公司 | 列车的运行数据采集法及系统 |
-
2019
- 2019-08-27 CN CN201910796259.4A patent/CN110502591A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170201556A1 (en) * | 2016-01-12 | 2017-07-13 | International Business Machines Corporation | Scalable event stream data processing using a messaging system |
CN106649670A (zh) * | 2016-12-14 | 2017-05-10 | 北京五八信息技术有限公司 | 基于流式计算的数据监控方法及装置 |
CN106844217A (zh) * | 2017-01-26 | 2017-06-13 | 网易(杭州)网络有限公司 | 对应用的控件进行埋点的方法及装置、可读存储介质 |
CN109895815A (zh) * | 2017-12-11 | 2019-06-18 | 比亚迪股份有限公司 | 列车的运行数据采集法及系统 |
CN109885624A (zh) * | 2019-01-23 | 2019-06-14 | 金蝶软件(中国)有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111444037A (zh) * | 2020-03-26 | 2020-07-24 | 公安部第三研究所 | 实现针对标识数据处理及对应关系验证处理的方法 |
CN111444037B (zh) * | 2020-03-26 | 2023-04-25 | 公安部第三研究所 | 实现针对标识数据处理及对应关系验证处理的方法 |
CN113194129A (zh) * | 2021-04-22 | 2021-07-30 | 山东浪潮通软信息科技有限公司 | 一种数据的摆渡方法、设备及介质 |
CN114070879A (zh) * | 2021-11-26 | 2022-02-18 | 安天科技集团股份有限公司 | 一种数据采集器控制方法、装置及相关设备 |
CN114070879B (zh) * | 2021-11-26 | 2024-01-26 | 安天科技集团股份有限公司 | 一种数据采集器控制方法、装置及相关设备 |
CN114780434A (zh) * | 2022-05-13 | 2022-07-22 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110502591A (zh) | 一种数据提取方法、装置及设备 | |
CN107273280B (zh) | 一种日志处理方法、装置、电子设备和存储介质 | |
CN111177222B (zh) | 模型测试方法、装置及计算设备、存储介质 | |
US10025878B1 (en) | Data lineage analysis | |
CN110018920A (zh) | 一种页面展示异常的检测方法、装置及设备 | |
US9785311B2 (en) | Dynamically organizing applications based on a calendar event | |
CN104636142B (zh) | 一种信息处理方法及电子设备 | |
CN105243525B (zh) | 一种用户提醒方法及终端 | |
CN107608798A (zh) | 一种业务处理方法及设备 | |
CN105338564B (zh) | 一种客户端适配方法、客户端、服务器以及系统 | |
CN110502415A (zh) | 一种埋点设置方法、装置及设备 | |
CN109558297A (zh) | 内存管理方法及装置 | |
CN110458681A (zh) | 一种数据对账决策的方法、装置、服务器和存储介质 | |
CN108400902A (zh) | 一种灰度测试的方法、装置及设备 | |
CN109150700A (zh) | 一种数据采集的方法及装置 | |
CN107609880A (zh) | 一种针对使用共享物品的用户评估方法、装置及设备 | |
CN111400170A (zh) | 一种数据权限测试方法及装置 | |
CN110334160A (zh) | 基于区块链的关系绑定方法、装置及设备 | |
CN110134538A (zh) | 快速定位问题日志的方法、装置、介质和电子设备 | |
CN109271453A (zh) | 一种数据库容量的确定方法和装置 | |
CN106991087A (zh) | 一种分布式事物处理的方法、装置及系统 | |
CN111651522B (zh) | 一种数据同步方法及装置 | |
CN106294630B (zh) | 多媒体信息推荐方法、装置及多媒体系统 | |
CN109144600A (zh) | 一种应用程序的运行方法、设备及计算机可读介质 | |
CN109992614B (zh) | 数据获取方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191126 |