CN106506249B - 数据采集方法和装置 - Google Patents

数据采集方法和装置 Download PDF

Info

Publication number
CN106506249B
CN106506249B CN201510567242.3A CN201510567242A CN106506249B CN 106506249 B CN106506249 B CN 106506249B CN 201510567242 A CN201510567242 A CN 201510567242A CN 106506249 B CN106506249 B CN 106506249B
Authority
CN
China
Prior art keywords
sample rate
data acquisition
terminal
target data
acquisition system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510567242.3A
Other languages
English (en)
Other versions
CN106506249A (zh
Inventor
王晓涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510567242.3A priority Critical patent/CN106506249B/zh
Publication of CN106506249A publication Critical patent/CN106506249A/zh
Application granted granted Critical
Publication of CN106506249B publication Critical patent/CN106506249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种数据采集方法和装置。其中,该方法包括:检测终端是否执行网络访问;在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率;根据目标数据采集系统的采样率判断是否对终端进行数据采集;以及在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。本申请解决了相关技术中数据采集时采样率改变生效慢的技术问题。

Description

数据采集方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据采集方法和装置。
背景技术
在数据采集系统中,对于数据源范围特别大无法采集全量数据或者数据处理能力达不到处理全量数据的要求时会对数据源进行采样。采样率根据实际需求设定,且可能会发生变动,例如,在对湖南卫视的视频数据进行采集时,在播放“爸爸去哪儿”等节目时,数据量可能会较平时有大量增长,此时如果按照原来的采样率可能会出现数据量过大超出网络流量限制或数据处理能力无法应对过大的数据量等问题。
在现有的数据采集系统中,一般是在数据采集软件开发工具包(SoftwareDevelopment Kit,简称为SDK)内部提供数据采样率接口,SDK使用者将SDK嵌入产品(例如,网站,应用程序等)代码中,并按照需求为采样率接口设置指定值,产品上线后,通过采样算法采集在采样范围内的数据源数据。如果用户需要调整采样范围,则需要重新为SDK采样率接口赋值,并发布上线新版产品。对于产品的终端用户(即通过终端访问网站或应用程序的用户)来说,是否更新产品版本及更新时间通常是不确定的,因此这种方式存在响应时间长,调整的采用率无法及时生效等问题。
针对相关技术中数据采集时采样率改变生效慢的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种数据采集方法和装置,以解决相关技术中数据采集时采样率改变生效慢的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种数据采集方法。根据本申请的数据采集方法包括:检测终端是否执行网络访问;在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率;根据目标数据采集系统的采样率判断是否对终端进行数据采集;以及在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。
进一步地,在检测到终端执行网络访问时,从采样率配置装置上获取目标数据采集系统的采样率包括:获取目标数据采集系统的标识;根据目标数据采集系统的标识从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;判断是否成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;以及在判断出成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件时,从目标数据采集系统对应的采样率配置文件中获取目标数据采集系统的采样率。
进一步地,在检测到终端执行网络访问时,从采样率配置装置上获取目标数据采集系统的采样率包括:从采样率配置装置中读取采样率配置文件;判断是否成功从采样率配置装置中读取采样率配置文件;在判断出成功从采样率配置装置中读取采样率配置文件时,获取目标数据采集系统的标识;以及根据目标数据采集系统的标识从采样率配置文件中获取目标数据采集系统的采样率。
进一步地,在判断出未能成功读取采样率配置文件时,该方法还包括:从缓存中获取目标数据采集系统的采样率。
进一步地,在从采样率配置装置中获取目标数据采集系统的采样率之后,该方法还包括:将目标数据采集系统的采样率进行缓存。
进一步地,根据目标数据采集系统的采样率判断是否对终端进行数据采集包括:根据采样率确定采样范围;判断终端是否在采样范围内;在判断出终端在采样范围内时,则确定需要对终端进行数据采集;以及在判断出终端不在采样范围内时,则确定不需要对终端进行数据采集。
进一步地,判断终端是否在采样范围内包括:获取终端的唯一标识符;对唯一标识符进行散列运算,得到唯一标识符的散列值;对唯一标识符的散列值进行求余运算,得到唯一标识符对应的余数;判断唯一标识符对应的余数是否在采样范围内;如果唯一标识符对应的余数在采样范围内,则确定终端在采样范围内;以及如果唯一标识符对应的余数不在采样范围内,则确定终端不在采样范围内。
为了实现上述目的,根据本申请的另一方面,提供了一种数据采集装置。根据本申请的数据采集装置包括:检测单元,用于检测终端是否执行网络访问;第一获取单元,用于在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率;第一判断单元,用于根据目标数据采集系统的采样率判断是否对终端进行数据采集;以及采集单元,用于在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。
进一步地,第一获取单元包括:第一获取模块,用于获取目标数据采集系统的标识;第一读取模块,用于根据目标数据采集系统的标识从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;第一判断模块,用于判断是否成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;以及第二获取模块,用于在判断出成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件时,从目标数据采集系统对应的采样率配置文件中获取目标数据采集系统的采样率。
进一步地,第一获取单元包括:第二读取模块,用于从采样率配置装置中读取采样率配置文件;第二判断模块,用于判断是否成功从采样率配置装置中读取采样率配置文件;第三获取模块,用于在判断出成功从采样率配置装置中读取采样率配置文件时,获取目标数据采集系统的标识;以及第四获取模块,用于根据目标数据采集系统的标识从采样率配置文件中获取目标数据采集系统的采样率。
通过本申请,采用检测终端是否执行网络访问;在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率;根据目标数据采集系统的采样率判断是否对终端进行数据采集;以及在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集,解决了相关技术中数据采集时采样率改变生效慢的问题,进而达到了快速响应采样率的改变的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请第一实施例的数据采集方法的流程图;
图2是根据本申请第二实施例的数据采集方法的流程图;以及
图3是根据本申请实施例的数据采集装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述和理解,首先说明几个概念:
数据采集系统,是一种将数据采集软件开发工具包(Software Development Kit,简称为SDK)嵌入网页页面或应用程序(俗称App)等数据源中,获取指定数据并发送至指定服务器的系统。
调整数据源范围,是指通过控制数据采样,获取采样范围内的数据源数据,而非全量数据的一种方法。
根据本申请实施例,提供了一种数据采集方法。图1是根据本申请第一实施例的数据采集方法的流程图,如图1所示,该方法包括如下的步骤S102至步骤S108:
步骤S102:检测终端是否执行网络访问。
本申请实施例的终端可以是电脑、平板电脑、手机等,网络访问是指用户通过终端访问网页、应用程序等,例如,用户通过移动终端在线观看“中国好声音”节目视频。
步骤S104:在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率。
当终端执行网络访问时,例如,打开某个APP或网页,APP或网页中的数据采集系统启动,首先获取该数据采集系统(即目标数据采集系统)的采样率。本申请实施例从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率。具体地,采样率配置装置可以是在特定服务器上创建采样率配置的站点,其中,站点与数据采集系统对应,在该站点的目录下创建采样率配置文件samplerate.config,配置文件可以采用可扩展标记语言(extensible markup language,简称为xml)格式,例如,某个站点的配置格式如下:
<account id=‘accounted’>
<samplerate>0.5</samplerate>
</account>
如上所示,标识为accounted的站点的采样率设置为0.5,则该站点对应的数据采集系统的采样率即为0.5。优选地,在采样率配置装置中可以设置多个站点,并分别为每个站点设置采样率,其中,不同站点可以对应于不同的数据采集系统。
需要说明的是,上述采样率配置方式只是一种可选的方式,并不构成对本申请实施例的采样率配置的限制。
优选地,在检测到终端执行网络访问时,从采样率配置装置上获取目标数据采集系统的采样率包括:获取目标数据采集系统的标识;根据目标数据采集系统的标识从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;判断是否成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;以及在判断出成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件时,从目标数据采集系统对应的采样率配置文件中获取目标数据采集系统的采样率。
本申请实施例在采样率配置装置中为不同的数据采集系统分别设置不同的采样率配置文件,并为每个数据采集系统分配不同的标识,根据每个数据采集系统的标识即可查找到其对应的采样率配置文件,并可以从其采样率配置文件中获取采样率。具体地,在检测到终端执行网络访问时,本申请实施例根据目标数据采集系统的标识获取该目标数据采集系统对应的采样率配置文件,从而进一步从该目标数据采集系统对应的采样率配置文件中读取其采样率。
优选地,在检测到终端执行网络访问时,从采样率配置装置上获取目标数据采集系统的采样率包括:从采样率配置装置中读取采样率配置文件;判断是否成功从采样率配置装置中读取采样率配置文件;在判断出成功从采样率配置装置中读取采样率配置文件时,获取目标数据采集系统的标识;以及根据目标数据采集系统的标识从采样率配置文件中获取目标数据采集系统的采样率。
本申请实施例将不同数据采集系统的采样率配置在同一个采样率配置文件中,并为每个数据采集系统分配不同的标识,根据每个数据采集系统的标识从同一个采样率配置文件获取对应的采样率。具体地,在检测到终端执行网络访问时,尝试从采样率配置装置中读取采样率配置文件,例如,samplerate.config,如果成功读取到采样率配置文件,则获取该目标数据采集系统的标识,并进一步根据该目标数据采集系统的标识从该采样率配置文件中获取目标数据采集系统的采样率。
优选地,在判断出未能成功读取采样率配置文件时,该方法还包括:从缓存中获取目标数据采集系统的采样率。
如果读取采样率配置文件失败,则从缓存中获取目标数据采集系统的采样率。需要说明的是,本申请实施例可以在缓存中预先存储一个目标数据采集系统的采样率,也可以是将前一次从采样率配置装置中读取到的目标采集系统的采样率进行缓存,在未能成功从采样率配置装置中读取采样率配置文件时,获取前一次缓存的目标数据采集系统的采样率。在未能成功从采样率配置装置中读取采样率配置文件时,从缓存中获取目标数据采集系统的采样率,可以避免数据采集系统因缺少采样率导致数据采集失败或是系统异常等问题。
优选地,在从采样率配置装置中获取目标数据采集系统的采样率之后,该方法还包括:将目标数据采集系统的采样率进行缓存。
本申请实施例在从采样率配置文件中获取目标数据采集系统的采样率之后,对目标数据采集系统的采样率进行缓存,从而可以在下一次从采样率配置装置中获取目标数据采集系统的采样率失败时,从缓存中获取目标数据采集系统的采样率。此外,通过对目标数据采集系统的采样率进行缓存,在采样率配置装置中目标采集系统的采样率未发生变化时,下一次操作时可以直接从缓存中获取目标数据采集系统的采样率,以提高数据采集效率。
步骤S106:根据目标数据采集系统的采样率判断是否对终端进行数据采集。
可选地,根据目标数据采集系统的采样率判断是否对终端进行数据采集包括:根据采样率确定采样范围;判断终端是否在采样范围内;在判断出终端在采样范围内时,则确定需要对终端进行数据采集;以及在判断出终端不在采样范围内时,则确定不需要对终端进行数据采集。
具体地,采样率和采样范围一一对应,例如,采样率为0.5,其对应的采样范围为(0,500),采样率为0.3,其对应的采样范围为[0,300]。本申请实施例在根据采样率确定采样范围之后,判断终端是否处于采样范围内,其中,如果该终端处于采样范围内,则对该终端进行数据采集,例如,采集该终端的行为数据,否则不对该终端进行数据采集。
例如,获取该终端的设备标识ID(即唯一标识符),对于PC端一般为介质访问控制层(Media Access Control,简称为MAC)地址,对于移动端可以是MAC地址、移动设备国际身份码(International Mobile Equipment Identity,简称为IMEI)或唯一设备识别符(Unique Device Identifier,简称为UDID)等,得到一个32位的用户标识guid;将guid作为是一个36进制数,从而将guid转化为一个整数;将该整数除以1000取余数,得到余数V1;将采样率乘以1000也得到一个大于等于0,小于等于1000的阈值数V2;比较V1和V2大小,如果V1<=V2,则说明该终端落在采样范围内。
可选地,判断终端是否在采样范围内包括:获取终端的唯一标识符;对唯一标识符进行散列运算,得到唯一标识符的散列值;对唯一标识符的散列值进行求余运算,得到唯一标识符对应的余数;判断唯一标识符对应的余数是否在采样范围内;如果唯一标识符对应的余数在采样范围内,则确定终端在采样范围内;以及如果唯一标识符对应的余数不在采样范围内,则确定终端不在采样范围内。
终端的唯一性标识可以是该终端的设备标识,如上所述,对于PC端一般为介质访问控制层(Media Access Control,简称为MAC)地址,对应移动端可以是MAC地址、移动设备国际身份码(International Mobile Equipment Identity,简称为IMEI)、或唯一设备识别符(Unique Device Identifier,简称为UDID)等。本申请实施例通过对终端的唯一性标识进行散列运算(例如,哈希运算),得到该终端的唯一标识符的散列值,并对该散列值进行求余运算,得到唯一标识符对应的余数,并通过判断该唯一标识符对应的余数是否在采样范围内来确定是否对该终端进行数据采集。
步骤S108:在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。
本申请实施例在判断出需要对终端进行数据采集时,对终端进行数据采集,例如,采集该终端的行为数据和终端本身的数据,例如,用户通过该终端观看某个视频,该终端的行为数据包括该视频名称、播放地址、触发时间、观看时长等,终端本身的数据包括终端的型号、类型(移动终端或是PC终端)、所采用的浏览器类型等。
本申请实施例通过检测终端是否执行网络访问;在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率;根据目标数据采集系统的采样率判断是否对终端进行数据采集;以及在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。相比于现有技术中每次采样率调整时需要重新为采样率接口赋值并更新产品版本,本申请实施例在需要调整采样范围时,只需要调整采样率配置装置上的采样率的值,通过从采样率配置装置中读取最新的数据采集系统的采样率,操作方便,并能够快速响应变化的采样率进行数据采集,解决了相关技术中数据采集时采样率改变生效慢的问题,进而达到了快速响应采样率的改变的效果。
需要说明的是,本申请实施例的采样率配置装置可以自动更新采样率配置文件,具体地,可以获取当前时间,例如,采样率配置装置当前的系统时间,并根据当前时间判断是否需要更新目标数据采集系统的采样率配置文件,如果判断出需要更新目标数据采集系统的采样率配置文件,则更新目标数据采集系统的采样率配置文件。
具体地,由于在一些时段,例如,12:00-14:00,20:00-22:00等,网页或是应用程序的访问量较大,此时为了减少数据量,可以降低采样率;而在另一些时段,例如,00:00-5:00,9:00-11:00等,网页或是应用程序的访问量较小,此时可以增大采样率。优选地,本申请实施例可以预先在采样率配置装置中设置一个预设时间和采样率的映射关系表,如表1所示:
表1
预设时间 采样率
00:00-5:59 0.8
6:00-8:59 0.6
9:00-11:59 0.7
12:00-13:59 0.6
采样率配置装置可以实时获取当前的系统时间(即当前时间)并与映射关系表中预设时间进行匹配,并通过匹配的预设时间对应的采样率更新目标数据采集系统的采样率配置文件。
通过上述方式可以实现采样率配置文件的自动更新,从而可以保证每次获取到的目标数据采集系统的采样率都为最新的采样率,从而可以自动且及时地实现目标采集系统的采样率的调整,以满足不同时间段对不同采样率的需求。
图2是根据本申请第二实施例的数据采集方法的流程图。
需要说明的是,本申请实施例通过采样率配置云平台(即采样率配置装置)配置数据采集系统的采样率,具体地,采样率配置云平台可以是在特定服务器上创建采样率配置的站点,启动该站点的文件访问,其中,站点与数据采集系统对应,在该站点的目录下创建采样率配置文件samplerate.config,配置文件可以采用可扩展标记语言(extensiblemarkup language,简称为xml)格式,例如,某个站点的配置格式如下:
<account id=‘accounted’>
<samplerate>0.5</samplerate>
</account>
如上所示,标识为accounted的站点的采样率设置为0.5,则该站点对应的数据采集系统的采样率即为0.5。
本申请实施例可以在数据采集SDK中增加从采样率云配置平台获取采样率信息的模块,从而可以实时的获取采样率云配置平台上配置的采样率。用户通过在产品(例如,网页,APP等)中嵌入此SDK,终端用户(例如,手机或PC等终端)在每次启动产品时会从采样率云配置平台上获取采样率,并判断该终端是否在采样范围内,如果在采样范围内则采集数据。
具体地,如图2所示,该方法包括如下步骤:
步骤S202:终端执行网络访问。
即用户通过终端访问网页或是APP等。
步骤S204:读取SDK配置中的标识符accountid。
标识符accountid用于在采样率配置云平台中(即采样率配置装置)标识目标数据采集系统,具体地,在采样率配置云平台中,标识符accountid与数据采集系统一一对应。
步骤S206:访问采样率配置云平台中samplerate.config配置文件。
具体地,amplerate.config配置文件即采样率配置文件。
步骤S208:判断读取samplerate.config配置文件是否成功。
判断是否成功读取采样率配置云平台中samplerate.config配置文件,如果成功读取到采样率配置云平台中samplerate.config配置文件,则执行步骤S210,否则执行步骤S214。
步骤S210:按照accountid得到对应的采样率。
根据目标数据采集系统的accountid查找目标数据采集系统对应的采样率。
步骤S212:将采样率值缓存到本地。
在从采样率配置云平台中获取到目标数据采集系统对应的采样率之后,将该采样率值缓存到本地,例如,缓存到终端上。
步骤S214:读取本地缓存的采样率值。
在读取采样率配置云平台中samplerate.config配置文件失败时,则从本地缓存中获取采样率值。
步骤S216:判断该终端是否在采样范围内。
再通过上述步骤得到目标数据采集系统的采样率后,判断该终端是否在采样范围内。具体地,判断该终端是否在采样率范围内的方法可以包括如下步骤:
步骤S1:对于PC端一般为介质访问控制层(Media Access Control,简称为MAC)地址,对于移动端可以是MAC地址、移动设备国际身份码(International Mobile EquipmentIdentity,简称为IMEI)或唯一设备识别符(Unique Device Identifier,简称为UDID)等,得到一个32位的用户标识guid。
步骤S2:将guid作为是一个36进制数,其中,0~9、a~z分别对应于0~35,从而将guid转化为一个整数。
步骤S3:该整数除以1000取余数,得到余数V1。
步骤S4:将采样率乘以1000也得到一个大于等于0,小于等于1000的阈值数V2。
步骤S5:比较V1和V2大小,如果V1<=V2,则说明该终端落在采样范围内。
在判断出该终端在采样范围内时,则执行步骤S218,在判断出该终端不在采样范围内时,则执行步骤S220。
步骤S218:对此终端进行数据采集。
本申请实施例在判断出需要对终端进行数据采集时,对终端进行数据采集,例如,采集该终端的行为数据和终端本身的数据,例如,用户通过该终端观看某个视频,该终端的行为数据包括该视频名称、播放地址、触发时间、观看时长等,终端本身的数据包括终端的型号、类型(移动终端或是PC终端)、所采用的浏览器类型等。
步骤S220:不采集此终端数据。即不对该终端进行数据采集。
从以上的描述中,可以看出,本申请实现了如下技术效果:
本申请实施例在需要调整采样范围时,只需要调整采样率配置装置(采样率配置云平台)中的采样率的值,产品终端用户就可以动态的从采样率配置装置获取最新的采用率,并判断是否在采样范围内,如果需要定时调整采样率,还可以编写专用脚本,定时更新采样率配置装置中对应的站点中采样率的值。采用上述方式,不需要重新发布或更新产品版本,可以随时调整数据采样范围,降低采样率改变的复杂度,使采样率改变轻松易操作,使采样率改变后可以快速生效,使得采样统计结果准确、符合预期,此外,还增加了读取异常的缓存备份机制,防止异常。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例的另一方面,提供了一种数据采集装置,该数据采集装置可以用于执行本申请实施例的数据采集方法,本申请实施例的数据采集方法也可以通过本申请实施例的数据采集装置来执行。
图3是根据本申请实施例的数据采集装置的示意图,如图3所示,该装置包括:检测单元10、第一获取单元20、第一判断单元30和采集单元40。
检测单元10,用于检测终端是否执行网络访问。
本申请实施例的终端可以是电脑、平板电脑、手机等,网络访问是指用户通过终端访问网页、应用程序等,例如,用户通过移动终端在线观看“中国好声音”节目视频。
第一获取单元20,用于在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率。
当终端执行网络访问时,例如,打开某个APP或网页,APP或网页中的数据采集系统启动,首先获取该数据采集系统(即目标数据采集系统)的采样率。本申请实施例从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率。具体地,采样率配置装置可以是在特定服务器上创建采样率配置的站点,其中,站点与数据采集系统对应,在该站点的目录下创建采样率配置文件samplerate.config,配置文件可以采用可扩展标记语言(extensible markup language,简称为xml)格式。
可选地,第一获取单元20包括:第一获取模块,用于获取目标数据采集系统的标识;第一读取模块,用于根据目标数据采集系统的标识从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;第一判断模块,用于判断是否成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件;以及第二获取模块,用于在判断出成功从采样率配置装置中读取目标数据采集系统对应的采样率配置文件时,从目标数据采集系统对应的采样率配置文件中获取目标数据采集系统的采样率。
可选地,第一获取单元20包括:第二读取模块,用于从采样率配置装置中读取采样率配置文件;第二判断模块,用于判断是否成功从采样率配置装置中读取采样率配置文件;第三获取模块,用于在判断出成功从采样率配置装置中读取采样率配置文件时,获取目标数据采集系统的标识;以及第四获取模块,用于根据目标数据采集系统的标识从采样率配置文件中获取目标数据采集系统的采样率。
第一判断单元30,用于根据目标数据采集系统的采样率判断是否对终端进行数据采集。
采集单元40,用于在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。
本申请实施例通过检测单元10检测终端是否执行网络访问;第一获取单元20在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,采样率配置装置用于设置数据采集系统的采样率;第一判断单元30根据目标数据采集系统的采样率判断是否对终端进行数据采集;以及采集单元40在根据目标数据采集系统的采样率判断出需要对终端进行数据采集时,对终端进行数据采集。相比于现有技术中每次采样率调整时需要重新为采样率接口赋值并更新产品版本,本申请实施例在需要调整采样范围时,只需要调整采样率配置装置上的采样率的值,通过从采样率配置装置中读取最新的数据采集系统的采样率,操作方便,并能够快速响应变化的采样率进行数据采集,解决了相关技术中数据采集时采样率改变生效慢的问题,进而达到了快速响应采样率的改变的效果。
优选地,该装置还包括:缓存模块,用于将目标数据采集系统的采样率进行缓存。
优选地,该装置还包括:第二获取单元,用于从缓存中获取目标数据采集系统的采样率。
优选地,第一判断单元30包括:第一确定模块,用于根据采样率确定采样范围;第三判断模块,用于判断终端是否在采样范围内;以及第二确定模块,用于在判断出终端在采样范围内时,则确定需要对终端进行数据采集,在判断出终端不在采样范围内时,则确定不需要对终端进行数据采集。
可选地,第三判断模块包括:获取子模块,用于获取终端的唯一标识符;第一运算子模块,用于对唯一标识符进行散列运算,得到唯一标识符的散列值;第二运算子模块,用于对唯一标识符的散列值进行求余运算,得到唯一标识符对应的余数;判断子模块,用于判断唯一标识符对应的余数是否在采样范围内;以及确定子模块,用于在判断出唯一标识符对应的余数在采样范围内时,确定终端在采样范围内,在判断出唯一标识符对应的余数不在采样范围内时,确定终端不在采样范围内。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种数据采集方法,其特征在于,包括:
检测终端是否执行网络访问;
在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,所述采样率配置装置用于设置数据采集系统的采样率;
根据所述目标数据采集系统的采样率判断是否对所述终端进行数据采集;以及
在根据所述目标数据采集系统的采样率判断出需要对所述终端进行数据采集时,对所述终端进行数据采集,其中,对所述终端进行数据采集包括:采集所述终端的行为数据和终端本身的数据;
其中,在检测到终端执行网络访问时,从采样率配置装置上获取目标数据采集系统的采样率包括:获取所述目标数据采集系统的标识;根据所述目标数据采集系统的标识从所述采样率配置装置中读取所述目标数据采集系统对应的采样率配置文件;判断是否成功从所述采样率配置装置中读取所述目标数据采集系统对应的采样率配置文件;以及在判断出成功从所述采样率配置装置中读取所述目标数据采集系统对应的采样率配置文件时,从所述目标数据采集系统对应的采样率配置文件中获取所述目标数据采集系统的采样率。
2.根据权利要求1所述的方法,其特征在于,在检测到终端执行网络访问时,从采样率配置装置上获取目标数据采集系统的采样率包括:
从所述采样率配置装置中读取采样率配置文件;
判断是否成功从所述采样率配置装置中读取所述采样率配置文件;
在判断出成功从所述采样率配置装置中读取所述采样率配置文件时,获取所述目标数据采集系统的标识;以及
根据所述目标数据采集系统的标识从所述采样率配置文件中获取所述目标数据采集系统的采样率。
3.根据权利要求1或2所述的方法,其特征在于,在判断出未能成功读取采样率配置文件时,所述方法还包括:从缓存中获取所述目标数据采集系统的采样率。
4.根据权利要求1所述的方法,其特征在于,在从采样率配置装置中获取目标数据采集系统的采样率之后,所述方法还包括:将所述目标数据采集系统的采样率进行缓存。
5.根据权利要求1至2中任一项所述的方法,其特征在于,根据所述目标数据采集系统的采样率判断是否对所述终端进行数据采集包括:
根据所述采样率确定采样范围;
判断所述终端是否在所述采样范围内;
在判断出所述终端在所述采样范围内时,则确定需要对所述终端进行数据采集;以及
在判断出所述终端不在所述采样范围内时,则确定不需要对所述终端进行数据采集。
6.根据权利要求5所述的方法,其特征在于,判断所述终端是否在所述采样范围内包括:
获取所述终端的唯一标识符;
对所述唯一标识符进行散列运算,得到所述唯一标识符的散列值;
对所述唯一标识符的散列值进行求余运算,得到所述唯一标识符对应的余数;
判断所述唯一标识符对应的余数是否在所述采样范围内;
如果所述唯一标识符对应的余数在所述采样范围内,则确定所述终端在所述采样范围内;以及
如果所述唯一标识符对应的余数不在所述采样范围内,则确定所述终端不在所述采样范围内。
7.一种数据采集装置,其特征在于,包括:
检测单元,用于检测终端是否执行网络访问;
第一获取单元,用于在检测到终端执行网络访问时,从采样率配置装置中获取目标数据采集系统的采样率,其中,所述采样率配置装置用于设置数据采集系统的采样率;
第一判断单元,用于根据所述目标数据采集系统的采样率判断是否对所述终端进行数据采集;以及
采集单元,用于在根据所述目标数据采集系统的采样率判断出需要对所述终端进行数据采集时,对所述终端进行数据采集,其中,对所述终端进行数据采集包括:采集所述终端的行为数据和终端本身的数据;
其中,所述第一获取单元包括:第一获取模块,用于获取所述目标数据采集系统的标识;第一读取模块,用于根据所述目标数据采集系统的标识从所述采样率配置装置中读取所述目标数据采集系统对应的采样率配置文件;第一判断模块,用于判断是否成功从所述采样率配置装置中读取所述目标数据采集系统对应的采样率配置文件;以及第二获取模块,用于在判断出成功从所述采样率配置装置中读取所述目标数据采集系统对应的采样率配置文件时,从所述目标数据采集系统对应的采样率配置文件中获取所述目标数据采集系统的采样率。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元包括:
第二读取模块,用于从所述采样率配置装置中读取采样率配置文件;
第二判断模块,用于判断是否成功从所述采样率配置装置中读取所述采样率配置文件;
第三获取模块,用于在判断出成功从所述采样率配置装置中读取所述采样率配置文件时,获取所述目标数据采集系统的标识;以及
第四获取模块,用于根据所述目标数据采集系统的标识从所述采样率配置文件中获取所述目标数据采集系统的采样率。
CN201510567242.3A 2015-09-08 2015-09-08 数据采集方法和装置 Active CN106506249B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510567242.3A CN106506249B (zh) 2015-09-08 2015-09-08 数据采集方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510567242.3A CN106506249B (zh) 2015-09-08 2015-09-08 数据采集方法和装置

Publications (2)

Publication Number Publication Date
CN106506249A CN106506249A (zh) 2017-03-15
CN106506249B true CN106506249B (zh) 2019-08-20

Family

ID=58287927

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510567242.3A Active CN106506249B (zh) 2015-09-08 2015-09-08 数据采集方法和装置

Country Status (1)

Country Link
CN (1) CN106506249B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423433B (zh) * 2017-08-03 2020-07-10 聚好看科技股份有限公司 一种数据采样率控制方法及装置
CN110174865B (zh) * 2019-05-31 2020-07-03 北京宝兰德软件股份有限公司 一种控制目标信息采集率的方法及装置
CN113188595A (zh) * 2021-04-25 2021-07-30 中铁第四勘察设计院集团有限公司 一种远程控制的桥梁监测自动表达系统与方法
CN115514686A (zh) * 2021-06-23 2022-12-23 深信服科技股份有限公司 一种流量采集方法、装置及电子设备和存储介质
CN113904952B (zh) * 2021-10-08 2023-04-25 深圳依时货拉拉科技有限公司 网络流量采样方法及装置、计算机设备及可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10031885B2 (en) * 2010-02-01 2018-07-24 Netmotion Wireless, Inc. Public wireless network performance management system with mobile device data collection agents
CN102404231A (zh) * 2011-12-19 2012-04-04 曙光信息产业(北京)有限公司 一种软硬件结合实现动态调整报文采样率的系统和方法
CN102841922B (zh) * 2012-07-04 2015-09-23 北京国双科技有限公司 数据采集方法及装置
CN104345717B (zh) * 2014-10-17 2017-01-25 武汉华大优能信息有限公司 一种基于物联网的智能远程数据采集系统

Also Published As

Publication number Publication date
CN106506249A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106506249B (zh) 数据采集方法和装置
CN107784086B (zh) 一种网页的加载方法、终端设备及计算机可读存储介质
US9774642B2 (en) Method and device for pushing multimedia resource and display terminal
CN103874032A (zh) 基于移动终端的信息推送方法及装置
CN107016056B (zh) 一种物联网中海量异构传感数据的分布式存储系统和方法
CN101216834A (zh) 一种文件下载方法、系统、装置与服务器
CN104301743B (zh) 传输视频的方法、网关设备和视频传输系统
CN101459571B (zh) 一种网站镜像的方法、系统及装置
CN101808018A (zh) 接入终端数量的检测方法及设备
CN107609047A (zh) 应用推荐方法、装置、移动设备及存储介质
EP2827258A1 (en) Embedded network proxy system, terminal device and proxy method
CN103401861B (zh) 代理上网识别方法及装置
CN107454205A (zh) 一种连接服务器的方法和装置
CN102185917A (zh) 一种服务器适配移动终端的方法及系统、服务器适配装置
CN108959278B (zh) 一种数据同步方法、装置、电子设备以及存储介质
CN102769625A (zh) 客户端Cookie信息获取方法和装置
CN106506250B (zh) 数据采集方法和装置
CN106713456A (zh) 网络带宽统计方法及装置
CN104182493B (zh) 一种数据同步方法及装置、终端
CN109474563A (zh) 文件流的处理、提供方法、客户端及服务器
CN106372267A (zh) 基于浏览器的页面加载方法及装置
CN103699630B (zh) 一种在浏览器中推荐信息的方法与装置
CN101448136A (zh) 实现视频点播功能的方法和系统
CN106487855B (zh) 文件上传方法、访问方法、装置及设备
CN111159244B (zh) 数据查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant