CN106708846A - 网页数据的收集方法及装置 - Google Patents

网页数据的收集方法及装置 Download PDF

Info

Publication number
CN106708846A
CN106708846A CN201510772761.3A CN201510772761A CN106708846A CN 106708846 A CN106708846 A CN 106708846A CN 201510772761 A CN201510772761 A CN 201510772761A CN 106708846 A CN106708846 A CN 106708846A
Authority
CN
China
Prior art keywords
target
data
capture program
webpage
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510772761.3A
Other languages
English (en)
Other versions
CN106708846B (zh
Inventor
包佳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510772761.3A priority Critical patent/CN106708846B/zh
Publication of CN106708846A publication Critical patent/CN106708846A/zh
Application granted granted Critical
Publication of CN106708846B publication Critical patent/CN106708846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种网页数据的收集方法及装置。该方法包括:在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩目标采集程序;以及在网页上加载压缩后的目标采集程序以对网页进行数据收集。通过本申请,解决了相关技术中收集网页数据的准确性较低的问题。

Description

网页数据的收集方法及装置
技术领域
本申请涉及互联网领域,具体而言,涉及一种网页数据的收集方法及装置。
背景技术
目前,主流网页分析工具使用布置在网页上的采集程序(例如:JavaScript Tracker)在网页端收集访问者访问行为和系统信息数据,发送至数据仓库服务器。浏览器加载网页中的JavaScript Tracker所需的时间受JavaScript Tracker代码容量大小影响,为了提升加载JavaScript Tracker的速度,需要在不影响执行效果的情况下,在将JavaScriptTracker代码部署在需要采集数据的网页之前对JavaScript Tracker代码进行压缩。相关技术中的压缩工具是通过删除代码中的空白字符和重命名局部变量进行压缩,相关技术中使用的压缩工具,例如,Google Closure Compiler的Advanced Mode进行压缩的压缩比例较高,因为其采用了更多的方法进行压缩,包括重命名对象属性名。JavaScriptTracker向数据仓库服务器发送收集到的数据,其流程是首先创建一个data对象,通过收集到的数据对data对象中各属性进行赋值,随后将其字符串化,再将该字符串发送给数据仓库服务器。而Google Closure Compiler的Advanced Mode在对JavaScriptTracker代码进行压缩的过程中,重命名对象属性名的操作会导致重命名上述data对象的属性名,即服务器接收到的数据的字段名被重命名,即服务器无法正确解析接收到的数据,从而导致收集网页数据的准确性较低。
针对相关技术中收集网页数据的准确性较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种网页数据的收集方法及装置,以解决相关技术中收集网页数据的准确性较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种网页数据的收集方法。该方法包括:在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩目标采集程序;以及在网页上加载压缩后的目标采集程序以对网页进行数据收集。
进一步地,在网页上加载压缩后的目标采集程序以对网页进行数据收集包括:执行压缩后的目标采集程序以进行数据收集,得到目标数据;以及发送目标数据。
进一步地,执行压缩后的目标采集程序以进行数据收集,得到目标数据包括:获取目标数据;将目标数据存入预设存储对象;将预设存储对象中的目标数据进行字符串化处理,发送目标数据包括:发送处理后的目标数据。
进一步地,压缩目标采集程序包括:遍历目标采集程序中所有对象,确定非目标对象和目标对象中的非目标属性;将非目标对象和目标对象中的非目标属性作为第一压缩对象,并对第一压缩对象进行压缩处理和重命名处理;以及将目标对象中目标属性作为第二压缩对象,并对第二压缩对象进行压缩处理。
进一步地,操作方式为读写方式。
为了实现上述目的,根据本申请的另一方面,提供了一种网页数据的收集装置。该装置包括:确定单元,用于在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;修改单元,用于依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩单元,用于压缩目标采集程序;以及收集单元,用于在网页上加载压缩后的目标采集程序以对网页进行数据收集。
进一步地,收集单元包括:收集模块,用于执行压缩后的目标采集程序以进行数据收集,得到目标数据;以及发送模块,用于发送目标数据。
进一步地,收集模块还用于获取目标数据;将目标数据存入预设存储对象;将预设存储对象中的目标数据进行字符串化处理,发送模块还用于发送处理后的目标数据。
进一步地,压缩单元包括:确定模块,用于遍历目标采集程序中所有对象,确定非目标对象和目标对象中的非目标属性;以及第一处理模块,用于将非目标对象和目标对象中的非目标属性作为第一压缩对象,并对第一压缩对象进行压缩处理和重命名处理;以及第二处理模块,用于将目标对象中目标属性作为第二压缩对象,并对第二压缩对象进行压缩处理。
进一步地,操作方式为读写方式。
通过本申请,采用以下步骤:在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩目标采集程序;以及在网页上加载压缩后的目标采集程序以对网页进行数据收集,解决了相关技术中收集网页数据的准确性较低的问题。通过修改目标对象中目标属性的操作方式,在对目标对象进行压缩时选择性的重命名对象属性名,在网页上加载压缩后的目标采集程序以对网页进行数据收集时,避免了由于发向服务器的数据的字段名被重命名,无法被正确解析的问题,进而达到了提升收集网页数据的准确性的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的网页数据的收集方法的流程图;以及
图2是根据本申请实施例的网页数据的收集装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的几个术语进行说明:
JavaScript:一种直译式脚本语言,是一种动态类型、弱类型、基于原型的语言。
Tracker:追踪器,为一小段JavaScript代码,在网页端收集访问者的访问行为和系统信息数据,发送至数据仓库服务器。
根据本申请的实施例,提供了一种网页数据的收集方法。
图1是根据本申请实施例的网页数据的收集方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据。
需要说明的是,本申请中涉及的采集程序为JavaScript Tracker代码程序,目标对象即为JavaScript Tracker中的对象,以目标对象为data对象为例,具体的data对象包括多个对象属性:data={gsver:“3.2.0.5”,gscmd:“spv”,gsuid:“123abc”,gssid:“456def”};在本申请的目标对象中存在不希望被压缩工具压缩后被重命名的对象,即以上述的data对象为例,其中的gsver,gscmd,gsuid,gssid均为不希望被GoogleClosure Compiler的Advanced Mode重命名的对象属性。
步骤S102,依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序。
为了实现目标对象被压缩工具压缩后目标属性不被重命名,依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式。例如,gsver,gscmd,gsuid,gssid均为不希望被Google Closure Compiler的Advanced Mode重命名的对象属性即目标属性,如目标对象中目标属性为data.gsver=“3.2.0.5”,依据预设格式以字符串的形式修改目标对象中目标属性的操作方式后为data[“gsver”]=“3.2.0.5”。
优选地,在本申请实施例的网页数据的收集方法中,操作方式为读写方式。
需要说明的是,Google Closure Compiler在对压缩对象进行压缩时,通过删除代码中的空白字符和重命名局部变量进行压缩。由于Google Closure Compiler的自身特性,Google Closure Compiler不会压缩代码中的任何字符串,如果以字符串的形式访问对象的部分属性,那么Google Closure Compiler不会对这些属性名进行重命名。例如:使用形如object["key"]代替object.key的方式读写即是以字符串的形式访问对象的部分属性那么Google Closure Compiler不会对这些属性名进行重命名。
通过修改对目标对象中目标属性的读写方式,即编程人员通过修改对目标对象中目标属性的读写方式指示目标对象中的某些对象属性不被重命名。例如:原本data对象中gsver属性为:var a=data.gsver,将其修改为var a=data[“gsver”];即在Tracker代码中定义data对象中gsver属性的过程修改其读取的方式为以字符串的形式读取。在Tracker代码中定义data对象中gsver属性的写入过程为:data.gsver=“3.2.0.5”,将其修改为data[“gsver”]=“3.2.0.5”,即在Tracker代码中定义data对象中gsver属性的写入过程中修改其写入方式为以字符串的形式写入,修改后的data对象中gsver属性的读写方式为以字符串的形式访问data对象的gsver属性,即不会对修改后的data对象的gsver属性进行重命名。
需要说明的是,在本申请中目标属性以gsver属性为例,但不仅仅局限于此,本申请中目标属性可以为一个也可以为多个,在此不作限定。
通过步骤S102修改目标对象中目标属性的操作方式,在对目标对象进行压缩时选择性的重命名对象属性名,得到目标采集程序。
步骤S103,压缩目标采集程序。
为了提升在网页上加载目标采集程序的速度,在加载目标采集程序之前,采用压缩工具对目标采集程序进行压缩,例如,压缩工具为Google Closure Compiler的Advanced Mode,采用Google Closure Compiler的Advanced Mode对目标采集程序进行压缩。
优选地,在本申请实施例的网页数据的收集方法中,压缩目标采集程序包括:遍历目标采集程序中所有对象,确定非目标对象和目标对象中的非目标属性;将非目标对象和目标对象中的非目标属性作为第一压缩对象,并对第一压缩对象进行压缩处理和重命名处理;以及将目标对象中目标属性作为第二压缩对象,并对第二压缩对象进行压缩处理。
具体地,在采用Google Closure Compiler的Advanced Mode对目标采集程序进行压缩时,为了避免目标对象被压缩工具压缩后目标属性被重命名,预先依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,即在对目标采集程序进行压缩时,对目标对象只进行压缩,对非目标对象和目标对象的非目标属性进行压缩同时对非目标对象的进行重命名。
步骤S104,在网页上加载压缩后的目标采集程序以对网页进行数据收集。
为了对网页进行数据收集,需要在网页上加载目标采集程序,在目标采集程序被压缩结束之后,在网页上加载压缩后的目标采集程序以对网页进行数据收集。
可选地,在本申请实施例的网页数据的收集方法中,在网页上加载压缩后的目标采集程序以对网页进行数据收集包括:执行压缩后的目标采集程序以进行数据收集,得到目标数据;以及发送目标数据。
可选地,在本申请实施例的网页数据的收集方法中,执行压缩后的目标采集程序以进行数据收集,得到目标数据包括:获取目标数据;将目标数据存入预设存储对象;将预设存储对象中的目标数据进行字符串化处理,发送目标数据包括:发送处理后的目标数据。
具体地,在执行压缩后的JavaScript Tracker以进行数据收集,得到目标数据之后,创建一个data对象(预设存储对象),用来存储JavaScript Tracker接收到的数据,将目标数据存入data对象后得到:data={gsver:“3.2.0.5”,gscmd:“spv”,gsuid:“123abc”,gssid:“456def”};对data对象进行字符串化处理后得到:“gsver=3.2.0.5&gscmd=spv&gsuid=123abc&gssid=456def”,然后将字符串化后的数据发送至服务器,服务器解析接收到的数据,从而获知网页端收集访问者访问行为和系统信息数据(即网页被访问的情况)。
本申请实施例提供的网页数据的收集方法,通过在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩目标采集程序;以及在网页上加载压缩后的目标采集程序以对网页进行数据收集,解决了相关技术中收集网页数据的准确性较低的问题。通过修改目标对象中目标属性的操作方式,在对目标对象进行压缩时选择性的重命名对象属性名,在网页上加载压缩后的目标采集程序以对网页进行数据收集时,避免了由于发向服务器的数据的字段名被重命名,无法被正确解析的问题,进而达到了提升收集网页数据的准确性的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种网页数据的收集装置,需要说明的是,本申请实施例的网页数据的收集装置可以用于执行本申请实施例所提供的用于网页数据的收集方法。以下对本申请实施例提供的网页数据的收集装置进行介绍。
图2是根据本申请实施例的网页数据的收集装置的示意图。如图2所示,该装置包括:确定单元10、修改单元20、压缩单元30和收集单元40。
确定单元10,用于在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据。
修改单元20,用于依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序。
压缩单元30,用于压缩目标采集程序。
收集单元40,用于在网页上加载压缩后的目标采集程序以对网页进行数据收集。
本申请实施例提供的网页数据的收集装置,通过确定单元10在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;修改单元20依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩单元30压缩目标采集程序;以及收集单元40在网页上加载压缩后的目标采集程序以对网页进行数据收集,解决了相关技术中收集网页数据的准确性较低的问题。修改单元20依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,在对目标对象进行压缩时选择性的重命名对象属性名,在网页上加载压缩后的目标采集程序以对网页进行数据收集时,避免了由于发向服务器的数据的字段名被重命名,无法被正确解析的问题,进而达到了提升收集网页数据的准确性的效果。
可选地,在本申请实施例提供的网页数据的收集装置中,收集单元40包括:收集模块,用于执行压缩后的目标采集程序以进行数据收集,得到目标数据;以及发送模块,用于发送目标数据。
可选地,在本申请实施例提供的网页数据的收集装置中,收集模块还用于获取目标数据;将目标数据存入预设存储对象;将预设存储对象中的目标数据进行字符串化处理,发送模块还用于发送处理后的目标数据。
可选地,在本申请实施例提供的网页数据的收集装置中,压缩单元30包括:确定模块,用于遍历目标采集程序中所有对象,确定非目标对象和目标对象中的非目标属性;以及第一处理模块,用于将非目标对象和目标对象中的非目标属性作为第一压缩对象,并对第一压缩对象进行压缩处理和重命名处理;以及第二处理模块,用于将目标对象中目标属性作为第二压缩对象,并对第二压缩对象进行压缩处理。
可选地,在本申请实施例提供的网页数据的收集装置中,操作方式为读写方式。
所述网页数据的收集装置包括处理器和存储器,上述确定单元、修改单元、压缩单元和收集单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元实现相应功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数收集网页数据。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品的实施例,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:在采集程序的代码中确定目标对象,其中,目标对象为采集程序中用于存储数据的对象,采集程序用于收集网页上的数据;依据预设格式以字符串的形式修改对目标对象中目标属性的操作方式,得到目标采集程序;压缩目标采集程序;以及在网页上加载压缩后的目标采集程序以对网页进行数据收集。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种网页数据的收集方法,其特征在于,包括:
在采集程序的代码中确定目标对象,其中,所述目标对象为所述采集程序中用于存储数据的对象,所述采集程序用于收集网页上的数据;
依据预设格式以字符串的形式修改对所述目标对象中目标属性的操作方式,得到目标采集程序;
压缩所述目标采集程序;以及
在所述网页上加载压缩后的目标采集程序以对所述网页进行数据收集。
2.根据权利要求1所述的方法,其特征在于,在所述网页上加载压缩后的目标采集程序以对所述网页进行数据收集包括:
执行所述压缩后的目标采集程序以进行数据收集,得到目标数据;以及
发送所述目标数据。
3.根据权利要求2所述的方法,其特征在于,
执行所述压缩后的目标采集程序以进行数据收集,得到目标数据包括:获取所述目标数据;将所述目标数据存入预设存储对象;将所述预设存储对象中的目标数据进行字符串化处理,
发送所述目标数据包括:发送处理后的目标数据。
4.根据权利要求1所述的方法,其特征在于,压缩所述目标采集程序包括:
遍历所述目标采集程序中所有对象,确定非目标对象和所述目标对象中的非目标属性;
将所述非目标对象和所述目标对象中的非目标属性作为第一压缩对象,并对所述第一压缩对象进行压缩处理和重命名处理;以及
将所述目标对象中目标属性作为第二压缩对象,并对所述第二压缩对象进行压缩处理。
5.根据权利要求1所述的方法,其特征在于,所述操作方式为读写方式。
6.一种网页数据的收集装置,其特征在于,包括:
确定单元,用于在采集程序的代码中确定目标对象,其中,所述目标对象为所述采集程序中用于存储数据的对象,所述采集程序用于收集网页上的数据;
修改单元,用于依据预设格式以字符串的形式修改对所述目标对象中目标属性的操作方式,得到目标采集程序;
压缩单元,用于压缩所述目标采集程序;以及
收集单元,用于在所述网页上加载压缩后的目标采集程序以对所述网页进行数据收集。
7.根据权利要求6所述的装置,其特征在于,所述收集单元包括:
收集模块,用于执行所述压缩后的目标采集程序以进行数据收集,得到目标数据;以及
发送模块,用于发送所述目标数据。
8.根据权利要求7所述的装置,其特征在于,
所述收集模块还用于获取所述目标数据;将所述目标数据存入预设存储对象;将所述预设存储对象中的目标数据进行字符串化处理,
发送模块还用于发送处理后的目标数据。
9.根据权利要求6所述的装置,其特征在于,所述压缩单元包括:
确定模块,用于遍历所述目标采集程序中所有对象,确定非目标对象和所述目标对象中的非目标属性;以及
第一处理模块,用于将所述非目标对象和所述目标对象中的非目标属性作为第一压缩对象,并对所述第一压缩对象进行压缩处理和重命名处理;以及
第二处理模块,用于将所述目标对象中目标属性作为第二压缩对象,并对所述第二压缩对象进行压缩处理。
10.根据权利要求6所述的装置,其特征在于,所述操作方式为读写方式。
CN201510772761.3A 2015-11-12 2015-11-12 网页数据的收集方法及装置 Active CN106708846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510772761.3A CN106708846B (zh) 2015-11-12 2015-11-12 网页数据的收集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510772761.3A CN106708846B (zh) 2015-11-12 2015-11-12 网页数据的收集方法及装置

Publications (2)

Publication Number Publication Date
CN106708846A true CN106708846A (zh) 2017-05-24
CN106708846B CN106708846B (zh) 2020-04-21

Family

ID=58918906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510772761.3A Active CN106708846B (zh) 2015-11-12 2015-11-12 网页数据的收集方法及装置

Country Status (1)

Country Link
CN (1) CN106708846B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185571B1 (en) * 1997-07-23 2001-02-06 International Business Machines Corporation Compiler-assisted or interpreter-assisted solution to the year 2000 problem with flagging option for computer programs
US7941525B1 (en) * 2006-04-01 2011-05-10 ClickTale, Ltd. Method and system for monitoring an activity of a user
CN102184184A (zh) * 2011-04-07 2011-09-14 安徽博约信息科技有限责任公司 一种网页动态信息获取方法
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
CN103294462A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 对象映射处理方法、映射处理器和对象映射处理系统
CN105045598A (zh) * 2015-08-07 2015-11-11 北京思特奇信息技术股份有限公司 一种基于Java的web前端性能优化及上线的方法和系统
US20190026773A1 (en) * 2014-06-25 2019-01-24 Groupon, Inc. Graph-Based Compression Of Data Records

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6185571B1 (en) * 1997-07-23 2001-02-06 International Business Machines Corporation Compiler-assisted or interpreter-assisted solution to the year 2000 problem with flagging option for computer programs
US7941525B1 (en) * 2006-04-01 2011-05-10 ClickTale, Ltd. Method and system for monitoring an activity of a user
CN102184184A (zh) * 2011-04-07 2011-09-14 安徽博约信息科技有限责任公司 一种网页动态信息获取方法
CN103294462A (zh) * 2012-03-05 2013-09-11 阿里巴巴集团控股有限公司 对象映射处理方法、映射处理器和对象映射处理系统
CN103092817A (zh) * 2013-01-18 2013-05-08 五八同城信息技术有限公司 一种基于脚本引擎的数据采集方法和装置
US20190026773A1 (en) * 2014-06-25 2019-01-24 Groupon, Inc. Graph-Based Compression Of Data Records
CN105045598A (zh) * 2015-08-07 2015-11-11 北京思特奇信息技术股份有限公司 一种基于Java的web前端性能优化及上线的方法和系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
R. FAWCETT等: ""Combination coding: a new entropy coding technique"", 《PROCEEDINGS OF DATA COMPRESSION CONFERENCE - DCC "96》 *
刘瑞新 等: "《iOS Web开发入门经典 使用HTML、CSS、JavaScript和Ajax》", 30 April 2013, 机械工业出版社 *
溪夏: ""JSTracker:前端异常数据采集"", 《HTTP://TAOBAOFED.ORG/BLOG/2015/10/28/JSTRACKER-HOW-TO-COLLECT-DATA/》 *
王 成 等: ""Web 前端性能优化方案与实践"", 《计算机应用与软件》 *

Also Published As

Publication number Publication date
CN106708846B (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN108270629A (zh) 网站访客行为监测方法及装置
CN106021257B (zh) 一种支持在线编程的爬虫抓取数据方法、装置及系统
CN105243159A (zh) 一种基于可视化脚本编辑器的分布式网络爬虫系统
CN104504086B (zh) 网页页面的聚类方法和装置
CN103713933B (zh) 计算机程序中热点函数、变量的汇聚方法、装置及系统
CN105677904B (zh) 基于分布式文件系统的小文件存储方法及装置
CN105654027A (zh) 一种指纹识别的方法及装置
CN101441629A (zh) 一种非结构化网页信息的自动采集方法
CN107257390A (zh) 一种url地址的解析方法和系统
CN115438359B (zh) 项目申报用数据匹配共享系统
CN103020123A (zh) 一种搜索不良视频网站的方法
DE112014001997T5 (de) Kennzeichnen von Client-Zuständen
CN103246675B (zh) 一种用于抓取网站数据的方法与设备
CN108959204A (zh) 互联网金融项目信息抽取方法和系统
CN106843899A (zh) 一种基于Node.js平台的网页开发方法及装置
CN106940711B (zh) 一种url检测方法及检测装置
CN114528811B (zh) 文章内容抽取方法、装置、设备及存储介质
CN107015986A (zh) 一种爬虫爬取网页的方法及装置
CN107193870A (zh) 网页内容的提取方法和系统
CN110135512A (zh) 图片的识别方法、设备、存储介质及装置
CN104657391B (zh) 页面的处理方法及装置
DE60317801T2 (de) Verfahren und vorrichtung zur erkennung von fehlern während des schreibens in einen nichtflüchtigen speicher
CN106815248A (zh) 网站分析方法及装置
CN108694192A (zh) 网页类型的判断方法及装置
CN106708846A (zh) 网页数据的收集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant