CN103297469B - 一种网站数据的采集方法及装置 - Google Patents

一种网站数据的采集方法及装置 Download PDF

Info

Publication number
CN103297469B
CN103297469B CN201210050437.7A CN201210050437A CN103297469B CN 103297469 B CN103297469 B CN 103297469B CN 201210050437 A CN201210050437 A CN 201210050437A CN 103297469 B CN103297469 B CN 103297469B
Authority
CN
China
Prior art keywords
visitor
access
information
html
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210050437.7A
Other languages
English (en)
Other versions
CN103297469A (zh
Inventor
吴伟勋
许玉勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210050437.7A priority Critical patent/CN103297469B/zh
Publication of CN103297469A publication Critical patent/CN103297469A/zh
Application granted granted Critical
Publication of CN103297469B publication Critical patent/CN103297469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供了一种网站数据的采集方法和装置。所述方法包括:获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;依据所述访问信息和随机数,生成该访客本次访问的访问标识;将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。本申请可以使采集到的访客在一个网页的一次访问的行为信息可以关联起来,进而可以实现对访客每次访问的行为的精细分析。

Description

一种网站数据的采集方法及装置
技术领域
本申请涉及数据处理领域,特别是涉及一种网站数据的采集方法,以及,一种网站数据的采集装置。
背景技术
网站分析是依据采集到的网站的PV(page view,页面浏览量)日志,网站的点击(或者称事件)日志,网站的效果日志(包括登录,订单等)等数据,分析访客在网站上的行为,例如PV行为包括访客的访问量和流失率等;网站的点击行为包括用户是否下载文件,是否访问社交按钮,是否点击广告等,网站的效果行为包括访客是否登录、投放广告或下单信息等。
网站分析工具分析出这些信息后做成报表,提供给网站运营人员和管理人员,供他们做决策和运营。
目前业界一般使用Javascript来采集这些数据。具体而言,通过在页面上部署Javascript代码,自动或者事件触发来发送Http请求到统计服务器,然后使用分析工具分析这些采集到的数据。
业界比较领先的网站分析工具是Google Analytic(简称GA)。它是使用Javascript的方法来采集数据的,具体而言,GA使用_trackPageview来跟踪网站的PV情况,使用_trackEvent来跟踪网站的点击情况,以及专门的函数收集了网站的一部分效果情况。由于GA在采集数据时会生成访客的CookieID,以及生成访客一次会话的会话标识SessionID,因此,GA可以将访客访问网站的情况和访客的信息关联起来,即将网站的访问情况和网站的点击情况定位到每一个访客身上。
以上现有技术中存在的问题是:在分析网站访客的行为时,常常需要将不同的数据合并起来分析,不仅需要知道访客访问了哪些页面,在这些页面做了什么操作,最后是否生成了订单等等。GA生成的CookieID可以确定访客的身份信息,SessionID是访客从进入网站到浏览器关闭所经过的这段时间所对应的标识,即访客在该网站的多个页面或多次页面访问可能对应着同一个SessionID,不能将访客的行为信息定位到某个访客对某个页面的一次访问上,导致不能精细的分析访客的行为。
因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种网站数据的采集方法,使采集到的访客在一个网页的一次访问的行为信息可以关联起来,进而可以实现对访客每次访问的行为的精细分析。
发明内容
本申请所要解决的技术问题是提供一种网站数据的采集方法,使采集到的访客在一个网页的一次访问的行为信息可以关联起来,进而可以实现对访客每次访问的行为的精细分析。
本申请还提供了一种网站数据的采集装置,用以保证上述方法在实际中的应用及实现。
为了解决上述问题,本申请公开了一种网站数据的采集方法,包括:
获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;
依据所述访问信息和随机数,生成该访客本次访问的访问标识;
将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
优选的,所述获取依据访客的访问请求生成的访问信息的步骤包括:
由访客输入的网页地址生成网页访问请求,并发送至服务器;
接收服务器返回的所述网页对应的超文本标记语言html,所述超文本标记语言html中包含访客的访问信息。
优选的,在解析所述超文本标记语言html时,依据所述访问信息和随机数,生成该访客本次访问的访问标识。
优选的,所述行为信息包括访客的访问行为信息、和/或点击行为信息、和/或效果行为信息。
优选的,所述访问行为信息通过相应的访问行为获取函数获取,所述点击行为信息通过相应的点击行为获取函数获取,所述效果信息通过相应的效果行为获取函数获取;
所述访客行为数据为访客行为统计Http请求。
优选的,所述访客身份信息和本次访问时间在服务器端提取,所述网卡序列号由浏览器在客户端提取,所述IP地址由浏览器在客户端或是在服务器端提取。
优选的,所述方法还包括:
在服务器提取具有相同的访问标识的各个访客行为数据,作为访客在一次页面访问中的所有访客行为数据,并进行相应的访客行为分析。
本申请还提供一种网站数据的采集装置,包括:
访问信息获取模块,用于获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;
访问标识生成模块,用于依据所述访问信息和随机数,生成该访客本次访问的访问标识;
访客行为数据发送模块,用于将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
优选的,所述访问信息获取模块包括:
网页访问请求生成子模块,用于由访客输入的网页地址生成网页访问请求,并发送至服务器;
超文本标记语言接收子模块,用于接收服务器返回的所述网页对应的超文本标记语言html,所述超文本标记语言html中包含访客的访问信息。
优选的,所述访问标识生成模块在解析所述超文本标记语言html时执行。
优选的,所述装置还包括:访客行为分析模块,用于在服务器提取具有相同的访问标识的各个访客行为数据,作为访客在一次页面访问中的所有访客行为数据,并进行相应的访客行为分析。
与现有技术相比,本申请具有以下优点:
本申请依据访客访问信息生成相应的访问标识,由于访问信息中包含了本次访问的访问时间,以及IP地址、网卡序列号或访客身份信息等访客信息,从而使访问标识可以一一对应本次页面访问的访问时间和访客,将不同访客、不同时间的访问区别开来,唯一标记本次页面访问。将访客在网页上的各个行为信息添加上页面标识后,使得该访客在该网页的本次页面访问的各个行为都具有了相同标识,进而在进行网站行为分析的时候,能够根据访问标识将每个访客的每一次访问都精确的区分开来,可以对访客一次访问的具体行为进行最细粒度的分析。
附图说明
图1是本申请的一种网站数据的采集方法实施例1的流程图;
图2是本申请的一种网站数据的采集方法实施例2的流程图;
图3是本申请的一种网站数据的采集装置实施例1的结构框图;
图4是本申请的一种网站数据的采集装置实施例2的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
现有技术中,比较领先的网站分析工具GA以CookieID和SessionID标记用户的行为数据,能将访客访问网站的情况和访客的信息关联起来,但不能定位到某个访客对某个页面的一次访问上,导致不能精细的分析访客的行为。
本申请在于,依据访客访问信息生成可以唯一标记本次页面访问的访问标识,然后将访客在网页上的各个行为信息添加上该访问标识后作为发往到服务器的访客行为数据。
参考图1,示出了本申请的一种网站数据的采集方法实施例1的流程图,具体可以包括以下步骤:
步骤101、获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间。
其中,所述访客身份信息和本次访问时间可以在服务器端提取,网卡序列号可以由浏览器在客户端提取,IP地址由浏览器在浏览器端或是在服务器端提取。
若所述访问信息中包括需要在服务器端提取的信息(网卡序列号,IP地址),可以在服务器端提取所需信息发送到浏览器端,与浏览器端提取的信息组合成为访问信息,或将浏览器端提取的信息发送到服务器端,与服务器端提取的信息进行组合,再发送到浏览器端。
若所述访问信息均在服务器端提取,可以将服务器端提取的信息发送到浏览器端组合成访问信息,或直接在服务器端将提取的信息组合成访问信息,再发送到浏览器端。
在本申请的一种优选实施例中,服务器可以将访问信息添加在访客请求访问的网页的超文本标记语言html中,然后一同返回到浏览器端。所述步骤101可以包括:
子步骤S11、由访客输入的网页地址生成网页访问请求,并发送至服务器;
子步骤S12、接收服务器返回的所述网页对应的超文本标记语言html,所述超文本标记语言html中包含访客的访问信息。
访客访问网页时会在浏览器端输入网页的访问路径URL,即网页地址,点击回车,浏览器会依据用户输入的网址和用户信息生成网页访问请求,并发送到服务器。
当所述访问信息中不包含需要浏览器在客户端提取的信息时,服务器接收到请求后,直接提取访客的访问信息添加到该网页的超文本标记语言html中,返回给浏览器端。
当所述访问信息中包含需要浏览器在客户端提取的信息(网卡序列号和/或IP地址)时,可以在生成网页访问请求时,将浏览器端提取的信息一同发送到服务器,或是由服务器发送获取请求,浏览器提取信息后发送到服务器。
其中,访客访问信息中包含了访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间。本次访问时间可以将访客多次不同时间对该网页的访问区分开来,访客的IP地址、网卡序列号、访客身份信息可以将该访客与其他访客区分开来。此外,访客访问信息中还可以包括访客的访问路径URL。
例如,访客A在浏览器中输入china.alibaba.com,回车,网站服务器会返回china.alibaba.com这个页面的html,在这个页面的内容里包含一个字符串7f0000011320138690,这个字符串由访客的URL的哈希值,服务器端提取的IP地址和访问时间构成。
步骤102、依据所述访问信息和随机数,生成该访客本次访问的访问标识。
在本申请的一种优选实施例中,可以在解析所述超文本标记语言html时,依据所述访问信息和随机数,生成该访客本次访问的访问标识。
浏览器收到服务器发送的html之后,会执行html生成相应的页面,同时会将html中包含的访客信息和浏览器端的随机数,通过预置的算法进行计算,并将计算结果作为访客本次访问的访问标识,例如,上例中的访问信息7f0000011320138690与随机数进行一定的运算得到访客标识PageID为7f0000014eafb7c21335e76dba5bbfdabc。
步骤103、将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
将步骤102中生成的访问标识和各个行为信息组合在一起,可以对各个行为信息进行标记。现有技术中,同一访客从打开浏览器进入一个网站,访问该网站的各个页面,到关闭浏览器,只会产生一个SessionID。同一访客在多天,同一个网站登录多次,可能对应着同一个CookieID。由于访问标识和访客的访问时间和身份信息相关,将访问标识和访客的访问行为关联起来,可以区别本次访问产生的各个访客行为数据与其他访客或其他时间的访问区别开来。
在本申请的一种优选实施例中,所述行为信息可以包括访客的访问行为信息、和/或点击行为信息、和/或效果行为信息。
访客在网页上的各个行为信息是指访客打开网页,以及打开网页后在网站上的各个操作所对应的信息。访问行为信息对应的是该访客访问该网页的行为;点击行为信息对应的是访客点击网页内的相关链接或是广告的行为;效果行为信息对应的是访客进行用户登录,下载文件或是提交商业订单等行为。
在具体的实现中,在网页上部署相应的函数,来获取访客的各个行为信息。在本申请的一种优选实施例中,所述访问行为信息通过相应的访问行为获取函数获取,所述点击行为信息通过相应的点击行为获取函数获取,所述效果信息通过相应的效果行为获取函数获取。例如使用Javascript的方法中所采用的的_trackPageview来跟踪网站的访问情况,使用_trackEvent来跟踪网站的点击情况,同时,本申请并不局限于某种计算机语言,可以使用Javascript,也可以使用Vbscript。
在获取到访客的某个操作对应的行为信息后,即可将对应的访客行为数据,发往服务器。在具体的实现中,所述访客行为数据可以表示为访客行为统计Http请求。
如上例,生成访问标识PageID=7 f0000014eafb7c21335e76dba5bbfdabc后,将访客访问该网页的行为信息与之组成访问行为的统计请求为,http://tongji.alibaba.com/b.jpg?cD17Mn0mdT17L2NoaW5hLmFsaWJhYmEuY29tL30mbT17R0VUfSZzPXsyMDB9JnI9ey19JmE9e210PTN8bXM9NHxtaWQ9aW4xMDAzNTcxNDE1fGNuYT1WMEtzQnVEL0xsRUNBY0VkQUhtRFByVk19JmI9ey19JmM9e2Nfc2lnbmVkPTB9&pageid=7f0000014eafb7c21335e76dba5bbfdabc。
访客点击了网页上的某个广告后,将该行为信息与PageID组合成点击行为的统计请求到统计服务器,请求为http://tongji.alibaba.com/click.html?tracelog=cnindex_baike_txt 02&st_page_id=7f0000014eafb7c21335e76dba5bbfdabc。
访客输入用户验证信息登录该网页后,将该行为信息与PageID组合成效果行为的统计请求到统计服务器,请求为http://ctr.china.alibaba.com/ctr_dcms.html?info=HP_noticae_position_20110924,155,1346430&page_id=7f0000014eafb7c21335e76dba5bbfdabc。
如此,在访客访问行为信息,点击行为信息和效果行为信息分别对应的访问行为的数据中都有了PageID这个信息。依据这个信息可以知道在china.alibaba.com这个页面上,访客访问了一次,登录了该网页,同时有一次点击行为。
参考图2,示出了本申请的一种网站数据的采集方法实施例2的流程图,具体可以包括以下步骤:
步骤201、获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;
步骤202、依据所述访问信息和随机数,生成该访客本次访问的访问标识;
步骤203、将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
步骤204、在服务器提取具有相同的访问标识的各个访客行为数据,作为访客在一次页面访问中的所有访客行为数据,并进行相应的访客行为分析。
在步骤203中,在访客一次访问的访客行为数据中都有了同样的访问标识。由此可知,在服务器中,具有相同访问标识的访客行为数据对应的即是访客在一次网页访问中的所有操作,将访客在一次访问页面中的所有信息联系起来,能够细致的分析访客的行为,例如,访客是否访问了某个页面,是否进行了登录,是否点击了某个广告,是否提交了商品购买的订单等等。
综上所述,本申请提供了一种网站数据的采集方法,依据访客访问信息生成相应的访问标识,由于访问信息中包含了本次访问的访问时间,,以及IP地址、网卡序列号或访客身份信息等访客信息,从而使访问标识可以一一对应本次页面访问的访问时间和访客,将不同访客、不同时间的访问区别开来,唯一标记本次页面访问。将访客在网页上的各个行为信息添加上页面标识后,使得该访客在该网页的本次页面访问的各个行为都具有了相同标识,进而在进行网站行为分析的时候,能够根据访问标识将每个访客的每一次访问都精确的区分开来,可以对访客一次访问的具体行为进行最细粒度的分析。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
参考图3,示出了本申请的一种网站数据的采集装置实施例1的结构框图,具体可以包括以下模块:
访问信息获取模块301,用于获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;
访问标识生成模块302,用于依据所述访问信息和随机数,生成该访客本次访问的访问标识;
访客行为数据发送模块303,用于将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
在本申请的一种优选实施例中,所述访客身份信息和本次访问时间在服务器端提取,所述网卡序列号由浏览器在客户端提取,所述IP地址由浏览器在客户端或是在服务器端提取;所述访问信息获取模块301可以包括:
网页访问请求生成子模块,用于由访客输入的网页地址生成网页访问请求,并发送至服务器;
超文本标记语言接收子模块,用于接收服务器返回的所述网页对应的超文本标记语言html,所述超文本标记语言html中包含访客的访问信息。
在本申请的一种优选实施例中,所述访问标识生成模块可以在解析所述超文本标记语言html时执行。
在本申请的一种优选实施例中,所述行为信息可以包括访客的访问行为信息、和/或点击行为信息、和/或效果行为信息。
在本申请的一种优选实施例中,所述访问行为信息可以通过相应的访问行为获取函数获取,所述点击行为信息可以通过相应的点击行为获取函数获取,所述效果信息可以通过相应的效果行为获取函数获取;
所述访客行为数据可以为访客行为统计Http请求。
参考图4,示出了本申请的一种网站数据的采集装置实施例2的结构框图,具体可以包括以下模块:
访问信息获取模块401,用于获取依据访客的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;
访问标识生成模块402,用于依据所述访问信息和随机数,生成该访客本次访问的访问标识;
访客行为数据发送模块403,用于将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
访客行为分析模块404,用于在服务器提取具有相同的访问标识的各个访客行为数据,作为访客在一次页面访问中的所有访客行为数据,并进行相应的访客行为分析。
由于所述装置实施例基本相应于前述图1和图2所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。
本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的一种网站数据的采集方法,以及,一种网站数据的采集装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种网站数据的采集方法,其特征在于,包括:
获取依据访客的针对单个页面的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;其中,所述本次访问时间将访客多次不同时间对该单个页面的访问区分开来;
依据所述访问信息和随机数,生成该访客本次访问的访问标识;
将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
2.如权利要求1所述的方法,其特征在于,所述获取依据访客的访问请求生成的访问信息的步骤包括:
由访客输入的网页地址生成网页访问请求,并发送至服务器;
接收服务器返回的所述网页对应的超文本标记语言html,所述超文本标记语言html中包含访客的访问信息。
3.如权利要求2所述的方法,其特征在于,在解析所述超文本标记语言html时,依据所述访问信息和随机数,生成该访客本次访问的访问标识。
4.如权利要求1所述的方法,其特征在于,所述行为信息包括访客的访问行为信息、和/或点击行为信息、和/或效果行为信息。
5.如权利要求4所述的方法,其特征在于,所述访问行为信息通过相应的访问行为获取函数获取,所述点击行为信息通过相应的点击行为获取函数获取,所述效果信息通过相应的效果行为获取函数获取;
所述访客行为数据为访客行为统计Http请求。
6.如权利要求1所述的方法,其特征在于,所述访客身份信息和本次访问时间在服务器端提取,所述网卡序列号由浏览器在客户端提取,所述IP地址由浏览器在客户端或是在服务器端提取。
7.如权利要求1所述的方法,其特征在于,还包括:
在服务器提取具有相同的访问标识的各个访客行为数据,作为访客在一次页面访问中的所有访客行为数据,并进行相应的访客行为分析。
8.一种网站数据的采集装置,其特征在于,包括:
访问信息获取模块,用于获取依据访客的针对单个页面的访问请求生成的访问信息,所述访问信息包括访客的IP地址、和/或网卡序列号、和/或访客身份信息,以及本次访问时间;其中,所述本次访问时间将访客多次不同时间对该单个页面的访问区分开来;
访问标识生成模块,用于依据所述访问信息和随机数,生成该访客本次访问的访问标识;
访客行为数据发送模块,用于将访客在网页上的各个行为信息,和访问标识组成相应的访客行为数据,并分别发送到服务器。
9.如权利要求8所述的装置,其特征在于,所述访问信息获取模块包括:
网页访问请求生成子模块,用于由访客输入的网页地址生成网页访问请求,并发送至服务器;
超文本标记语言接收子模块,用于接收服务器返回的所述网页对应的超文本标记语言html,所述超文本标记语言html中包含访客的访问信息。
10.如权利要求9所述的装置,其特征在于,所述访问标识生成模块在解析所述超文本标记语言html时执行。
11.如权利要求8所述的装置,其特征在于,还包括:访客行为分析模块,用于在服务器提取具有相同的访问标识的各个访客行为数据,作为访客在一次页面访问中的所有访客行为数据,并进行相应的访客行为分析。
CN201210050437.7A 2012-02-25 2012-02-25 一种网站数据的采集方法及装置 Active CN103297469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210050437.7A CN103297469B (zh) 2012-02-25 2012-02-25 一种网站数据的采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210050437.7A CN103297469B (zh) 2012-02-25 2012-02-25 一种网站数据的采集方法及装置

Publications (2)

Publication Number Publication Date
CN103297469A CN103297469A (zh) 2013-09-11
CN103297469B true CN103297469B (zh) 2016-12-14

Family

ID=49097782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210050437.7A Active CN103297469B (zh) 2012-02-25 2012-02-25 一种网站数据的采集方法及装置

Country Status (1)

Country Link
CN (1) CN103297469B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631957B (zh) * 2013-12-13 2017-11-21 北京国双科技有限公司 访客行为数据统计方法及装置
CN104484357B (zh) * 2014-12-01 2018-05-15 北京国双科技有限公司 数据处理方法及装置和访问频次信息处理方法及装置
CN105512271A (zh) * 2015-12-03 2016-04-20 小米科技有限责任公司 实时分析系统中uv的统计方法、装置和服务器
CN105490823B (zh) * 2015-12-24 2019-12-10 原肇 一种数据处理方法及装置
CN106059845A (zh) * 2016-08-22 2016-10-26 成都天地网络科技有限公司 基于用户行为画像的业务经营系统
CN108306918B (zh) * 2017-01-13 2021-08-31 南京邮电大学盐城大数据研究院有限公司 一种基于程序动态分析的网站访问信息自动获取方法
CN107357903B (zh) * 2017-07-14 2020-03-17 泰康保险集团股份有限公司 用户行为数据整合方法、装置及电子设备
CN108322546A (zh) * 2018-02-27 2018-07-24 上海康斐信息技术有限公司 与用户信息相关联的商品详情页统计方法和系统
CN110245968A (zh) * 2018-03-07 2019-09-17 阿里巴巴集团控股有限公司 数据分析的方法、装置和存储介质
CN108764532B (zh) * 2018-05-04 2021-07-09 金华市智甄通信设备有限公司 一种基于路由器的物流流量预测系统和方法
CN108874909A (zh) * 2018-05-28 2018-11-23 深圳壹账通智能科技有限公司 用户访问路径获取方法、服务器及计算机存储介质
CN109474698A (zh) * 2018-12-14 2019-03-15 平安城市建设科技(深圳)有限公司 访问请求标记方法、装置、设备及存储介质
CN112069424A (zh) * 2019-06-10 2020-12-11 北京国双科技有限公司 访问行为数据分析方法及装置
CN112148957A (zh) * 2019-06-26 2020-12-29 北京百度网讯科技有限公司 网页访问数据分析方法、装置、设备及可读存储介质
CN110928755A (zh) * 2019-11-21 2020-03-27 中国银行股份有限公司 一种用户行为数据处理方法及装置
CN111753163A (zh) * 2020-07-08 2020-10-09 北京鼎泰智源科技有限公司 一种数据采集方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299688A (zh) * 2008-06-13 2008-11-05 北京缔元信互联网数据技术有限公司 一种获取网页区域点击数量的方法
CN101340434A (zh) * 2008-05-15 2009-01-07 王瑞 网站恶意内容检测与认证方法及系统
CN101562538A (zh) * 2009-04-15 2009-10-21 计世在线网络技术(北京)有限公司 一种网站访问分析的系统
CN101640605A (zh) * 2008-07-31 2010-02-03 国际商业机器公司 关联客户端数据和服务器端数据的方法和装置
CN101662493A (zh) * 2008-08-25 2010-03-03 阿里巴巴集团控股有限公司 一种用户访问路径的数据采集方法、系统及服务器
WO2011029238A1 (zh) * 2009-09-11 2011-03-17 华为技术有限公司 广告投放方法、广告服务器和广告系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5150341B2 (ja) * 2008-04-10 2013-02-20 株式会社東芝 データ作成装置及び方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101340434A (zh) * 2008-05-15 2009-01-07 王瑞 网站恶意内容检测与认证方法及系统
CN101299688A (zh) * 2008-06-13 2008-11-05 北京缔元信互联网数据技术有限公司 一种获取网页区域点击数量的方法
CN101640605A (zh) * 2008-07-31 2010-02-03 国际商业机器公司 关联客户端数据和服务器端数据的方法和装置
CN101662493A (zh) * 2008-08-25 2010-03-03 阿里巴巴集团控股有限公司 一种用户访问路径的数据采集方法、系统及服务器
CN101562538A (zh) * 2009-04-15 2009-10-21 计世在线网络技术(北京)有限公司 一种网站访问分析的系统
WO2011029238A1 (zh) * 2009-09-11 2011-03-17 华为技术有限公司 广告投放方法、广告服务器和广告系统

Also Published As

Publication number Publication date
CN103297469A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103297469B (zh) 一种网站数据的采集方法及装置
CN103218431B (zh) 一种能识别网页信息自动采集的系统
US9858308B2 (en) Real-time content recommendation system
US9576251B2 (en) Method and system for processing web activity data
CN103631957B (zh) 访客行为数据统计方法及装置
US20140278939A1 (en) Advertisement extraction device and advertisement extraction method
CN103765412A (zh) 预测用户导航事件
CN103401835A (zh) 一种展现微博页面的安全检测结果的方法及装置
CN107357903A (zh) 用户行为数据整合方法、装置及电子设备
CN104468790A (zh) cookie数据的处理方法与客户端
Jayamalini et al. Research on web data mining concepts, techniques and applications
CN106446113A (zh) 移动大数据解析方法及装置
CN110083752A (zh) 房源信息推荐方法、装置、设备及存储介质
Patel et al. Process of web usage mining to find interesting patterns from web usage data
CN103389985A (zh) 一种用于提供搜索结果的方法和设备
CN106383857A (zh) 一种信息处理方法及电子设备
CN104462241A (zh) 基于url中锚文字和周边文本的人口属性分类方法及装置
Soulier et al. MineRank: Leveraging users’ latent roles for unsupervised collaborative information retrieval
JP2017167829A (ja) 検出装置、検出方法及び検出プログラム
Ageev et al. The answer is at your fingertips: improving passage retrieval for web question answering with search behavior data
CN104866532B (zh) 一种用于半封闭数据环境下的数据搜索的方法和装置
Dey et al. Automatic skimming of web pages on a single click efficiently
KR20220108590A (ko) Sns 플랫폼을 이용한 의료관광 스마트 마켓팅 방법
US20150248491A1 (en) Data processing device and data processing method
US20150248708A1 (en) Data processing device and data processing method

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1184924

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1184924

Country of ref document: HK