CN102469111B - 网站访问分析方法和系统 - Google Patents
网站访问分析方法和系统 Download PDFInfo
- Publication number
- CN102469111B CN102469111B CN201010532178.2A CN201010532178A CN102469111B CN 102469111 B CN102469111 B CN 102469111B CN 201010532178 A CN201010532178 A CN 201010532178A CN 102469111 B CN102469111 B CN 102469111B
- Authority
- CN
- China
- Prior art keywords
- page elements
- user
- focus area
- page
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000001914 filtration Methods 0.000 claims description 17
- 230000008878 coupling Effects 0.000 claims description 10
- 238000010168 coupling process Methods 0.000 claims description 10
- 238000005859 coupling reaction Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 244000089409 Erythrina poeppigiana Species 0.000 description 2
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 235000001674 Agaricus brunnescens Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002609 medium Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Abstract
本发明提供了一种网站访问分析方法和系统。本发明涉及用户网页访问分析技术。更具体地,本发明尤其涉及利用定义的焦点区域对网页用户的网页访问行为进行分析的技术。本发明提供了一种用于网站访问分析的方法,包括:接收用户对页面元素的访问数据;确定可以映射到定义的网页焦点区域的用户所访问的页面元素;以及基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问。
Description
技术领域
本发明涉及网站分析(WebAnalytics)技术。更具体地,本发明尤其涉及利用定义的焦点区域对网页用户的网页访问行为进行分析的技术。
背景技术
随着网络技术的迅速发展,各种网站或网络应用也如雨后春笋般涌现。在网络业务领域,为了更好地掌握和分析用户对网站以及网站中的网页访问的情况,需要执行网站分析(WebAnalytics)。网站分析是指通过分析用户对网页访问的行为来提供一系列分析结果,利用所提供的分析结果可以方便并直观地了解用户对网页访问的趋势。具体地,分析结果可能包括提供了访问者在网站内部的网页访问顺序的点击路径信息,利用此种信息网站技术人员可以更好地组织并调整网站内部的网页结构和内容安排。
在传统的Web1.0环境下,例如GoogleAnalytics,WebTrends等网站分析工具通常是以网页(page)为单位对用户访问数据进行数据统计分析的。这是因为在Web1.0环境下用户在网页上的点击操作会导致页面的跳转(URL地址发生变化)。
但是,上述在Web1.0环境下适用的网站分析方法或工具在Web2.0环境下就不能适用。这是因为在Web2.0环境下广泛地应用了异步JavaScript和XML(Ajax)技术,这是一种创建交互式网页应用的网页开发技术。用户在Web2.0环境下的网站访问时可以完成很多操作而无需进行页面的跳转(URL地址不发生变化)。因此,很多在Web2.0网站中的操作是基于动态页面元素进行的,而并非基于网页进行。如果仍然使用传统的Web1.0环境下的网站分析方法或工具,就不能在Web2.0网站中正确地收集用户在网站中访问操作的数据信息。从另一个角度来看,实际上一个网站内部的很多不同的网页上可能存在结构或内容类似的页面元素,例如,在某门户网站中,有数十个乃至上百个新闻栏目下面的子网页中均包含结构类似的新闻页面元素,如果仍然按照传统方式以页面跳转为基础进行用户访问分析,就无法统计用户对新闻栏目的访问量和访问习惯。也就是说,在Web2.0网站中进行网站分析必须收集更多的混合数据以挖掘其中存在的有意义的信息。这也给网站分析过程中的数据收集、数据可视化以及信息过滤提供了更大的挑战。
发明内容
考虑到上述存在的问题,本发明的目的之一在于提供一种基于页面元素收集用户对网站的访问信息的方法。本发明的又一目的在于提供一种基于灵活的可自定义的单网页或跨网页的兴趣区域进行数据分析的方法。
根据本发明的一个方面,提供了一种用于网站分析的方法,包括:接收用户对页面元素的访问数据;确定可以映射到定义的网页焦点区域的用户所访问的页面元素;以及基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问。
根据本发明的一个实施方式,其中将用户所访问的页面元素映射到定义的网页焦点区域,包括:利用定义的页面集合中的URL模式过滤所述用户访问的页面元素,以确定具有匹配的URL的用户访问的页面元素;以及利用定义的页面元素特征集合过滤属于所述具有匹配的URL的页面元素,以确定可以映射到所述网页焦点区域的页面元素。
根据本发明的另一方面,提供了一种用于网站分析的系统,包括:接收装置,用于接收用户对页面元素的访问数据;映射装置,用于确定可以映射到定义的网页焦点区域的用户所访问的页面元素;以及分析装置,用于基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问。。
通过本发明的方法和系统,可以实现在Web2.0环境没有页面跳转的情况下,基于页面元素而并非网页的收集用户访问数据,并且基于定义的网页焦点区域分析所收集到的用户访问数据的技术效果,解决了传统Web1.0环境下基于页面的网站分析方法无法适用于Web2.0环境的技术问题。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本发明的上述以及其他特征将更加明显,本发明附图中相同的标号表示相同或相似的部件。在附图中,
图1示出了根据本发明一个实施例的用于分析网页用户访问数据的方法的流程图;
图2示出了根据本发明另一实施例的用于分析网页用户访问数据的方法的流程图;
图3示出了根据本发明一个实施例的某网站内定义的网页兴趣区域的示意图;
图4示出了根据本发明一个实施例的用于分析网页用户访问数据的系统的框图;
图5示出了根据本发明另一个实施例的用于分析网页用户访问数据的系统的框图。
具体实施方式
在下文中,将参考附图通过实施方式对本发明提供的用于确定要被物化的节点的方法和系统进行详细地描述。
图1示出了根据本发明一个实施例的用于分析网页用户访问数据的方法的流程图。
图1所示的方法从步骤101开始。在步骤101中,接收用户对页面元素的访问数据。“页面元素”是指网页组成的基本单元。在网页上,一个页面元素可以体现为按键(button)、链接(link)或区域(div)等。在网页的HTML源代码中,一个页面元素可以体现为HTML源代码DOMTree的一个节点。页面元素不具有独立的统一资源定位符URL地址,一个页面可能包含多个页面元素。用户在访问网站时,尤其是访问WEB2.0下采用了JavaScript技术的网站时,经常会点击网页内部的一些按键或链接,而很多情况下这些对按键或链接的点击并不会触发页面跳转,也就是说URL地址并不发生变化。因此在步骤101中,所接收的用户访问数据是针对页面元素而非页面的访问数据。根据本发明的一个实施例,接收用户对页面元素的访问数据可以通过IBMWebClickAnalyzer等工具或其它的用户点击流跟踪方法等进行。然而,本领域技术人员应当理解,无论采用何种方法接收到用户对页面元素的访问数据,均不影响其落入本发明的保护范围。根据本发明的一个实施例,用户对页面元素的访问数据是用户通过鼠标点击操作而触发的点击行为(click)。根据本发明的又一实施例,用户对页面元素的访问数据是用户通过触摸屏的触摸操作而触发的访问行为。本领域技术人员应当了解,用户可以采用多种方式触发对页面元素的访问。同时还需要强调的是,本发明的技术方案及具体实施方式并非仅在Web2.0环境下适用,而是可以适用于任何存在当访问页面元素时并不发生页面URL变化的网页环境。
接下来图1所示的方法进行至步骤102。在步骤102中,确定可以映射到定义的网页焦点区域的用户所访问的页面元素。
区别于传统的网站分析方式,“网页焦点区域”是指用于分析用户对网站的访问的基本单元。根据本发明的一个实施例,网页焦点区域包含位于一个页面内的一个可视化区域。根据本发明的另一实施例,网页焦点区域包含位于同一网站内的多个页面内的一系列页面元素。在此情形下,网页焦点区域可以理解为一个抽象的散落于多个页面内的页面元素的集合。也就是说,一个网页焦点区域可能但并不一定局限于一个网页内。下面介绍网页焦点区域的来源。根据本发明的一个实施例,网页焦点区域是预先被定义的。根据本发明的另一实施例,网页焦点区域是在动态分析用户对网站的访问时被动态定义以及动态更新的。根据本发明的一个实施例,网页焦点区域是由网站技术人员或网站管理人员等定义的。根据本发明的另一实施例,网页焦点区域是根据预先定义的焦点区域生成规则而自动生成的,并且在动态分析的过程中自动更新的。所述焦点区域生成规则可以包括例如,具某些特征的页面元素自动加入某网页焦点区域中。
下面介绍具体的定义网页焦点区域的方式。网页焦点区域由页面集合以及页面元素特征集合共同确定。
根据本发明的一个实施例,页面集合是指一组精确的URL地址的集合,例如http://finance.sina.com.cn/roll/20100804/01553.shtml。根据本发明的另一个实施例,页面集合是指一组具有相似模式的URL表达式的集合,例如:http://finance.sina.com.cn/roll/20100804/(.)*。根据本发明的再一实施例,页面集合是包含上述精确URL地址和上述相似非精确URL表达式的集合。
根据本发明的一个实施例,页面元素特征集合包括页面元素ID以及页面元素名称。页面元素ID在HTML源代码中以id=“string”语句赋值,并且可以通过例如document.getElementById/id(“xxx”)来获取页面元素的ID。页面元素名称在HTML源代码中以name=“string”语句赋值,并且可以通过例如document.getElementByName/name(“xxx”)来获取页面元素的名称。那么,一组定义的页面元素ID和名称族就可以表示为:ids—>“id_xxx,id_yyy…”,name—>“name_xxx,name_yyy…”。
根据本发明的另一实施例,页面元素特征集合包括具有特定属性的页面元素族。页面元素的属性包括但不限于:对于链接节点而言的链接路径例如“linkpath”:<ahref=“…/>,对于链接节点而言的链接内容例如“linkcontent”:<a>content</a>,对于表单节点<form>而言的action属性例如“formtarget”:<formaction=“…/>等。那么,一组定义的特定页面元素属性族就可以表示为例如:{images:[{src:’xxx’},{src:’yyy’}],links:[{href:’aaa’},{href:’bbb’}],…}。
根据本发明的又一实施例,页面元素特征集合包括具有特定页面元素路径Xpath的页面元素族。页面元素路径Xpath是指通过路径表达式遍历页面的HTML文档而获得的表达式。页面元素路径表达式包括但不限于:页面元素Xpath位置路径表达式、页面元素XpathID/名称路径表达式以及页面元素Xpath通用属性路径表达式。例如,页面元素Xpath位置路径表达式可以是”//body/div[5]/table[1]/tr[3]/td[1]/div[3]”…,页面元素XpathID/名称路径表达式可以是”//body/div[name=’xxx’]/div[5]”,页面元素Xpath通用属性路径表达式可以是”//body/div[class=’yyy’]/input[type=button]”。
根据本发明的再一实施例,页面元素特征集合包括任何自定义的页面元素特征。例如,页面元素的长度、宽度、高度、颜色等任何可起到区分作用的特征。
通过上述方式所定义的网页焦点区域既受到网页URL模式的限制,又受到页面元素ID/名称/属性等页面元素特征的限制。本领域技术人员应当了解,上述给出的表达式只是为了示例性的说明,并不在于对具体的表达式作出任何限制。当然,本领域技术人员应当了解,上述网页焦点区域受到网页URL模式和页面元素特征集合的双重限制只是本发明的一种实施方式,完全可以只采用其中一种来定义网页焦点区域,例如只利用页面元素特征集合来过滤接收到的由用户访问的页面元素。
在步骤102中,确定可以映射到定义的网页焦点区域的用户所访问的页面元素是指确定用户访问的多个页面元素中的每个页面元素分别属于哪个网页焦点区域,并相应地将用户对该页面元素的访问数据统计为用户对该页面元素所属的网页焦点区域的访问数据。需要指出的是,一个页面元素可以只包含于一个网页焦点区域中,也可以包含于多个网页焦点区域中。因此,在将页面元素映射到焦点区域的过程中可能会将用户对一个页面元素的访问数据统计为用户对该页面元素所属的多个网页焦点区域的访问数据。同样,也存在这样的可能:某个或某些用户所访问的页面元素不属于任何一个定义的网页焦点区域。下文将结合图2具体介绍将页面元素映射到网页焦点区域的详细实施例。
接下来,由于已经在步骤101中接收到了用户对页面元素的访问数据,并且在步骤102中将页面元素映射到定义的网页焦点区域,因此在步骤103中基于被映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问。根据本发明的一个实施例,分析用户对所述网页焦点区域的访问包括分析用户对网页焦点区域在一定时间跨度内的访问次数或访问停留时间。根据本发明的另一实施例,分析用户对所述网页焦点区域的访问包括以空间维度分析用户对不同的网页焦点区域的访问。例如,一个网站包含多个定义的网页焦点区域,则在分析报告中展示这多个网页焦点区域的访问量的对比分析以及对这多个网页焦点区域访问的相关性分析。例如,用户通常都是先访问焦点区域1,然后跳转到焦点区域3,最后访问焦点区域2。根据本发明的再一实施例,分析用户对所述网页焦点区域的访问包括以时间维度分析用户对同一网页焦点区域的访问。例如,分析用户在一个网页焦点区域内对不同的页面元素的访问的先后顺序和访问量。当然,本领域技术人员应当了解,还可以根据实际需要产生多种不同的分析方式,只要是利用了用户对网页焦点区域的访问数据作为基本统计信息,无论分析的目的或具体的分析手段及分析结果如何,均落入本发明的保护范围。
如上所述,通过图1所示的方法,可以基于页面元素收集用户对网站的访问信息的方法并且能够基于灵活的可自定义的单网页或跨网页的兴趣区域进行数据分析,克服了传统网站分析手段以页面为单位统计用户访问数据而无法适应WEB2.0环境下的网站分析要求的弊端。
图2示出了根据本发明另一实施例的用于分析网页用户访问数据的方法的流程图。图2所示的方法中的步骤201对应于图1所示的方法中的步骤101,并且步骤204对应于步骤103,在此不再赘述。图2中的步骤202和203可以理解为对应于图1中的步骤102。
在步骤202中,利用定义的页面集合中的URL模式过滤所述用户访问的页面元素,以确定具有匹配的URL的用户访问的页面元素。
假设预定义的页面集合中包括的URL模式为http://dd.abc.com/ 20100804/(.)*,那么如果某个接收到的由用户访问的页面元素所属的URL为http://dd.abc.com/20090804/3.html,则认为该页面元素所属的URL与预定义的页面集合中的URL模式不匹配,从而将该页面元素所属的URL从所有页面元素所属的URL中滤除。需要指出的是,预定义的URL模式还可能是具体的URL地址,而不一定必须是由通配符方式表达。还需要指出的是,对于一个网页焦点区域而言,其预定义的页面集合中可能包括一个或多个URL模式,只要页面元素所属的URL与这些预定义的URL模式中的一个或多个相匹配,就不将该页面元素滤除。
接下来在步骤203中,利用定义的页面元素特征集合过滤属于所述具有匹配的URL的页面元素,以确定可以映射到所述网页焦点区域的页面元素。在步骤202中已经对页面元素进行了一次过滤,在步骤203中再次进行过滤。利用上文中已经介绍的页面元素信息确定与预定义的页面元素信息相匹配的页面元素,并把不匹配的页面元素滤除。如上所述,页面元素特征包括但不限于:页面元素的ID、名称、通用属性、路径、DOM节点的特殊属性等内容。在执行了步骤203后,由于利用定义的页面集合和定义的页面元素特征集合过,滤除在步骤201中接收到的页面元素访问数据,并且网页焦点区域正是由页面集合和页面元素特征集合共同定义或确定的,因此经过滤后的页面元素即为包含于某网页焦点区域之一的页面元素,其访问数据可以用于统计对其所属的网页焦点区域的用户访问信息。
本领域技术人员应当了解,上述步骤202和203的执行顺序可以调换。也就是说,可以先利用定义的页面元素特征集合中的页面元素特征过滤接收到的由用户访问的页面元素,然后再利用定义的页面集合中的URL模式再次过滤所述页面元素。
图3示出了根据本发明一个实施例的某网站内定义的网页兴趣区域的示意图。如图3所示,某网站内多个页面均属于新闻栏目下的子网页,其URL地址彼此不同。但是其URL均具备共同的URL模式,假设为http://news.aa.com/(.)*,那么可以用这种URL模式构成网页焦点区域的页面集合。同时,并非符合该URL模式的页面中的所有页面元素都需要包括在网页焦点区域中,例如每个新闻页面中可能包括一些广告链接或与新闻无关的图片,那么可能不需要统计用户对这些不相关的页面元素的访问数据,而只需要统计用户对新闻内容的访问数据。因此,进一步定义页面元素特征集合例如<imgsrc=”…/>以及<a>newstitle:…</a>,从而使得在符合URL模式的那些页面中确定进一步符合上述定义的页面元素特征集合的页面元素。在图3中,线框内的区域即为每个新闻页面下属于网页焦点区域的部分,所有的符合URL模式的新闻子页面中的相应部分在一起构成了一个新闻网页焦点区域。可以看出,这个新闻网页焦点区域是跨网页构成的,并且点击每个新闻子页面中相应的新闻网页焦点区域部分中的页面元素时,可能并不发生页面跳转(即URL地址的变化),但是仍然可以将这种不发生页面跳转的页面元素点击行为加以区分、收集并予以统计分析。
图4示出了根据本发明一个实施例的用于分析网页用户访问数据的系统的框图。图4所示的系统在整体上由系统400表示。具体地,系统400包括接收装置401,用于接收用户对页面元素的访问数据;映射装置402,用于确定可以映射到定义的网页焦点区域的用户所访问的页面元素;以及分析装置403,用于基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问。系统400中的装置401-403分别对应于图1所示的方法中的步骤101-103,在此不再赘述。
图5示出了根据本发明另一实施例的用于分析网页用户访问数据的系统的框图。图5所示的系统在整体上由系统500表示。具体地,系统500包括接收装置501,用于接收用户对页面元素的访问数据;URL过滤装置502,用于利用定义的页面集合中的URL模式过滤所述用户访问的页面元素,以确定具有匹配的URL的用户访问的页面元素;页面元素特征过滤装置503,用于利用定义的页面元素特征集合过滤属于所述具有匹配的URL的页面元素,以确定可以映射到所述网页焦点区域的页面元素;以及分析装置504,用于基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问。系统500中的装置501-504分别对应于图2所示的方法中的步骤201-204,在此不再赘述。
通过以上对具体实施例的描述,本领域技术人员可以理解,上述的系统、装置和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本实施例的装置、服务器及其单元可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合实现。
虽然以上结合具体实施例,对根据本发明的用于网站分析的系统及方法进行了详细描述,但本发明并不限于此。本领域普通技术人员能够在说明书教导之下对本发明进行多种变换、替换和修改而不偏离本发明的精神和范围。应该理解,所有这样的变化、替换、修改仍然落入本发明的保护范围之内。本发明的保护范围由所附权利要求来限定。
Claims (12)
1.一种用于网站访问分析的方法,包括:
接收用户对页面元素的访问数据,所述页面元素是指网页组成的基本单元,并且所述页面元素不具有独立的统一资源定位符URL地址;
确定可以映射到定义的网页焦点区域的用户所访问的页面元素;以及
基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问,其中所述网页焦点区域由页面集合以及页面元素特征集合共同确定,
其中确定可以映射到定义的网页焦点区域的用户所访问的页面元素,包括:
利用定义的页面集合中的URL模式过滤所述用户访问的页面元素,以确定具有匹配的URL的用户访问的页面元素;以及
利用定义的页面元素特征集合过滤属于所述具有匹配的URL的页面元素,以确定可以映射到所述网页焦点区域的页面元素。
2.如权利要求1所述的方法,所述网页焦点区域由多个页面元素组成,所述多个页面元素位于相同的页面。
3.如权利要求1所述的方法,所述网页焦点区域由多个页面元素组成,其中多个页面元素位于不同的页面。
4.如权利要求1所述的方法,其中分析用户对所述网页焦点区域的访问至少包括下列之一:
以时间维度分析用户对不同的网页焦点区域的访问;
以空间维度分析用户对不同的网页焦点区域的访问;以及
分析用户对不同的网页焦点区域的访问的关联性和差异性。
5.如权利要求1所述的方法,其中定义的页面元素特征包括下列页面元素信息中的一个或多个任意组合:
页面元素ID、页面元素名称、页面元素属性、页面元素路径以及自定义的页面元素特征。
6.如权利要求1-5任一所述的方法,所述网页是WEB2.0网页。
7.一种用于网站访问分析的系统,包括:
接收装置,用于接收用户对页面元素的访问数据,所述页面元素是指网页组成的基本单元,并且所述页面元素不具有独立的统一资源定位符URL地址;
映射装置,用于确定可以映射到定义的网页焦点区域的用户所访问的页面元素;以及
分析装置,用于基于所确定的可以映射到所述网页焦点区域的页面元素,分析用户对所述网页焦点区域的访问,其中所述网页焦点区域由页面集合以及页面元素特征集合共同确定,
其中映射装置进一步包括:
URL过滤装置,被配置为利用定义的页面集合中的URL模式过滤所述用户访问的页面元素,以确定具有匹配的URL的用户访问的页面元素;以及
页面元素特征过滤装置,被配置为利用定义的页面元素特征集合过滤属于所述具有匹配的URL的页面元素,以确定可以映射到所述网页焦点区域的页面元素。
8.如权利要求7所述的系统,所述网页焦点区域由多个页面元素组成,所述多个页面元素位于相同的页面。
9.如权利要求7所述的系统,所述网页焦点区域由多个页面元素组成,其中多个页面元素位于不同的页面。
10.如权利要求7所述的系统,其中分析用户对所述网页焦点区域的访问至少包括下列之一:
以时间维度分析用户对网页焦点区域的访问;
以空间维度分析用户对网页焦点区域的访问;以及
分析用户对不同的网页焦点区域的访问的关联性和差异性。
11.如权利要求7所述的系统,其中定义的页面元素特征包括下列页面元素信息中的一个或多个任意组合:
页面元素ID、页面元素名称、页面元素属性、页面元素路径以及自定义的页面元素特征。
12.如权利要求7-11任一所述的系统,所述网页是WEB2.0网页。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010532178.2A CN102469111B (zh) | 2010-10-29 | 2010-10-29 | 网站访问分析方法和系统 |
US13/249,518 US8909765B2 (en) | 2010-10-29 | 2011-09-30 | Analyzing webpage users' web access actions by using a defined focal region |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201010532178.2A CN102469111B (zh) | 2010-10-29 | 2010-10-29 | 网站访问分析方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102469111A CN102469111A (zh) | 2012-05-23 |
CN102469111B true CN102469111B (zh) | 2016-03-30 |
Family
ID=45997908
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201010532178.2A Active CN102469111B (zh) | 2010-10-29 | 2010-10-29 | 网站访问分析方法和系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8909765B2 (zh) |
CN (1) | CN102469111B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130339839A1 (en) * | 2012-06-14 | 2013-12-19 | Emre Yavuz Baran | Analyzing User Interaction |
CN103593609B (zh) * | 2012-08-16 | 2017-04-12 | 阿里巴巴集团控股有限公司 | 一种可信行为识别的方法和装置 |
CN104866509A (zh) * | 2014-02-26 | 2015-08-26 | 阿里巴巴集团控股有限公司 | 页面元素的定位方法及装置 |
CN104881794A (zh) * | 2014-02-28 | 2015-09-02 | 刘中一 | 差异化分辨率广告效果统计分析系统 |
CN104504136B (zh) * | 2014-12-31 | 2018-05-18 | 北京国双科技有限公司 | 网站的访问路径的分析方法和装置 |
CN107025237A (zh) * | 2016-02-01 | 2017-08-08 | 北京铂金智慧网络科技有限公司 | 一种页面点击分布图的生成方法及系统 |
CN106126538B (zh) * | 2016-06-14 | 2020-09-29 | 百度在线网络技术(北京)有限公司 | 页面的转化处理方法及装置 |
CN107545009B (zh) * | 2016-06-29 | 2021-02-02 | 阿里巴巴集团控股有限公司 | 一种确定网页中组件的方法和设备 |
CN107644028B (zh) * | 2016-07-20 | 2020-09-04 | 平安科技(深圳)有限公司 | 网页数据的收集方法及系统 |
CN111968126B (zh) * | 2020-06-30 | 2023-10-17 | 上海艾策通讯科技股份有限公司 | 页面焦点识别方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6701350B1 (en) * | 1999-09-08 | 2004-03-02 | Nortel Networks Limited | System and method for web page filtering |
CN101506801A (zh) * | 2006-08-14 | 2009-08-12 | 微软公司 | 启用用于交互式web应用程序的web分析 |
CN101739402A (zh) * | 2008-11-07 | 2010-06-16 | 华为技术有限公司 | 一种兴趣分析的方法、装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6334131B2 (en) * | 1998-08-29 | 2001-12-25 | International Business Machines Corporation | Method for cataloging, filtering, and relevance ranking frame-based hierarchical information structures |
US7827055B1 (en) * | 2001-06-07 | 2010-11-02 | Amazon.Com, Inc. | Identifying and providing targeted content to users having common interests |
US20040060008A1 (en) | 2002-01-18 | 2004-03-25 | John Marshall | Displaying statistical data for a web page by dynamically modifying the document object model in the HTML rendering engine |
JP4394335B2 (ja) * | 2002-07-23 | 2010-01-06 | 富士通株式会社 | サイト評価システムおよびサイト評価プログラム |
US20090228572A1 (en) * | 2005-06-15 | 2009-09-10 | Wayne Wall | System and method for creating and tracking rich media communications |
US20080046562A1 (en) * | 2006-08-21 | 2008-02-21 | Crazy Egg, Inc. | Visual web page analytics |
US8041572B2 (en) * | 2007-06-20 | 2011-10-18 | International Business Machines Corporation | Speech processing method based upon a representational state transfer (REST) architecture that uses web 2.0 concepts for speech resource interfaces |
US8613039B2 (en) * | 2008-06-03 | 2013-12-17 | International Business Machines Corporation | Automated correction and reporting for dynamic web applications |
JP5199003B2 (ja) * | 2008-09-25 | 2013-05-15 | 株式会社日立製作所 | 管理装置及び計算機システム |
US8713536B2 (en) * | 2009-06-11 | 2014-04-29 | Webtrends, Inc. | Method and system for constructing a customized web analytics application |
US20120016862A1 (en) * | 2010-07-14 | 2012-01-19 | Rajan Sreeranga P | Methods and Systems for Extensive Crawling of Web Applications |
-
2010
- 2010-10-29 CN CN201010532178.2A patent/CN102469111B/zh active Active
-
2011
- 2011-09-30 US US13/249,518 patent/US8909765B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6701350B1 (en) * | 1999-09-08 | 2004-03-02 | Nortel Networks Limited | System and method for web page filtering |
CN101506801A (zh) * | 2006-08-14 | 2009-08-12 | 微软公司 | 启用用于交互式web应用程序的web分析 |
CN101739402A (zh) * | 2008-11-07 | 2010-06-16 | 华为技术有限公司 | 一种兴趣分析的方法、装置 |
Also Published As
Publication number | Publication date |
---|---|
CN102469111A (zh) | 2012-05-23 |
US20120110168A1 (en) | 2012-05-03 |
US8909765B2 (en) | 2014-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102469111B (zh) | 网站访问分析方法和系统 | |
US11113456B2 (en) | System and method for deep linking and search engine support for web sites integrating third party application and components | |
CN107562620B (zh) | 一种埋点自动设置方法和装置 | |
US20190147005A1 (en) | Extracting structured data from weblogs | |
CN101299688B (zh) | 一种获取网页区域点击数量的方法 | |
US8024651B1 (en) | Data visualization using tables integrated with hierarchical pie charts | |
CN107633019A (zh) | 一种页面事件采集方法和装置 | |
US20080215997A1 (en) | Webpage block tracking gadget | |
KR20110035960A (ko) | 웹 페이지내 광고 식별 방법 및 시스템 | |
CN101937439A (zh) | 用于收集用户访问相关信息的方法和系统 | |
WO2013186638A2 (en) | Analyzing user interaction | |
CN112486708B (zh) | 页面操作数据的处理方法和处理系统 | |
CN102663091B (zh) | 一种web应用导航管理方法及其系统 | |
CN106528390A (zh) | 一种应用监控方法及装置 | |
CN109684584A (zh) | 一种浏览器内核的智能切换方法、装置、终端及存储介质 | |
CN102663049B (zh) | 一种更新搜索引擎网址库方法及装置 | |
CN112506733B (zh) | 一种用户行为数据的精细化分析方法、装置、设备和介质 | |
KR20130097252A (ko) | 소스 코드 분석에 의한 응용 프로그램 분석을 위한 방법 및 장치 | |
WO2016075829A1 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
CN103853717A (zh) | 网络爬虫 | |
CN103365555A (zh) | 数据处理方法和系统、数据收集方法和系统 | |
Bross et al. | Mapping the blogosphere with rss-feeds | |
CN113849718A (zh) | 互联网烟草科技情报信息自动采集装置、方法与存储介质 | |
Girardi et al. | Web crawlers compared | |
CN106126240A (zh) | 一种定制移动终端桌面快捷图标的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |