CN103559278A - 用于网页页面点击量统计的数据处理方法和装置 - Google Patents

用于网页页面点击量统计的数据处理方法和装置 Download PDF

Info

Publication number
CN103559278A
CN103559278A CN201310548178.5A CN201310548178A CN103559278A CN 103559278 A CN103559278 A CN 103559278A CN 201310548178 A CN201310548178 A CN 201310548178A CN 103559278 A CN103559278 A CN 103559278A
Authority
CN
China
Prior art keywords
webpage
click volume
region
vector
hot spot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310548178.5A
Other languages
English (en)
Inventor
刘合翔
何鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310548178.5A priority Critical patent/CN103559278A/zh
Publication of CN103559278A publication Critical patent/CN103559278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于网页页面点击量统计的数据处理方法和装置。该用于网页页面点击量统计的数据处理方法包括:获取被监测网页页面的坐标系;通过坐标系记录网页页面上的点击量;通过点击量确定网页页面上的热点区域;,其中,网页页面上的热点区域包括一个或者多个;以及计算确定的热点区域的分散度。通过本发明,解决了相关技术中无法分析网页页面上点击热点区域的分散程度的问题,进而达到了自动统计网页页面点击的热点区域的分散度的效果。

Description

用于网页页面点击量统计的数据处理方法和装置
技术领域
本发明涉及数据处理领域,具体而言,涉及一种用于网页页面点击量统计的数据处理方法和装置。
背景技术
目前,在相关技术中,网页页面点击热点技术多与热点的视觉展现及热点区域的信息关联,该网页页面点击热点技术的主要实现手段如下:(1)构建网页页面的坐标系;(2)记录点击坐标位置;(3)将点击坐标位置与相关信息进行关联,其中,相关技术的上述方案无法分析网页页面上点击热点区域的分散程度。
针对相关技术中无法分析网页页面上点击热点区域的分散程度的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种用于网页页面点击量统计的数据处理方法和装置,以解决相关技术中无法分析网页页面上点击热点区域的分散程度的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于网页页面点击量统计的数据处理方法。该方法包括:获取被监测网页页面的坐标系;通过坐标系记录网页页面上的点击量;通过点击量确定网页页面上的热点区域,其中,网页页面上的热点区域包括一个或者多个;以及计算确定的热点区域的分散度。
进一步地,通过点击量确定网页页面上的热点区域包括:获取点击量的密度大于预定阈值的区域;以及将获取的区域作为热点区域。
进一步地,获取点击量的密度大于预定阈值的区域包括:在网页页面的二维平面空间中,任选一个点,然后以点为圆心,r为半径做圆,其中,落在圆内的所有被点击点与圆心都会产生一个向量,向量是以圆心为起点,以落在圆内的被点击的点为终点,向量包括一个或者多个;将一个或者多个向量相加,得到均值飘移Meanshift向量;判断Meanshift向量的模是否小于预设极值;当判断出Meanshift向量的模小于预设极值时,则通过Meanshift向量获取点击量的密度和独立连续区域;判断点击量的密度是否大于预定阈值;以及在独立连续区域中获取点击量的密度大于预定阈值的区域。
进一步地,通过以下方式获取点击量的密度:获取独立连续区域中各个区域的点击次数;以及将点击次数除以对应的区域得到对应的区域的点击量密度。
进一步地,通过以下方式得到独立连续区域:对网页页面内的圆心坐标位置进行分类汇总;以及将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域。
为了实现上述目的,根据本发明的另一方面,提供了一种用于网页页面点击量统计的数据处理装置。该装置包括:获取单元,用于获取被监测网页页面的坐标系;记录单元,用于通过坐标系记录网页页面上的点击量;确定单元,用于通过点击量确定网页页面上的热点区域,其中,网页页面上的热点区域包括一个或者多个;以及计算单元,用于计算确定的热点区域的分散度。
进一步地,确定单元包括:获取模块,用于获取点击量的密度大于预定阈值的区域;以及确定模块,用于将获取的区域作为热点区域。
进一步地,获取模块包括:向量处理子模块,用于在网页页面的二维平面空间中,任选一个点,然后以点为圆心,r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生一个向量,向量是以圆心为起点,以落在圆内的被点击的点为终点,向量包括一个或者多个;均值子模块,用于将多个向量相加,得到均值飘移Meanshift向量;第一判断子模块,用于判断Meanshift向量的模是否小于预设极值;第一获取子模块,用于当判断出Meanshift向量的模小于预设极值时,则通过Meanshift向量获取点击量的密度和独立连续区域;第二判断子模块,用于判断点击量的密度是否大于预定阈值;以及第二获取子模块,用于在独立连续区域中获取点击量的密度大于预定阈值的区域。
进一步地,获取模块用于获取独立连续区域中各个区域的点击次数,将点击次数除以对应的区域得到对应的区域的点击量密度。
进一步地,获取模块用于对网页页面内的圆心坐标位置进行分类汇总,将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域。
通过本发明,采用获取被监测网页页面的坐标系;通过坐标系记录网页页面上的点击量;通过点击量确定网页页面上的热点区域,其中,网页页面上的热点区域包括一个或者多个;以及计算确定的热点区域的分散度,解决了相关技术中无法分析网页页面上点击热点区域的分散程度的问题,进而达到了自动统计网页页面点击的热点区域的分散度的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的用于网页页面点击量统计的数据处理装置的示意图;
图2是根据本发明第二实施例的用于网页页面点击量统计的数据处理装置的示意图;
图3是根据本发明第一实施例的用于网页页面点击量统计的数据处理方法的流程图;以及
图4是根据本发明第二实施例的用于网页页面点击量统计的数据处理方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
根据本发明的实施例,提供了一种用于网页页面点击量统计的数据处理装置,该装置用于分析网页页面上热点区域的分散度。
图1是根据本发明第一实施例的用于网页页面点击量统计的数据处理装置的示意图。
如图1所示,该装置包括:获取单元10、记录单元20、确定单元30和计算单元40。
获取单元10用于获取被监测网页页面的坐标系。在本发明实施例中,网页可以是多中平台下和多种浏览器下的网页,坐标系可以是正交直角坐标系。获取单元10用于获取被监测网页页面的坐标系包括获取正交直角坐标系的坐标原点、坐标横轴(即X轴)及其正方向、坐标纵轴(即Y轴)及其正方向和单位长度,其中,可以将网页页面的左上角的点设置为坐标原点,将沿网页页面水平向右的方向设置为坐标横轴正方向,将沿网页页面垂直向上的方向设置为坐标纵轴正方向,单位长度可以是1nm或者是1um等,该单位长度可以根据坐标的精度确定。通过获取单元10获取的被监测网页页面的坐标系可以获取被监测网页页面内任意点的坐标。需要说明的是,在本发明实施例中,单位长度对应单位面积,每个单位面积对应一个像素点的集合,单位长度的设定决定单位面积内像素点的个数,这样,可以以单位面积为计数基础,通过单位面积内被点击的像素的个数记录点击量。在本发明实施例中,单位长度还可以为1像素(pixel,简称px)单位,这样,在网页页面上,每个坐标对应一个像素点,可以以坐标为计数基础,通过坐标对应的被点击的像素的个数记录点击量。
记录单元20用于通过坐标系记录网页页面上的点击量。需要说明的是,记录单元20可以用于通过坐标系记录预设时间段内网页页面上的点击量,其中,该点击量可以为网页页面上各个点对应的点击量,而不是整个网页页面的点击量。在本发明实施实例中,记录单元20可以包括一个或者多个记录模块,其中,记录模块可以包括计数器。网页页面有无数个点组成,每个点通过其坐标可以对应一个记录模块,当用户浏览网页页面时,会点击该网页页面内的点,一旦用户点击一次网页页面内的点,与该点坐标对应的记录模块就会增加1,这样,在预设时间段内,记录模块会记录网页页面上各个点的点击量。
确定单元30用于通过点击量确定网页页面上的热点区域。需要说明的是,热点是指比较受广大群众关注或者欢迎的新闻或者信息,或指某个时期引人注目的地方或者问题。在本发明实施例中,网页页面上的热点区域是指点击次数比较多或者点击密度比较大的网页页面的区域。
计算单元40用于计算网页页面上的热点区域的分散度。分散度即为网页页面上热点区域的分散程度,其中,该分散度可以用热点区域的平均距离表示。具体地,在本发明实施例中,计算单元40可以通过计算任意两个区域之间的距离以及上述任意两个热点区域之间的距离的平均值来得到热点区域的分散程度,并且平均值即表示分散度,其中,平均值越大,热点区域的分散度也越大,反之,平均值越小,热点区域的分散度也越小。在本发明实施例中,任意两个热点区域可以分别用其对应的几何中心的坐标表示,例如,该几何中心可以为均值飘移Meanshift向量的终点,任意两个热点区域也可以分别用其对应的区域内点击量最大的像素点的像素坐标表示,这样,上述任意两个区域之间的距离可以是上述任意两个区域的几何中心的坐标之间的距离或者上述任意两个区域内点击量最大的像素点的像素坐标之间的距离。需要说明的是,当网页界面上只有一个热点区域时,则该热点区域的分散度为0。
通过本发明,采用获取被监测网页页面的坐标系;通过坐标系记录网页页面上的点击量;通过点击量确定网页页面上的热点区域,其中,网页页面上的热点区域包括一个或者多个;以及计算确定的热点区域的分散度,解决了相关技术中无法分析网页页面上点击热点区域的分散程度的问题,进而达到了自动统计网页页面点击的热点区域的分散度的效果。
图2是根据本发明第二实施例的用于网页页面点击量统计的数据处理装置的示意图。
如图2所示,该实施例可以作为图1所示实施例的优选实施方式,该实施例的用于网页页面点击量统计的数据处理装置包括第一实施例的获取单元10、记录单元20、确定单元30和计算单元40,其中,确定单元30包括获取模块301和确定模块302。
获取单元10和记录单元20的作用与第一实施例中的相同,在此不再赘述。
获取模块301用于获取点击量的密度大于预定阈值的区域。具体地,获取模块301可以用于通过将各个点的点击量的密度与预设阈值对比以获取点击量的密度大于预定阈值的区域,当网页页面上的某个区域内的点的点击量的密度均大于预设阈值时,则该区域为获取的点击量的密度大于预定阈值的区域,该点击量的密度大于预定阈值的区域即为热点区域,热点区域由网页页面上各个点的点击量的密度和预设阈值确定,其中,网页页面上各个点的点击量的密度确定热点区域的位置,而预设阈值确定热点区域的大小,当预设阈值较大时,热点区域较小,否则预设阈值较小时,热点区域较大。
在本发明实施例中,具体地,获取模块301包括向量处理子模块、均值子模块、第一判断子模块、第一获取子模块、第二判断子模块和第二获取子模块。向量处理子模块用于在网页页面的二维平面空间中任选一个点,并且以该点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生一个向量,该向量是以圆心为起点,以落在圆内的被点击的点为终点,该向量可以包括一个或者多个。均值子模块用于将一个或者多个向量相加以得到均值飘移Meanshift向量,其中,均值飘移是一种有效的迭代统计算法,Meanshift向量是由迭代统计算法得到的向量。第一判断子模块用于判断Meanshift向量的模是否小于预设极值,其中,预设极值可以为足够小的数,这样,当第一判断子模块判断出Meanshift向量的模不小于预设极值时,向量处理子模块还用于以该Meanshift向量的终点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生另一个向量,该向量是以Meanshift向量的终点为起点,以落在圆内的被点击的点为终点,该向量也可以包括一个或者多个。均值子模块还用于将一个或者多个向量相加以得到另一均值飘移Meanshift向量,这种情况持续进行,直到第一判断子模块判断出Meanshift向量的模小于预设极值为止;当第一判断子模块判断出Meanshift向量的模小于预设极值时,则由第一获取子模块通过Meanshift向量获取点击量的密度和独立连续区域。在本发明实施例中,具体地,可以获取独立连续区域中各个区域的点击次数,将点击次数除以对应的区域得到对应的区域的点击量密度,以及可以对网页页面内的圆心坐标位置进行分类汇总,将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域。第二判断子模块用于判断点击量的密度是否大于预定阈值。第二获取子模块用于在独立连续区域中获取点击量的密度大于预定阈值的区域。
确定模块302用于将获取的区域作为热点区域。
在本发明实施中,计算单元40还可以用于通过计算两个Meanshift向量的终点之间的距离以及上述距离的平均值以得到两个热点区域之间的分散度,其中,这里的Meanshift向量是指第一判断子模块判断出的模小于预设极值Meanshift向量。
这样,在本发明实施例中,通过获取模块301将点击量和预定阈值进行对比以获取点击量大于预定阈值的区域,并通过确定模块302将上述区域确定为热点区域,以及通过第一计算单元40和第二计算单元50计算出网页页面的热点密度,解决了相关技术中缺少对网页页面各个点的点击量统计的问题,进而达到了自动统计网页页面点击的热点密度的效果。
根据本发明的实施例,提供了一种用于网页页面点击量统计的数据处理方法,该用于网页页面点击量统计的数据处理方法用于分析网页页面上热点区域的分散度。该用于网页页面点击量统计的数据处理方法可以运行在计算机处理设备上。需要说明的是,本发明实施例所提供的用于网页页面点击量统计的数据处理方法可以通过本发明实施例的用于网页页面点击量统计的数据处理装置来执行,本发明实施例的用于网页页面点击量统计的数据处理装置也可以用于执行本发明实施例的用于网页页面点击量统计的数据处理方法。
图3是根据本发明第一实施例的用于网页页面点击量统计的数据处理方法的流程图。
如图3所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取被监测网页页面的坐标系。
在本发明实施例中,网页可以是多中平台下和多种浏览器下的网页,坐标系可以是正交直角坐标系。获取的被监测网页页面的坐标系包括获取正交直角坐标系的坐标原点、坐标横轴(即X轴)及其正方向、坐标纵轴(即Y轴)及其正方向和单位长度,其中,可以将网页页面的左上角的点设置为坐标原点,将沿网页页面水平向右的方向设置为坐标横轴正方向,将沿网页页面垂直向上的方向设置为坐标纵轴正方向,单位长度可以是1nm或者是1um等,该单位长度可以根据坐标的精度确定。通过获取的被监测网页页面的坐标系可以获取被监测网页页面内任意点的坐标。需要说明的是,在本发明实施例中,单位长度对应单位面积,每个单位面积对应一个像素点的集合,单位长度的设定决定单位面积内像素点的个数,这样,可以以单位面积为计数基础,通过单位面积内被点击的像素的个数记录点击量。在本发明实施例中,单位长度还可以为1像素(pixel,简称px)单位,这样,在网页页面上,每个坐标对应一个像素点,可以以坐标为计数基础,通过坐标对应的被点击的像素的个数记录点击量。
步骤S102,通过坐标系记录网页页面上的点击量。
需要说明的是,通过坐标系记录网页页面上的点击量可以是通过坐标系记录预设时间段内网页页面上的点击量,其中,该点击量可以为网页页面上各个点对应的点击量,而不是整个网页页面的点击量。在本发明实施实例中,记录单元可以由于通过坐标系记录网页页面上的点击量,记录单元可以包括一个或者多个记录模块,其中,记录模块可以包括计数器。网页页面有无数个点组成,每个点通过其坐标可以对应一个记录模块,当用户浏览网页页面时,会点击该网页页面内的点,一旦用户点击一次网页页面内的点,与该点坐标对应的记录模块就会增加1,这样,在预设时间段内,记录模块会记录网页页面上各个点的点击量。
步骤S103,通过点击量确定网页页面上的热点区域。
需要说明的是,热点是指比较受广大群众关注或者欢迎的新闻或者信息,或指某个时期引人注目的地方或者问题。在本发明实施例中,网页页面上的热点区域是指点击次数比较多或者点击密度比较大的网页页面的区域。
步骤S104,计算确定的热点区域的分散度。
分散度即为网页页面上热点区域的分散程度,其中,该分散度可以用热点区域的平均距离表示。具体地,在本发明实施例中,可以通过计算任意两个区域之间的距离以及上述任意两个热点区域之间的距离的平均值来得到热点区域的分散程度,并且平均值即表示分散度,其中,平均值越大,热点区域的分散度也越大,反之,平均值越小,热点区域的分散度也越小。在本发明实施例中,任意两个热点区域可以分别用其对应的几何中心的坐标表示,例如,该几何中心可以为均值飘移Meanshift向量的终点,任意两个热点区域也可以分别用其对应的区域内点击量最大的像素点的像素坐标表示,这样,上述任意两个区域之间的距离可以是上述任意两个区域的几何中心的坐标之间的距离或者上述任意两个区域内点击量最大的像素点的像素坐标之间的距离。需要说明的是,当网页界面上只有一个热点区域时,则该热点区域的分散度为0。
通过本发明,采用获取网页页面坐标系下的各个点的坐标;记录各个点在预设时间段的点击量;并根据点击量的大小确定网页页面的热点区域;以及计算网页页面上的热点区域的分散度,解决了相关技术中无法分析网页页面上点击热点区域的分散程度的问题,进而达到了自动统计网页页面点击的热点区域的分散度的效果。
图4是根据本发明第二实施例的用于网页页面点击量统计的数据处理方法的流程图。
如图4所示,该用于网页页面点击量统计的数据处理方法包括如下的步骤S201至步骤S205,该实施例可以作为图3所示实施例的优选实施方式。
步骤S201和步骤S202,分别同图3所示实施例的步骤S101和步骤S102,在此不再赘述。
步骤S203,获取点击量的密度大于预定阈值的区域。
具体地,在本发明实施例中,可以用于通过将各个点的点击量的密度与预设阈值对比以获取点击量的密度大于预定阈值的区域,当网页页面上的某个区域内的点的点击量的密度均大于预设阈值时,则该区域为获取的点击量的密度大于预定阈值的区域,该点击量的密度大于预定阈值的区域即为热点区域,热点区域由网页页面上各个点的点击量的密度和预设阈值确定,其中,网页页面上各个点的点击量的密度确定热点区域的位置,而预设阈值确定热点区域的大小,当预设阈值较大时,热点区域较小,否则预设阈值较小时,热点区域较大。
在本发明实施例中,具体地,可以通过以下步骤获取点击量的密度大于预定阈值的区域:
步骤1,在网页页面的二维平面空间中任选一个点,并且以该点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生一个向量,该向量是以圆心为起点,以落在圆内的所述被点击的点为终点,该向量可以包括一个或者多个。
步骤2,将一个或者多个向量相加以得到均值飘移Meanshift向量,其中,均值飘移是一种有效的迭代统计算法,Meanshift向量是由迭代统计算法得到的向量。
步骤3,判断Meanshift向量的模是否小于预设极值,其中,预设极值可以为足够小的数,这样,当判断出Meanshift向量的模不小于预设极值时,则依次执行步骤1和步骤2,直到判断出Meanshift向量的模小于预设极值为止。需要说明的是,此时,在步骤1中以该Meanshift向量的终点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生另一个向量,该向量是以Meanshift向量的终点为起点,以落在圆内的被点击的点为终点,该向量也可以包括一个或者多个。
步骤4,当判断出Meanshift向量的模小于预设极值时,则通过Meanshift向量获取点击量的密度和独立连续区域。在本发明实施例中,具体地,可以获取独立连续区域中各个区域的点击次数,将点击次数除以对应的区域得到对应的区域的点击量密度,以及可以对网页页面内的圆心坐标位置进行分类汇总,将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域;判断点击量的密度是否大于预定阈值;在独立连续区域中获取点击量的密度大于预定阈值的区域。
步骤S204,将获取的区域作为热点区域。
这样,在本发明实施例中,通过将点击量和预定阈值进行对比以获取点击量大于预定阈值的区域,并通过将上述区域确定为热点区域,以及通过计算出网页页面的热点密度,解决了相关技术中缺少对网页页面各个点的点击量统计的问题,进而达到了自动统计网页页面点击的热点密度的效果。
步骤S205,计算确定的热点区域的分散度。
在本发明实施中,计算网页页面上的热点区域的分散度还可以通过计算两个Meanshift向量的终点之间的距离以及该距离的平均值以得到两个热点区域之间的分散度,其中,这里的Meanshift向量是指第一判断子模块判断出的模小于预设极值Meanshift向量。
通过上述实施例的描述,解决了相关技术中无法分析网页页面上点击热点区域的分散程度的问题,进而达到了自动统计网页页面点击的热点区域的分散度的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于网页页面点击量统计的数据处理方法,其特征在于,包括:
获取被监测网页页面的坐标系;
通过所述坐标系记录所述网页页面上的点击量;
通过所述点击量确定所述网页页面上的热点区域,其中,所述网页页面上的热点区域包括一个或者多个;以及
计算确定的所述热点区域的分散度。
2.根据权利要求1所述的数据处理方法,其特征在于,通过所述点击量确定所述网页页面上的热点区域包括:
获取所述点击量的密度大于预定阈值的区域;以及
将获取的区域作为所述热点区域。
3.根据权利要求2所述的数据处理方法,其特征在于,获取所述点击量的密度大于预定阈值的区域包括:
在所述网页页面的二维平面空间中,任选一个点,然后以所述点为圆心,r为半径做圆,其中,落在所述圆内的所有被点击点与圆心都会产生一个向量,所述向量是以所述圆心为起点,以落在所述圆内的所述被点击的点为终点,所述向量包括一个或者多个;
将一个或者多个所述向量相加,得到均值飘移Meanshift向量;
判断所述Meanshift向量的模是否小于预设极值;
当判断出所述Meanshift向量的模小于所述预设极值时,则通过所述Meanshift向量获取所述点击量的密度和独立连续区域;
判断所述点击量的密度是否大于所述预定阈值;以及
在所述独立连续区域中获取所述点击量的密度大于所述预定阈值的区域。
4.根据权利要求3所述的数据处理方法,其特征在于,通过以下方式获取所述点击量的密度:
获取所述独立连续区域中各个区域的点击次数;以及
将所述点击次数除以对应的区域得到所述对应的区域的点击量密度。
5.根据权利要求3所述的数据处理方法,其特征在于,通过以下方式得到所述独立连续区域:
对所述网页页面内的圆心坐标位置进行分类汇总;以及
将所述网页页面内指向相同终点的坐标集合所构成的区域记录为所述独立连续区域的一个区域。
6.一种用于网页页面点击量统计的数据处理装置,其特征在于,包括:
获取单元,用于获取被监测网页页面的坐标系;
记录单元,用于通过所述坐标系记录所述网页页面上的点击量;
确定单元,用于通过所述点击量确定所述网页页面上的热点区域,其中,所述网页页面上的热点区域包括一个或者多个;以及
计算单元,用于计算确定的所述热点区域的分散度。
7.根据权利要求6所述的数据处理装置,其特征在于,所述确定单元包括:
获取模块,用于获取所述点击量的密度大于预定阈值的区域;以及
确定模块,用于将获取的区域作为所述热点区域。
8.根据权利要求7所述的数据处理装置,其特征在于,所述获取模块包括:
向量处理子模块,用于在所述网页页面的二维平面空间中,任选一个点,然后以所述点为圆心,r为半径做圆,其中,落在所述圆内的所有被点击的点与圆心都会产生一个向量,所述向量是以所述圆心为起点,以落在所述圆内的所述被点击的点为终点,所述向量包括一个或者多个;
均值子模块,用于将所述多个向量相加,得到均值飘移Meanshift向量;
第一判断子模块,用于判断所述Meanshift向量的模是否小于预设极值;
第一获取子模块,用于当判断出所述Meanshift向量的模小于所述预设极值时,则通过所述Meanshift向量获取所述点击量的密度和独立连续区域;
第二判断子模块,用于判断所述点击量的密度是否大于所述预定阈值;以及
第二获取子模块,用于在所述独立连续区域中获取所述点击量的密度大于所述预定阈值的区域。
9.根据权利要求8所述的数据处理装置,其特征在于,所述获取模块用于获取所述独立连续区域中各个区域的点击次数,将所述点击次数除以对应的区域得到所述对应的区域的点击量密度。
10.根据权利要求8所述的数据处理装置,其特征在于,所述获取模块用于对所述网页页面内的圆心坐标位置进行分类汇总,将所述网页页面内指向相同终点的坐标集合所构成的区域记录为所述独立连续区域的一个区域。
CN201310548178.5A 2013-11-06 2013-11-06 用于网页页面点击量统计的数据处理方法和装置 Pending CN103559278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310548178.5A CN103559278A (zh) 2013-11-06 2013-11-06 用于网页页面点击量统计的数据处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310548178.5A CN103559278A (zh) 2013-11-06 2013-11-06 用于网页页面点击量统计的数据处理方法和装置

Publications (1)

Publication Number Publication Date
CN103559278A true CN103559278A (zh) 2014-02-05

Family

ID=50013524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310548178.5A Pending CN103559278A (zh) 2013-11-06 2013-11-06 用于网页页面点击量统计的数据处理方法和装置

Country Status (1)

Country Link
CN (1) CN103559278A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199939A (zh) * 2014-09-09 2014-12-10 北京国双科技有限公司 网页热力图生成方法及装置
CN108073597A (zh) * 2016-11-10 2018-05-25 北京国双科技有限公司 页面点击行为展示方法、装置和系统
EP3293642A4 (en) * 2015-05-05 2018-09-19 Alibaba Group Holding Limited Method and apparatus for recording and restoring click position in page
CN110569461A (zh) * 2018-05-18 2019-12-13 清华大学 网页点击量预测方法、装置、计算机设备及存储介质
CN110889056A (zh) * 2019-12-06 2020-03-17 北京百度网讯科技有限公司 页面标记的方法及装置
CN113420093A (zh) * 2021-06-30 2021-09-21 北京小米移动软件有限公司 热点检测方法、装置、存储服务器及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299688A (zh) * 2008-06-13 2008-11-05 北京缔元信互联网数据技术有限公司 一种获取网页区域点击数量的方法
CN101777080A (zh) * 2010-03-19 2010-07-14 北京国双科技有限公司 基于用户点击数据的网页分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101299688A (zh) * 2008-06-13 2008-11-05 北京缔元信互联网数据技术有限公司 一种获取网页区域点击数量的方法
CN101777080A (zh) * 2010-03-19 2010-07-14 北京国双科技有限公司 基于用户点击数据的网页分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIQIZHOU: "Meanshift聚类算法", 《博客园》 *
周芳芳等: "均值漂移算法的研究与应用", 《控制与决策》 *
李乡儒等: "均值漂移算法的收敛性", 《软件学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199939A (zh) * 2014-09-09 2014-12-10 北京国双科技有限公司 网页热力图生成方法及装置
CN104199939B (zh) * 2014-09-09 2018-02-02 北京国双科技有限公司 网页热力图生成方法及装置
EP3293642A4 (en) * 2015-05-05 2018-09-19 Alibaba Group Holding Limited Method and apparatus for recording and restoring click position in page
CN108073597A (zh) * 2016-11-10 2018-05-25 北京国双科技有限公司 页面点击行为展示方法、装置和系统
CN110569461A (zh) * 2018-05-18 2019-12-13 清华大学 网页点击量预测方法、装置、计算机设备及存储介质
CN110889056A (zh) * 2019-12-06 2020-03-17 北京百度网讯科技有限公司 页面标记的方法及装置
CN110889056B (zh) * 2019-12-06 2023-08-22 北京百度网讯科技有限公司 页面标记的方法及装置
CN113420093A (zh) * 2021-06-30 2021-09-21 北京小米移动软件有限公司 热点检测方法、装置、存储服务器及存储介质

Similar Documents

Publication Publication Date Title
CN103530431A (zh) 用于网页页面点击量统计的数据处理方法和装置
CN103559278A (zh) 用于网页页面点击量统计的数据处理方法和装置
CN109688589B (zh) 无线网络容量规划方法和装置
CN108710540B (zh) 一种分布式集群中的资源调度方法、装置及设备
CN109241343B (zh) 一种刷量用户识别系统、方法及装置
CN108090208A (zh) 融合数据处理方法及装置
US20120158623A1 (en) Visualizing machine learning accuracy
CN102693229B (zh) 软件分析方法、推荐方法、分析装置及推荐装置
CN109685092B (zh) 基于大数据的聚类方法、设备、存储介质及装置
CN108241853A (zh) 一种视频监控方法、系统及终端设备
CN103559277A (zh) 用于网页页面点击量统计的数据处理方法和装置
CN109561052A (zh) 网站异常流量的检测方法及装置
EP3293642A1 (en) Method and apparatus for recording and restoring click position in page
CN107305611A (zh) 恶意账号对应的模型建立方法和装置、恶意账号识别的方法和装置
CN103544325A (zh) 用于网页页面点击分布的数据处理方法和装置
CN113379176A (zh) 电信网络异常数据检测方法、装置、设备和可读存储介质
Stauffert et al. Towards comparable evaluation methods and measures for timing behavior of virtual reality systems
CN102866885A (zh) 网页中点击位置的确定方法及装置
CN113609409A (zh) 一种推荐浏览信息的方法及其系统、电子设备、存储介质
CN110110264A (zh) 触摸热区的调节方法、装置、设备和触摸屏终端设备
Haak et al. Autonomic benchmarking for cloud infrastructures: an economic optimization model
CN101727668B (zh) 一种图像边界检测的方法及装置
CN110213123A (zh) 一种流量监控方法、装置及设备
CN110851868A (zh) 一种用于轨迹数据发布的位置代表元生成方法
CN109597743A (zh) 页面圈选方法、点击量统计方法及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140205

RJ01 Rejection of invention patent application after publication