发明内容
本发明的主要目的在于提供一种用于网页页面点击量统计的数据处理方法和装置,以解决相关技术中无法对网页页面的点击情况进行分区域统计的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种用于网页页面点击量统计的数据处理方法。该方法包括:获取被监测网页页面的坐标系;通过坐标系记录网页页面上的点击量;通过点击量确定网页页面上的热点区域;以及统计确定的热点区域的个数。
进一步地,通过点击量确定网页页面上的热点区域包括:获取点击量的密度大于预定阈值的区域;以及将获取的区域作为热点区域。
进一步地,获取点击量的密度大于预定阈值的区域包括:在网页页面的二维平面空间中,任选一个点,然后以点为圆心,r为半径做圆,其中,落在圆内的所有被点击点与圆心都会产生一个向量,向量是以圆心为起点,以落在圆内的被点击的点为终点,向量包括一个或者多个;将一个或者多个向量相加,得到均值飘移Meanshift向量;判断Meanshift向量的模是否小于预设极值;当判断出Meanshift向量的模小于预设极值时,则通过Meanshift向量获取点击量的密度和独立连续区域;判断点击量的密度是否大于预定阈值;以及在独立连续区域中获取点击量的密度大于预定阈值的区域。
进一步地,通过以下方式获取点击量的密度:获取独立连续区域中各个区域的点击次数;以及将点击次数除以对应的区域得到对应的区域的点击量密度。
进一步地,通过以下方式得到独立连续区域:对网页页面内的圆心坐标位置进行分类汇总;以及将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域。
为了实现上述目的,根据本发明的另一方面,提供了一种用于网页页面点击量统计的数据处理装置。该装置包括:获取单元,用于获取被监测网页页面的坐标系;记录单元,用于通过坐标系记录网页页面上的点击量;确定单元,用于通过点击量确定网页页面上的热点区域;统计单元,用于统计确定的热点区域的个数。
进一步地,确定单元包括:获取模块,用于获取点击量的密度大于预定阈值的区域;以及确定模块,用于将获取的区域作为热点区域。
进一步地,获取模块包括:向量处理子模块,用于在网页页面的二维平面空间中,任选一个点,然后以点为圆心,r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生一个向量,向量是以圆心为起点,以落在圆内的被点击的点为终点,向量包括一个或者多个;均值子模块,用于将多个向量相加,得到均值飘移Meanshift向量;第一判断子模块,用于判断Meanshift向量的模是否小于预设极值;第一获取子模块,用于当判断出Meanshift向量的模小于预设极值时,则通过Meanshift向量获取点击量的密度和独立连续区域;第二判断子模块,用于判断点击量的密度是否大于预定阈值;以及第二获取子模块,用于在独立连续区域中获取点击量的密度大于预定阈值的区域。
进一步地,获取模块用于获取独立连续区域中各个区域的点击次数,将点击次数除以对应的区域得到对应的区域的点击量密度。
进一步地,获取模块用于对网页页面内的圆心坐标位置进行分类汇总,将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域。
通过本发明,采用获取被监测网页页面的坐标系;通过坐标系记录网页页面上的点击量;通过点击量确定网页页面上的热点区域;以及统计确定的热点区域的个数,解决了相关技术中无法对网页页面的点击情况进行分区域统计的问题,进而达到了自动统计网页页面中点击的热点区域的个数的效果。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本领域的技术人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,在本领域普通技术人员没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。
根据本发明的实施例,提供了一种用于网页页面点击量统计的数据处理装置,该装置用于统计网页页面上各个像素点的点击量以得到网页页面的点击的热点区域的个数。
图1是根据本发明第一实施例的用于网页页面点击量统计的数据处理装置的示意图。
如图1所示,该装置包括:获取单元10、记录单元20、确定单元30和统计单元40。
获取单元10用于获取被监测网页页面的坐标系。在本发明实施例中,网页可以是多种平台下的网页和多种浏览器中的网页,坐标系可以是正交直角坐标系。获取单元10用于获取被监测网页页面的坐标系包括获取正交直角坐标系的坐标原点、坐标横轴(即X轴)及其正方向、坐标纵轴(即Y轴)及其正方向和单位长度,其中,可以将网页页面的左上角的点设置为坐标原点,将沿网页页面水平向右的方向设置为坐标横轴正方向,将沿网页页面垂直向上的方向设置为坐标纵轴正方向,单位长度可以是1nm或者是1um等,该单位长度可以根据坐标的精度确定,通过获取单元10获取的被监测网页页面的坐标系可以获取被监测网页页面内任意点的坐标。需要说明的是,在本发明实施例中,单位长度对应单位面积,每个单位面积对应一个像素点的集合,单位长度的设定决定单位面积内像素点的个数,这样,可以以单位面积为计数基础,通过单位面积内被点击的像素的个数记录点击量。在本发明实施例中,单位长度还可以为1像素(pixel,简称px)单位,这样,在网页页面上,每个坐标对应着一个像素点,可以以坐标为计数基础,通过坐标对应的被点击的像素的个数记录点击量。
记录单元20用于通过坐标系记录网页页面上的点击量。需要说明的是,记录单元20可以用于通过坐标系记录预设时间段内网页页面上的点击量,其中,该点击量为网页页面中不同区域对应的像素点的点击量,而不是网页页面的整体点击量。在本发明实施实例中,记录单元20可以包括一个或者多个记录模块,其中,记录模块可以包括计数器。网页页面有无数个点组成,每个点通过其坐标可以对应一个记录模块,当用户浏览网页页面时,会点击该网页页面内的点,一旦用户点击一次网页页面内的点,与该点坐标对应的记录模块就会增加1,否则,当用户点击的不是上述点时,与上述点的坐标对应的记录模块会保持不变,这样,在预设时间段内,不同的记录模块可以记录网页页面上不同点的点击量。
确定单元30用于通过点击量确定网页页面上的热点区域。需要说明的是,热点是指比较受广大群众关注或者欢迎的新闻或者信息,或指某个时期引人注目的地方或者问题。在本发明实施例中,网页页面上的热点区域是指点击次数比较多或者点击密度比较大的网页页面的区域,具体地,热点区域可以是点击量超过预设值的网页页面区域。
统计单元40用于统计确定的热点区域的个数。在本发明实施例中,统计单元40可以为计数器或者哈希表。在本发明实施实例中,将网页界面划分成不同的区域,这样,当统计单元40为计数器时,如果确定出网页界面上的某个区域为热点区域,则计数器的计数增加1,否则,如果确定出网页界面上的某个区域不为热点区域,则计数器的计数保持不变;当统计单元40为哈希表时,其中,热点区域可以为哈希表的关键字,热点区域的个数为哈希表的哈希值,这样,当确定出网页界面上的某个区域为热点区域时,再判断该热点区域是否为哈希表的关键字,如果该热点区域为哈希表的关键字,则哈希表的哈希值保持不变,如果该热点区域不为哈希表的关键字,则在哈希表中增加该热点区域的哈希表关键字,并且哈希表的哈希值增加1,否则,如果确定出网页界面上的某个区域不为热点区域时,哈希表的哈希值保持不变。
通过本发明,采用获取单元10以获取网页页面坐标系下的各个点的坐标;通过记录单元20记录各个点在预设时间段的点击量;并通过确定单元30根据点击量的大小确定网页页面的热点区域;以及通过统计单元40统计网页页面上的热点区域的个数,解决了相关技术中缺少对网页页面中各个点的点击量统计的问题,进而达到了自动统计网页页面中点击的热点区域的个数的效果。
图2是根据本发明第二实施例的用于网页页面点击量统计的数据处理装置的示意图。
如图2所示,该实施例可以作为图1所示实施例的优选实施方式,该实施例的用于网页页面点击量统计的数据处理装置包括第一实施例的获取单元10、记录单元20、确定单元30和统计单元40,其中,确定单元30包括获取模块301和确定模块302。
获取单元10、记录单元20和统计单元40的作用与第一实施例中的相同,在此不再赘述。
获取模块301用于获取点击量的密度大于预定阈值的区域。具体地,获取模块301可以用于通过将各个点的点击量的密度与预设阈值对比以获取点击量的密度大于预定阈值的区域,当网页页面上的某个区域内的点的点击量的密度均大于预设阈值时,则该区域为获取的点击量的密度大于预定阈值的区域,该点击量的密度大于预定阈值的区域即为热点区域,热点区域由网页页面上各个点的点击量的密度和预设阈值确定,其中,网页页面上各个点的点击量的密度确定热点区域的位置,而预设阈值确定热点区域的大小,当预设阈值较大时,热点区域较小,否则预设阈值较小时,热点区域较大。
在本发明实施例中,具体地,获取模块301包括向量处理子模块、均值子模块、第一判断子模块、第一获取子模块、第二判断子模块和第二获取子模块。向量处理子模块用于在网页页面的二维平面空间中任选一个点,并且以该点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生一个向量,该向量是以圆心为起点,以落在圆内的被点击的点为终点,该向量可以包括一个或者多个。均值子模块用于将一个或者多个向量相加以得到均值飘移Meanshift向量,其中,均值飘移是一种有效的迭代统计算法,Meanshift向量是由迭代统计算法得到的向量。第一判断子模块用于判断Meanshift向量的模是否小于预设极值,其中,预设极值可以为足够小的数,这样,当第一判断子模块判断出Meanshift向量的模不小于预设极值时,向量处理子模块还用于以该Meanshift向量的终点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生另一个向量,该向量是以Meanshift向量的终点为起点,以落在圆内的被点击的点为终点,该向量也可以包括一个或者多个。均值子模块还用于将一个或者多个向量相加以得到另一均值飘移Meanshift向量,这种情况持续进行,直到第一判断子模块判断出Meanshift向量的模小于预设极值为止;当第一判断子模块判断出Meanshift向量的模小于预设极值时,则由第一获取子模块通过Meanshift向量获取点击量的密度和独立连续区域。在本发明实施例中,具体地,可以获取独立连续区域中各个区域的点击次数,将点击次数除以对应的区域得到对应的区域的点击量密度,以及可以对网页页面内的圆心坐标位置进行分类汇总,将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域。第二判断子模块用于判断点击量的密度是否大于预定阈值。第二获取子模块用于在独立连续区域中获取点击量的密度大于预定阈值的区域。
确定模块302用于将获取的区域作为热点区域。
这样,在本发明实施例中,通过获取模块301将点击量和预定阈值进行对比以获取点击量大于预定阈值的区域,并通过确定模块302将上述区域确定为热点区域,以及通过第一计算单元40和第二计算单元50计算出网页页面的热点密度,解决了相关技术中缺少对网页页面各个点的点击量统计的问题,进而达到了自动统计网页页面点击的热点密度的效果。
根据本发明的实施例,提供了一种用于网页页面点击量统计的数据处理方法,该用于统计网页页面上各个像素点的点击量以得到网页页面的点击的热点区域的个数。该用于网页页面点击量统计的数据处理方法可以运行在计算机处理设备上。需要说明的是,本发明实施例所提供的用于网页页面点击量统计的数据处理方法可以通过本发明实施例的用于网页页面点击量统计的数据处理装置来执行,本发明实施例的用于网页页面点击量统计的数据处理装置也可以用于执行本发明实施例的用于网页页面点击量统计的数据处理方法。
图3是根据本发明第一实施例的用于网页页面点击量统计的数据处理方法的流程图。
如图3所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取被监测网页页面的坐标系。
在本发明实施例中,网页可以是多中平台下和多种浏览器下的网页,坐标系可以是正交直角坐标系。获取的被监测网页页面的坐标系包括获取正交直角坐标系的坐标原点、坐标横轴(即X轴)及其正方向、坐标纵轴(即Y轴)及其正方向和单位长度,其中,可以将网页页面的左上角的点设置为坐标原点,将沿网页页面水平向右的方向设置为坐标横轴正方向,将沿网页页面垂直向上的方向设置为坐标纵轴正方向,单位长度可以是1nm或者是1um等,该单位长度可以根据坐标的精度确定。通过获取的被监测网页页面的坐标系可以获取被监测网页页面内任意点的坐标。需要说明的是,在本发明实施例中,单位长度对应单位面积,每个单位面积对应一个像素点的集合,单位长度的设定决定单位面积内像素点的个数,这样,可以以单位面积为计数基础,通过单位面积内被点击的像素的个数记录点击量。在本发明实施例中,单位长度还可以为1像素(pixel,简称px)单位,这样,在网页页面上,每个坐标对应一个像素点,可以以坐标为计数基础,通过坐标对应的被点击的像素的个数记录点击量。
步骤S102,通过坐标系记录网页页面上的点击量。
需要说明的是,记录单元可以用于通过坐标系记录预设时间段内网页页面上的点击量,其中,该点击量为网页页面中不同区域对应的像素点的点击量,而不是网页页面的整体点击量。在本发明实施实例中,记录单元可以包括一个或者多个记录模块,其中,记录模块可以包括计数器。网页页面有无数个点组成,每个点通过其坐标可以对应一个记录模块,当用户浏览网页页面时,会点击该网页页面内的点,一旦用户点击一次网页页面内的点,与该点坐标对应的记录模块就会增加1,否则,当用户点击的不是上述点时,与上述点的坐标对应的记录模块会保持不变,这样,在预设时间段内,不同的记录模块可以记录网页页面上不同点的点击量。
步骤S103,通过点击量确定网页页面上的热点区域。
需要说明的是,热点是指比较受广大群众关注或者欢迎的新闻或者信息,或指某个时期引人注目的地方或者问题。在本发明实施例中,网页页面上的热点区域是指点击次数比较多或者点击密度比较大的网页页面的区域,具体地,热点区域可以是点击量超过预设值的网页页面区域。
步骤S104,统计确定的热点区域的个数。
在本发明实施例中,可以通过计数器或者哈希表统计网页页面上的热点区域的个数。在本发明实施实例中,将网页界面划分成不同的区域,这样,当统计单元40为计数器时,如果确定出网页界面上的某个区域为热点区域,则计数器的计数增加1,否则,如果确定出网页界面上的某个区域不为热点区域,则计数器的计数保持不变。当通过哈希表统计网页页面上的热点区域的个数时,其中,热点区域可以为哈希表的关键字,热点区域的个数为哈希表的哈希值,这样,当网页界面上的某个区域为热点区域时,判断热点区域是否为哈希表的关键字,如果热点区域为哈希表的关键字,则哈希表的哈希值保持不变,如果热点区域不为哈希表的关键字,则在哈希表中增加热点区域的哈希表关键字,并且哈希表的哈希值增加1,否则,如果网页界面上的某个区域不为热点区域时,哈希表的哈希值保持不变。
通过本发明,采用获取网页页面坐标系下的各个点的坐标;记录各个点在预设时间段的点击量;并根据点击量的大小确定网页页面的热点区域;以及统计网页页面上的热点区域的个数,解决了相关技术中缺少对网页页面中各个点的点击量统计的问题,进而达到了自动统计网页页面中点击的热点区域的个数的效果。
图4是根据本发明第二实施例的用于网页页面点击量统计的数据处理方法的流程图。
如图4所示,该用于网页页面点击量统计的数据处理方法包括如下的步骤S201至步骤S205,该实施例可以作为图3所示实施例的优选实施方式。
步骤S201和步骤S202,分别同图3所示实施例的步骤S101和步骤S102,在此不再赘述。
步骤S203,获取点击量的密度大于预定阈值的区域。
具体地,在本发明实施例中,可以用于通过将各个点的点击量的密度与预设阈值对比以获取点击量的密度大于预定阈值的区域,当网页页面上的某个区域内的点的点击量的密度均大于预设阈值时,则该区域为获取的点击量的密度大于预定阈值的区域,该点击量的密度大于预定阈值的区域即为热点区域,热点区域由网页页面上各个点的点击量的密度和预设阈值确定,其中,网页页面上各个点的点击量的密度确定热点区域的位置,而预设阈值确定热点区域的大小,当预设阈值较大时,热点区域较小,否则预设阈值较小时,热点区域较大。
在本发明实施例中,具体地,可以通过以下步骤获取点击量的密度大于预定阈值的区域:
步骤1,在网页页面的二维平面空间中任选一个点,并且以该点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生一个向量,该向量是以圆心为起点,以落在圆内的所述被点击的点为终点,该向量可以包括一个或者多个。
步骤2,将一个或者多个向量相加以得到均值飘移Meanshift向量,其中,均值飘移是一种有效的迭代统计算法,Meanshift向量是由迭代统计算法得到的向量。
步骤3,判断Meanshift向量的模是否小于预设极值,其中,预设极值可以为足够小的数,这样,当判断出Meanshift向量的模不小于预设极值时,则依次执行步骤1和步骤2,直到判断出Meanshift向量的模小于预设极值为止。需要说明的是,此时,在步骤1中以该Meanshift向量的终点为圆心,以r为半径做圆,其中,落在圆内的所有被点击的点与圆心都会产生另一个向量,该向量是以Meanshift向量的终点为起点,以落在圆内的被点击的点为终点,该向量也可以包括一个或者多个。
步骤4,当判断出Meanshift向量的模小于预设极值时,则通过Meanshift向量获取点击量的密度和独立连续区域。在本发明实施例中,具体地,可以获取独立连续区域中各个区域的点击次数,将点击次数除以对应的区域得到对应的区域的点击量密度,以及可以对网页页面内的圆心坐标位置进行分类汇总,将网页页面内指向相同终点的坐标集合所构成的区域记录为独立连续区域的一个区域;判断点击量的密度是否大于预定阈值;在独立连续区域中获取点击量的密度大于预定阈值的区域。
步骤S204,将获取的区域作为热点区域。
步骤S205,同图3所示实施例的步骤S104,在此不再赘述。
这样,在本发明实施例中,通过将点击量和预定阈值进行对比以获取点击量大于预定阈值的区域,并通过将上述区域确定为热点区域,以及通过统计网页页面上的热点区域的个数,解决了相关技术中缺少对网页页面中各个点的点击量统计的问题,进而达到了自动统计网页页面中点击的热点区域的个数的效果。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。