CN105653724B - 一种页面曝光量的监控方法和装置 - Google Patents

一种页面曝光量的监控方法和装置 Download PDF

Info

Publication number
CN105653724B
CN105653724B CN201610039116.5A CN201610039116A CN105653724B CN 105653724 B CN105653724 B CN 105653724B CN 201610039116 A CN201610039116 A CN 201610039116A CN 105653724 B CN105653724 B CN 105653724B
Authority
CN
China
Prior art keywords
address
click
record
page
threshold value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610039116.5A
Other languages
English (en)
Other versions
CN105653724A (zh
Inventor
刘姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201610039116.5A priority Critical patent/CN105653724B/zh
Publication of CN105653724A publication Critical patent/CN105653724A/zh
Application granted granted Critical
Publication of CN105653724B publication Critical patent/CN105653724B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Abstract

本申请公开了页面曝光量的监控方法和装置。所述方法的一具体实施方式包括:获取点击页面的用户IP地址,在预设的内存缓冲区保存所述用户IP地址的点击记录;在异常IP地址集合中查找是否包含所述用户IP地址;如果包含,在所述用户IP地址所对应的点击记录中添加异常点击标记;如果不包含,则在所述点击记录中查找在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址;将在设定时间段内访问所述页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量。该实施方式实现了对页面曝光量的精确监控。

Description

一种页面曝光量的监控方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及互联网技术领域,尤其涉及网页页面曝光量的监控方法和和装置。
背景技术
页面曝光量是指在设定时间内网页页面点击展示的次数,页面曝光是指页面的内容被用户点击而展示。页面投放方通过曝光量的统计,对所投放网页页面进行分析;如,覆盖的规模有多大、投放效率如何、投放资源是否得到有效利用等投放效果的分析。但是在曝光量的统计中,易出现竞争对手、其他组织或个人仅仅为获得点击产生的收入而产生的恶意点击页面,导致曝光量统计不准确。
当前,页面投放方对于曝光量的统计中,大多为将具有恶意点击的IP地址存在数据库中,通过监控点击页面的IP地址,将具有恶意点击的IP地址对应的点击记录删除,然后统计曝光量。将恶意点击IP地址存储于数据库中,在点击量不大的时,可以实现快速读取并判断,但在请求量持续增大的情况下,无论用那种数据库进行读写、速度都会变得非常缓慢,在点击量打的情况下无法及时判断是否为恶意点击,造成曝光数据不准确。同时,对于不断变换IP访问地址的恶意曝光,无法做到阻拦作用,从而造成精确曝光数据失真。
发明内容
本申请的目的在于提出一种页面曝光量的监控方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请提供了一种页面曝光量的监控方法,其中页面曝光量是指在设定时间内页面点击展示的次数,所述方法包括:
获取点击页面的用户IP地址,在预设的内存缓冲区保存所述用户IP地址的点击记录;在异常IP地址集合中查找是否包含所述用户IP地址,所述异常IP地址集合包括第一子集合和第二子集合,所述第一子集合是搜索引擎提取到的网络爬虫IP地址集合,所述第二子集合是在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址集合;如果所述异常IP地址集合中所包含用户IP地址,在所述用户IP地址所对应的点击记录中添加异常点击标记;如果在所述异常IP地址集合中不包含所述用户IP地址,则在所述点击记录中查找在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址;将在设定时间段内访问所述页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量。
在一些实施例中,所述方法还包括更新异常IP地址集合,具体包括:根据网络爬虫在各搜索引擎提取到的网络爬虫名单的IP地址段更新所述第一子集合;根据所述访问次数阈值和所述点击记录更新所述第二子集合。
在一些实施例中,所述根据所述访问次数阈值和所述点击记录更新所述第二子集合,包括:
在第一时间段内统计所述点击记录,将访问所述页面的次数超出访问次数阈值的IP地址加入第二子集合;在第二时间段内统计所述点击记录,将访问所述页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,所述第二时间段是由多个连续的第一时间段组成。
在一些实施例中,所述根据所述访问次数阈值和所述点击记录更新所述第二子集合还包括:
在固定时段内,比较所述点击记录中具有异常点击标记的IP地址和第二子集合中的IP地址;将第二子集合中与所述点击记录中具有异常点击标记的IP地址不同的IP地址设为误判IP地址;将所述误判IP地址从所述第二子集合中删除。
在一些实施例中,所述根据所述访问次数阈值和所述点击记录更新所述第二子集合还包括:
通过降低或提高阈值调整所述访问次数阈值;将访问所述页面次数与调整后的访问次数阈值比较调整所述点击记录中的异常点击标记;根据所述调整后的异常点击记录,在第二子集合中添加或删除IP地址。
在一些实施例中,所述根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量包括:
在设定时间段内提取所述点击记录;将在该时间段内的所述点击记录的数量与具有异常点击标记的点击记录的数量相减确定所述页面在所述设定时段内的曝光量。
在一些实施例中,所述根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量还包括曝光量补偿:
更改设定时间段的时间长度或调整访问次数阈值的大小;统计在更改设定时间段的时间长度或调整访问次数阈值的大小后的点击记录和异常点击标记,确定所述页面曝光量。
第二方面,本申请提供了一种页面曝光量监控装置,所述装置包括:提取模块,配置用于获取点击页面的用户IP地址,在预设的内存缓冲区保存所述用户IP地址的点击记录;比较模块,配置用于在异常IP地址集合中查找是否包含所述用户IP地址,所述异常IP地址集合包括第一子集合和第二子集合,所述第一子集合是搜索引擎提取到的网络爬虫IP地址集合,所述第二子集合是在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址集合;异常点击标记模块,配置用于将在所述异常IP地址集合中包含的用户IP地址对应的点击记录中添加异常点击标记,或,将在所述异常IP地址集合中不包含的用户IP地址所对应的点击记录中的在设定时间段内访问所述页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;曝光量监控模块,配置用于根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量。
在一些实施例中所述装置还包括异常IP地址集合更新模块,所述异常IP地址更新模块包括:第一子集合更新子模块,配置用于根据网络爬虫在各搜索引擎提取到的网络爬虫名单的IP地址段更新所述第一子集合;第二子集合更新子模块,配置用于根据所述访问次数阈值和所述点击记录更新所述第二子集合。
在一些实施例中,所述第二子集合更新子模块还用于:在第一时间段内统计所述点击记录,将访问所述页面的次数超出访问次数阈值的IP地址加入第二子集合;在第二时间段内统计所述点击记录,将访问所述页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,所述第二时间段是由多个连续的第一时间段组成。
在一些实施例中,所述第二子集合更新子模块还用于:
在固定时段内,比较所述点击记录中具有异常点击标记的IP地址和第二子集合中的IP地址;将第二子集合中与所述点击记录中具有异常点击标记的IP地址不同的IP地址设为误判IP地址;将所述误判IP地址从所述第二子集合中移出。
在一些实施例中,所述第二子集合更新子模块进一步用于:
通过降低或提高阈值调整所述访问次数阈值;将访问所述页面次数与调整后的访问次数阈值比较调整所述点击记录中的异常点击标记;根据所述调整后的异常点击记录,在第二子集合中添加或删除IP地址。
在一些实施例中,所述装置还包括统计模块,配置用于:在设定时间段内提取所述点击记录;将在该时间段内的所述点击记录的数量与具有异常点击标记的点击记录的数量相减确定所述页面在所述设定时段内的曝光量。
在一些实施例中,所述装置还包括补偿模块,配置用于:
更改设定时间段的时间长度或调整访问次数阈值的大小;统计在更改设定时间段的时间长度或调整访问次数阈值的大小后的点击记录和异常点击标记,确定所述页面曝光量。
本申请提供的一种页面曝光量的监控方法和装置,通过获取点击页面的用户IP地址,在预设的内存缓冲区保存用户IP地址的点击记录;然后在点击记录中添加异常点击标记,具体为在异常IP地址集合中查找是否包含该用户IP地址;如果包含,在该用户IP地址所对应的点击记录中添加异常点击标记;如果不包含,在点击记录中查找在设定时间段内访问该页面的次数超出访问次数阈值的IP地址;并将在设定时间段内访问所述页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;最后,统计点击记录的数量和异常点击标记的数量确定页面的曝光量。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的页面曝光量的监控方法的一个实施例的流程图;
图3是根据本申请的页面曝光量的监控方法的又一实施例的流程图;
图4是根据本申请的页面曝光量的监控装置的一个实施例的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的页面曝光量的监控方法或页面曝光量监控装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、处理器102、和网络103。网络103用以在终端设备101和处理器102之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
处理器102通过网络103接收终端设备101发送的消息等。终端设备101是各站点的控制机,安装有各种客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具、社交平台软件等。
终端设备101可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、便携计算机和台式计算机等等。
处理器102可以是提供各种页面展示的服务器,例如在终端设备101上显示的网页提供支持。处理器102可以对接收到的网页页面曝光请求等数据进行分析等处理,并将处理结果或数据保持在存储器。
存储器存储中间结果或最终数据供页面投放方参考。
需要说明的是,本申请实施例所提供的页面曝光量的监控方法一般由处理器102执行,相应地,页面曝光量监控装置一般设置于处理器102中。
应该理解,图1中的终端设备、网络和处理器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和处理器。
继续参考图2,示出了根据本申请的页面曝光量的监控方法的一个实施例的流程200。所述的页面曝光量的监控方法,包括以下步骤:
步骤201,获取点击页面的用户IP地址,在预设的内存缓冲区保存用户IP地址的点击记录。
在本实施例中,页面曝光量的监控方法运行于其上的电子设备(例如图1所示的处理器)可以通过有线连接方式或者无线连接方式从用户或站点利用其进行网页浏览的终端接收网页曝光请求,其中,上述网页曝光请求包括了用户浏览网页的地址。实践中,网址一般由统一资源定位符(Uniform Resource Locator,URL)来表示。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
通常,用户通过终端设备101上安装的网页浏览器来浏览网页,这时,处理器102可以通过终端设备101的点击网页浏览器中呈现的网页中的链接来向处理器发起页面的曝光请求。在本实施例中,上述页面可以包括html格式、xhtml格式、asp格式、php格式、jsp格式、shtml格式、nsp格式、xml格式的网页或者其它未来将开发的格式的网页(只要这种格式的网页文件可以用浏览器打开并浏览其包含的图片、动画、文字等内容)。
设立内存缓冲区,存储用户的点击记录,通常,保存设定时间内用户的点击记录,其中用户的点击记录包括但不限于以下属性:用户点击时间、用户IP地址。
步骤202,在异常IP地址集合中查找是否包含用户IP地址。
在本实施例中,基于步骤201中得到的用户IP地址,上述电子设备(例如图1所示的处理器)将该用户IP地址与异常IP地址集合中的IP地址或IP地址频段比较。其中异常IP地址集合包括第一子集合和第二子集合。第一子集合是搜索引擎提取到的网络爬虫IP地址集合,第二子集合是在设定时间段内访问页面的次数超出访问次数阈值的IP地址集合。第一子集合是永久存储的子集合,在第一子集合中保存的的IP地址是页面投放方通过网络爬虫或历史统计记录中提取出的IP地址集合;第二子集合是是可变的子集合,在第二子集合中的IP地址是通过对该页面的点击记录的判断,将IP地址所对应的页面曝光或点击次数明显超出正常用户的操作次数确定为第二子集合中的IP地址。异常IP地址集合中IP地址所对应的点击操作是竞争对手或网站拥有方通过计算机程序的方式完成,而非真正用户的操作,会大量的消耗页面投放方的资源或给页面投放方的决策带来负面的效果。
步骤203,如果异常IP地址集合中包含用户IP地址,在该用户IP地址所对应的点击记录中添加异常点击标记;如果异常IP地址集合中不包含用户IP地址,则在点击记录中查找在设定时间段内访问页面的次数超出访问次数阈值的IP地址;将在设定时间段内访问页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记。
在本实施例中,在点击记录中将恶意点击作异常点击标记,实现过程为:
首先,如果用户IP地址包含于异常IP地址集合中,则该IP地址所对应的所有点击记录作异常点击标记;其后,如果用户IP地址不包含于异常IP地址集合中,在点击记录中查找设定时间段内访问页面次数超出访问次数阈值的IP地址,将该IP地址所对应的所有点击记录中添加异常点击标记。
步骤204,根据具有异常点击标记的点击记录和所有点击记录确定页面的曝光量。
在本实施例中,上述电子设备可以将上述具有异常点击标记的点击记录和所有点击记录分别存储,统计点击记录数据中与异常点击标记数据确定页面的曝光量。
在本实施例的一些可选的实现方式中,改变设定时间段长度和访问次数阈值,改变点击记录中异常点击标记的数量,既可以提取恶意点击记录,有可以保留具有潜在需求的真正用户点击记录。
在本实施例的一些可选的实现方式中,对曝光量进行补偿。曝光量补偿是:更改设定时间段的时间长度或调整访问次数阈值的大小;统计在更改设定时间段的时间长度或调整访问次数阈值的大小后的点击记录和异常点击标记的数据,确定页面曝光量。
本申请的上述实施例提供的方法通过对具有恶意点击的点击记录作异常标记,通过统计点击记录数据与异常点击标记数据确定页面的曝光量。
进一步参考图3,其示出了网页生成方法的又一个实施例的流程300。该网页生成方法的流程300,包括以下步骤:
步骤301,获取点击页面的用户IP地址,在预设的内存缓冲区保存用户IP地址的点击记录。
在本实施例中,页面曝光量的监控方法运行于其上的电子设备(例如图1所示的处理器)可以通过有线连接方式或者无线连接方式从用户或站点利用其进行网页浏览的终端接收网页曝光请求,并设立内存缓冲区,存储用户的点击记录,通常,内存缓冲区保存设定时间内用户的点击记录,其中用户的点击记录包括但不限于以下属性:用户点击时间、用户IP地址。
步骤302,在异常IP地址集合中查找是否包含用户IP地址。
在本实施例中,异常IP地址集合包括第一子集合和第二子集合。第一子集合是搜索引擎提取到的网络爬虫IP地址集合,第二子集合是在设定时间段内访问页面的次数超出访问次数阈值的IP地址集合。第一子集合是永久存储的子集合,第二子集合是是可变的子集合;将基于步骤301中得到的用户IP地址与异常IP地址集合中的元素(IP地址)比较,判断该用户IP地址是否包含在异常IP地址集合中。
步骤303,如果异常IP地址集合中包含用户IP地址,在该用户IP地址所对应的点击记录中添加异常点击标记;如果异常IP地址集合中不包含用户IP地址,则在点击记录中查找在设定时间段内访问页面的次数超出访问次数阈值的IP地址;将在设定时间段内访问面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记。
在本实施例中,在点击记录中将恶意点击作异常点击标记,实现过程为:
首先,如果用户IP地址包含于异常IP地址集合中,则该IP地址所对应的所有点击记录作异常点击标记;其后,如果用户IP地址不包含于异常IP地址集合中,在点击记录中查找设定时间段内访问页面次数超出访问次数阈值的IP地址,将该IP地址所对应的所有点击记录中添加异常点击标记。
步骤304,根据具有异常点击标记的点击记录和所有点击记录确定页面的曝光量。
在本实施例中,上述电子设备可以将上述具有异常点击标记的点击记录和所有点击记录分别存储,统计点击记录数据中与异常点击标记数据确定页面的曝光量。
步骤305,更新异常IP地址集合。
在本实施例中,本步骤可以如下进行:
首先,根据网络爬虫在各搜索引擎提取到的网络爬虫名单的IP地址段更新第一子集合;
其次,根据访问次数阈值和点击记录更新第二子集合。
在本实施例中,异常IP地址集合中会出现误判的IP地址和遗漏的IP地址,将误判的IP地址从集合中移出,遗漏的IP地址添加到集合中。
其中,第一子集合中,根据网络爬虫在各搜索引擎提取到的新的网络爬虫名单的IP地址段添加到第一子集合中。
更新第二子集合,包括:
将遗漏的IP地址添加到集合中:在第一时间段内统计点击记录,将访问页面的次数超出访问次数阈值的IP地址添加到第二子集合;在第二时间段内统计点击记录,将访问页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,第二时间段是由多个连续的第一时间段组成。
将误判的IP地址从集合中移出:在固定时段内,比较点击记录中具有异常点击标记的IP地址和第二子集合中的IP地址;将第二子集合中与点击记录中具有异常点击标记的IP地址不同的IP地址设为误判IP地址;将误判IP地址从第二子集合中移出。
本实施例中,第一子集合中的IP地址是永久存储的,仅限于从各大搜索引擎提取到的网络爬虫名单的IP地址段以及更新第一子集合所添加的IP地址。第一子集合中IP地址数量较少,能够及时的查找判断。
第二子集合中的IP地址是可变的子集合,第二子集合中IP地址仅与对页面的点击操作次数相关。第二子集合的更新包括添加遗漏的IP地址和移出误判的IP地址。
第二子集合中添加IP地址包括:
在第一时间段内统计点击记录,将访问页面的次数超出访问次数阈值的IP地址添加到第二子集合;如,可以设置每10分钟对点击记录进行一次统计比较,将在10分钟内点击页面的次数超出100次的IP地址添加到第二子集合中,但是竞争对手可能通过程序设置点击页面的时间和次数,使某些IP地址在每个10分钟内点击页面的次数低于100次,如50次;在60分钟内该IP地址对应的点击次数是300次。可以利用如下的方法判断,在第二时间段内统计点击记录,将访问页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,第二时间段是由多个连续的第一时间段组成。
在第二子集合中移出误判IP地址包括:
在固定时段内,IP地址对应的页面点击次数很低或根本没有点击操作,该IP地址被误判,消除误判地址,将该IP地址从第二子集合中移出。通过比较具有异常点击标记的IP地址和第二子集合中的IP地址,将不同的IP地址设为误判IP地址;将误判IP地址从第二子集合中移出。
本实施例中,针对不同的页面、不同页面类型,以及不断增加的网络爬虫、蜘蛛和不断变换IP访问地址的恶意点击,通过更新异常IP地址集合最大可能的阻拦,精确统计曝光量数据。
在一些实施方式中,还可以通过降低或提高访问次数阈值的方法更新第二子集合。降低访问次数阈值,使满足在设定时间内访问页面的次数超出访问次数阈值的IP地址的数量增加,将增加的IP地址添加到第二子集合;提高访问次数阈值,使满足在设定时间内访问页面的次数超出访问次数阈值的IP地址的数量减少,将减少的IP地址从第二子集合中删除。
在本实施例中,上述电子设备可以根据点击记录和异常点击标记及时更新异常IP地址集合,并由此及时、精确的监控到页面的曝光量和恶意点击数据。
从图3中可以看出,与图2对应的实施例相比,本实施例中的页面曝光量的监控方法的流程300突出了对异常IP地址集合的更新。由此,本实施例描述的方案可以及时精确的统计页面的曝光量从而实现更全面的监控页面的曝光量。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了一种页面曝光量的监控装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图4所示,本实施例的页面曝光量的监控装置400包括:提取模块401、比较模块402、异常点击标记模块403和曝光量监控模块404。
其中,提取模块401,配置用于获取点击页面的用户IP地址,在预设的内存缓冲区保存用户IP地址的点击记录;比较模块402,配置用于在异常IP地址集合中查找是否包含用户IP地址,异常IP地址集合包括第一子集合和第二子集合,第一子集合是搜索引擎提取到的网络爬虫IP地址集合,第二子集合是在设定时间段内访问页面的次数超出访问次数阈值的IP地址集合;异常点击标记模块403,配置用于将在异常IP地址集合中包含的用户IP地址对应的点击记录中添加异常点击标记,或,将在异常IP地址集合中不包含的用户IP地址所对应的点击记录中的在设定时间段内访问页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;曝光量监控模块404,配置用于根据具有异常点击标记的点击记录和所有点击记录确定页面的曝光量。
在本实施例中,网页生成装置400的提取模块401可以通过有线连接方式或者无线连接方式接收从用户的终端曝光请求。
在本实施例中,基于提取模块401得到的用户IP地址,上述比较模块402将用户IP地址与异常IP地址集合中的元素(IP地址)比较,异常点击标记模块403将点击记录中的恶意点击作异常点击标记;判断恶意点击的方法如下:
首先,将包含于异常IP地址集合中的用户IP地址对应的点击记录判断为恶意点击,在该点击记录中添加异常点击标记;
其次,对不包含于异常IP地址集合中的用户IP地址对应的点击记录作统计,在设定时间段内访问页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记。
曝光量监控模块404根据异常点击标记模块403中标记的点击记录数据和提取模块401中点击记录的数据确定页面曝光量。
在一些实施例中,页面曝光量的监控装置还包括异常IP地址集合更新模块405,其中,异常IP地址更新模块405包括:第一子集合更新子模块,配置用于根据网络爬虫在各搜索引擎提取到的网络爬虫名单的IP地址段更新第一子集合;第二子集合更新子模块,配置用于根据访问次数阈值和点击记录更新第二子集合。
在一些实施方式中,第二子集合更新子模块还用于:
在第一时间段内统计点击记录,将访问页面的次数超出访问次数阈值的IP地址加入第二子集合;在第二时间段内统计点击记录,将访问页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,其中,第二时间段是由多个连续的第一时间段组成。
在一些实施方式中,第二子集合更新子模块还用于将误判IP地址移出第二子集合。在固定时间段中,第二子集合中的IP地址如果点击页面的次数低于设定值或没有点击页面为误判IP地址。具体为:
在固定时段内,比较点击记录中具有异常点击标记的IP地址和第二子集合中的IP地址;将第二子集合中与点击记录中具有异常点击标记的IP地址不同的IP地址设为误判IP地址;将误判IP地址从第二子集合中移出。
特别的在一些实施方式中,通过降低或提高访问次数阈值更新第二子集合:降低或提高访问次数阈值,点击记录中的具有异常点击标记的点击记录数量增大或变小;将增加的具有异常点击标记的点击记录所对应的IP地址添加到第二子集合中;将减少的具有异常点击标记的点击记录所对应的IP地址从第二子集合中移出。
在本实施例中,装置还包括统计模块,配置用于:在设定时间段内提取点击记录;将在该时间段内的点击记录的数量与具有异常点击标记的点击记录的数量相减确定页面在设定时段内的曝光量。在一些实施方式中,本装置还包括补偿模块,配置用于:
更改设定时间段的时间长度或调整访问次数阈值的大小;统计在更改设定时间段的时间长度或调整访问次数阈值的大小后的点击记录和异常点击标记,确定页面曝光量。
在本实施例中,上述曝光量监控模块404可以根据上述具有异常点击标记的点击记录和所有点击记录确定页面的曝光量。
本领域技术人员可以理解,上述网页生成装置400还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图4中未示出。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:
一种处理器包括提取模块、比较模块、异常点击标记模块和曝光量监控模块。其中,这些模块的名称在某种情况下并不构成对该单元本身的限定,例如,提取模块还可以被描述为“获取用户IP地址模块”。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种页面曝光量的监控方法,所述页面曝光量是指在设定时间内页面点击展示的次数,其特征在于,所述方法包括:
获取点击页面的用户IP地址,在预设的内存缓冲区保存所述用户IP地址的点击记录;
在异常IP地址集合中查找是否包含所述用户IP地址,所述异常IP地址集合包括第一子集合和第二子集合,所述第一子集合是搜索引擎提取到的网络爬虫IP地址集合,所述第二子集合是在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址集合;
如果所述异常IP地址集合中包含所述用户IP地址,在所述用户IP地址所对应的点击记录中添加异常点击标记;
如果所述异常IP地址集合中不包含所述用户IP地址,则在所述点击记录中查找在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址;
将在设定时间段内访问所述页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;
根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量。
2.如权利要求1所述的方法,其特征在于,所述方法还包括更新异常IP地址集合,包括:
根据网络爬虫在各搜索引擎提取到的网络爬虫名单的IP地址段更新所述第一子集合;
根据所述访问次数阈值和所述点击记录更新所述第二子集合。
3.如权利要求2所述的方法,其特征在于,所述根据所述访问次数阈值和所述点击记录更新所述第二子集合,包括:
在第一时间段内统计所述点击记录,将访问所述页面的次数超出访问次数阈值的IP地址加入第二子集合;
在第二时间段内统计所述点击记录,将访问所述页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,所述第二时间段是由多个连续的第一时间段组成。
4.如权利要求2所述的方法,其特征在于,所述根据所述访问次数阈值和所述点击记录更新所述第二子集合还包括:
在固定时段内,比较所述点击记录中具有异常点击标记的IP地址和第二子集合中的IP地址;
将第二子集合中与所述点击记录中具有异常点击标记的IP地址不同的IP地址设为误判IP地址;
将所述误判IP地址从所述第二子集合中删除。
5.如权利要求2所述的方法,其特征在于,所述根据所述访问次数阈值和所述点击记录更新所述第二子集合还包括:
通过降低或提高阈值调整所述访问次数阈值;
将访问所述页面次数与调整后的访问次数阈值比较调整所述点击记录中的异常点击标记;
根据所述调整后的异常点击记录,在第二子集合中添加或删除IP地址。
6.如权利要求1所述的方法,其特征在于,所述根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量包括:
在设定时间段内提取所述点击记录;
将在该时间段内的所述点击记录的数量与具有异常点击标记的点击记录的数量作运算确定所述页面在所述设定时段内的曝光量。
7.如权利要求6所述的方法,其特征在于,所述根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量还包括曝光量补偿:
更改设定时间段的时间长度或调整访问次数阈值的大小;
统计在更改设定时间段的时间长度或调整访问次数阈值的大小后的点击记录和异常点击标记,确定所述页面曝光量。
8.一种页面曝光量的监控装置,其特征在于,所述装置包括:
提取模块,配置用于获取点击页面的用户IP地址,在预设的内存缓冲区保存所述用户IP地址的点击记录;
比较模块,配置用于在异常IP地址集合中查找是否包含所述用户IP地址,所述异常IP地址集合包括第一子集合和第二子集合,所述第一子集合是搜索引擎提取到的网络爬虫IP地址集合,所述第二子集合是在设定时间段内访问所述页面的次数超出访问次数阈值的IP地址集合;
异常点击标记模块,配置用于将在所述异常IP地址集合中包含的用户IP地址所对应的点击记录中添加异常点击标记,或,
将在所述异常IP地址集合中不包含的用户IP地址所对应的点击记录中的在设定时间段内访问所述页面次数超出访问次数阈值的IP地址所对应的点击记录中添加异常点击标记;
曝光量监控模块,配置用于根据具有异常点击标记的点击记录和所述点击记录确定所述页面的曝光量。
9.如权利要求8所述的装置,其特征在于,所述装置还包括异常IP地址集合更新模块,所述异常IP地址更新模块包括:
第一子集合更新子模块,配置用于根据网络爬虫在各搜索引擎提取到的网络爬虫名单的IP地址段更新所述第一子集合;
第二子集合更新子模块,配置用于根据所述访问次数阈值和所述点击记录更新所述第二子集合。
10.如权利要求8所述的装置,其特征在于,所述第二子集合更新子模块还用于:
在第一时间段内统计所述点击记录,将访问所述页面的次数超出访问次数阈值的IP地址加入第二子集合;
在第二时间段内统计所述点击记录,将访问所述页面的次数超出第二访问次数阈值的IP地址添加到第二子集合,所述第二时间段是由多个连续的第一时间段组成。
11.如权利要求8所述的装置,其特征在于,所述第二子集合更新子模块还用于:
在固定时段内,比较所述点击记录中具有异常点击标记的IP地址和第二子集合中的IP地址;
将第二子集合中与所述点击记录中具有异常点击标记的IP地址不同的IP地址设为误判IP地址;
将所述误判IP地址从所述第二子集合中删除。
12.如权利要求8所述的装置,其特征在于,所述第二子集合更新子模块进一步用于:
通过降低或提高阈值调整所述访问次数阈值;
将访问所述页面次数与调整后的访问次数阈值比较调整所述点击记录中的异常点击标记;
根据所述调整后的异常点击记录,在第二子集合中添加或删除IP地址。
13.如权利要求8所述的装置,其特征在于,所述装置还包括统计模块,配置用于:
在设定时间段内提取所述点击记录;
将在该时间段内的所述点击记录的数量与具有异常点击标记的点击记录的数量相减确定所述页面在所述设定时段内的曝光量。
14.如权利要求8所述的装置,其特征在于,所述装置还包括补偿模块,配置用于:
更改设定时间段的时间长度或调整访问次数阈值的大小;
统计在更改设定时间段的时间长度或调整访问次数阈值的大小后的点击记录和异常点击标记,确定所述页面曝光量。
CN201610039116.5A 2016-01-20 2016-01-20 一种页面曝光量的监控方法和装置 Active CN105653724B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610039116.5A CN105653724B (zh) 2016-01-20 2016-01-20 一种页面曝光量的监控方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610039116.5A CN105653724B (zh) 2016-01-20 2016-01-20 一种页面曝光量的监控方法和装置

Publications (2)

Publication Number Publication Date
CN105653724A CN105653724A (zh) 2016-06-08
CN105653724B true CN105653724B (zh) 2019-07-02

Family

ID=56486935

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610039116.5A Active CN105653724B (zh) 2016-01-20 2016-01-20 一种页面曝光量的监控方法和装置

Country Status (1)

Country Link
CN (1) CN105653724B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776987A (zh) * 2016-12-02 2017-05-31 乐视控股(北京)有限公司 数据处理方法、装置及电子设备
CN110020351B (zh) * 2017-09-29 2021-08-13 北京国双科技有限公司 点击热力图异常检测方法及装置
CN113867553B (zh) * 2020-06-15 2023-09-26 武汉斗鱼鱼乐网络科技有限公司 一种快速点击的处理方法、装置、存储介质及电子设备
CN112019649B (zh) * 2020-08-20 2023-01-31 北京明略昭辉科技有限公司 Ip地址的校正方法及装置、系统、存储介质、电子设备
CN113271322B (zh) * 2021-07-20 2021-11-23 北京明略软件系统有限公司 异常流量的检测方法和装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007130370A2 (en) * 2006-05-04 2007-11-15 Yahoo, Inc. Methods and apparatus for measuring the effect of online advertising on online user behavior
CN103297435A (zh) * 2013-06-06 2013-09-11 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与系统
CN103379099A (zh) * 2012-04-19 2013-10-30 阿里巴巴集团控股有限公司 恶意攻击识别方法及系统
CN103577494A (zh) * 2012-08-09 2014-02-12 腾讯科技(深圳)有限公司 一种曝光量确定方法、装置和系统
CN103678492A (zh) * 2013-11-13 2014-03-26 复旦大学 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007130370A2 (en) * 2006-05-04 2007-11-15 Yahoo, Inc. Methods and apparatus for measuring the effect of online advertising on online user behavior
CN103379099A (zh) * 2012-04-19 2013-10-30 阿里巴巴集团控股有限公司 恶意攻击识别方法及系统
CN103577494A (zh) * 2012-08-09 2014-02-12 腾讯科技(深圳)有限公司 一种曝光量确定方法、装置和系统
CN103297435A (zh) * 2013-06-06 2013-09-11 中国科学院信息工程研究所 一种基于web日志的异常访问行为检测方法与系统
CN103678492A (zh) * 2013-11-13 2014-03-26 复旦大学 基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户行为的竞价广告效果分析;王家卓 等;《计算机研究与发展》;20111231;全文

Also Published As

Publication number Publication date
CN105653724A (zh) 2016-06-08

Similar Documents

Publication Publication Date Title
CN105653724B (zh) 一种页面曝光量的监控方法和装置
US8639687B2 (en) User-customized content providing device, method and recorded medium
CN109684575A (zh) 网页数据的处理方法及装置、存储介质、计算机设备
US20190272452A1 (en) Methods and apparatus for identifying objects depicted in a video using extracted video frames in combination with a reverse image search engine
US7606797B2 (en) Reverse value attribute extraction
CN108090104B (zh) 用于获取网页信息的方法和装置
CN102123195A (zh) 在通信终端中提供书签服务的设备和方法
US20120016857A1 (en) System and method for providing search engine optimization analysis
US20110246462A1 (en) Method and System for Prompting Changes of Electronic Document Content
JP2021501402A (ja) 意味的豊富度に基づいた文書のランキング
CN104915845B (zh) 针对窗口的商品信息显示方法和装置
CN105718533A (zh) 信息推送方法和装置
KR101073358B1 (ko) 태그 기반 정보 검색 장치, 방법 및 태그 관리 방법
CN108334489A (zh) 文本核心词识别方法和装置
US20090012937A1 (en) Apparatus, method and recorded medium for collecting user preference information by using tag information
US20130305131A1 (en) Method, system and computer storage medium for pre-reading network data
KR20030016037A (ko) 웹페이지별 방문인기도에 기반한 웹페이지 검색방법 및 그장치
US11144555B2 (en) Keyword reporting for mobile applications
RU2634218C2 (ru) Способ определения последовательности просмотра веб-страниц и сервер, используемый в нем
CN107357794A (zh) 优化键值数据库的数据存储结构的方法和装置
CN108280102B (zh) 上网行为记录方法、装置及用户终端
CN105488027B (zh) 关键词的推送方法和装置
CN112418875B (zh) 跨平台税务智能客服语料迁移方法及装置
US20060136400A1 (en) Textual search and retrieval systems and methods
CN110955855A (zh) 一种信息拦截的方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant