CN103823825B - 在线内容采集 - Google Patents

在线内容采集 Download PDF

Info

Publication number
CN103823825B
CN103823825B CN201310394779.5A CN201310394779A CN103823825B CN 103823825 B CN103823825 B CN 103823825B CN 201310394779 A CN201310394779 A CN 201310394779A CN 103823825 B CN103823825 B CN 103823825B
Authority
CN
China
Prior art keywords
url
intention
acquired
potential
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310394779.5A
Other languages
English (en)
Other versions
CN103823825A (zh
Inventor
M·菲格
J·霍尔曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Accenture Global Services GmbH
Original Assignee
Accenture Global Services GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/599,310 external-priority patent/US9940631B2/en
Application filed by Accenture Global Services GmbH filed Critical Accenture Global Services GmbH
Publication of CN103823825A publication Critical patent/CN103823825A/zh
Application granted granted Critical
Publication of CN103823825B publication Critical patent/CN103823825B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Abstract

一种在线内容采集系统,包括:扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL)。扫描和获取包括解析用于网站的网页,从解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及获取与预定标准匹配的潜在创意URL。数据储存器可以用来储存创意URL。在线内容采集服务器通过如下方式分析获取的潜在创意URL:通过将获取的潜在创意URL与在数据储存器中储存的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,以及如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意。

Description

在线内容采集
背景技术
在线广告通常包括在因特网上刊登的广告。在线广告可以包括营销信息,并且用户可能能够点击广告,这通常将用户带到用于将产品或者服务在广告中加以营销的另一网页。在线广告可以被表示为例如包括图像、点选、FLASH对象等的创意(creative)。可以用横幅广告的形式提供在线广告,横幅广告是在网页中嵌入的广告并且经常包括文本、图像、视频、声音或那些元素的任何组合。
可以从被称为广告供应商的广告服务或广告网络购买在特定网站上的创意的投放。例如,搜索引擎通常提供广告服务,由此刊登广告的人付费来将其创意刊登在搜索引擎网站或其他附属的网站上。除搜索引擎之外,许多网站提供相似的服务以用于为公司或其他实体刊登创意。
在许多实例中,创意需要刊登持续某时间段并且需要在网站上的某些位置刊登,或者可能需要响应于满足某些条件来刊登。许多实体参与复杂的在线广告活动,其中他们为了创意空间与竞争对手竞争,并且他们跨许多网站投放许多创意。高效地追踪网站以确定该网站是否正在刊登它们的创意,以及创意是否包括适当内容并且被提供在适当网页中并被提供在网页上的适当位置中是困难的。
附图说明
本公开的特征通过示例的方式而图示并且不限于下图,其中相同的数字代表相同的元素,其中:
图1图示了根据本公开的示例的、用于在线内容采集系统的数据流程图;
图2图示了根据本公开的示例的、用于在线内容采集系统的系统图;
图3图示了根据本公开的示例的、用于由在线内容采集系统进行的创意统一资源定位符(URL)和点选处理的方法的流程图;
图4图示了根据本公开的示例的、用于创意下载和储存在数据库或在线内容采集服务器中的方法的流程图;
图5图示了根据本公开的示例的、用于点选下载和储存在数据库或在线内容采集服务器中的方法的流程图;以及
图6图示了根据本公开的示例的、可以用于所述方法和系统的计算机系统。
具体实施方式
出于简洁和说明性的目的,通过主要参照示例来描述本公开。在以下描述中,陈述了许多具体细节以便提供对本公开的透彻理解。然而显而易见的是,本公开可以在不限于这些具体细节的情况下实行。在其他实例中,没有对一些方法和结构进行详细描述以避免不必要地使本公开混淆。
本公开从始至终,术语“一”和“一个”意在表示至少一个特定元素。如本文所使用的,术语“包括”的意思是包括但不限于,术语“包括”的意思是包括但不限于。术语“基于”的意思是至少部分基于。
根据一个示例,本文公开了一种在线内容采集系统,用以检测、处理并且储存创意以及关联的创意URL和点选。创意可以定义为在线内容并可以包括图像、点选、FLASH对象、视频等的任意类型。例如,创意可以是例如包括图像、点选、FLASH对象等的在线广告,其可以被用以在网站上提供信息。例如,用于计算机的在线广告包括计算机图像、至卖方网站的点选和/或与计算机相关的FLASH对象等,其可以被用以在一般网站(例如新闻网站)上提供信息。创意中的信息通常是推广可供销售的产品或服务的营销信息。用于创意的点选URL可以由用户点击,这可以将用户带到产品网站或推广该产品或服务的另一网站。创意URL可以定义为与用于创意的图像、点选、FLASH对象等关联的特定URL。潜在创意URL可以定义为可以是或者不是创意URL的URL。创意、URL和点选可以被用于后续分析,例如用于生成报告。
根据一个示例,在线内容采集系统可以包括扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL)。扫描和获取包括解析用于网站的网页,从所解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及获取与预定标准匹配的潜在创意URL。数据储存器可以被用以储存创意URL。在线内容采集服务器分析获取的潜在创意URL,其通过将获取的潜在创意URL与在数据储存器中储存的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,以及如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意。
根据一个示例,一种用于在线内容采集的方法包括扫描网站以获取潜在创意URL,获取与用于获取潜在创意URL的预定标准匹配的潜在创意URL,通过将获取的潜在创意URL与先前验证的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,以及如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意。
根据一个示例,一种包括计算机代码的非瞬态计算机可读介质,所述计算机代码当由计算机系统执行时进行包括如下内容的指令:扫描网站以获取潜在创意URL,获取与用于获取潜在创意URL的预定标准匹配的潜在创意URL,通过将获取的潜在创意URL与先前验证的创意URL进行比较来确定获取的潜在创意URL以前是否已经见过,如果获取的潜在创意URL以前已经见过,则确定获取的潜在创意URL是否指向创意,以及如果获取的潜在创意URL以前没有见过,则下载获取的潜在创意URL指向的创意。
对于以上所描述的在线内容采集系统,预定标准包括使用正则表达式来匹配潜在创意URL。由在线内容采集服务器进行的分析还包括在确定获取的潜在创意URL以前是否已经见过之前去除查询参数。该分析还包括如果获取的潜在创意URL以前没有见过,则下载获取的潜在创意URL指向的创意。
对于以上所描述的在线内容采集系统,如果获取的潜在创意URL指向创意,则该分析还包括确定在线内容采集服务器是否识别出与该创意关联的点选URL。如果在线内容采集服务器没有识别出与创意相关联的点选URL,则该分析还包括确定与创意关联的网页内容是否包括点选URL。如果与创意关联的网页内容包括点选URL,则该分析还包括在网页浏览器环境中下载该点选URL,以及确定该点选URL是否为重定向URL。如果点选URL是重定向URL,则该分析还包括确定重定向URL以前是否已经见过,如果重定向URL以前已经见过则将点选URL指示为无效,以及如果重定向URL以前没有见过则下载随后的重定向URL以确定随后的重定向URL是否为另一重定向URL。如果点选URL不为重定向URL,则该分析还包括确定点选URL是否为HTML重定向,如果点选URL不为HTML重定向则将点选URL储存在数据储存器中,以及如果点选URL为HTML重定向则确定HTML重定向以前是否已经见过。
对于以上所描述的在线内容采集系统,如果获取的潜在创意URL不指向创意,则该分析还包括确定具有查询参数的获取的潜在创意URL以前是否已经见过。
对于以上所描述的在线内容采集系统,该分析还包括如果获取的潜在创意URL以前没有见过则确定获取的潜在创意URL是否为重定向URL。该分析还包括如果获取的潜在创意URL为重定向URL则确定重定向URL以前是否已经见过,如果重定向URL以前已经见过则将与获取的潜在创意URL关联的创意指示为无效,以及如果重定向URL以前没有见过则下载随后的重定向URL以确定随后的重定向URL是否为另一重定向URL。该分析还包括如果获取的潜在创意URL不是重定向URL则确定与获取的潜在创意URL关联的创意是否为FLASH对象或图像,如果与获取的潜在创意URL关联的创意是FLASH对象或图像则确定该FLASH对象或图像的宽度和高度是否超过预定阈值,以及如果与获取的潜在创意URL关联的创意不是FLASH对象或图像则将与获取的潜在创意URL相关联的创意指示为无效。预定阈值可以被设置在五个像素。该分析还包括如果FLASH对象或图像的宽度和高度超过预定阈值则将与获取的潜在创意URL关联的创意指示为有效,以及将获取的潜在创意URL储存在数据储存器中以用于与进一步获取的潜在创意URL进行比较。
各示例所提供技术方案的技术问题包括如何从因特网标识并且捕获创意以及点选。另外,一旦捕获潜在创意和点选,则技术问题为如何确定创意或点选是否有效。另一技术问题为确定如何高效地捕获创意和点选。根据一个示例,在线内容采集系统可操作用于获取并且分析创意URL以确定创意URL指向的创意是否先前已经由在线内容采集系统分析。如果先前已经分析创意或关联的点选,则在线内容采集系统使用来自先前分析的结果来分析新的潜在创意URL以此消除冗余分析。在线内容采集系统还可操作用于在储存在数据库之前对创意和关联的点选的有效性进行分析。
为了在线内容采集系统扫描并且检测创意和关联的点选,在一个示例中,使用扫描服务器云来扫描广大地理区域上分散的网站。可以针对由客户标识的预定的网站集、或者针对大得多的网站组、或者针对该预定的网站集并针对该大得多的网站组二者来执行扫描。
在线内容采集系统包括在扫描服务器云中的扫描服务器脱机的情况下的故障转移(fail over)能力。如果在网站池中的网站停止检测到创意,则在线内容采集系统针对给定网站指示错误,从而消除针对这样的不可操作网站的分析的需要。在线内容采集系统还提供对网页的内嵌框架(Iframe)内部的创意的检测。内嵌框架是在网页中嵌入的HTML文档。如果内嵌框架包含另一内嵌框架则可以递归地扫描内嵌框架。
图1图示了用于在线内容采集系统120的高级数据流程图。在框101处,在线内容采集系统120接收客户请求,该客户请求可以包括应该刊登客户的广告(即创意)的所有网站的列表。在框102处,客户请求还可以包括期望的分析类型。例如,如通过引用的方式全部并入于此的、名称为“Online Content Campaign Classification”的第13/455,885号美国专利申请中所描述的,客户可能对竞争对手分析、成本分析或基准法分析感兴趣。竞争对手分析基于度量来对客户的广告活动相对于预定的竞争对手集进行评估。成本分析评估客户的广告活动有效性与成本。基准法分析可以分析客户广告的存在(诸如其是否被提供)、广告是否在适当的页面位置并且具有适当内容、出现频率(诸如在网页或网站上刊登的广告数目)、广告图像的独特性以及趋势。在框103处,可以基于框102处的分析生成各种报告。例如,报告可以包括竞争对手分析报告、成本分析报告或基准法分析报告。
在104处,在线内容采集系统120扫描因特网以捕获用于客户的广告活动的创意URL。扫描可以覆盖由客户提供的网站集或更大的搜索空间。图1示出了包括创意111a-n的网页110a-x。
在105处,在线内容采集系统120从网页110a-x中的一个网页的内容中获取潜在创意URL。获取的URL可以代表创意或者是代表创意的信标(beacon)。信标,也成为网页信标,是能够从另一服务器获取信息的用于网页的代码。信标可以是用于创意或客户的独特的标识符或包括独特的标识符。信标可以用超文本标记语言(HTML)、JAVA script、FLASH等编码,并且可通过解析网页代码来识别。
图2图示了在线内容采集系统120的更为详细的框图。在线内容采集系统120包括扫描服务器云121、数据库122、在线内容采集服务器123以及调度模块124。扫描服务器云121包括被放置在世界各地的多个扫描服务器以提供可缩放的网站扫描和分析。每个扫描服务器扫描特定的网站集。例如,扫描服务器云121中的一个扫描服务器可以负责对地理上在扫描服务器附近托管的网页110a-x进行扫描。其他服务器扫描其他地理区域。在一起则扫描服务器云121覆盖由客户请求的所有网站以用于分析。数据库122储存创意,创意URL、点选、信标、网站结构数据、广告度量以及从由扫描服务器云121执行的扫描接收的任意其他信息。可替换地,在数据库122中储存的信息可以被储存在在线内容采集服务器123中。数据库122或另一数据库储存客户信息,从而根据扫描而确定的广告信息可以与客户信息匹配。
在线内容采集服务器123接收并且编辑来自扫描服务器云121的信息。这包括来自网页内容的潜在创意URL。扫描服务器云121的扫描服务器可以检测由客户提供的网站集中或更大的搜索空间中的创意。对于检测的创意,扫描服务器检测每个创意的URL。在线内容采集服务器123可以进一步将扫描的创意信息与在数据库122中储存的客户信息匹配。该匹配将扫描的创意信息与对应的客户关联。在线内容采集服务器123还使用扫描的信息来将在线创意分类为创意活动。
在线内容采集服务器123还生成报告,该报告可以根据在扫描服务器云121执行扫描期间捕获的针对客户的广告的属性和度量来编辑。可以在用户界面125处显示该报告作为报告126。用户界面125可以是图形用户界面(GUI),其允许用户动态搜索他们的广告统计、用于查看的报告以及与创意相关的信息。用户界面125可以通过网页提供,其中用户可以登录并且查看期望的信息。除查看报告之外,用户可以与在线内容采集系统120交互以查看或提供包括用于扫描的网站等的不同信息。诸如膝上型计算机、桌上型计算机、蜂窝电话等的客户端设备127a-n可以例如经由网络连接到在线内容采集系统120以例如经由用户界面125来与系统交互。
调度模块124可以对由客户提供的网站提供周期性扫描。可以确定扫描频率或间隔以匹配客户需要。例如,一个客户可能需要按照短的间隔的扫描,诸如在持续一个小时的时间内每10分钟扫描一次,并且每天重复两遍。这一类型的扫描间隔将在正被扫描的网站中捕获大样本集的潜在创意URL。另一客户可能不需要短间隔扫描。例如,可以对潜在创意URL执行每天一遍或两遍扫描。图2中所示的扫描服务器云121对修改扫描频率和要扫描的区域或网站提供灵活性。扫描服务器云121被配置为接收针对客户的请求的扫描频率和网站列表或扫描地区并且从扫描获取潜在创意URL。
如本文所描述的,系统120的模块和其他元件可以包括在非瞬态计算机可读介质上储存的机器可读指令。除此之外或可替换地,系统120的模块和其他元件可以包括硬件或者机器可读指令和硬件的组合。
图3图示了用于在线内容采集系统120扫描期间的创意URL和点选处理的方法300的流程图。方法300,以及另外的参照图4和图5描述的方法400和500,可以参照图1和图2以示例而不是限制的方式来在在线内容采集系统120上实现。方法300、400和500可以在其他系统中实行。图2所示的扫描服务器云121中的扫描服务器可以使用方法200来执行本文描述的扫描和潜在创意URL的获取。
参照图3,在框301处,扫描服务器云121中的扫描服务器从网页内容中获取下一潜在创意URL。扫描服务器可以在由客户提供的网站集或更大的搜索空间中检测创意。对于检测的创意,扫描服务器检测每个创意的URL。对于FLASH URL,去除查询参数。查询参数通常包括识别用户的随机数字。去除查询参数从而消除在数据库122中储存的URL的重复以及由在线内容采集服务器123进行的重复URL的冗余分析。扫描服务器云121中的扫描服务器可以通过将网页110a-x载入到网页浏览器中来检测创意。可以评估网页110a-x的源代码以定位与指定用于获取创意URL的正则表达式匹配的图像。例如,正则表达式可指定可以对与域abcclick.net关联的任何URL进行定位和获取以用于进一步确定URL是否指向作为潜在创意的图像或FLASH对象。
在框302处,在线内容采集服务器123确定潜在创意URL以前是否已经见过。如果潜在创意URL以前没有见过,则可以将由潜在创意URL代表的创意下载并且储存在数据库122中。可替换地,可以将由潜在创意URL代表的创意下载并且储存在线上内容采集服务器123中。参照图4更详细描述的,可以由框400代表的方法执行由潜在创意URL代表的创意的下载和在数据库122中的储存。
在框302处如果潜在创意URL以前已经见过,则在框303处,在线内容采集服务器123确定潜在创意URL是否实际上指向创意。基于与在数据库122中储存的创意URL进行的比较来确定创意URL是否实际上指向创意,如果创意URL指向创意,则在线内容采集服务器123针对该创意URL获得诸如md5sum、文件大小、创意类型、图像大小、图像高度、图像宽度以及点选URL的信息。将针对该创意URL的信息向框304发送,其对在线内容采集服务器123是否识别与该潜在创意URL关联的点选URL做出确定。下文更详细的描述在框304处进行的确定。
在框305处,如果在线内容采集服务器123确定潜在创意URL不指向创意,则对潜在创意URL是否为具有查询参数的完整FLASHURL做出确定。如果潜在创意URL是具有查询参数的完整FLASHURL,则在线内容采集服务器123回到框302以确定具有查询参数的完整FLASHURL以前是否已经见过。如果具有查询参数的完整FLASH URL以前没有见过,则可以通过由框400代表的方法将由具有查询参数的完整FLASH URL代表的创意下载并且储存在数据库122中。在框302处,如果具有查询参数的完整FLASH URL以前已经见过,则在框303处,在线内容采集服务器123确定具有查询参数的完整FLASH URL是否实际上指向创意。基于与在数据库122中储存的创意URL的比较来确定具有查询参数的完整创意URL是否实际上指向创意,如果具有查询参数的完整FLASH URL指向创意,则在线内容采集服务器123针对具有查询参数的完整FLASHURL获得诸如md5sum、文件大小、创意类型、图像大小、图像高度、图像宽度以及点选URL的信息。将针对具有查询参数的完整FLASHURL的信息向框304发送,其对在线内容采集服务器123是否识别出与潜在创意URL(即具有查询参数的完整FLASH URL)关联的点选URL做出确定。可替换地,在框303和305处,如果在线内容采集服务器123确定具有查询参数的完整FLASH URL不指向创意,则在框306处,完成对创意的处理。
参照框304,对在线内容采集服务器123是否识别出针对(可能是具有查询参数的完整FLASH URL的)潜在创意URL的关联的点选URL做出确定。如果在线内容采集服务器123识别出关联的点选URL,则在框306处完成对创意的处理。可替换地,如果在线内容采集服务器123没有识别出关联的点选URL,则在框307处,对当前网页是否包括点选URL做出确定。如果当前网页不包括点选URL,则在框306处完成对创意的处理。可替换地,如果当前网页包括点选URL,则可以将点选URL下载并且储存在数据库122中。可替换地,可以将点选URL下载并且储存在在线内容采集服务器123中。参照图5更详细描述的,可以由框500代表的方法执行点选URL的下载和在数据库122或在线内容采集服务器123中的储存。
参照框400,一旦通过框400代表的方法来将由(可能是具有查询参数的完整FLASHURL的)潜在创意URL代表的创意下载并且储存,则在框304处对在线内容采集服务器123是否识别出针对潜在创意URL的关联的点选URL做出确定。如上文参照框304讨论的,如果在线内容采集服务器123识别出关联的点选URL,则在框306处完成对创意的处理。可替换地,如果在线内容采集服务器123没有识别出关联的点选URL,则在框307处,对当前网页是否包括点选URL做出确定。如果当前网页不包括点选URL,则在框306处完成对创意的处理。可替换地,如果当前网页包括点选URL,则可以通过由框500代表的方法来将点选URL下载并且储存在数据库122或在线内容采集服务器123中。
图4图示了用于创意下载和在数据库122或在线内容采集服务器123中的储存的框400(即方法400)的流程图。参照图3和图4,为了下载和储存由(可能是具有查询参数的完整FLASH URL的)潜在创意URL代表的创意,对于由图4的框400代表的方法,在框401处,从创意URL的网络服务器下载创意URL。扫描服务器云121中的扫描服务器可以从创意URL的网络服务器下载创意URL。
在框402处,对URL是否为重定向做出确定。如果URL是重定向,则在框403处,对重定向URL是否已经下载做出确定。换言之,在框403处,对重定向URL以前是否已经见过做出确定。在框403处,在线内容采集服务器123检查数据库122以确定重定向URL以前是否已经下载。在框403处如果确定重定向URL为先前下载的,则这意味着重定向是循环重定向并且该URL无效。因此,在框403处,如果确定重定向URL为先前下载的,则在框404处,重定向URL,并且因此确定创意为无效,并且在框405处,完成创意的下载和储存。在框403处的这一评估避免了重定向URL的无限循环。如果在框403处对重定向URL先前没有下载过做出确定,则在线内容采集服务器123回到框401以下载随后的重定向URL。以这一方式,对于先前没有下载的重定向URL,在线内容采集服务器123在框401、402和403之间循环以下载随后的重定向URL,直到在402处对URL不是重定向做出确定,或者在框403处对重定向URL先前已经下载过做出确定,在该时间在线内容采集服务器123进行框404继而进行框405,其完成创意的下载和储存。
在框402处,如果对URL不是重定向做出确定,则在框406处,对URL是否指向作为FLASH对象的创意做出确定。例如,如果URL指向具有联合图像专家组(JPEG)、便携式网络图像格式(PNG)或图形交换格式(GIF)的图像文件格式的创意,则该创意不是FLASH对象。可替换地,如果URL指向具有对象标签(obiect tag)或嵌入标签(embed tag)的创意,则确定该创意为FLASH对象。在这一情况下,在框407处,如果确定创意为FLASH对象,则针对该FLASH对象来记录flashvar参数以及来自的<obiect>或<embed>的该FLASH对象的宽度和高度。
参照框408,如果在框406处对URL不指向作为FLASH对象的创意做出确定,则确定该创意很可能是图像。在框408处,如果确定创意很可能是图像,则对下载的创意URL是否指向作为有效图像的内容做出确定。可以由在线内容采集服务器123的图像载入组件例如通过载入图像来确定图像的有效性。如果图像正常载入(即没有错误),则在框409处,将诸如图像宽度、图像高度和图像是否是动画的信息储存在数据库122或在线内容采集服务器123中。在框408处,如果对下载的创意URL不指向作为有效图像的内容做出确定,则在框410处,确定该创意有效并且将该创意URL作为是无效的储存在数据库122或在线内容采集服务器123中。以这一方式,参照图3的框302,在框410处储存的创意URL可以用来确定其他潜在创意URL以前是否已经见过。
参照框407和409,在框407处在flashvar参数以及来自<obiect>或<embed>标签的FLASH对象宽度和高度的记录之后、或者在框409处在图像宽度、图像高度以及图像是否为动画的储存之后,在框411处评估创意的宽度和高度。在框411处,如果确定创意的宽度和高度大于预定的阈值5像素(即宽度x高度>5x5像素),则在框412处,确定创意为有效并且将创意URL和所有记录的信息储存在数据库122或在线内容采集服务器123中。以这一方式,参照图3的框303,在框412处储存的创意URL可以用来确定(可能是具有查询参数的完整FLASHURL的)其他潜在创意URL是否实际上指向创意。如果确定创意的宽度和高度小于或等于预定的阈值5像素(即宽度x高度≤5x5像素),则在框410处,确定创意无效并且将该URL作为无效的储存在数据库122或在线内容采集服务器123中。因此在线内容采集服务器123消除可以具有1个像素的宽度和高度的信标,以及具有确定为小于或等于预定的阈值5像素(作为有效创意)的其他图像或FLASH对象。伴随着在框412储存的创意URL,在框405处完成创意的下载和储存。
图5图示了用于点选下载和储存在数据库122或在线内容采集服务器123中的框500(即方法500)的流程图。参照图3和图5,为了下载和储存与潜在创意URL或具有查询参数的完整FLASH URL关联的点选URL,对于由图1的框500表示的方法,在框501处,在网页浏览器环境中下载点选URL。扫描服务器云121中的扫描服务器可以下载点选URL。
在框502处,对点选URL是否为重定向做出确定。如果点选URL为重定向,则在框503处,对重定向URL是否已经下载做出确定。换言之,在框503处,对重定向URL以前是否已经见过做出确定。在块503处,在线内容采集服务器123检查数据库122以确定重定向URL以前是否已经下载。在框503处如果确定重定向URL是先前下载,则意味着该重定向是循环重定向并且URL无效。因此,在框503处,如果确定重定向URL是先前下载,则在框504处,重定向URL并且因此确定点选URL无效,以及在框505处,完成点选URL的下载和储存。在块503处的这一评估避免重定向URL的无限循环。如果在框503处对重定向URL先前没有下载做出确定,则在线内容采集服务器123回到框501以下载随后的重定向URL。以这一方式,对于先前没有下载的重定向URL,在线内容采集服务器123在框501、502和503之间循环以下载随后的重定向URL,直到在框502处对该URL不为重定向做出确定或者在框503处对重定向URL先前已经下载做出确定,在该时间在线内容采集服务器123进行框504继而进行框505,其中完成点选URL的下载和储存。
在框502处,如果对URL不是重定向做出确定,则在框506处,在线内容采集服务器123对于HTML重定向等待诸如三秒的预定时间间隔。在框507处,如果对HTML重定向已经在预定时间间隔内发生做出确定,则在线内容采集服务器123进行框503以确定重定向URL是否已经下载。可替换地,如果在框507对HTML重定向在预定时间间隔内没有发生做出确定,则在框508处将点选URL储存在数据库122或在线内容采集服务器123中并且与适当的创意匹配。一旦将点选URL储存在数据库122或在线内容采集服务器123中,在线内容采集服务器123就进行框505,其中完成点选URL的下载和储存。参照图3和图5,可以在框304处使用基于框508储存的或基于框504确定作为有效的有效点选URL来确定在线内容采集服务器123是否识别出关联的点选URL。
图6示出了可以与本文描述的示例一起使用的计算机系统600。计算机系统表示一个通用平台,其包括可以在服务器或另一计算机系统中的组件。计算机系统可以用作用于系统120的平台。计算机系统可以通过处理器或其他硬件处理电路来执行这里描述的方法、功能以及其他过程。这些方法、功能和其他过程可以体现为储存在计算机可读介质上的机器可读指令,该计算机可读介质可以是非瞬态的,诸如硬件储存设备(例如RAM(随机访问存储器)、ROM(只读存储器)、EPROM(可擦除可编程ROM)、EEPROM(电可擦除可编程ROM)、硬盘以及FLASH存储器)。
计算机系统包括处理器602,该处理器可以实现或执行用于执行本文描述的一些或所有的方法、功能以及其他过程的机器可读指令。来自处理器602的命令和数据通过通信总线604来通信。计算机系统还包括诸如随机访问存储器(RAM)的主存储器606,其中用于处理器602的计算机可读指令和数据可以在运行时间期间驻留,以及次级数据储存器608,其可以是非易失性的并且储存机器可读指令和数据。存储器和数据储存器是计算机可读介质的示例。存储器606可以包括模块620,该模块620包括机器可读指令,该机器可读指令在运行时间期间驻留在存储器606中并且由处理器602执行。模块620可以包括图2中所示的系统的模块124,以及系统120的其他组件,诸如在线内容采集服务器123。
计算机系统可以包括诸如键盘、鼠标、显示器等的I/0设备610。计算机系统可以包括用于连接到网络的网络接口612。可以在计算机系统中添加或替换其他已知的电子组件。
本文已经描述并图示的是示例以及一些该示例的变化。仅通过举例说明的方式陈述了本文使用的术语、描述和附图,并且并不意在限制。在主题的精神和范围内的许多变化是可能的,其意在通过如下权利要求及其等同来限定,其中所有术语除非另外明示都表示其最为宽泛的合理意义。

Claims (13)

1.一种在线内容采集系统,包括:
扫描服务器,用于扫描网站以获取潜在创意统一资源定位符(URL),其中所述扫描和所述获取包括:
解析用于所述网站的网页,
从所解析的网页中标识与用于获取潜在创意URL的预定标准匹配的潜在创意URL,以及
获取与所述预定标准匹配的所述潜在创意URL;
数据储存器,用于储存创意URL;以及
在线内容采集服务器,用于分析所获取的潜在创意URL,其中所述分析包括:
通过以下各项来确定所获取的潜在创意URL以前是否已经见过:
将所获取的潜在创意URL与在所述数据储存器中储存的所述创意URL进行比较,
在确定所获取的潜在创意URL以前是否已经见过之前,去除查询参数,以及
如果所获取的潜在创意URL以前没有见过,则下载所获取的潜在创意URL指向的创意,
如果所获取的潜在创意URL以前已经见过,则确定所获取的潜在创意URL是否指向创意,
如果所获取的潜在创意URL不指向创意,则确定具有查询参数的所获取的潜在创意URL以前是否已经见过,
如果所获取的潜在创意URL指向创意,则确定所述在线内容采集服务器是否识别出与所述创意关联的点选URL,以及
如果所述在线内容采集服务器没有识别出与所述创意关联的所述点选URL,则确定与所述创意关联的网页内容是否包括点选URL,
其中如果与所述创意关联的所述网页内容包括点选URL,
则:
在网页浏览器环境中下载所述点选URL;以及
确定所述点选URL是否为重定向URL。
2.根据权利要求1所述的在线内容采集系统,其中所述预定标准包括使用正则表达式来匹配所述潜在创意URL。
3.根据权利要求1所述的在线内容采集系统,其中所述分析还包括:
如果所获取的潜在创意URL以前没有见过,则确定所获取的潜在创意URL是否为重定向URL。
4.根据权利要求3所述的在线内容采集系统,其中所述分析还包括:
如果所获取的潜在创意URL为重定向URL,则确定所述重定向URL以前是否已经见过;
如果所述重定向URL以前已经见过,则将与所获取的潜在创意URL关联的所述创意指示为无效;以及
如果所述重定向URL以前没有见过,则下载随后的重定向URL以确定所述随后的重定向URL是否为另一重定向URL。
5.根据权利要求3所述的在线内容采集系统,其中所述分析还包括:
如果所获取的潜在创意URL不为重定向URL,则确定与所获取的潜在创意URL关联的创意是否为FLASH对象或图像;
如果与所获取的潜在创意URL关联的所述创意为FLASH对象或图像,则确定所述FLASH对象或所述图像的宽度和高度是否超过预定阈值;以及
如果与所获取的潜在创意URL关联的所述创意不为FLASH对象或图像,则将与所获取的潜在创意URL关联的所述创意指示为无效。
6.根据权利要求5所述的在线内容采集系统,其中所述预定阈值是5像素。
7.根据权利要求5所述的在线内容采集系统,其中所述分析还包括:
如果所述FLASH对象或所述图像的所述宽度和所述高度超过所述预定阈值,则将与所获取的潜在创意URL关联的所述创意指示为有效;以及
将所获取的潜在创意URL储存在所述数据储存器中以用于与进一步获取的潜在创意URL进行比较。
8.根据权利要求1所述的在线内容采集系统,其中所述分析还包括:
如果所述点选URL为重定向URL,则确定所述重定向URL以前是否已经见过;
如果所述重定向URL以前已经见过,则将所述点选URL指示为无效;以及
如果所述重定向URL以前没有见过,则下载随后的重定向URL以确定所述随后的重定向URL是否为另一重定向URL。
9.根据权利要求8所述的在线内容采集系统,其中所述分析还包括:
如果所述点选URL不为重定向URL,则确定所述点选URL是否为HTML重定向;
如果所述点选URL不为HTML重定向,则将所述点选URL储存在所述数据储存器中;以及
如果所述点选URL为HTML重定向,则确定所述HTML重定向以前是否已经见过。
10.一种用于在线内容采集的方法,所述方法包括:
扫描网站以获取潜在创意统一资源定位符(URL);
获取与用于获取潜在创意URL的预定标准匹配的所述潜在创意URL;
通过将所获取的潜在创意URL与先前验证的创意URL进行比较来确定所获取的潜在创意URL以前是否已经见过;
在确定所获取的潜在创意URL以前是否已经见过之前,去除查询参数;
如果所获取的潜在创意URL以前没有见过,则下载所获取的潜在创意URL指向的创意;
如果所获取的潜在创意URL以前已经见过,则由处理器确定所获取的潜在创意URL是否指向创意;
如果所获取的潜在创意URL不指向创意,则确定具有查询参数的所获取的潜在创意URL以前是否已经见过;
如果所获取的潜在创意URL指向创意,则确定所述在线内容采集服务器是否识别出与所述创意关联的点选URL;以及
如果所述在线内容采集服务器没有识别出与所述创意关联的所述点选URL,则确定与所述创意关联的网页内容是否包括点选URL;
其中如果与所述创意关联的所述网页内容包括点选URL,则:
在网页浏览器环境中下载所述点选URL;以及
确定所述点选URL是否为重定向URL。
11.根据权利要求10所述的方法,还包括:
如果所获取的潜在创意URL以前没有见过,则确定所获取的潜在创意URL是否为重定向URL;
如果所获取的潜在创意URL为重定向URL,则确定所述重定向URL以前是否已经见过;
如果所述重定向URL以前已经见过,则将与所获取的潜在创意URL关联的所述创意指示为无效;以及
如果所述重定向URL以前没有见过,则下载随后的重定向URL以确定所述随后的重定向URL是否为另一重定向URL。
12.根据权利要求11所述的方法,还包括:
如果所获取的潜在创意URL不为重定向URL,则确定与所获取的潜在创意URL关联的创意是否为FLASH对象或图像;
如果与所获取的潜在创意URL关联的所述创意为FLASH对象或图像,则确定所述FLASH对象或所述图像的宽度和高度是否超过预定阈值;以及
如果与所获取的潜在创意URL关联的所述创意不为FLASH对象或图像,则将与所获取的潜在创意URL关联的所述创意指示为无效。
13.一种用于在线内容采集的装置,包括:
用于扫描网站以获取潜在创意统一资源定位符(URL)的部件;
用于获取与用于获取潜在创意URL的预定标准匹配的所述潜在创意URL的部件;
用于通过将所获取的潜在创意URL与先前验证的创意URL进行比较来确定所获取的潜在创意URL以前是否已经见过的部件;
用于在确定所获取的潜在创意URL以前是否已经见过之前去除查询参数的部件;
用于如果所获取的潜在创意URL以前没有见过,则下载所获取的潜在创意URL指向的创意的部件;
用于如果所获取的潜在创意URL以前已经见过,则确定所获取的潜在创意URL是否指向创意的部件;用于如果所获取的潜在创意URL不指向创意,则确定具有查询参数的所获取的潜在创意URL以前是否已经见过的部件;
用于如果所获取的潜在创意URL指向创意,则确定所述在线内容采集服务器是否识别出与所述创意关联的点选URL的部件;以及用于如果所述在线内容采集服务器没有识别出与所述创意关联的所述点选URL,则确定与所述创意关联的网页内容是否包括点选URL的部件;
用于如果与所述创意关联的所述网页内容包括点选URL,则进行以下操作的部件:
在网页浏览器环境中下载所述点选URL;以及
确定所述点选URL是否为重定向URL。
CN201310394779.5A 2012-08-30 2013-08-30 在线内容采集 Active CN103823825B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/599,310 US9940631B2 (en) 2009-03-03 2012-08-30 Online content collection
US13/599,310 2012-08-30

Publications (2)

Publication Number Publication Date
CN103823825A CN103823825A (zh) 2014-05-28
CN103823825B true CN103823825B (zh) 2017-06-20

Family

ID=49118265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310394779.5A Active CN103823825B (zh) 2012-08-30 2013-08-30 在线内容采集

Country Status (5)

Country Link
EP (1) EP2706469A1 (zh)
CN (1) CN103823825B (zh)
AU (1) AU2013221949C1 (zh)
CA (1) CA2824977C (zh)
NZ (1) NZ614810A (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI736576B (zh) * 2017-01-23 2021-08-21 香港商阿里巴巴集團服務有限公司 資料處理方法及裝置
CN108984703B (zh) * 2018-07-05 2023-04-18 平安科技(深圳)有限公司 一种统一资源定位符url去重方法及装置
CN108920668B (zh) * 2018-07-05 2023-04-18 平安科技(深圳)有限公司 一种统一资源定位符url去重方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2270736A1 (en) * 2009-06-23 2011-01-05 Uniloc Usa, Inc. System and method for monitoring efficacy of online advertising
CN102033881A (zh) * 2009-09-30 2011-04-27 国际商业机器公司 用于识别网页中的广告的方法和系统
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8136025B1 (en) * 2003-07-03 2012-03-13 Google Inc. Assigning document identification tags
US8099415B2 (en) * 2006-09-08 2012-01-17 Simply Hired, Inc. Method and apparatus for assessing similarity between online job listings
US8386314B2 (en) * 2008-12-11 2013-02-26 Accenture Global Services Limited Online ad detection and ad campaign analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2270736A1 (en) * 2009-06-23 2011-01-05 Uniloc Usa, Inc. System and method for monitoring efficacy of online advertising
CN102033881A (zh) * 2009-09-30 2011-04-27 国际商业机器公司 用于识别网页中的广告的方法和系统
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法

Also Published As

Publication number Publication date
AU2013221949C1 (en) 2015-05-14
AU2013221949B2 (en) 2015-03-05
CN103823825A (zh) 2014-05-28
AU2013221949A1 (en) 2014-03-20
CA2824977A1 (en) 2014-02-28
CA2824977C (en) 2019-03-19
EP2706469A1 (en) 2014-03-12
NZ614810A (en) 2015-03-27

Similar Documents

Publication Publication Date Title
US10891632B2 (en) Online ad detection and ad campaign analysis
JP5562328B2 (ja) インターネットベースの広告の自動監視および照合
CN102004757B (zh) 用于有机搜索优化的网站修改系统
US20070078939A1 (en) Method and apparatus for identifying and classifying network documents as spam
US20150186521A1 (en) Method and system for tracking and gathering multivariate testing data
EP2264665A1 (en) Placing information in user-generated content
US11887161B2 (en) Systems and methods for delivering content to mobile devices
CN103823825B (zh) 在线内容采集
CN110413926B (zh) 一种问卷调查方法及装置
US9947017B2 (en) Online content campaign classification
US9940631B2 (en) Online content collection
EP2518677A2 (en) Method and system for analysing traffic on a website including multiple visits by the visitors
CN107292584A (zh) 市场薪酬推送方法及装置
CA2813303C (en) Online content campaign classification
Molnar Measuring the cookie-setting behaviour of web pages showing privacy warnings
KR20010097357A (ko) 인터넷을 이용한 실시간 광고 평가 방법 및 시스템
Kale et al. Different Approaches for Ranking Fraud Detection for Mobile Apps Application: An Analysis of Comparative Study on Different Algorithms
CN107483464A (zh) 一种基于服务间交互来提高Web漏洞扫描器URL检出率的方法
AU2013201189A1 (en) Product placement for the masses

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant