CN101383713A - 一种互联网广告信息处理方法 - Google Patents
一种互联网广告信息处理方法 Download PDFInfo
- Publication number
- CN101383713A CN101383713A CNA2007100456207A CN200710045620A CN101383713A CN 101383713 A CN101383713 A CN 101383713A CN A2007100456207 A CNA2007100456207 A CN A2007100456207A CN 200710045620 A CN200710045620 A CN 200710045620A CN 101383713 A CN101383713 A CN 101383713A
- Authority
- CN
- China
- Prior art keywords
- link
- processing method
- information processing
- advertisement information
- internet advertisement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Transfer Between Computers (AREA)
Abstract
一种互联网广告信息的分离、分析处理方法,该方法主要依赖各互联网媒体页面中对所有链接的URL地址进行分析,将链接到被监测媒体以外网站的链接进行分析归类,非常智能准确地分离出页面中的广告内容,帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣的工作量。
Description
所属技术领域
本发明涉及一种互联网信息的处理方法,尤其涉及一种互联网广告信息的分离、分析方法。
背景技术
互联网广告技术被誉为现今广告投放技术中最复杂的技术,与报刊、杂志等平面媒体和电视广告相比较而言,互联网广告形式多样、投放来源复杂、技术方法多样,因此,广告投放者欲要决定采取何种广告模式或选择哪家提供广告的网站时,往往没有客观的标准。相应的,广告提供者们欲要说服广告投放者购买自己的广告服务,也需要给出有说服力的、具有竞争性的证据,来说明自己提供的广告服务是最有效的。这就是互联网广告的第三方监测技术的需求。
互联网广告的第三方监测技术实现相当困难。除高效率的网页抓取能力和海量数据存储以外,如何从花样百出的网络媒体页面中高效率地分离出商业广告并提供客观分析是一个对于互联网广告的第三方监测最关键的方法问题。
互联网广告信息分离方法主要用于互联网上基于WEB技术的媒体网站的商业广告情报收集分析工作。获取的数据结果,主要服务于网络媒体、网络广告公司、网络广告主等与互联网商业广告行为相关的各类企业。主要用于获得竞争媒体情报分析、广告主投放历史数据调查、国内网络广告市场动态走势分析等,决策分析用数据。
互联网广告信息分离方法适用于第三方广告监测技术的各项需求,以广告实际投放为监测目标,能实现跨媒体监测、兼容各种媒体的广告投放系统。
现有的广告信息分离方法是依靠广告投放的监测代码作为特征码,就是多数媒体(拥有成熟广告投放系统的媒体)的每个页面的每个广告投放点都有一套固定的代码,可以在抓取系统中设定这些代码,来实现广告的分离工作。简单来说就是特征码分离技术。
该方法在适应媒体变化和新型广告投放技术方面有一定差别,需要更多的人力去关注媒体的频道栏目及广告投放技术的变化情况。
可见,业界存在着一种技术需求:提供一种智能化的、准确的分离出页面中的广告内容,并且能帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣工作量的方法。
发明内容
本发明的目的是提供一种互联网广告信息处理方法,解决现有技术的缺陷,能够智能、准确地分离出互联网页面中的广告内容,并且帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣工作量。
本发明的技术方案如下:
本发明提供了一种互联网广告信息的处理方法,该方法主要依赖各互联网媒体页面中对所有链接的统一资源定位器(Uniform Resoure Locator,以下简称URL)地址进行分析,将链接到被监测媒体以外网站的链接进行分析归类,能够非常智能准确的分离出页面中的广告内容,帮助广告分拣人员快速对广告内容确认分析,大大降低人工分拣的工作量。
本发明的一个实施例提供了一种互联网广告信息处理方法,包括如下步骤:
页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将其解释为用户显示界面,得到原始超文本标志语言(Hyper Text Markup Language,以下简称为HTML)页面;
链接分离步骤,分离原始HTML页面中的全部链接信息,记录IE浏览器中所有链接对象,得到页面元素链接列表;
域名分析步骤,分析网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表;
URL聚类分析步骤,:对于所有分析出的非网站内链接列表中的每一个链接,进行4级聚类分析,得到链接列表聚类分析表。
本发明方法还可以包括:广告信息存储步骤,将原始URL保存到数据库内,并将此链接列表聚类分析表作为索引信息保存在数据索引数据表中。
本发明的优点是:
1.兼容各种互联网媒体,可兼容所有使用WEB技术,支持IE浏览器的网络媒体。
2.兼容各种互联网广告技术,主要有:文字链接广告、图片广告、Flash广告三种,这些广告可以放置在媒体页面的任何位置,可以显示或隐藏,可以跟随页面或用户操作进行变化。
3.高自动分离识别率,平均页面商业广告自动分离识别率不低于90%。
4.高分离识别效率,平均每1MB页面元素内容,分离识别时间小于20秒(未排除网络带宽因素)。
5.兼容各种URL网络地址格式,主要有:HTTP、HTTPS、FTP等可以用于IE浏览器的协议
6.支持多窗口多实体技术,可分析多重框架页面、弹出窗口、内嵌页面的广告内容分析
7.支持Flash广告链接提取,可以从Flash广告中提取点击URL链接,兼容压缩和非压缩格式的Flash。
8.限于纯商业广告分离,即与网站无合作关系的,广告点击后,链接跳转到与该媒体无直接关系的网站。
9.无需广告特征数据库作引导,无需对被监测页面进行广告特征描述,对任何页面可直接进行抓取分析。
10.跨媒体广告数据聚合,可自动分析出,一个广告活动投放在多个网络媒体上的投放之间的关系,并进行数据聚合。
11.广告投放位置信息完整,可记录广告出现的页面的完整URL,记录广告出现在页面的具体坐标位置。
附图说明
下面结合附图,通过对本发明的具体实施方式的详细描述,将使本发明的技术方案及其他有益效果显而易见。
图1为本发明互联网广告信息处理方法示意图。
具体实施方式
为了更进一步了解本发明的特征,请参阅以下有关本发明的详细说明与附图,然而所附图式仅提供参考与说明之用,并非用来对本发明的保护范围加以限制。
如图1所示,首先,执行页面内容抓取步骤101,该步骤从互联网下载被监测网站页面的内容,并自动由IE浏览器将其解释为用户显示界面,得到原始HTML页面111。
然后,执行链接分离步骤102,分离原始HTML页面111中的全部链接信息,记录IE浏览器中所有链接对象的链接,链接对象包括文字链接、图片链接、Flash链接等现存互联网的所有链接方式。对于Flash链接形式,使用模拟点击的方式获得其链接。对于具有跳转功能的链接形式,采用HTTP协议访问的方式获得其最终链接。得到页面元素链接列表112。
接下来,执行域名分析步骤103,分析上一步骤102所获得的网页元素链接列表112,将链接中不属于该网站的链接分离出来。如果同一个网站有多个域名指向,则通过在设定监测对象时作多个设定来获取此网站所对应的多个域名。由此,得到非网站内链接列表113。
随后,执行URL聚类分析步骤104,:对于所有分析出的外网链接,即非网站内链接列表113中的每一个链接,进行4级聚类分析。例如,此4级聚类分析可以表示为如下格式:
http://域名级/目录级/文件级?参数级
用此4级聚类分析方法表示的网站链接为:
http://www.nikefootball.com.cn/wtn/index.php?sn=11231
http://www.nikefootball.com.cn/wtn/index.php?sn=3411
http://www.nikefootball.com.cn/wtn/news.php
http://www.nikefootball.com.cn/
由此得到链接列表聚类分析表114。
最后,执行广告信息存储步骤105,将原始URL保存到数据库内,并将此链接列表聚类分析表114作为索引信息保存在数据索引数据表中。为后期的人工广告信息分拣提供数据支持。
用上述的互联网广告信息处理方法来分离、分析广告信息,以新浪(www.sina.com.cn)网站为例,效果举例如下:
随机抽取其10个频道中100个页面,共发现521个商业广告。
广告分离准确性,商业广告分离准确性为93.5%。
广告分离遗漏率,商业广告分离遗漏率为3.1%。
广告分离时间效率,商业广告分离耗时为1653秒,平均16.5秒/页。(未排除带宽因素)
广告分离后聚合分析,521个广告中包含109个广告主题目标。
由上述数据可见,应用本发明方法进行广告信息分离、分析处理,具有准确性高、遗漏率低、分析时间短、节省资源、节省人力的多重优点。
应当理解的是,上述对实施例的详细说明仅为了理解本发明,对本领域普通技术人员而言,可以根据上述说明加以改进或变换。只要是达到此目的的所有改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种互联网广告信息处理方法,其特征在于,包含如下步骤:
页面内容抓取步骤,从互联网中的网站上下载被监测网站页面的内容,并自动由IE浏览器将该内容解释为用户显示界面,得到原始超文本标志语言页面;
链接分离步骤,分离该原始超文本标志语言页面中的全部链接信息,记录IE浏览器中所有链接对象的链接,得到网页元素链接列表;
域名分析步骤,分析该网页元素链接列表,将链接中不属于该网站的链接分离出来,得到非网站内链接列表;
统一资源定位器聚类分析步骤,:对于该非网站内链接列表中的每一个链接,进行聚类分析,得到链接列表聚类分析表。
2.根据权利要求1所述的互联网广告信息处理方法,其特征在于,还包括:
广告信息存储步骤,将该原始统一资源定位器保存到数据库内,并将该链接列表聚类分析表作为索引信息保存在数据索引数据表中。
3.根据权利要求1所述的互联网广告信息处理方法,其特征在于,所述的链接对象为如下形式之一:文字链接、图片链接和Flash链接。
4.根据权利要求2所述的互联网广告信息处理方法,其特征在于,所述的链接对象为如下形式之一:文字链接、图片链接和Flash链接。
5.根据权利要求3所述的互联网广告信息处理方法,其特征在于,当该链接对象为Flash链接形式时,在该链接分离步骤中使用模拟点击的方式获得该链接。
6.根据权利要求3所述的互联网广告信息处理方法,其特征在于,当该链接对象为具有跳转功能的链接形式时,在该链接分离步骤中采用HTTP协议访问的方式获得该链接。
7.根据权利要求2所述的互联网广告信息处理方法,其特征在于,该域名分析步骤还包括:
当该网站具有多个域名指向时,通过在设定监测对象时作多个设定来获取该网站所对应的多个域名。
8.根据权利要求1或2所述的互联网广告信息处理方法,其特征在于,该聚类分析为4级聚类分析。
9.根据权利要求8所述的互联网广告信息处理方法,其特征在于,该4级聚类分析为如下形式的表示:
http://域名级/目录级/文件级?参数级。
10.根据权利要求5所述的互联网广告信息处理方法,其特征在于,该聚类分析为4级聚类分析,该4级聚类分析为如下形式的表示:
http://域名级/目录级/文件级?参数级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100456207A CN101383713B (zh) | 2007-09-06 | 2007-09-06 | 一种互联网广告信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100456207A CN101383713B (zh) | 2007-09-06 | 2007-09-06 | 一种互联网广告信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101383713A true CN101383713A (zh) | 2009-03-11 |
CN101383713B CN101383713B (zh) | 2011-06-22 |
Family
ID=40463354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100456207A Active CN101383713B (zh) | 2007-09-06 | 2007-09-06 | 一种互联网广告信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101383713B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102521237A (zh) * | 2011-11-14 | 2012-06-27 | 江苏联著实业有限公司 | 一种用于数字网报的热区服务管理系统 |
CN102693231A (zh) * | 2011-03-23 | 2012-09-26 | 百度在线网络技术(北京)有限公司 | 用于根据来自网络的图像来确定图集的方法、装置和设备 |
CN103378990A (zh) * | 2012-04-16 | 2013-10-30 | 广州艾之媒信息咨询有限公司 | 一种基于移动互联网内嵌代码的数据监测方法 |
CN103679014A (zh) * | 2012-09-04 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 网页恶意Flash的拦截处理方法和装置 |
CN104021126A (zh) * | 2013-02-28 | 2014-09-03 | 深圳市世纪光速信息技术有限公司 | 网页内容的过滤方法及服务器 |
CN104050591A (zh) * | 2014-06-25 | 2014-09-17 | 上海艾瑞市场咨询有限公司 | Pc终端广告投放量分析及效果优化系统及方法 |
CN106209889A (zh) * | 2016-07-25 | 2016-12-07 | 北京小米移动软件有限公司 | 检测网页中劫持信息的方法及装置 |
CN106294815A (zh) * | 2016-08-16 | 2017-01-04 | 晶赞广告(上海)有限公司 | 一种url的聚类方法及装置 |
CN108280103A (zh) * | 2017-02-10 | 2018-07-13 | 广州市动景计算机科技有限公司 | 网站指标统计方法、装置及服务器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1505345A (zh) * | 2002-12-02 | 2004-06-16 | 深圳市中兴通讯股份有限公司上海第二 | 一种接入用户强制访问认证服务器的方法 |
CN1964269A (zh) * | 2006-11-21 | 2007-05-16 | 成都金山数字娱乐科技有限公司 | 一种增强互联网网站访问者之间相互沟通的方法 |
-
2007
- 2007-09-06 CN CN2007100456207A patent/CN101383713B/zh active Active
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102693231A (zh) * | 2011-03-23 | 2012-09-26 | 百度在线网络技术(北京)有限公司 | 用于根据来自网络的图像来确定图集的方法、装置和设备 |
CN102693231B (zh) * | 2011-03-23 | 2019-07-26 | 百度在线网络技术(北京)有限公司 | 用于根据来自网络的图像来确定图集的方法、装置和设备 |
CN102521237A (zh) * | 2011-11-14 | 2012-06-27 | 江苏联著实业有限公司 | 一种用于数字网报的热区服务管理系统 |
CN103378990A (zh) * | 2012-04-16 | 2013-10-30 | 广州艾之媒信息咨询有限公司 | 一种基于移动互联网内嵌代码的数据监测方法 |
CN103378990B (zh) * | 2012-04-16 | 2017-03-01 | 广州艾媒数聚信息咨询股份有限公司 | 一种基于移动互联网内嵌代码的数据监测方法 |
CN103679014A (zh) * | 2012-09-04 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 网页恶意Flash的拦截处理方法和装置 |
CN104021126A (zh) * | 2013-02-28 | 2014-09-03 | 深圳市世纪光速信息技术有限公司 | 网页内容的过滤方法及服务器 |
CN104050591A (zh) * | 2014-06-25 | 2014-09-17 | 上海艾瑞市场咨询有限公司 | Pc终端广告投放量分析及效果优化系统及方法 |
CN106209889A (zh) * | 2016-07-25 | 2016-12-07 | 北京小米移动软件有限公司 | 检测网页中劫持信息的方法及装置 |
CN106294815A (zh) * | 2016-08-16 | 2017-01-04 | 晶赞广告(上海)有限公司 | 一种url的聚类方法及装置 |
CN108280103A (zh) * | 2017-02-10 | 2018-07-13 | 广州市动景计算机科技有限公司 | 网站指标统计方法、装置及服务器 |
CN108280103B (zh) * | 2017-02-10 | 2022-01-07 | 阿里巴巴(中国)有限公司 | 网站指标统计方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN101383713B (zh) | 2011-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101383713B (zh) | 一种互联网广告信息处理方法 | |
US7792843B2 (en) | Web analytics data ranking and audio presentation | |
CN104881803B (zh) | 一种分析广告点击链接的方法及装置 | |
JP4896071B2 (ja) | キーワード比較を用いた広告評価方法、広告評価システム、記録媒体 | |
CN102207936B (zh) | 用于提示电子文档内容变更的方法和系统 | |
WO2010036013A3 (ko) | 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법 | |
CN102387207A (zh) | 基于用户反馈信息的推送方法和推送系统 | |
CN100527132C (zh) | 分类样本集的优化方法和内容相关广告服务器 | |
CN101416212A (zh) | 蜂音广告信息的瞄准 | |
CN103164427A (zh) | 新闻聚合方法及装置 | |
JP2013526747A (ja) | インパクト分析や影響追跡を含むマルチメディアのためのデータ収集、追跡及び分析手法 | |
CN102567494B (zh) | 网站分类方法及装置 | |
KR100901960B1 (ko) | 신규 광고 가능 유알엘 제공 방법 및 시스템 | |
CN101464984A (zh) | 一种利用广告位标签发布广告的广告发布控制系统及方法 | |
JP2007323334A (ja) | Webページ抽出システム、これを用いた広告配信システムおよび広告配信プログラム | |
CN101051375A (zh) | 用于用户信息收集分析及营销的系统及方法 | |
CN106339891A (zh) | 一种基于大数据采集的智能分析方法及系统 | |
CN101145231A (zh) | 基于搜索引擎的定向广告推送方法 | |
KR101816205B1 (ko) | 인터넷 콘텐츠 제공 서버 및 그 방법이 구현된 컴퓨터로 판독 가능한 기록매체 | |
KR20170004251A (ko) | 인터넷 광고 제공장치 및 방법 | |
JP2015164008A (ja) | 解析装置及び解析方法 | |
CN102156746A (zh) | 搜索引擎的性能评价方法 | |
KR20190088358A (ko) | 광고 효과 분석 방법 및 그 장치 | |
CN113505317A (zh) | 一种违规广告识别方法、装置、电子设备及存储介质 | |
KR101613353B1 (ko) | 광고 컨텐츠에 대한 분석 서비스를 제공하는 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 1204, room 481-485, huaqingnan Road, Qingpu District, Shanghai, Shanghai Patentee after: Shanghai ARI market consulting Limited by Share Ltd Address before: No. 128, pines Road, Qingpu District, Shanghai City, Shanghai Patentee before: Shanghai iResearch Consulting Group Co., Ltd. |