CN101329687B - 一种新闻网页定位方法 - Google Patents
一种新闻网页定位方法 Download PDFInfo
- Publication number
- CN101329687B CN101329687B CN2008101175169A CN200810117516A CN101329687B CN 101329687 B CN101329687 B CN 101329687B CN 2008101175169 A CN2008101175169 A CN 2008101175169A CN 200810117516 A CN200810117516 A CN 200810117516A CN 101329687 B CN101329687 B CN 101329687B
- Authority
- CN
- China
- Prior art keywords
- web page
- webpage
- news
- url
- web pages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明涉及一种新闻网页定位方法,包括步骤:根据用户访问网页时所记录的访问日志,利用新闻的时效性区分新闻网页与非新闻网页;根据不同网页的统一资源定位符构建目录结构,将再同一目录中新闻网页出现比例高的目录确定为前缀;将所链接网页的个数高于设定阈值的确定索引网页;将索引网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所确定的前缀作为起始时,将新网页定位为新闻网页并下载。本发明的方法基于用户行为,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的定位并下载新闻网页,以供用户搜查查询时获取更准更全的信息。
Description
技术领域
本发明涉及互连网信息处理领域,具体涉及一种基于用于行为分析、挖掘新闻网页的新闻网页定位方法。
背景技术
搜索引擎是以一定的策略搜集互联网上的信息,在对信息进行组织和处理后为用户提供网络信息服务的计算机系统,它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。
目前,通用搜索引擎包含信息搜集、信息整理和用户查询三部分。信息搜集的工作主要是由网络爬虫完成的。网络爬虫先下载指定的一些网页,解析这些网页里面包含的超链接,进而下载这些超链接所指向的网页。按照上述步骤迭代,网络爬虫将互联网上的网页下载到本地。搜索引擎通过被这种称为网络爬虫的工具进行信息搜集,用索引器对抓取的信息进行整理,进而使用查询器进行用户查询,并返回相关结果列表,提供相关信息以满足用户的查询需求。
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,用户在搜索框输入能反映自己查询需求的关键词,通过浏览器提交给搜索引擎后,搜索引擎返回和用户输入的内容相关的搜索结果信息列表,用户进行点击查找所需要的信息。
从搜索引擎的角度看,网络爬虫先定位并下载下网页,离线建立索引,供用户查询。
随着搜索引擎的进一步细化,很多商业搜索引擎都提供了专门的新闻搜索功能。新闻搜索的作用是为用户提供与查询词相关的最新的新闻信息。将专门下载新闻网页的工具称为新闻爬虫。
现有的新闻爬虫大都有一个手工生成的新闻网站列表,其中包含大量比较有影响力的新闻网站,新闻爬虫将新闻网站的网页作为种子,即作为起点,链接网页后一边下载所链接的网页,同时还链接下载网页所能链接到的网页。在下载过程中当发现一条新网页的统一资源定位符(Uniform Resource Locator,URL)时,判断这个URL是否为列表中的网站的网页,如果是的话就认为它是新闻网页,将其下载;否则就将其丢弃。
但是以网站为粒度进行区分有些粗糙。绝对的新闻类网站和非新闻类网站比较少,大量的网站都是混合类型的,比如一个汽车网站,既有关于新车上市的新闻网页,也有汽车保养知识的非新闻网页。爬虫的下载范围需要更精细的划分。
发明内容
本发明针对现有方法的不足,提供一种新闻网页定位方法,该方法基于用户行为分析,从宏观统计角度出发,分析新闻网页的用户访问演变特征,迅速挑选出新闻网页,该方法可以及时、准确、客观的反映新闻网页的时效性和准确性。
为实现上述目的,本发明采用如下技术方案:
一种新闻网页定位方法,该方法包括以下步骤:s101:获取用户访问网页时所记录的访问日志,所述访问日志包括访问网页的统一资源定位符、访问网页时间和用户标识号;s102:依据访问日志获取不同网页随时间变化的访问量集中度变化率,所述访问量集中度为每个网页的集中访问量与该网页总访问量的比值;s103:将高于设定的第一阈值的访问量集中度变化率对应的网页筛选为新闻网页;s104:根据不同网页的统一资源定位符,获取聚集在相同目录中的新闻网页所占的比例,将比例高于设定的第二阈值的目录确定为统一资源定位符前缀;s105:统计每一个新闻网页所链接网页中的新闻网页所占的比值,将比值高于设定的第三阈值的新闻网页列入新闻索引网页列表;s106:将所述新闻索引网页列表中的新闻网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所述统一资源定位符前缀作为起始时,将该新网页定位为新闻网页并下载。
其中,所述访问日志包括访问网页的统一资源定位符、访问网页时间、用户标识号,在步骤s102中,由所述统一资源定位符区分不同网页,根据所述用户标识号区别不同用户,依据所述统一资源定位符出现的次数确定访问量,依据所述访问网页时间确定时间变化。
其中,在步骤s102之前,还包括:根据所述访问日志中的统一资源定位符与非法网站网页、广告推广网页的统一资源定位符相匹配,根据匹配结果删除非法网站网页、广告推广网页所对应的访问日志;根据所述访问日志中的统一资源定位符确定网页为弹出窗口或嵌入窗口,删除弹出窗口和嵌入窗口所对应的访问日志。
其中,在步骤s102之前,还包括:去除被不同用户日均访问次数小于设定的第四阈值的网页对应的访问日志。
其中,在步骤s102中,将设定第一时间段内由同一用户对同一个网页的多次访问的访问量记为一次。
其中,在步骤s102中,获取访问量集中度的方法为:统计每个网页在访问日志所记录时间内的总访问量;获取访问日志记录的每个网页的最早访问时间与最晚访问时间,将由每个网页最早访问时间与最晚访问时间确定的时间长度划分为若干段;统计每个网页在其对应的各时间段内的集中访问量;由每个网页得到的集中访问量与该网页总访问量的比值,获取不同时间段内该网页的访问量集中度。
其中,在步骤s102中,确定每个网页从最早访问时间到设定的第二时间段为前时间段,从设定的第二时间段后到最晚访问时间为后时间段;统计每个网页在前时间段的集中访问量和后时间段内的集中访问量;由每个网页的前时间段与后段时间集中访问量与该网页总访问量的比值,分别获取在前段时间与后时间段内的访问量集中度;在步骤s103中,前时段内访问量集中度达到设定比例值以上的网页确定为新闻网页。
其中,在步骤s104中,获取聚集在相同目录中的新闻网页所占的比例方法为:根据不同网页的统一资源定位符构建分级的目录结构;确定在同一目录下所聚集的网页总数;确定在同一目录下被筛选为新闻网页的数目;将同一目录下所存在的新闻网页的数目与所述网页总数的比值,确定为相同目录下的新闻网页所占的比例。
其中,所述访问日志中记录有访问网页所链接网页的统一资源定位符,在步骤s105中,依据访问日志中所记录的访问网页所链接网页的统一资源定位符,确定链接的网页总数。
利用本发明所提供的新闻网页定位方法,具有以下有益效果:
1)该方法利用了新闻具有时效性的特点,可以有效过滤一些非新闻网站上的非新闻网页,降低了新闻爬虫的工作量,提高新闻网页定位的准确性;
2)该方法中的训练数据来源为网络用户访问日志,对来源数据进行分析后不但得到可能出现新闻网页的网站,还得到了可能出现新闻网页的目录,这样搜索粒度变得更细,得到的结果更准确;
3)该方法的整个过程由计算机自动完成,而不同于传统的人工录入新闻网站的方法,具有准确客观、迅速定位的优点。
附图说明
图1为本发明新闻网页定位方法的流程图;
图2为本发明实施例中所构建的目录结构;
图3为本发明实施例中新闻定位方法的示意图;
图4为本发明实施例中确定网页跳转次数所基于的访问日志信息示意图。
具体实施方式
本发明提出的新闻网页定位方法,结合附图和实施例说明如下。
首先说明本发明基于用户行为分析的原理:由于用户会倾向于点击新发布的新闻网页,而较少点击比较旧的新闻网页。而对于非新闻类的网页,因为不存在过时的问题,将一直有用户点击。新闻类网页的访问量在其诞生之初比较高,几天后会有明显的下滑,此后访问量很少甚至没有。非新闻类的网页的访问量则一只会保持相对恒定。利用现有技术很容易对用户的该访问行为进行记录,该用户访问信息记录通常也被称为网络用户访问日志。访问日志不但体现了用户的访问兴趣,也包含了网页时效性随时间变化的情况。因此,从用户的查询访问信息中提取新闻网页是可行的。
在实际网站中,新闻类网页和非新闻类网页会储存在不同的目录中。因此可以通过访问日志对现有的网页进行分析,假如目录中新闻网页的比例比较高,则这个目录中新出现的网页是新闻网页的可能性也比较高。反之亦然。
如图1所示为本发明新闻网页定位方法的流程图,该方法包括以下步骤:s101:获取用户访问网页时所记录的访问日志;s102:依据访问日志获取不同网页随时间变化的访问量集中度变化率;s103:将高于设定的第一阈值的访问量集中度变化率对应的网页筛选为新闻网页;s104:根据不同网页的统一资源定位符,获取聚集在相同目录中的新闻网页所占的比例,将比例高于设定的第二阈值的目录确定为统一资源定位符前缀;s105:统计每一个新闻网页所跳转的网页中新闻网页所占的比值,将比值高于设定的第三阈值所对应的新闻网页生成新闻索引网页列表;s106:将所述新闻索引网页列表中的新闻网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所述统一资源定位符前缀作为起始时,将新网页定位为新闻网页并下载。
下面给出本发明新闻定位方法所优选的两种实施方式。
实施例1
该方法具体实施时的步骤包括:
1)数据收集
数据收集的过程即为获取用户访问时所记录的访问日志,该方法中新闻网页定位所使用的用户标识、网页以及定位过程中所使用到的相关信息来源于网络用户访问日志,对于这些访问日志,它至少需要包含以下内容信息才能用于新闻网页的自动定位:
表1供新闻网页定位使用的访问日志需包含的内容
名称 | 记录内容 | 记录位数(Byte) |
Time | 用户访问发生的日期和时间 | 4 |
Target URL | 用户访问的目标网页地址(即统一资源定位符) | 1024 |
ReferrerURL | 用户访问目标网页之前及之后的网页,如果用户点击收藏夹或者在地址栏里面输入目标URL进行访问,则此项为NULL | 1024 |
Id | 由系统自动分配的用户标识号 | 32 |
表1记录用户访问网页时的一条记录,,获取用户访问网页时所记录的访问日志后,由表1中记录的Id区别不同用户,由表1记录的Target URL区分不同网页,依据Target URL所对应记录的访问日志的条数可以确定该Target URL的访问量,依据表1所记录的Time可以确定时间变化,依据表1中的Referrer URL可以确定Target URL上一网页及跳转的下一网页URL。
当用户在地址栏里面输入网址,或者点击收藏夹里面的快捷方式时,其请求是没有来源信息的,本实施例中Referrer URL中所记录的上一网页为空值NULL。
一般搜索引擎服务提供商都可以很容易的通过浏览器的插件得到以上信息,利用现有已成熟的软件插件不但可以得到以上信息,还包括额外的其它信息,从而保证了本方法的可行性。为了实际应用,需要以如下步骤对访问日志进行:
步骤1.1数据预处理
步骤1.1.1进行访问日志编码转换,将服务器记录的编码格式转换成国家标准汉字编码的GBK格式,GBK是一个汉字编码标准,全称《汉字内码扩展规范》;
步骤1.1.2利用表1中列出的内容项对访问日志进行整理,去除表1内容项之外的信息,并将日志整理成以上内容项字符串的形式;
步骤1.1.3利用字符串匹配技术过滤用户查询中的噪声信息,过滤掉非用户主动发起的请求。利用URL中包含的广告相关的字符,例如“adv”,以及弹出窗口相关的信息,如“popup”等,过滤掉包括弹出窗口与广告等,仅保留直接反映网络普通用户需求与行为的内容项。
经过数据预处理过程,我们可以从中提取表1中列举的内容,并应用于方法的以下步骤。
步骤1.2待评估网页的筛选
按照以下规则挑选待评估网页集合S:若某个网页U在访问日志中被不同的用户日均访问的次数小于10次,则排除在集合S之外;否则把该网页U放入集合S中。
用访问的用户数对网页进行一定的筛选,保证所选择的网页能够反应当前用户的访问趋势,保证时效性和关注度,有一定的代表性。另外,挑选那些用户数较多的网页,能减少在新闻网页定位过程中,因个别用户的点击行为,而带来的较大的波动性。
2)用户访问量集中度特征提取
对于网页集合S中的每个网页U,都有一系列按天统计的访问量数值,通过表1提供的用户访问信息,我们可以得到这一系列网页的“前段时间访问量集中度”,网页第一次被访问的时间作为其诞生的时间,将由网页诞生时间与最晚访问时间确定的时间长度划分为若干段,统计每个网页在其对应的各时间段内的集中访问量;由每个网页的集中访问量与该网页总访问量的比值,获取不同时间段内该网页的访问量集中度。
本实施例中具体是将前三天作为前一时间段,后面几天为后一时间段,获取网页在诞生最初三天的访问量占其总访问量的比例,对于某网页U,其“前段时间访问量集中度”的计算公式是:
按照上述定义,由于“网页诞生前三天的累计访问量”必然小于等于“网页的总访问量”,因此“前段时间访问量集中度”的取值范围在0和1之间。
3)新闻网页的判定
新闻网页在其诞生之初,访问量较高。几天之后,新闻网页的时效性降低,访问量也大大下降,此后就只有很少或者没有访问量了。典型的新闻类的网页,前段时间访问量集中度较高,因此可以通过访问量集中度的变化判定网页是否为新闻网页,本实施例中将前段时间访问量高于0.5的网页被判断为新闻网页,即诞生前三天的访问量占总访问量的比例超过50%的网页被判断为新闻网页,否则被判断为非新闻类网页。如果前段时间访问量高于0.5,间接反应了访问量集中度的变化率较大,本实施例中还可以通过访问量集中度变化率来进行上述判断,前段时间不拘限与三天的时间,所设定的阈值也不限于0.5。
4)新闻类网页通用URL前缀的判定
新闻网页通常聚集在相同的目录中,如果一个目录中的现有网页中新闻网页的比例比较高,那么这个目录中新出现的网页是新闻网页的可能性也很高。
基于前面步骤1中已经过预处理和筛选后的网页,根据表1中所记录的Target URL,其中包含的每一个符号“/”对应一个目录,去掉URL中符号“/”右边的部分就得到了这个目录。按照目录结构对每个网站建立一棵树,本实施例中称根目录为根节点,网页为叶子节点,目录是非叶节点,目录中包含的子目录和网页就是其子节点。
将新闻网页的Target URL向上追溯确定新闻网页所属的目录;将能向上追溯到相同目录的新闻网页个数确定为该目录的新闻网页聚集数。
如图2所示为本实施例中建立的目录结构,假如新闻网页的Target URL向上追溯确定了一个网站website.com,能追溯到该网站的新闻网页为四个,分别为/index.htm,/folder1/page.htm,/folder2/page1.htm,/folder2/page2.htm,能追溯到该网站的目录为index.htm、folder1、folder2,因此可以确定聚集在不同目录下的网页聚集数。
利用前面步骤3)所判别出来的网页是否为新闻网页的结果,对每个叶子节点进行标注。获取每个非叶子节点所含新闻网页的比例,并将比例作为非叶子节点的分值。
遍历每个非叶子节点,如果某个非叶子结点的分值高于预定的阈值,就将其标注为新闻网页URL前缀节点,从它开始上溯至根节点,拼接沿途的节点,得到新闻网页URL前缀。当本实施例中将预定的阈值设为0.7,因此分值高于0.7的非叶子节点可以确定新闻网页URL前缀,上面例子中所确定的新闻网页统一资源定位符URL前缀就是website.com/folder2/。
5)新闻索引网页列表的生成
有的网页索引了大量的新闻网页,我们称这样的网页为新闻索引网页。很多用户习惯于从新闻索引网页出发,阅读新闻。根据用户的浏览行为,就能发现新闻索引网页。
对每个网页p成为新闻索引网页程度进行评分,算法为
NewsHubScore(p)=|{q|有从p到q的跳转记录}|/从p出发跳转到的网页个数。
其中p是任一网页,q是被上面步骤3)判定为新闻网页的网页。NewsHubScore实际上表示了从p出发,依据表1中所记录ReferrerURL一相所记录的该Target URL所跳转的下一网页地址,如图4所示,根据每一条日志记录的来源网页及从来源网页跳转到当前网页的次数,也可以累计跳转到不同新闻网页的个数。跳转到不同新闻网页的个数越多,说明p索引了越多的新闻网页,p作为新闻索引网页的质量就越高。
NewsHubScore高于一定阈值,实际操作中选用了0.5的网页的集合构成了新闻索引网页列表。
6)新闻爬虫工作
根据步骤1)至步骤5),我们就可以自动得到新闻索引网页列表,以及新闻网页URL前缀,下面就可以利用新闻爬虫实现新闻网页的自动发现与下载。具体过程如下:
新闻爬虫作为现有技术实际是一种网页下载工具,不同的新闻爬虫具有不同的下载策略,其工作机理为开始先给定该新闻爬虫一个网页URL,网络爬虫就将URL作为种子URL,将该种子URL网页作为下载起点开始下载,在下载过程还同时链接已下载网页所能链接到的所有网页,根据不同的下载策略选择是否下载,实际是一个不断链接不断下载的过程。
本实施例中将新闻网页索引表中的新闻网页作为新闻爬虫的种子网页,在实际下载过程新闻爬虫每发现一个新网页,都将该新网页的URL与本实施例已确定的新闻网页URL前缀从前段开始进行匹配,如果新发现网页URL前段具有与新闻网页URL前缀相同部分,则定位该新发现网页为新闻网页并将其下载,否则,定位该新发现网页为非新闻网页,将其丢弃。
实施例2
为了验证本发明的有效性、可靠性和应用性,在本实施例中设计和测试了相关的实验。
如图3所示,首先获取用户日志,本实施例中收集了从2006年11月13日到2007年1月11日共计60天的匿名网络用户浏览信息,一共包含了75,112,357条统一资源定位符URL对应的访问日志。通过对这批数据的分析,得到1542个种子URL(新闻索引网页列表)和439个新闻网页URL前缀。利用这个结果,新闻爬虫从互联网上下载了111,934个网页,其中101,870个是新闻网页,准确率为91.0%。本实施例通过对访问日志的分析,得出新闻网页访问量变化的特点,并按本实施例1相同的方法确定访问日志的网页是否为新闻网页,然后生成新闻索引网页列表和新闻网页URL前缀,在此基础上制定新闻爬虫的策略,使其可以下载更多的新闻网页。详述如下。
1)生成数据集
本实施例收集了从2006年11月13日到2007年1月11日共计60天的匿名网络用户浏览信息,一共包含了75,112,357条URL及对应的表1所记录信息的访问日志。
对所获取的数据集还进行下面的预处理过程:
步骤1.1去重
在同一天内,同一个Id用户对某个Target URL的多次访问只记作一次,以避免作弊者自动生成的请求带来的影响。
步骤1.2过滤低UV的网页
将每个网页在每天被访问的不同用户数(User View,简称UV)都统计出来,日均UV低于1的网页被过滤掉,因为这样的网页要么质量比较低,要么是由与用户身份相关的信息动态生成的(比如访问电子邮件的URL),这样的网页的访问量有较强的随机性,比较不可信,所以在后面的统计中不予考虑。
步骤1.3过滤内网访问
过滤掉用户对内网的访问记录,因为不同的人访问各自的内网,得到的信息是不同的,对其他用户没有参考价值。主要通过内网IP地址进行过滤,内网的IP范围是10.x.x.x,172.16.x.x至172.31.x.x和192.168.x.x,过滤掉对这些地址的访问即可。
数据清理之后,还剩975,151条URL。
2)用户访问量集中度特征提取
采用与实施例1相同的方法,通过统计不同网页在前三天的访问与总访问量的比值获取前段时间访问量集中度。
3)新闻网页的判定
采用与实施例1相同的方法,将前段时间访问量集中度高于0.5的网页筛选为新闻网页,这里将筛选出的新闻网页称为时效性网页,其它被称为非时效性网页,本实施例得到了147,927个时效性网页,其余827,224是非时效性页面。
4)生成新闻索引网页URL列表
采用实施例1中相同的方法对每个网页成为新闻索引网页程度进行评分,也就是每个网页累计索引的不同新闻网页的个数,将分值高于0.5的网页确定为新闻索引网页。选取新闻索引页分值最高的1,542个URL进入新闻索引网页URL列表。
5)新闻类网页通用URL前缀的判定
采用与实施例1中相同的方法为每个网站建立目录结构树,计算每个非叶节点下新闻网页的比例。本实施例中取阈值0.8,如果一个非叶节点下新闻网页的比例高于80%,则把节点对应的URL收录为新闻URL前缀。这样一共获得439个新闻URL前缀。
实际上这个阈值是可以调整的,如果新闻爬虫的带宽足够,不介意误下载一些非新闻网页,阈值就可以放低一些,能够提高新闻网页的下载总量;如果新闻爬虫的带宽很有限,无法承担误下载非新闻网页带来的带宽的浪费,就可以采用较高的阈值,提高下载的精度。
6)新闻爬虫工作策略及效果评估
本实施例中为对照改进后的新闻爬虫策略,对现有的新闻爬虫策略也进行了实验评估,在评测中对照使用的是某商用搜索引擎的新闻爬虫的下载策略。它维护了一个包含1,542个新闻网站的网站列表。它的种子URL列表就是新闻网站的首页。新闻爬虫采用的下载策略为,以种子URL作为起点开始下载,在下载中同时链接下载网页所能链接到的网页,当发现一条URL时,判断这个URL是不是那1,542个新闻网站的网页,如果是的话就认为它是新闻网页,将其下载;否则就将其丢弃。上述新闻网站的首页累计直接链接到46,210个不同的新闻网页,下载下来的这些网站的总共177,801个网页中,有86,714个新闻网页。
本发明中的新闻爬虫下载策略为:使用新闻索引网页URL列表中的URL作为下载的开始起点,在下载中同时链接下载网页所能链接到的网页,如果新发现的URL是以步骤5)中所确定的某个新闻URL前缀起始,则定位它是新闻网页,将其下载;否则就丢弃这个URL。
使用上面的策略的爬虫一共下载了111,934个网页,其中有101,870为正确的新闻网页。定义精确度为爬虫下载的网页中新闻网页的比例,定义召回率为被下载的新闻网页占全部新闻网页的比例,我们可以得到下表:
表2实验结果及比较
基准 | 基于用户行为分析的新闻爬虫 | |
下载到的新闻网页数量 | 86,714 | 101,870 |
总共下载的网页数量 | 177,801 | 111,934 |
精确度 | 48.8% | 91.0% |
召回率 | 58.6% | 68.9% |
F-Measure | 0.533 | 0.784 |
可见,利用本发明实施例的方法可以基于一段时期内所统计的访问日志制定下载策略,离线建立索引,供用户查询,后面的过程为现有技术,这里不再详述。另外,由于新闻网页的时效性,可以定期的实施本发明的方法,不断统计新时期内的用户访问日志,按上面的方法将新闻网页下后供用户查询使用一段时间,然后再更新。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。
Claims (9)
1.一种新闻网页定位方法,其特征在于,该方法包括以下步骤:
s101:获取用户访问网页时所记录的访问日志,所述访问日志包括访问网页的统一资源定位符、访问网页时间和用户标识号;
s102:依据访问日志获取不同网页随时间变化的访问量集中度变化率,所述访问量集中度为每个网页的集中访问量与该网页总访问量的比值;
s103:将高于设定的第一阈值的访问量集中度变化率对应的网页筛选为新闻网页;
s104:根据不同网页的统一资源定位符,获取聚集在相同目录中的新闻网页所占的比例,将比例高于设定的第二阈值的目录确定为统一资源定位符前缀;
s105:统计每一个新闻网页所链接网页中的新闻网页所占的比值,将比值高于设定的第三阈值的新闻网页列入新闻索引网页列表;
s106:将所述新闻索引网页列表中的新闻网页作为起点开始下载,在下载中不断链接已下载网页所能链接的新网页,当链接的新网页是以所述统一资源定位符前缀作为起始时,将所述新网页定位为新闻网页并下载。
2.如权利要求1所述的新闻网页定位方法,其特征在于,所述访问日志包括访问网页的统一资源定位符、访问网页时间、用户标识号,其中:
在步骤s102中,由所述统一资源定位符区分不同网页,根据所述用户标识号区别不同用户,依据所述统一资源定位符出现的次数确定访问量,依据所述访问网页时间确定时间变化。
3.如权利要求2所述的新闻网页定位方法,其特征在于,在步骤s102之前,还包括:
根据所述访问日志中的统一资源定位符与非法网站网页、广告推广网页的统一资源定位符相匹配,根据匹配结果删除非法网站网页、广告推广网页所对应的访问日志;
根据所述访问日志中的统一资源定位符确定网页为弹出窗口或嵌入窗口,删除弹出窗口和嵌入窗口所对应的访问日志。
4.如权利要求1或2所述的新闻网页定位方法,其特征在于,在步骤s102之前,还包括:
去除被不同用户日均访问次数小于设定的第四阈值的网页对应的访问日志。
5.如权利要求1或2所述的新闻网页定位方法,其特征在于,在步骤s102中,将设定第一时间段内由同一用户对同一个网页的多次访问的访问量记为一次。
6.如权利要求1或2所述的新闻网页定位方法,其特征在于,在步骤s102中,获取访问量集中度的方法为:
统计每个网页在访问日志所记录时间内的总访问量;
获取访问日志记录的每个网页的最早访问时间与最晚访问时间,将由每个网页最早访问时间与最晚访问时间确定的时间长度划分为若干段;
统计每个网页在其对应的各时间段内的集中访问量;
由每个网页得到的集中访问量与该网页总访问量的比值,获取不同时间段内该网页的访问量集中度。
7.如权利要求6所述的新闻网页定位方法,其特征在于,
在步骤s102中,确定每个网页从最早访问时间到设定的第二时间段为前时间段,从设定的第二时间段到最晚访问时间为后时间段;
统计每个网页在前时间段的集中访问量和后时间段内的集中访问量;
由每个网页的前时间段与后段时间集中访问量与该网页总访问量的比值,分别获取在前段时间与后时间段内的访问量集中度;
在步骤s103中,前时段内访问量集中度达到设定比例值以上的网页确定为新闻网页。
8.如权利要求1所述的新闻网页定位方法,其特征在于,在步骤s104中,获取聚集在相同目录中的新闻网页所占的比例方法为:
根据不同网页的统一资源定位符构建分级的目录结构;
确定在同一目录下所聚集的网页总数;
确定在同一目录下被筛选为新闻网页的数目;
将同一目录下所存在的新闻网页的数目与所述网页总数的比值,确定为相同目录下的新闻网页所占的比例。
9.如权利要求8所述的新闻网页定位方法,其特征在于,所述访问日志中记录有访问网页所链接网页的统一资源定位符,其中:
在步骤s105中,依据访问日志中所记录的访问网页所链接网页的统一资源定位符,确定链接的网页总数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101175169A CN101329687B (zh) | 2008-07-31 | 2008-07-31 | 一种新闻网页定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008101175169A CN101329687B (zh) | 2008-07-31 | 2008-07-31 | 一种新闻网页定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101329687A CN101329687A (zh) | 2008-12-24 |
CN101329687B true CN101329687B (zh) | 2010-06-23 |
Family
ID=40205497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101175169A Active CN101329687B (zh) | 2008-07-31 | 2008-07-31 | 一种新闻网页定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101329687B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9182932B2 (en) | 2007-11-05 | 2015-11-10 | Hewlett-Packard Development Company, L.P. | Systems and methods for printing content associated with a website |
CN102063477B (zh) * | 2010-12-13 | 2012-11-28 | 百度在线网络技术(北京)有限公司 | 一种网站数据抓取装置及方法 |
US9152357B2 (en) | 2011-02-23 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | Method and system for providing print content to a client |
US9137394B2 (en) | 2011-04-13 | 2015-09-15 | Hewlett-Packard Development Company, L.P. | Systems and methods for obtaining a resource |
WO2013059958A1 (en) | 2011-10-25 | 2013-05-02 | Hewlett-Packard Development Company, L.P. | Automatic selection of web page objects for printing |
WO2013159246A1 (en) * | 2012-04-28 | 2013-10-31 | Hewlett-Packard Development Company, L.P. | Detecting valuable sections in webpage |
CN103390000B (zh) * | 2012-05-09 | 2016-07-06 | 中国移动通信集团公司 | 一种网页搜索方法及网页搜索系统 |
US9773214B2 (en) | 2012-08-06 | 2017-09-26 | Hewlett-Packard Development Company, L.P. | Content feed printing |
CN103793421B (zh) * | 2012-10-31 | 2017-07-07 | 北京拓尔思信息技术股份有限公司 | 基于网页结构的信息动态采集更新调度方法 |
CN103810178A (zh) * | 2012-11-07 | 2014-05-21 | 江苏仕德伟网络科技股份有限公司 | 一种计算网页完整率的方法 |
CN103218452B (zh) * | 2013-04-27 | 2016-08-10 | 人民搜索网络股份公司 | 一种识别Hub页中有效链接的方法和装置 |
CN103605742B (zh) * | 2013-11-20 | 2017-07-04 | 北京搜狗科技发展有限公司 | 识别网络资源实体目录页的方法及装置 |
CN103685294B (zh) * | 2013-12-20 | 2017-02-22 | 北京奇安信科技有限公司 | 拒绝服务攻击的攻击源的识别方法和装置 |
CN105446968B (zh) * | 2014-06-04 | 2018-12-25 | 广州市动景计算机科技有限公司 | 一种检测网页特征区域的方法和装置 |
CN104008213B (zh) * | 2014-06-24 | 2017-11-28 | 电子科技大学 | 一种网页信息更新发现与统计的方法和装置 |
CN104182482B (zh) * | 2014-08-06 | 2018-05-22 | 中国科学院计算技术研究所 | 一种新闻列表页判断方法及筛选新闻列表页的方法 |
CN104408175B (zh) * | 2014-12-12 | 2017-11-10 | 北京奇虎科技有限公司 | 识别网页类型的方法和装置 |
US10082992B2 (en) | 2014-12-22 | 2018-09-25 | Hewlett-Packard Development Company, L.P. | Providing a print-ready document |
CN105302878B (zh) * | 2015-10-09 | 2021-02-02 | 北京奇虎科技有限公司 | 交叉索引页中的网页链接记录方法和装置 |
CN107357795B (zh) * | 2016-05-10 | 2020-03-03 | 北京国双科技有限公司 | 网站间关联度的监测方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1791022A (zh) * | 2005-12-26 | 2006-06-21 | 阿里巴巴公司 | 一种日志分析方法和系统 |
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
CN101114285A (zh) * | 2006-07-25 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种互联网主题文件搜索方法、爬虫系统和搜索引擎 |
-
2008
- 2008-07-31 CN CN2008101175169A patent/CN101329687B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1791022A (zh) * | 2005-12-26 | 2006-06-21 | 阿里巴巴公司 | 一种日志分析方法和系统 |
CN101114285A (zh) * | 2006-07-25 | 2008-01-30 | 腾讯科技(深圳)有限公司 | 一种互联网主题文件搜索方法、爬虫系统和搜索引擎 |
CN101055587A (zh) * | 2007-05-25 | 2007-10-17 | 清华大学 | 一种基于用户行为信息的搜索引擎检索结果重排序方法 |
Non-Patent Citations (2)
Title |
---|
王勇,刘奕群,张敏,马少平,茹立云.基于用户兴趣分析的网页生命周期建模.中文信息学报22 2.2008,22(2),76-80. |
王勇,刘奕群,张敏,马少平,茹立云.基于用户兴趣分析的网页生命周期建模.中文信息学报22 2.2008,22(2),76-80. * |
Also Published As
Publication number | Publication date |
---|---|
CN101329687A (zh) | 2008-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101329687B (zh) | 一种新闻网页定位方法 | |
CN102930059B (zh) | 一种聚焦爬虫的设计方法 | |
US9524343B2 (en) | Interactive web crawler | |
Yanbe et al. | Can social bookmarking enhance search in the web? | |
CN100405371C (zh) | 一种提取新词的方法和系统 | |
CN100440224C (zh) | 一种搜索引擎性能评价的自动化处理方法 | |
US8554759B1 (en) | Selection of documents to place in search index | |
KR101463974B1 (ko) | 마케팅을 위한 빅데이터 분석 시스템 및 방법 | |
CN100442290C (zh) | 访问标识索引系统及访问标识索引库生成方法 | |
CN102722498B (zh) | 搜索引擎及其实现方法 | |
CN106095979B (zh) | Url合并处理方法和装置 | |
CN101382954B (zh) | 提供网址收藏名称的方法及系统 | |
CN100507918C (zh) | 一种网络关键资源页面的自动定位方法 | |
CN106021583B (zh) | 页面流量数据的统计方法及其系统 | |
CN101908071A (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
CN102306201B (zh) | 一种网页标题分析的方法和系统 | |
CN102710795A (zh) | 热点聚合方法及装置 | |
CN101188521B (zh) | 一种挖掘用户行为数据的方法和网站服务器 | |
CN104182482A (zh) | 一种新闻列表页判断方法及筛选新闻列表页的方法 | |
CN102819384A (zh) | 一种输入栏处进行提示显示的方法和装置 | |
KR100671077B1 (ko) | 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템 | |
CN101310277A (zh) | 获得文本的表示的方法 | |
KR20000063422A (ko) | 인터넷 정보 검색 시 개인의 북마크 파일 데이터를기반으로 필터링하여 개인 맞춤 검색 결과를 도출하는 방법 | |
CN104484367A (zh) | 一种数据挖掘分析系统 | |
CN106055572B (zh) | 页面转化参数的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20090619 Address after: 100084-82 mailbox, Tsinghua Yuan, Haidian District, Beijing, Beijing: 100084 Applicant after: Tsinghua University Co-applicant after: Sogo Science-Technology Development Co., Ltd., Beijing Address before: 100084-82 mailbox, Tsinghua Yuan, Haidian District, Beijing, Beijing: 100084 Applicant before: Tsinghua University |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |