CN102662954B - 一种基于url字符串信息学习的主题爬虫系统的实现方法 - Google Patents

一种基于url字符串信息学习的主题爬虫系统的实现方法 Download PDF

Info

Publication number
CN102662954B
CN102662954B CN201210052902.0A CN201210052902A CN102662954B CN 102662954 B CN102662954 B CN 102662954B CN 201210052902 A CN201210052902 A CN 201210052902A CN 102662954 B CN102662954 B CN 102662954B
Authority
CN
China
Prior art keywords
url
word
dictionary
study
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210052902.0A
Other languages
English (en)
Other versions
CN102662954A (zh
Inventor
徐向华
任祖杰
万健
殷昱煜
胡昔祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201210052902.0A priority Critical patent/CN102662954B/zh
Publication of CN102662954A publication Critical patent/CN102662954A/zh
Application granted granted Critical
Publication of CN102662954B publication Critical patent/CN102662954B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开一种基于URL字符串信息学习的主题爬虫系统的实现方法,首先,改进了传统的主题爬虫的相关度判断方法,提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法,并采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,提高了目标URL主题相关度判断的准确性。最后,在不增加计算复杂度的同时,利用内容分析和链接分析相结合的爬虫策略,防止了主题爬虫陷入局部最优,提高了爬虫爬取时的全局性,改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。

Description

一种基于URL字符串信息学习的主题爬虫系统的实现方法
技术领域
本发明属于数据挖掘和搜索引擎技术领域,特别涉及一种基于URL字符串信息学习的主题爬虫系统的实现方法。
背景技术
随着互联网的信息量飞速增长以及人们对搜索引擎的要求越来越高,传统搜索引擎的局限性,如覆盖率低、时效性差、结果不准确、返回不相关的结果太多等缺点逐渐体现。为解决这些问题,研究人员提出垂直搜索引擎,专注与某个特定领域的内容搜索。其中,主题爬虫系统是垂直搜索引擎的核心部分,其主要目标是在有限的时间与网络带宽限制下尽可能多地采集与某个指定主题相关的高质量网页,忽略与指定主题无关或一些低质量的网页。主题爬虫系统要解决的主要问题有主题是否定义的明确;主题相关的URL是否被优先抓取;怎样去判断一个未知URL的主题相关性;主题网页是否都被抓取,有没有数据丢失。
目前存在的主题爬虫采用的爬行策略主要有基于文本内容的爬行策略,基于链接的爬行策略和基于分类的爬行策略。基于文本内容的爬行策略,在主题相关网页附近爬行时表现出较好的性能,但当离主题相关网页较远时容易迷失爬行方向,很难反映Web的整体情况。基于链接的爬行策略,在通用爬虫中有很好的指导效果,更适合发现权威网页,但不适合发现主题资源,而且其计算量一般都很大,导致更新周期较长,严重影响了爬行器的爬行效率。基于分类的爬虫,比较明确的定位用户查询串的主题信息,也可以将爬虫限定在特定类别的页面可以更为准确的提取用户查询主题,相似度计算也更方便。但不能反映Web的整体结构,存在计算复杂度较高,阈值不易确定等副作用。
发明内容
本发明的目的在于针对现有方法存在的上述问题,提出在挖掘URL字符串信息的同时结合网页内容分析和链接分析来提高主题爬虫的整体性能。在计算主题相关度的时候,结合了URL字符串信息、网页内容、锚信息去计算目标URL的主题相关度,同时还采用机器的自主学习对URL字符串所携带的信息进行学习,从而使URL主题相关度的计算更精确。另外,提出了基于文本内容分析和链接分析相结合的爬行策略,在防止爬虫只在局部最优的同时,还避免了较高的计算复杂度。
本发明解决其技术问题的技术方案是:
本发明是基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度,采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,利用内容分析和链接分析相结合的爬虫策略。其具体步骤为:
步骤1--选择种子URL:
依据给定的主题,结合机器学习和人工选择,选定与主题相关的K个网页的URL作为种子URL,网页下载器从选定的种子URL开始下载网页。
步骤2--分析下载页面:
网页分析器对下载的网页内容和链接进行分析,提取网页的URL字符串信息、网页内容、锚信息。
步骤3--主题相关度计算:
根据URL字符串信息、网页内容、锚信息进行主题相关度计算。
步骤4--过滤不相关网页:
根据主题相关度,把低于主题相关度某个阀值的URL过滤掉。
步骤5--URL字符串信息学习:
URL字符串信息学习的基本过程是,先从给定网页的URL中得到一个训练数据集。URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习,得到一个主题知识库,主题知识库去指导URL主题相关度的计算,URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习,经过URL字符串信息学习后,再去更新主题知识库,以便进一步学习,改进系统的性能。
步骤6—确定待下载的URL队列:
采用内容分析与链接分析相结合的爬虫策略,得出一个待下载的具有优先级的URL队列。
本发明具有的有益效果是:
1、本发明通过URL字符串信息、网页内容、锚信息去计算目标URL的主题相关度,提高了URL相关度计算的准确性。
2、本发明通过对URL字符串信息不断学习动态的改变主题相关向量,提高了主题相关向量判断的准确性。
3、本发明采用的内容分析和链接分析相结合的爬虫策略在减少计算复杂度的同时,能爬取更多的与主题相关的网页。
4、本发明可用于垂直搜索引擎的爬虫系统中,也可以用于网页的自动分类中。
附图说明
图1是本发明主题爬虫系统的总体框架图。
图2是本发明URL字符串信息学习的原理图。
具体实施方式
下面结合附图和具体实施应用过程对本发明进一步说明:
参照图1执行步骤来说明本发明的实施过程:
步骤1--选择种子URL:
依据给定的主题,结合机器学习和人工选择,选定与主题相关的K个网页的URL作为种子URL,网页下载器从种子URL开始下载网页。
步骤2--分析下载页面:
网页分析器对下载的网页内容和链接进行分析,提取网页的URL字符串信息、网页内容、锚信息。
步骤3--主题相关度计算:
1)     相关度计算模型:
主题相关度计算模型采用空间向量模型如下::
    (1)
其中表示特征向量在文本中的权重值,表示特征向量i在主题特征库中的权值,N代表主题的特征向量,表示文本与给定主题向量的相关度。常用的计算文本权重值算法是 TF-IDF。其中TF部分表明了一个词组在给定链接上下文中出现的次数,IDF则使是在页面中出现次数很多的词组权值下降。链接上下文中没有出现的词组在向量中的对应元素其权值为0。
2) 主题向量的建立:
主题向量关系到网页主题相关度判断的准确性,直接决定了一个主题网络爬虫的爬行效果。主题向量是通过分析权威和中心主题资源,抽取出该领域比较有代表性的关键词组成一个向量。主题特征词的设置结合了手工设置和机器学习两种方法,根据需求建立了两个主题向量,一个是计算内容和锚的相关度时需要的特征向量,另一个是计算URL字符串相关度时需要的特征向量。在建立第一个特征向量的时候我们结合了上面两种方法的优缺点,在基于机器学习的基础上再进行人工选取从而确定主题特征词和其权值。第二个特征向量的建立是人工分析一些主题相关的网页得到一个初始的特征向量,再经过机器学习并不断地更新特征向量里的特征词和对应的权值。
3) 目标URL主题相关度计算:
3) 目标URL主题相关度计算:
根据1)中的相关度计算模型以及URL字符串信息、网页内容、锚信息对目标URL进行相关度计算。计算如式(2)
 (2)
其中分别表示父网页、锚信息、URL字符串的主题相关度,相关度的计算使用上面的空间向量模型,是各部分所占的分数比例,满足
步骤4--过滤不相关网页:
根据步骤3计算出的URL主题相关度,主题过滤器把主题相关度低于阈值的URL都过滤掉。
步骤5--URL字符串信息学习:
URL学习器是学习URL字符串信息,不断更新主题相关向量。由图2来说明URL字符串信息学习的基本过程是,先从给定网页的一些URL中得到一个训练数据集。URL字符串信息学习部分利用选取的学习算法对URL字符串信息进行学习,得到一个主题知识库,主题知识库去指导URL主题相关度的计算,URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习,经过URL字符串信息学习后,再去更新主题知识库,以便进一步学习,改进系统的性能。URL字符串信息学习详细过程:
1) 训练数据:取100个网页,这些网页中有与主题相关的权威网页和中心网页,也有与主题不相关的一些网页,对这100个网页的URL进行训练,得出两个样本URL,样本一是与主题相关的URL集合,样本2是与主题不相关的URL集合。
2) 数据处理:对样本中的URL进行分割提取处理。URL分割提取处理过程为:把URL分割成一个个的关键词语,去掉那些不含信息的词语,得到能够反馈一些信息的词语。
例如:对URL http://sports.sina.com.cn/nba/进行分词后有http 、sports、sina、com、cn、nba,去掉不含信息的词语http、com、cn后得到sports、sina,nba这些能反馈信息的词语。
对上面的样本1和样本2中的URL进行分割提取处理之后得到一系列的词语,样本1中得到的是与主题相关词语,给每个词语一个权重,形成一个主题相关性词库,样本2中得到的是与主题不相关的词语,给他们初始权重为0,形成一个主题无关性词库。另外再建个学习词库,用来记录URL字符串信息学习得来的与主题相关词和该词出现次数。
3) URL相关度反馈学习:对URL进行上面的分割提取处理,得到一些词语,并给的值作为权重传给这些词语。其具体的过程如下:
(1)当(阈值)时把这些词组加入主题无关性词库,同时更改这些词语的权重值,得到更新的权重:
      (3)
(2)当(阈值)时把URL相关度值传递给这些词语作为权重。对这些词语的处理如下: 
①如果主题无关性词库有该词语,则不处理并丢弃该词语。
②如果主题无关性词库没有该词语,主题相关性词库里有,学习词库里没有,则更新主题相关性词库中该词语的权重,得到更新后的权重:
       (4)
③如果主题无关性词库没有该词语且学习词库和主题相关性词库都没有该词语,首先把该词加入学习词库,并记录该词语出现次数为1,然后把该词语加入主题相关性词库,并把它的权重值的作为该词语的新权重加入主题相关词库。得到该词的权重:
                       (5)
④如果学习词库和主题相关性词库都有,首先查看学习词库中该词出现的次数m,并把该词出现的次数加1。
时,得到更新的权重:
       (6)
时,得到更新的权重:
  (7)
其中式(4)(5)(6)(7)中的是主题相关性词库中原有权重,是URL传递给词i的权重,是该词语更新后的权重。上面式(5)和式(7)中的n是自己定义的阀值。式(5)和式(7)中处理是为了减少误判,只有当学习词库中通过学习得到的词语达到n次的时候才充分判定它和主题相关,从而按式(6)中的方法去更新权重值,这样使学习得到的结果更精确。
4) 主题知识库更新
为了使学习得到的结果更好,让主题相关性词库中尽量不包含与主题不相关的词语,主题无关性词库不包含与主题相关的词语。定时的对主题知识库进行处理,对主题相关性词库,分析主题相关性词库中每个词语的权重值,把权重值小于s(阈值)的词语从该词库中移除,这样进一步降低了把主题不相关的词语误判为主题相关词语的概率。对主题无关性词库,统计每个词语的权重,按其权重值的大小进行排名,把排名靠前的按一个比例H(阈值)删除,这样可以减少把那些主题相关词语误判为与主题不相关词语概率。
步骤6--主题爬虫的爬行策略:
爬行策略处理器指定一个内容分析与链接分析相结合的爬虫策略,具体过程如下:
1) 首先根据URL字符串信息、网页内容、锚信息去计算一个URL的主题相关度得到一个相关度值,滤除相关度值小于一个给定阈值的URL。 
2) 创建一个队列List,记录已经访问过的来自不同主机的URL的主机名。
3) 当一个网页向外引出的与主题相关网页数大于一个阈值时,给它该网页URL一个奖励分数
4) 当一个网页主机名不在List队列中,就给该网页URL一个奖励分数,并把该网页的主机名加入List队列。
5) 当一个网页的主机名与父网页的主机名不同,再给该网页URL一个奖励分数
6) 由上面1—5中我们得到一个URL的最终的得分为:
           (8)
7) 根据6)中得到URL最终得分产生一个优先级队列,这个优先级队列指导着网络爬虫的爬行。

Claims (4)

1.一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于:基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度,采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,利用内容分析和链接分析相结合的爬虫策略;其具体步骤为:
步骤1.选择种子URL:依据给定的主题,结合机器学习和人工选择,选定与主题相关的K个网页的URL作为种子URL,网页下载器从选定的种子URL开始下载网页;
步骤2.分析下载页面:网页分析器对下载的网页内容和链接进行分析,提取网页的URL字符串信息、网页内容、锚信息;
步骤3.主题相关度计算:根据URL字符串信息、网页内容、锚信息进行主题相关度计算;
步骤4.过滤不相关网页:根据主题相关度,把低于主题相关度某个阀值的URL过滤掉;
步骤5.URL字符串信息学习:URL字符串信息学习的基本过程是,先从给定网页的URL中得到一个训练数据集;URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习,得到一个主题知识库,主题知识库去指导URL主题相关度的计算,URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习,经过URL字符串信息学习后,再去更新主题知识库,以便进一步学习,改进系统的性能;具体是:
1)训练数据:取100个网页,对这100个网页的URL进行训练,得出两个样本,样本1是与主题相关的URL集合,样本2是与主题不相关的URL集合;
2)数据处理:对样本中的URL进行分割提取处理,得到一系列的词语,样本1中得到的是与主题相关词语,给每个词语一个权重,形成一个主题相关性词库,样本2中得到的是与主题不相关的词语,给他们初始权重为0,形成一个主题无关性词库;另外再建个学习词库,用来记录URL字符串信息学习得来的与主题相关词语和与主题相关词语出现次数;
3)URL相关度反馈学习:
(3-1)当Score(URL)小于等于阈值的最小值时,把对应的词组加入主题无关性词库,同时更改这些词语的权重值,得到更新的权重:
New(wi)=0.5×old(wi)+0.5×Score(URL)      (3)
(3-2)当Score(URL)大于等于阈值的最大值时,把URL字符串的主题相关度传递给对应的词语作为权重,对该词语的处理如下:
①如果主题无关性词库有该词语,则不处理并丢弃该词语;
②如果主题无关性词库没有该词语,主题相关性词库里有,学习词库里没有,则更新主题相关性词库中该词语的权重,得到更新后的权重:
New(wi)=0.5×old(wi)+0.5×Score(URL)      (4)
③如果主题无关性词库没有该词语且学习词库和主题相关性词库都没有该词语,首先把该词语加入学习词库,并记录该词语出现次数为1,然后把该词语加入主题相关性词库,并把它的权重值的作为该词语的新权重加入主题相关词库;得到该词语的权重:
w j = 1 n 2 Score ( URL ) - - - ( 5 )
④如果学习词库和主题相关性词库都有,首先查看学习词库中该词语出现的次数m,并把该词出现的次数加1;
当m>n时,得到更新的权重:
New(wi)=0.5×old(wi)+0.5×Score(URL)      (6)
当m≤n时,得到更新的权重:
New ( w i ) = 0.5 × old ( w i ) + 0.5 × ( m - 1 ) 2 n Score ( URL ) - - - ( 7 )
其中式(4)(5)(6)(7)中的old(wi)是主题相关性词库中原有权重,Score(URL)是URL传递给词i的权重,New(wi)是该词语更新后的权重;上面式(5)和式(7)中的n是设定的阀值;式(5)和式(7)中处理是为了减少误判,只有当学习词库中通过学习得到的词语达到n次的时候才充分判定它和主题相关,从而按式(6)中的方法去更新权重值,这样使学习得到的结果更精确;
4)主题知识库更新
为了使学习得到的结果更好,让主题相关性词库中尽量不包含与主题不相关的词语,主题无关性词库不包含与主题相关的词语;定时的对主题知识库进行处理,对主题相关性词库,分析主题相关性词库中每个词语的权重值,把权重值小于阈值s的词语从该词库中移除,这样进一步降低了把主题不相关的词语误判为主题相关词语的概率;对主题无关性词库,统计每个词语的权重,按其权重值的大小进行排名,把排名靠前的按一个比例阈值H删除,这样可以减少把那些主题相关词语误判为与主题不相关词语概率;
步骤6.确定待下载的URL队列:采用内容分析与链接分析相结合的爬虫策略,得出一个待下载的具有优先级的URL队列,具体是:
1)首先根据URL字符串信息、网页内容、锚信息去计算一个URL的主题相关度得到一个相关度值s0,滤除相关度值小于一个给定阈值的URL;
2)创建一个队列List,记录已经访问过的来自不同主机的URL的主机名;
3)当一个网页向外引出的与主题相关网页数大于一个阈值时,给它该网页URL一个奖励分数k0
4)当一个网页主机名不在List队列中,就给该网页URL一个奖励分数k1,并把该网页的主机名加入List队列;
5)当一个网页的主机名与父网页的主机名不同,再给该网页URL一个奖励分数k2
6)由1)-5)中得到一个URL的最终的得分为:
s=s0+k0+k1+k2      (8)
7)根据6)中得到URL最终得分产生一个优先级队列,这个优先级队列指导着网络爬虫的爬行。
2.根据权利要求1所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于:提取分析网页的URL字符串信息、网页内容、锚信息,URL相关度计算综合了URL字符串信息、网页内容、锚信息,使URL主题相关的计算更精确。
3.根据权利要求1所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于:在步骤2分析下载页面过程中,对URL所携带的信息不断学习,动态的更新主题相关向量,用于更好地指导主题相关度的计算。
4.根据权利要求1所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于:在步骤6确定待下载的具有优先级的URL队列过程中,利用内容分析和链接分析相结合的爬虫策略,内容分析得出URL的主题相关度,再通过链接分析调整URL的下载优先级,最后得出一个待下载的具有优先级的URL队列。
CN201210052902.0A 2012-03-02 2012-03-02 一种基于url字符串信息学习的主题爬虫系统的实现方法 Expired - Fee Related CN102662954B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210052902.0A CN102662954B (zh) 2012-03-02 2012-03-02 一种基于url字符串信息学习的主题爬虫系统的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210052902.0A CN102662954B (zh) 2012-03-02 2012-03-02 一种基于url字符串信息学习的主题爬虫系统的实现方法

Publications (2)

Publication Number Publication Date
CN102662954A CN102662954A (zh) 2012-09-12
CN102662954B true CN102662954B (zh) 2014-08-13

Family

ID=46772445

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210052902.0A Expired - Fee Related CN102662954B (zh) 2012-03-02 2012-03-02 一种基于url字符串信息学习的主题爬虫系统的实现方法

Country Status (1)

Country Link
CN (1) CN102662954B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930059B (zh) * 2012-11-26 2015-04-22 电子科技大学 一种聚焦爬虫的设计方法
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CA2841472C (en) * 2013-02-01 2022-04-19 Brokersavant, Inc. Machine learning data annotation apparatuses, methods and systems
CN103186676B (zh) * 2013-04-08 2016-03-02 湖南农业大学 一种主题知识自增长型聚焦网络爬虫搜索方法
CN103310026B (zh) * 2013-07-08 2016-11-23 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103870567A (zh) * 2014-03-11 2014-06-18 浪潮集团有限公司 一种云计算中垂直搜索引擎网页采集模板自动识别方法
CN103927400B (zh) * 2014-05-07 2017-04-19 重庆邮电大学 Web网站产品详细信息的分类抓取及产品信息库建立方法
CN106033428B (zh) * 2015-03-11 2019-08-30 北大方正集团有限公司 统一资源定位符的选择方法和统一资源定位符的选择装置
CN105302876A (zh) * 2015-09-28 2016-02-03 孙燕群 基于正则表达式的url过滤方法
CN106815273B (zh) * 2015-12-02 2020-07-31 北京国双科技有限公司 数据存储方法和装置
CN105528422B (zh) * 2015-12-07 2019-04-26 中国建设银行股份有限公司 一种主题爬虫处理方法及装置
CN105630673B (zh) * 2015-12-17 2018-12-25 北京锐安科技有限公司 一种网络爬虫率的自动化测试方法及装置
WO2017113324A1 (zh) * 2015-12-31 2017-07-06 孙燕群 基于正则表达式的url过滤方法
US20170337486A1 (en) * 2016-05-17 2017-11-23 Futurewei Technologies, Inc. Feature-set augmentation using knowledge engine
CN106777043A (zh) * 2016-12-09 2017-05-31 宁波大学 一种基于lda的学术资源获取方法
CN106709052B (zh) * 2017-01-06 2020-09-04 电子科技大学 一种基于关键词的主题网络爬虫设计方法
CN106980651B (zh) * 2017-03-02 2020-05-12 中电海康集团有限公司 一种基于知识图谱的爬取种子列表更新方法及装置
CN108959413B (zh) * 2018-06-07 2020-09-11 吉林大学 一种主题网页爬取方法及主题爬虫系统
CN109670099A (zh) * 2018-12-21 2019-04-23 全通教育集团(广东)股份有限公司 基于教育网络信息主题采集方法
CN109635182A (zh) * 2018-12-21 2019-04-16 全通教育集团(广东)股份有限公司 基于教育信息主题的并行化数据跟踪方法
CN112579853A (zh) * 2019-09-30 2021-03-30 顺丰科技有限公司 一种对爬取链接排序的方法、装置及存储介质
CN111143649A (zh) * 2019-12-09 2020-05-12 杭州迪普科技股份有限公司 一种网页搜索方法及装置
CN111813905B (zh) * 2020-06-17 2024-05-10 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质
CN112035723A (zh) * 2020-08-28 2020-12-04 光大科技有限公司 资源库的确定方法和装置、存储介质及电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN101751438A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 自适应语义驱动的主题网页过滤系统
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751438A (zh) * 2008-12-17 2010-06-23 中国科学院自动化研究所 自适应语义驱动的主题网页过滤系统
CN101630327A (zh) * 2009-08-14 2010-01-20 昆明理工大学 一种主题网络爬虫系统的设计方法
CN102298622A (zh) * 2011-08-11 2011-12-28 中国科学院自动化研究所 基于锚文本的聚焦网络爬虫搜索方法及其系统

Also Published As

Publication number Publication date
CN102662954A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102662954B (zh) 一种基于url字符串信息学习的主题爬虫系统的实现方法
US7882099B2 (en) System and method for focused re-crawling of web sites
CN105138558B (zh) 基于用户访问内容的实时个性化信息采集方法
CN102298622B (zh) 基于锚文本的聚焦网络爬虫搜索方法及其系统
US8255390B2 (en) Session based click features for recency ranking
US8255414B2 (en) Search assist powered by session analysis
CN104182412B (zh) 一种网页爬取方法及系统
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN101630327A (zh) 一种主题网络爬虫系统的设计方法
CN102402566A (zh) 基于中文网页自动分类技术的Web用户行为分析方法
US20110066624A1 (en) system and method of generating related words and word concepts
CN101452463A (zh) 定向抓取页面资源的方法和装置
CN105045901A (zh) 搜索关键词的推送方法和装置
CN103853831A (zh) 一种基于用户兴趣的个性化搜索实现方法
CN105159930A (zh) 搜索关键词的推送方法和装置
CN107894986B (zh) 一种基于向量化的企业关系划分方法、服务器以及客户端
US20110231380A1 (en) Session based click features for recency ranking
CN103246732A (zh) 一种在线Web新闻内容的抽取方法及系统
CN105740460A (zh) 网页搜集推荐方法和装置
CN102375842A (zh) 面向领域整体的关键词集的评价和提取方法
CN110532450B (zh) 一种基于改进鲨鱼搜索的主题爬虫方法
CN103841173A (zh) 一种垂直网络蜘蛛
CN103838886A (zh) 基于代表词知识库的文本内容分类方法
CN103310013A (zh) 一种面向主题的网页采集系统
CN106649823A (zh) 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140813

Termination date: 20150302

EXPY Termination of patent right or utility model