CN102298622B - 基于锚文本的聚焦网络爬虫搜索方法及其系统 - Google Patents

基于锚文本的聚焦网络爬虫搜索方法及其系统 Download PDF

Info

Publication number
CN102298622B
CN102298622B CN201110230220.XA CN201110230220A CN102298622B CN 102298622 B CN102298622 B CN 102298622B CN 201110230220 A CN201110230220 A CN 201110230220A CN 102298622 B CN102298622 B CN 102298622B
Authority
CN
China
Prior art keywords
url
anchor text
priority query
page
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201110230220.XA
Other languages
English (en)
Other versions
CN102298622A (zh
Inventor
郝红卫
台宪青
王艳军
殷绪成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201110230220.XA priority Critical patent/CN102298622B/zh
Publication of CN102298622A publication Critical patent/CN102298622A/zh
Application granted granted Critical
Publication of CN102298622B publication Critical patent/CN102298622B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于锚文本的聚焦网络爬虫搜索方法及其系统,所述方法主要包括:从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面;对下载的Web页面进行解析,提取URL及其锚文本;对提取出的URL及其锚文本进行筛选;采用TF-IDF与LSI相结合的算法来计算URL的主题相关度,并将符合条件的URL放入优先级队列中;所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器。通过采用所述基于锚文本的聚焦网络爬虫搜索方法及其系统,本发明提高了聚焦网络爬虫爬行结果的主题相关度及爬行效率。

Description

基于锚文本的聚焦网络爬虫搜索方法及其系统
技术领域
本发明涉及一种爬虫搜索方法及其系统,尤其涉及一种聚焦网络爬虫搜索方法及其系统。
背景技术
当前,网络越来越成为人们获取信息的主要渠道,传统搜索引擎已经不能完全满足人们的需求。随着人工智能技术的进一步成熟和信息服务的多样化,搜索引擎技术正向智能化、个性化、领域化方向发展。
垂直搜索引擎是面向特定领域的专业搜索引擎,旨在缩小搜索的总范围,从而获得更高的搜索精度,并提高搜索引擎对于网络资源的跟踪能力。作为垂直搜索引擎的核心部分,聚焦网络爬虫担任了从Internet收集和更新信息的重要任务。与传统的广度优先的爬虫相比,主题爬虫最重要的特点就是采用了不同的优先级计算方法,有选择地爬行符合特定主题的网页。
现有的大部分主题爬虫是采用基于向量空间模型VSM(Vector SpaceModel)和词频-逆文档频率TF-IDF(Term Frequency-Inverse DocumentFrequency)或其改进算法来指导爬行。由于TF-IDF本质上是一种严格的字符串匹配算法,无法处理字符意义层面上的近似,因此很多文献都通过查询扩展来增加主题包含的关键词范围来解决“隧道贯穿”的问题。潜在语义索引LSI(Latent Semantic Indexing)算法利用线性代数中的奇异值分解来处理潜在语义的问题,但目前LSI在垂直爬行算法中被研究较少。我们认为网络上的超链接锚文本与主题网页正文文本之间存在某种潜在语义关系,因此LSI算法在指导主题爬虫爬行方面应该具有更优越的性能。因此,本发明结合TF-IDF和LSI两者的优势,将TF-IDF+LSI算法应用于主题相关度计算提出了基于锚文本的聚焦网络爬虫搜索方法及其系统。
发明内容
本发明提出了基于锚文本的聚焦网络爬虫搜索方法及其系统,以解决现有技术中主题相关度算法存在的以下技术问题:现有的广度优先算法指导的爬虫其积累主题相关度虽然能稳定增长,但增长速度缓慢;TD-IDF指导的爬虫虽然在爬行启动阶段有很高的性能,但在爬行了大约20个页面后其积累的主题相关度不再增长;LSI指导的爬虫虽然具有穿越隧道的能力,但是在爬行开始时速度较慢。
为解决上述技术问题,本发明所述的基于锚文本的聚焦网络爬虫搜索方法包括以下步骤:
(1.1)网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载Web页面;
(1.2)使用URL解析器对下载的Web页面进行解析,提取出URL及其锚文本;
(1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选;
(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中;
(1.5)重复执行步骤(1.1)到(1.4),直到达到停止条件为止。
本发明所述的基于锚文本的聚焦网络爬虫系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器,其中,
网络爬虫下载器与URL优先级队列相连,用于从URL优先级队列中获取URL,依据URL从Internet下载Web页面,并将下载的Web页面存入Web页面库中;
URL解析器用于对Web页面库中下载的Web页面进行解析,提取URL及其锚文本;
URL筛选器用于对提取出的URL及其锚文本进行筛选;
主题相关性判断器用于采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中。
本发明的有益效果是:本发明所构建的聚焦网络爬虫搜索方法及其系统与一般的爬虫搜索方法及其系统相比,能更好地满足特定用户对于特定领域资源的准确、全面、高效的信息搜集需求。
附图说明
图1是本发明所述的搜索方法流程图。
图2是本发明中的主题相关度计算方法的流程图。
图3是本发明所述的系统框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
图1为本发明所述的基于锚文本的聚焦网络爬虫搜索方法流程图。该方法包括以下步骤:
步骤1:网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载得到Web页面,并将其放入Web页面库中,其中,Web页面库用于存放下载的Web页面:
URL优先级队列分为URL主要优先级队列和URL备用优先级队列;当系统启动时,主要优先级队列中存放的是用户指定的种子URL,备用优先级队列为空;下载器从URL优先级队列中获取URL时,按主题相关度从大到小的顺序,先依次取出主要优先级队列中的URL,当主要优先级队列为空时则取出备用优先级队列中的URL。
步骤2:使用URL解析器对下载的Web页面进行解析,提取URL及其锚文本;
步骤3:若提取出的URL已经被访问过,则转向步骤1;若提取出的URL未被访问过,则继续步骤4;
步骤4:构建领域知识库,URL筛选器根据该领域知识库判断URL及其锚文本是否与主题相关。领域知识库包括页面导航词汇、专有词汇和禁用词汇。URL筛选器的工作过程如下:
(1)如果URL中包含页面导航词汇,如“index”、“list”、“load”等,说明此页面为导航页面或登录页面,页面不具有主题相关性;
(2)如果锚文本内含有规定的禁用词汇,如包含反动意义的词汇和淫秽词汇等,则说明此页面为非法页面,不具有主题相关性;
(3)如果锚文本中含有知识库中的专有词汇(由用户根据需下载的网页内容所涉及的领域确定),则页面具有主题相关性。
通过URL筛选器将与主题相关的URL及其锚文本提交给主题相关性判断器;与主题无关的则舍弃,返回步骤3。
步骤5:在主题相关性判断器中分别利用TF-IDF算法和LSI算法计算URL的主题相关度,并将符合条件的URL分别放入相应的优先级队列中。
如图2所示,在主题相关性判断器中,主题相关度计算方法流程为:
首先,对与主题相关的URL所对应的锚文本进行TF-IDF主题相关度计算。
在向量空间模型中,锚文本和关键词集合被表示为向量,向量由一系列特征权重组成,特征空间维数对应所有锚文本和关键词中不同术语的数量。
锚文本向量表示为:
dj=(w1,j,w2,j,…,wm,j)                        (1)
关键词向量表示为:
q=(w1,q,w2,q,…,wn,q)                         (2)
式(1)、(2)中,j表示锚文本的个数,m表示锚文本中术语的个数,n表示关键词中术语的个数,wm,j表示锚文本dj的第m个术语的权重,wn,q表示关键词q的第n个术语的权重。
本发明中采用TF-IDF算法来进行主题相关度计算,锚文本dj的主题相关度计算公式如下:
w j = Σ i = 1 m ( tf i * log ( N df i ) ) - - - ( 3 )
式(3)中,tfi为术语(项)频率,是术语i在某一文档中出现的次数;N为文档集大小,是文档集包含的文档的数目;dfi为术语的文档频率,是包含了术语i的文档的总个数。
其次,对采用TF-IDF公式(3)计算出的主题相关度wj与阈值1进行比较。若计算出的主题相关度大于预先设定的阈值1,则将对应的URL根据主题相关度的大小放入主要优先级队列中的相应位置;否则,对所述与主题相关的URL所对应的锚文本进行LSI主题相关度的计算。
LSI主题相关度计算的步骤如下:
(1)以术语为行,锚文本为列形成矩阵X,共t行d列,矩阵的元素为术语在锚文本中的出现频度或其他权重值。将该矩阵进行奇异值分解,如公式(4)所示。
X=T0S0D0′                    (4)
式中,T0和D0分别是左奇异矩阵和右奇异矩阵,S0是奇异值的对角矩阵,其中S0由正值组成且递减排列。
(2)把矩阵S0(m×m)的m个对角线元素的前k个保留,后m-k个置0,得到近似分解,如公式(5)所示。
Figure BDA0000082684160000052
为在最小二乘意义下对X的最佳近似,其中k依据实际问题要求进行平衡选择。
Figure BDA0000082684160000053
从S0中删除“0”行和“0”列获取一个新的对角矩阵S,然后分别从T0和D0中删除相应的行和列来获取T和D。
(3)进行关键词、锚文本之间相关度计算。
比较关键词与锚文本的相关度时,先求解关键词术语向量q在降维空间上的向量表示Xq,如下公式(6)(7)所示。
q = TS X q ′ ⇒ ( S - 1 T ′ ) q = ( S - 1 T ′ ) TSX q ′ = X q ′ - - - ( 6 )
即,Xq=q′TS-1                            (7)
式中,Xq表示q在对应的降维空间上的向量表示,为Xq的转置矩阵,S-1为S的逆矩阵。
然后计算关键词向量降维后的向量表示Xq与锚文本向量dj的主题相关度,如公式(8)所示,当然也可以选择其他相关度计算公式,其中,qi表示第i个术语在关键词向量降维后的向量表示Xq中的标准化权重,dij表示第i个术语在锚文本dj中的标准化权重。
Sim ( X q , d j ) = Σ i = 1 t q i d ij Σ i = 1 t q i 2 Σ i = 1 t d ij 2 - - - ( 8 )
最后,对采用公式(8)计算出的主题相关度与阈值2进行比较。若计算出的主题相关度大于预先设定的阈值2,则将对应的URL根据主题相关度的大小放入备用优先级队列中的相应位置;否则,将此URL及其锚文本舍弃。
步骤6:重复执行步骤1到5,直到下载的Web页面数量达到设定的阈值3为止。
图3为本发明所述的基于锚文本的聚焦网络爬虫系统框架示意图,所述系统包括:URL优先级队列、网络爬虫下载器、Web页面库、URL解析器、URL筛选器、主题相关性判断器以及领域知识库。
所述网络爬虫下载器与URL优先级队列相连,用于从URL优先级队列中获取URL,并依据URL从Internet下载Web页面存入Web页面库中;所述URL优先级队列分为URL主要优先级队列和URL备用优先级队列,当系统启动时,主要优先级队列中存放的是用户指定的种子URL,备用优先级队列为空;网络爬虫下载器从URL优先级队列中获取URL时,按主题相关度从大到小的顺序,先依次取出主要优先级队列中的URL,当主要优先级队列为空时则取出备用优先级队列中的URL。
所述URL解析器用于对Web页面库中下载的Web页面进行解析,提取URL及其锚文本。
所述URL筛选器用于根据领域知识库中所包含的词汇对于提取出的URL及其锚文本进行是否与主题相关的判断和筛选;所述领域知识库包括页面导航词汇、专有词汇和禁用词汇。
所述主题相关性判断器用于采用TF-IDF与LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中,具体地,主题相关性判断器将符合TF-IDF主题相关度条件的URL放入URL主要优先级队列中,将符合LSI主题相关度条件的URL放入URL备用优先级队列中。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于锚文本的聚焦网络爬虫搜索方法,其特征在于,该方法包括以下步骤:
(1.1)网络爬虫下载器从URL优先级队列中获取URL,并依据URL从Internet下载Web页面;
(1.2)使用URL解析器对下载的Web页面进行解析,提取出URL及其锚文本;
(1.3)使用URL筛选器对提取出的URL及其锚文本进行筛选;
(1.4)主题相关性判断器采用词频-逆文档频率TF-IDF与潜在语义索引L SI相结合的算法对筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列中;
(1.5)重复执行步骤(1.1)到(1.4),直到达到停止条件为止;其中,
所述步骤(1.1)中的所述URL优先级队列分为URL主要优先级队列和URL备用优先级队列;所述方法开始时,所述URL主要优先级队列中存放的是用户指定的种子URL,所述URL备用优先级队列为空;
所述网络爬虫下载器从所述URL优先级队列中获取URL时,按主题相关度从大到小的顺序,先依次取出所述URL主要优先级队列中的URL,当所述URL主要优先级队列为空时再取出所述URL备用优先级队列中的URL;
所述步骤(1.4)包括以下步骤:
(6.1)对与主题相关的URL所对应的锚文本进行TF-IDF主题相关度计算,并将主题相关度大于阈值1的URL按其相关度大小依次加入到所述URL主要优先级队列中,相关度大的排在前面;
(6.2)然后将其余的URL所对应的锚文本使用L SI算法进行主题相关度计算,并将主题相关度高于阈值2的URL按其相关度大小加入到所述URL备用优先级队列中,相关度大的排在前面,并舍弃主题相关度不高于阈值2的URL。
2.根据权利要求1所述的基于锚文本的聚焦网络爬虫搜索方法,其特征在于,步骤(1.3)中使用URL筛选器对提取出的URL及其锚文本进行筛选具体为根据URL及其锚文本是否与主题相关来对其进行筛选。
3.根据权利要求2所述的基于锚文本的聚焦网络爬虫搜索方法,其特征在于,根据URL及其锚文本是否与主题相关来对其进行筛选包括以下步骤:
(4.1)构建领域知识库,所述领域知识库包括页面导航词汇、专有词汇和禁用词汇;
(4.2)根据领域知识库所包含的词汇判断所述URL及其锚文本是否与主题相关。
4.根据权利要求3所述的基于锚文本的聚焦网络爬虫搜索方法,其特征在于,根据领域知识库所包含的词汇判断所述URL及其锚文本是否与主题相关具体为:
(5.1)如果URL中包含有领域知识库中的页面导航词汇,则说明此页面为导航页面或登录页面,页面不具有主题相关性;
(5.2)如果锚文本内含有领域知识库中的禁用词汇,则说明此页面为非法页面,不具有主题相关性;
(5.3)如果锚文本中含有领域知识库中的专有词汇,则页面具有主题相关性。
5.根据权利要求1所述的基于锚文本的聚焦网络爬虫搜索方法,其特征在于,步骤(1.5)中的停止条件为:所下载的Web页面数量达到设定的阈值3。
6.一种基于锚文本的聚焦网络爬虫系统,其特征在于,该系统包括:URL优先级队列模块、网络爬虫下载器、Web页面库、URL解析器、URL筛选器以及主题相关性判断器,其中,
网络爬虫下载器与URL优先级队列模块相连,用于从URL优先级队列模块中获取URL,依据URL从Internet下载Web页面,并将下载的Web页面存入Web页面库中;
URL解析器用于对Web页面库中下载的Web页面进行解析,提取URL及其锚文本;
URL筛选器用于对提取出的URL及其锚文本进行筛选;
主题相关性判断器用于采用词频-逆文档频率TF-IDF与潜在语义索引LSI相结合的算法对URL筛选器筛选出的URL计算其主题相关度,并将符合条件的URL放入优先级队列模块中。
7.根据权利要求6所述的基于锚文本的聚焦网络爬虫系统,其特征在于,该系统还包括领域知识库,所述领域知识库包括页面导航词汇、专有词汇和禁用词汇,其中,URL筛选器根据领域知识库中所包含的词汇对于提取出的URL及其锚文本进行是否与主题相关的判断以及筛选。
8.根据权利要求6所述的基于锚文本的聚焦网络爬虫系统,其特征在于,所述URL优先级队列模块分为URL主要优先级队列模块和URL备用优先级队列模块,其中,
当系统启动时,所述URL主要优先级队列模块中存放的是用户指定的种子URL,所述URL备用优先级队列模块为空;
所述网络爬虫下载器从所述URL优先级队列模块中获取URL时,按主题相关度从大到小的顺序,先依次取出所述URL主要优先级队列模块中的URL,当所述URL主要优先级队列模块为空时则取出所述URL备用优先级队列模块中的URL;
主题相关性判断器将符合TF-IDF主题相关度条件的URL放入所述URL主要优先级队列模块中,将符合LSI主题相关度条件的URL放入所述URL备用优先级队列模块中。
CN201110230220.XA 2011-08-11 2011-08-11 基于锚文本的聚焦网络爬虫搜索方法及其系统 Expired - Fee Related CN102298622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110230220.XA CN102298622B (zh) 2011-08-11 2011-08-11 基于锚文本的聚焦网络爬虫搜索方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110230220.XA CN102298622B (zh) 2011-08-11 2011-08-11 基于锚文本的聚焦网络爬虫搜索方法及其系统

Publications (2)

Publication Number Publication Date
CN102298622A CN102298622A (zh) 2011-12-28
CN102298622B true CN102298622B (zh) 2013-01-02

Family

ID=45359036

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110230220.XA Expired - Fee Related CN102298622B (zh) 2011-08-11 2011-08-11 基于锚文本的聚焦网络爬虫搜索方法及其系统

Country Status (1)

Country Link
CN (1) CN102298622B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662954B (zh) * 2012-03-02 2014-08-13 杭州电子科技大学 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN102999549A (zh) * 2012-09-25 2013-03-27 金博 一种实现网络爬虫任务的方法
CN103841173A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种垂直网络蜘蛛
CN103186676B (zh) * 2013-04-08 2016-03-02 湖南农业大学 一种主题知识自增长型聚焦网络爬虫搜索方法
CN103279490A (zh) * 2013-04-26 2013-09-04 百度在线网络技术(北京)有限公司 Web页面的标签提取方法及装置
CN103310026B (zh) * 2013-07-08 2016-11-23 焦点科技股份有限公司 一种基于搜索引擎的轻量级通用网页主题爬虫方法
CN103984719A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种爬虫模拟登陆采集的方法
CN104281680B (zh) * 2014-09-30 2018-08-21 百度在线网络技术(北京)有限公司 用于获取网站资源的数据处理系统、方法及装置
CN105589892B (zh) * 2014-11-12 2019-01-18 中国银联股份有限公司 基于锚文本回溯链的网页主题分析方法
CN105138558B (zh) * 2015-07-22 2018-05-22 山东大学 基于用户访问内容的实时个性化信息采集方法
CN105302876A (zh) * 2015-09-28 2016-02-03 孙燕群 基于正则表达式的url过滤方法
WO2017113324A1 (zh) * 2015-12-31 2017-07-06 孙燕群 基于正则表达式的url过滤方法
CN107025235A (zh) * 2016-02-01 2017-08-08 北京国双科技有限公司 爬取网页的方法及装置
CN106656860A (zh) * 2016-10-21 2017-05-10 天津海量信息技术股份有限公司 一种多站点http访问频度控制方法
CN106980651B (zh) * 2017-03-02 2020-05-12 中电海康集团有限公司 一种基于知识图谱的爬取种子列表更新方法及装置
CN107644269B (zh) * 2017-09-11 2020-05-22 国网江西省电力公司南昌供电分公司 一种支持风险评估的电力舆情预测方法及装置
CN108959413B (zh) * 2018-06-07 2020-09-11 吉林大学 一种主题网页爬取方法及主题爬虫系统
WO2020068009A1 (en) * 2018-09-26 2020-04-02 Metaform Bilisim, Iletisim, Danismanlik San. Tic. Ltd. Sti. A search engine and data warehouse system with vertical and thematic focus
CN109871433B (zh) * 2019-02-21 2021-07-23 北京奇艺世纪科技有限公司 文档与话题相关度的计算方法、装置、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1862916A1 (en) * 2006-06-01 2007-12-05 Microsoft Corporation Indexing Documents for Information Retrieval based on additional feedback fields

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1967536A (zh) * 2006-11-16 2007-05-23 华中科技大学 基于区域的多特征融合及多级反馈的潜伏语义图像检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙晓妍等.基于客户端蜜罐的恶意网页检测系统的设计与实现.《计算机应用》.2007,第27卷(第7期), *

Also Published As

Publication number Publication date
CN102298622A (zh) 2011-12-28

Similar Documents

Publication Publication Date Title
CN102298622B (zh) 基于锚文本的聚焦网络爬虫搜索方法及其系统
CN101641697B (zh) 对网页的相关搜索查询及其应用
CN102662954B (zh) 一种基于url字符串信息学习的主题爬虫系统的实现方法
CN101231661B (zh) 对象级知识挖掘的方法和系统
CN102073730B (zh) 一种主题网络爬虫系统的构建方法
Srivastava et al. Search Engine Optimization in E-Commerce Sites
CN101441662B (zh) 基于网络拓扑的主题信息采集方法
CN103164521A (zh) 一种基于用户浏览和搜索行为的关键词计算方法及装置
CN104750713A (zh) 一种对搜索结果进行排序的方法及装置
CN102521321A (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN103902579B (zh) 获取信息的方法和装置
CN103020049A (zh) 搜索方法及搜索系统
CN102768679B (zh) 一种搜索方法及搜索系统
CN105740460A (zh) 网页搜集推荐方法和装置
CN102722501A (zh) 搜索引擎及其实现方法
CN104516961A (zh) 一种基于地域的话题挖掘及话题走势分析方法及系统
CN103838886A (zh) 基于代表词知识库的文本内容分类方法
CN103902549A (zh) 搜索数据排序的方法和装置,数据搜索的方法和装置
CN103095849A (zh) 基于QoS属性预测和纠错的有监督Web服务发现方法及系统
CN101840438B (zh) 面向源文献元关键词的检索系统
Wang et al. Towards services discovery based on service goal extraction and recommendation
Choudhary et al. Priority based semantic web crawler
Khonsha et al. New hybrid web personalization framework
Santoso et al. An Ontological Crawling Approach for Improving Information Aggregation over eGovernment Websites.
Sun et al. A framework of a hybrid focused web crawler

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130102