CN104965902A - 一种富集化url的识别方法和装置 - Google Patents

一种富集化url的识别方法和装置 Download PDF

Info

Publication number
CN104965902A
CN104965902A CN201510375487.6A CN201510375487A CN104965902A CN 104965902 A CN104965902 A CN 104965902A CN 201510375487 A CN201510375487 A CN 201510375487A CN 104965902 A CN104965902 A CN 104965902A
Authority
CN
China
Prior art keywords
url
anchor
enriched
similarity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510375487.6A
Other languages
English (en)
Inventor
王智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201510375487.6A priority Critical patent/CN104965902A/zh
Publication of CN104965902A publication Critical patent/CN104965902A/zh
Priority to PCT/CN2016/081003 priority patent/WO2017000659A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Abstract

本发明实施例提供了一种富集化URL的识别方法和装置,该方法包括:提取一个或多个URL;从所述一个或多个URL选取候选URL;各个候选URL关联有各个锚文本anchor;计算所述各个锚文本anchor之间的相似度;根据所述相似度从所述候选URL中识别出富集化URL。本发明实施例可以避免搜索引擎在抓取网页时抓取垃圾、重复的网页,大大节省了抓取时的带宽浪费,由于抓取量减少了,进而减少了搜索引擎的负担,同时,搜索引擎可以额外抓取其他优质的网页,提升了搜索引擎收录网页的覆盖率和时效性。

Description

一种富集化URL的识别方法和装置
技术领域
本发明涉及计算机处理的技术领域,特别是涉及一种富集化URL的识别方法和一种富集化URL的识别装置。
背景技术
随着网络的迅速发展,网络成为大量信息的载体,为了有效地提取并利用这些信息,搜索引擎(Search Engine)通常通过网络爬虫从网络上下载网页。
网络爬虫从一个或若干初始网页的URL(Uniform Resource Locator,统一资源定位符)开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
网络爬虫每天能够发现大量的网络中新产生的URL,但是,网络中的URL的数据是海量的,而搜索引擎每天能够实际抓取的URL量是有限的,这就需要在网络爬虫实际发起抓取网页之前对已经发现的URL进行排序,优先抓取某些URL。
目前主要根据已抓取的网页的反馈,对新发现的URL的排序。如果已抓取网页的质量较高,那么认为与已抓取网页的URL相似的URL的质量也是较高的。
但是,这中方案存在富集的现象,每个URL具有单独的特征,相似URL的网页的质量差异是很大的,可能存在垃圾、重复的网页,这些网页的抓取,大大浪费了带宽、加大搜索引擎的负担。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种富集化URL的识别方法和相应的一种富集化URL的识别装置。
依据本发明的一个方面,提供了一种富集化URL的识别方法,包括:
提取一个或多个URL;
从所述一个或多个URL选取候选URL;各个候选URL关联有各个锚文本anchor;
计算所述各个锚文本anchor之间的相似度;
根据所述相似度从所述候选URL中识别出富集化URL。
可选地,所述从所述一个或多个URL选取候选URL的步骤包括:
判断所述URL是否匹配有模式pattern;若是,则选取所述URL为候选URL。
可选地,所述计算所述各个锚文本anchor之间的相似度的步骤包括:
对所述锚文本anchor进行向量化处理;
计算向量化的锚文本anchor的之间的相似度。
可选地,所述对所述锚文本anchor进行向量化处理的步骤包括:
对所述锚文本anchor进行分词处理,获得文本分词;
从所述文本分词中确定关键词;
对所述关键词配置权重;
将所述关键词的权重设置为所述锚文本anchor的分量。
可选地,所述对所述锚文本anchor进行向量化处理的步骤还包括:
从所述文本分词中滤去无效词;
其中,所述无效词包括以下的一种或多种:
副词、助词、符号、标点、乱码。
可选地,所述计算向量化的锚文本anchor的之间的相似度的步骤包括:
计算所述锚文本anchor的分量之间的余弦值,作为所述锚文本anchor之间的相似度。
可选地,所述根据所述相似度从所述候选URL中识别出富集化URL的步骤包括:
当所述相似度大于预设的相似度阈值时,确认所述所述候选URL为富集化URL。
可选地,还包括:
从所述富集化URL中选取目标URL。
可选地,所述从所述富集化URL中选取目标URL的步骤包括:
获取所述富集化URL的关注度;
基于所述关注度从富集化URL中选取目标URL。
可选地,还包括:
抓取所述目标URL对应的网页;
采用所述网页生成索引文件。
根据本发明的另一方面,提供了一种富集化URL的识别装置,包括:
URL提取模块,适于提取一个或多个URL;
候选URL选取模块,适于从所述一个或多个URL选取候选URL;各个候选URL关联有各个锚文本anchor;
相似度计算模块,适于计算所述各个锚文本anchor之间的相似度;
富集化URL识别模块,适于根据所述相似度从所述候选URL中识别出富集化URL。
可选地,所述候选URL选取模块还适于:
判断所述URL是否匹配有模式pattern;若是,则选取所述URL为候选URL。
可选地,所述相似度计算模块还适于:
对所述锚文本anchor进行向量化处理;
计算向量化的锚文本anchor的之间的相似度。
可选地,所述相似度计算模块还适于:
对所述锚文本anchor进行分词处理,获得文本分词;
从所述文本分词中确定关键词;
对所述关键词配置权重;
将所述关键词的权重设置为所述锚文本anchor的分量。
可选地,所述相似度计算模块还适于:
从所述文本分词中滤去无效词;
其中,所述无效词包括以下的一种或多种:
副词、助词、符号、标点、乱码。
可选地,所述相似度计算模块还适于:
计算所述锚文本anchor的分量之间的余弦值,作为所述锚文本anchor之间的相似度。
可选地,所述富集化URL识别模块还适于:
当所述相似度大于预设的相似度阈值时,确认所述所述候选URL为富集化URL。
可选地,还包括:
目标URL选取模块,适于从所述富集化URL中选取目标URL。
可选地,所述目标URL选取模块还适于:
获取所述富集化URL的关注度;
基于所述关注度从富集化URL中选取目标URL。
可选地,还包括:
网页抓取模块,适于抓取所述目标URL对应的网页;
索引文件生成模块,适于采用所述网页生成索引文件。
本发明实施例从提取的URL中选取候选URL,根据候选URL关联的锚文本anchor的相似度识别出富集化URL,可以避免搜索引擎在抓取网页时抓取垃圾、重复的网页,大大节省了抓取时的带宽浪费,由于抓取量减少了,进而减少了搜索引擎的负担,同时,搜索引擎可以额外抓取其他优质的网页,提升了搜索引擎收录网页的覆盖率和时效性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的种富集化URL的识别方法实施例的步骤流程图;以及
图2示出了根据本发明一个实施例的一种富集化URL的识别装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了根据本发明一个实施例的一种富集化URL的识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,提取一个或多个URL;
在实际应用中,各种类型的网站每天都可能设计众多的网页,每个网页都会具有URL。
应用本发明实施例,搜索引擎可以预先采用网络爬虫(又称为网络蜘蛛,Web Spider)从网络上抓取网页的URL,存储在数据库中,则在识别富集化URL时,可以从数据库中提取一个或多个URL。
其中,网络爬虫一般从一个或多个初始网页的URL开始解析,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
特比地,聚焦爬虫(一种网络爬虫)的工作流程较为复杂,通常过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,聚焦爬虫将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到某一条件时停止。
为使本领域技术人员更好地理解本申请实施例,在本说明书中,将问答类的网站作为一种示例进行说明。
对于问答类的网站(比如zhidao.baidu.com),用户每天可能产生大量的问题,这些问题有的会被其他用户解答,有的则不会被解答,在这些问题中,可能很多是重复的问题。
也就是说,大量的问题是相同或者类似的,那么对于搜索引擎而言,同一个问题一般收录有回答并且答案较满意的网页即可,其他的可以认为是重复的。
对于zhidao.***.com这个问答类站点抓取到的URL的示例如下:
http://zhidao.***.com/question/433737807751460604.html
http://zhidao.***.com/question/1605209362191413347.html
http://zhidao.***.com/question/618238863630856372.html
http://zhidao.***.com/question/625161396233610844.html
http://zhidao.***.com/question/1367620128259860259.html
http://zhidao.***.com/question/2139209187911446788.html
http://zhidao.***.com/question/584108667629594845.html
其中,“***”为一个网站的域名。
步骤102,从所述一个或多个URL选取候选URL;
在具体实现中,可以从提取的URL中按照一定的策略选取部分或全部URL作为候选URL。
在本发明的一种可选实施例中,步骤102可以包括如下子步骤:
子步骤S11,判断所述URL是否匹配有模式pattern;若是,则执行子步骤S12;
子步骤S12,选取所述URL为候选URL。
在本发明实施例中,由于同一网站的URL一般会对同一类型的服务(如问答)配置相似的URL,因此,可以通过相同的模式pattern选取同一网站的URL作为候选URL。
其中,模式pattern,可以为样式相同或相似的URL。
例如,对于上述在zhidao.***.com这个问答类站点抓取到的URL,其具有同一模式pattern:
http://zhidao.***..com/question/(\d+).html;
其中,(\d+)为通配符。
可以认为上述在zhidao.***.com这个问答类站点抓取到的URL为候选URL。
在实际应用中,各个候选URL关联有各个锚文本anchor,即URL和锚文本anchor一般是一一对应关系。
锚文本(anchor text)又称锚文本链接,是链接的一种形式。
和超链接类似,超链接的代码是锚文本,把关键词做一个链接,指向网页,这种形式的链接就叫作锚文本。
一方面,锚文本可以作为锚文本所在的网页的内容的评估,即站内锚文本。
网页中增加的链接和网页本身的内容有一定的关系,例如,服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接。
另一方面,锚文本能做为对所指向网页的评估,即站外锚文本。
锚文本能描述所指向网页的内容,例如,个人网站上增加“ABC”的链接,锚文本为“搜索引擎”。这样通过锚文本本身就能知道,“ABC”是搜索引擎。
对于在zhidao.***.com这个站点抓取到的URL,其锚文本anchor的示例可以如下表所示:
其中,“XXX”为一部电视剧的名称。
步骤103,计算所述各个锚文本anchor之间的相似度;
相似度,可以指锚文本anchor之间的内容相关度。
在本发明的一种可选实施例中,步骤103可以包括如下子步骤:
子步骤S21,对所述锚文本anchor进行向量化处理;
在本发明实施例中,可以基于向量空间模型计算相似度,这个模型假设词与词间不相关,用向量来表示文本,从而简化了文本中的关键词之间的复杂关系,文档用十分简单的向量表示,使得模型具备了可计算性。
在本发明的一种可选实施例中,子步骤S21进一步可以包括如下子步骤:
子步骤S211,对所述锚文本anchor进行分词处理,获得文本分词;
在具体实现中,可以通过以下一种或多种方式进行分词处理:
1、基于字符串匹配的分词方法:是指按照一定的策略将待分析的汉字串与一个预置的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
2、基于特征扫描或标志切分的分词方法:是指优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率;或者将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而提高切分的准确率。
3、基于理解的分词方法:是指通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。
4、基于统计的分词方法:是指,中文信息中由于字与字相邻共现的频率或概率能够较好的反映成词的可信度,所以可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息,以及计算两个汉字X、Y的相邻共现概率。互现信息可以体现汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。
当然,上述分词的提取方法只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他分词的提取方法,本发明实施例对此不加以限制。另外,除了上述分词的提取方法外,本领域技术人员还可以根据实际需要采用其它分词的提取方法,本发明实施例对此也不加以限制。
子步骤S212,从所述文本分词中滤去无效词;
在具体实现中,可以按照停用词表中的词语(无效词)将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。
其中,所述无效词包括以下的一种或多种:
副词、助词、符号、标点及乱码。
例如,“这,的,和,会,为”等词几乎出现在任何一篇中文文本中,但是它们对这个文本所表达的意思几乎没有任何贡献。
使用停用词列表来剔除停用词的过程大致为:对每一个文本分词,看其是否位于停用词列表中,如果是,则将其从文本分词中删除。
子步骤S213,从所述文本分词中确定关键词;
在具体实现中,可以根据文本分词的频度确定若干关键词。
在一种实施例中,可以通过TF(Term frequency,关键词词频)确定词频。
TF是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则TF=N/M,为该关键词在这篇文章中的词频。
子步骤S214,对所述关键词配置权重;
配置权重是针对每个关键词对文本特征的体现效果大小不同而设置的机制。
在一种实施例中,可以通过IDF(Inverse document frequency,指逆向文本频率)确定关键词的权重。
IDF是用于衡量关键词权重的指数,IDF=log(D/Dw),其中,D为文章总数,Dw为关键词出现过的文章数。
子步骤S215,将所述关键词的权重设置为所述锚文本anchor的分量。
在本发明实施例中,把锚文本anchor字符串化为以关键词的权重为分量的N维向量表示,以进行相似度的计算。
例如,锚文本anchor A可以表示为A=(a1,a2,a3…an)、锚文本anchor B可以表示为B=(b1,b2,b3…bn),其中,a1,a2,a3…an为A的分量,b1,b2,b3…bn为B的分量。
子步骤S22,计算向量化的锚文本anchor的之间的相似度。
在具体实现中,可以计算所述锚文本anchor的分量之间的余弦值(物理意义就是两个向量的空间夹角的余弦数值),作为所述锚文本anchor之间的相似度。
例如,对于A=(a1,a2,a3…an)和B=(b1,b2,b3…bn),可以计算向量(a1,a2,a3…an)和(b1,b2,b3…bn)之间夹角的余弦值作为锚文本anchor A和锚文本anchor B的相似度。
其中,夹角的余弦值计算相似度的示例如下:
sim(A,B)=(a1*b1+a2*b2+a3*b3+…+an*bn)/(sqrt(a1*a1+a2*a2+a3*a3+…+an*an)*sqrt(b1*b1+b2*b2+b3*b3+…+bn*bn));
其中,sim(A,B)表示锚文本anchor A和锚文本anchor B的相似度,sqrt()表示开根号。
假设文本锚文本anchor A的分量(权重)分别为30,20,20,10,锚文本anchor B的的分量(权重)分别为40,30,20,10,则锚文本anchor A的向量表示为A=(30,20,20,10,0),锚文本anchor B的向量表示为B=(40,0,30,20,10),则根据上式计算出来的锚文本anchor A与anchorB相关似是0.86。
步骤104,根据所述相似度从所述候选URL中识别出富集化URL。
在具体实现中,网页内容越相似,其相似度越高,当所述相似度大于预设的相似度阈值时,确认所述所述候选URL为富集化URL,即相似度大于一定相似度阈值的URL可以认为是内容相同或相似的URL(即富集化URL)。
例如,对于在zhidao.***.com这个站点抓取到的URL,其锚文本anchor都与XXX第五季第14集的音乐相关,可以认为是富集化URL。
本发明实施例从提取的URL中选取候选URL,根据候选URL关联的锚文本anchor的相似度识别出富集化URL,可以避免搜索引擎在抓取网页时抓取垃圾、重复的网页,大大节省了抓取时的带宽浪费,由于抓取量减少了,进而减少了搜索引擎的负担,同时,搜索引擎可以额外抓取其他优质的网页,提升了搜索引擎收录网页的覆盖率和时效性。
在本发明的一种可选实施例中,该方法还可以包括如下步骤:
步骤105,从所述富集化URL中选取目标URL。
在具体实现中,可以从富集化URL中按照一定的策略选取部分或全部URL作为目标URL。
在本发明的一种可选实施例中,步骤105可以包括如下子步骤:
子步骤S31,获取所述富集化URL的关注度;
子步骤S32,基于所述关注度从富集化URL中选取目标URL。
关注度可以为用户对该URL的关注程度,例如,该URL对应网页的推荐数(如用“给力”、“点赞”等表征),推荐数越多,关注程度越高。
关注度较高的URL,其网页的质量一般也越高,因此,在本发明实施例中,可以选取关注度较高的富集化URL,如关注度高于预设关注度阈值的富集化URL、关注度顺序排序最高的一个或多个富集化URL,等等,作为目标URL。
步骤106,抓取所述目标URL对应的网页;
在实际应用中,网络爬虫抓取网页的基本工作流程一般如下:
1、选取目标URL;
2、将目标URL放入待抓取URL队列;
3、从待抓取URL队列中取出待抓取的目标URL,解析DNS(DomainName System,域名系统),并且得到主机的IP(Internet Protocol,网络之间互连的协议)地址,访问该IP地址,将目标URL对应的网页下载下来,存储进已下载网页库中。
此外,将该目标URL放进已抓取URL队列。
步骤107,采用所述网页生成索引文件。
搜索引擎的搜索流程一般分为二个部分,一是前端用户请求过程,二是后端制作数据过程。
一、前端用户请求过程大致如下:
1、接收请求:接收用户在搜索引擎输入的搜索关键词;
2、查询词分析:对搜索关键词进行分词处理;
3、检索:根据分词结果,从预先制作的索引文件(如倒排索引)中,查找与分词结果相关的网页信息;
4、排序:针对相关的网页信息,根据内容相关性、时效性等维度进行排序;
5、展现:将排序后的网页信息在搜索引擎的结果页面展现出来。
二、后端制作数据过程:
1.网页抓取:采用网络爬虫技术抓取各种类型的网页并保存。
2.索引制作:对已抓取保存的网络信息进行分析,如对网页标题和页面文本进行分词处理,根据分词结果制作索引文件(如倒排索引),供前端用户请求过程使用。
本发明实施例中,可以将网页记录写入索引文件(如倒排索引)中,以在搜索引擎中作为搜索。
以倒排索引为例,倒排索引源于实际应用中需要根据属性的值来查找记录,这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件称为倒排索引文件,简称倒排文件(inverted file)。
在倒排文件中,索引对象是文档或者文档集合(例如网页)中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种常用的索引机制。
以英文为例,以下为要被索引的网页中的文本信息:
T1="it is what it is";
T2="what is it";
T3="it is a banana";
以下为倒排索引:
"a":        {(2,2)}
"banana":   {(2,3)}
"is":       {(0,1),(0,4),(1,1),(2,1)}
"it":       {(0,0),(0,3),(1,2),(2,0)}
"what":     {(0,2),(1,0)}
其中,"banana":{(2,3)}为"banana"在第三个网页(T3)的文本信息里,而且在第三个网页的位置是第四个单词(地址为3)。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图2,示出了根据本发明一个实施例的一种富集化URL的识别装置实施例的结构框图,具体可以包括如下模块:
URL提取模块201,适于提取一个或多个URL;
候选URL选取模块202,适于从所述一个或多个URL选取候选URL;各个候选URL关联有各个锚文本anchor;
相似度计算模块203,适于计算所述各个锚文本anchor之间的相似度;
富集化URL识别模块204,适于根据所述相似度从所述候选URL中识别出富集化URL。
在本发明的一种可选实施例中,所述候选URL选取模块202还可以适于:
判断所述URL是否匹配有模式pattern;若是,则选取所述URL为候选URL。
在本发明的一种可选实施例中,所述相似度计算模块203还可以适于:
对所述锚文本anchor进行向量化处理;
计算向量化的锚文本anchor的之间的相似度。
在本发明的一种可选实施例中,所述相似度计算模块203还可以适于:
对所述锚文本anchor进行分词处理,获得文本分词;
从所述文本分词中确定关键词;
对所述关键词配置权重;
将所述关键词的权重设置为所述锚文本anchor的分量。
在本发明的一种可选实施例中,所述相似度计算模块203还可以适于:
从所述文本分词中滤去无效词;
其中,所述无效词包括以下的一种或多种:
副词、助词、符号、标点、乱码。
在本发明的一种可选实施例中,所述相似度计算模块203还可以适于:
计算所述锚文本anchor的分量之间的余弦值,作为所述锚文本anchor之间的相似度。
在本发明的一种可选实施例中,所述富集化URL识别模块204还可以适于:
当所述相似度大于预设的相似度阈值时,确认所述所述候选URL为富集化URL。
在本发明的一种可选实施例中,该装置还可以包括如下模块:
目标URL选取模块,适于从所述富集化URL中选取目标URL。
在本发明的一种可选实施例中,所述目标URL选取模块还可以适于:
获取所述富集化URL的关注度;
基于所述关注度从富集化URL中选取目标URL。
在本发明的一种可选实施例中,该装置还可以包括如下模块:
网页抓取模块,适于抓取所述目标URL对应的网页;
索引文件生成模块,适于采用所述网页生成索引文件。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的富集化URL的识别设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (10)

1.一种富集化URL的识别方法,包括:
提取一个或多个URL;
从所述一个或多个URL选取候选URL;各个候选URL关联有各个锚文本anchor;
计算所述各个锚文本anchor之间的相似度;
根据所述相似度从所述候选URL中识别出富集化URL。
2.如权利要求1所述的方法,其特征在于,所述从所述一个或多个URL选取候选URL的步骤包括:
判断所述URL是否匹配有模式pattern;若是,则选取所述URL为候选URL。
3.如权利要求1或2所述的方法,其特征在于,所述计算所述各个锚文本anchor之间的相似度的步骤包括:
对所述锚文本anchor进行向量化处理;
计算向量化的锚文本anchor的之间的相似度。
4.如权利要求1-3任一项所述的方法,其特征在于,所述对所述锚文本anchor进行向量化处理的步骤包括:
对所述锚文本anchor进行分词处理,获得文本分词;
从所述文本分词中确定关键词;
对所述关键词配置权重;
将所述关键词的权重设置为所述锚文本anchor的分量。
5.如权利要求1-4任一项所述的方法,其特征在于,所述对所述锚文本anchor进行向量化处理的步骤还包括:
从所述文本分词中滤去无效词;
其中,所述无效词包括以下的一种或多种:
副词、助词、符号、标点、乱码。
6.如权利要求1-5任一项所述的方法,其特征在于,所述计算向量化的锚文本anchor的之间的相似度的步骤包括:
计算所述锚文本anchor的分量之间的余弦值,作为所述锚文本anchor之间的相似度。
7.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述相似度从所述候选URL中识别出富集化URL的步骤包括:
当所述相似度大于预设的相似度阈值时,确认所述所述候选URL为富集化URL。
8.如权利要求1-7任一项所述的方法,其特征在于,还包括:
从所述富集化URL中选取目标URL。
9.如权利要求1-8任一项所述的方法,其特征在于,所述从所述富集化URL中选取目标URL的步骤包括:
获取所述富集化URL的关注度;
基于所述关注度从富集化URL中选取目标URL。
10.一种富集化URL的识别装置,包括:
URL提取模块,适于提取一个或多个URL;
候选URL选取模块,适于从所述一个或多个URL选取候选URL;各个候选URL关联有各个锚文本anchor;
相似度计算模块,适于计算所述各个锚文本anchor之间的相似度;
富集化URL识别模块,适于根据所述相似度从所述候选URL中识别出富集化URL。
CN201510375487.6A 2015-06-30 2015-06-30 一种富集化url的识别方法和装置 Pending CN104965902A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201510375487.6A CN104965902A (zh) 2015-06-30 2015-06-30 一种富集化url的识别方法和装置
PCT/CN2016/081003 WO2017000659A1 (zh) 2015-06-30 2016-05-04 一种富集化url的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510375487.6A CN104965902A (zh) 2015-06-30 2015-06-30 一种富集化url的识别方法和装置

Publications (1)

Publication Number Publication Date
CN104965902A true CN104965902A (zh) 2015-10-07

Family

ID=54219940

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510375487.6A Pending CN104965902A (zh) 2015-06-30 2015-06-30 一种富集化url的识别方法和装置

Country Status (2)

Country Link
CN (1) CN104965902A (zh)
WO (1) WO2017000659A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017000659A1 (zh) * 2015-06-30 2017-01-05 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN107408115A (zh) * 2015-01-13 2017-11-28 微软技术许可有限责任公司 web站点访问控制
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN109672706A (zh) * 2017-10-16 2019-04-23 百度在线网络技术(北京)有限公司 一种信息推荐方法、装置、服务器及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN102654861A (zh) * 2011-03-01 2012-09-05 腾讯科技(深圳)有限公司 网页抽取准确性计算方法及系统
CN103631906A (zh) * 2013-11-25 2014-03-12 北京奇虎科技有限公司 一种识别网页url中页码标识的方法和装置
CN104063506A (zh) * 2014-07-08 2014-09-24 百度在线网络技术(北京)有限公司 重复网页识别方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7499913B2 (en) * 2004-01-26 2009-03-03 International Business Machines Corporation Method for handling anchor text
US7672943B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
CN101650715B (zh) * 2008-08-12 2011-06-29 厦门市美亚柏科信息股份有限公司 一种筛选网页上链接的方法和装置
CN102135967B (zh) * 2010-01-27 2013-06-05 华为技术有限公司 网页关键词提取方法、装置及系统
CN104090976B (zh) * 2014-07-21 2017-06-23 北京奇虎科技有限公司 搜索引擎爬虫抓取网页的方法及装置
CN104965902A (zh) * 2015-06-30 2015-10-07 北京奇虎科技有限公司 一种富集化url的识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654861A (zh) * 2011-03-01 2012-09-05 腾讯科技(深圳)有限公司 网页抽取准确性计算方法及系统
CN102411626A (zh) * 2011-12-13 2012-04-11 北京大学 基于相关性分数分布对查询意图进行分类的方法
CN103631906A (zh) * 2013-11-25 2014-03-12 北京奇虎科技有限公司 一种识别网页url中页码标识的方法和装置
CN104063506A (zh) * 2014-07-08 2014-09-24 百度在线网络技术(北京)有限公司 重复网页识别方法和装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107408115A (zh) * 2015-01-13 2017-11-28 微软技术许可有限责任公司 web站点访问控制
CN107408115B (zh) * 2015-01-13 2020-10-09 微软技术许可有限责任公司 web站点过滤器、控制对内容的访问的方法和介质
WO2017000659A1 (zh) * 2015-06-30 2017-01-05 北京奇虎科技有限公司 一种富集化url的识别方法和装置
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108090104B (zh) * 2016-11-23 2023-05-02 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN109672706A (zh) * 2017-10-16 2019-04-23 百度在线网络技术(北京)有限公司 一种信息推荐方法、装置、服务器及存储介质
CN109672706B (zh) * 2017-10-16 2022-06-14 百度在线网络技术(北京)有限公司 一种信息推荐方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
WO2017000659A1 (zh) 2017-01-05

Similar Documents

Publication Publication Date Title
Agre et al. Keyword focused web crawler
CN113822067A (zh) 关键信息提取方法、装置、计算机设备及存储介质
CN112749284B (zh) 知识图谱构建方法、装置、设备及存储介质
AU2019201531A1 (en) An in-app conversational question answering assistant for product help
US8086953B1 (en) Identifying transient portions of web pages
CN106960030A (zh) 基于人工智能的推送信息方法及装置
CN104715064A (zh) 一种实现在网页上标注关键词的方法和服务器
CN104281702A (zh) 基于电力关键词分词的数据检索方法及装置
US11263062B2 (en) API mashup exploration and recommendation
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
CN104965902A (zh) 一种富集化url的识别方法和装置
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
CN109643315A (zh) 基于结构化网络知识自动生成中文本体库的方法、系统、计算机设备和计算机可读介质
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN105389328B (zh) 一种大规模开源软件搜索排序优化方法
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
US11334592B2 (en) Self-orchestrated system for extraction, analysis, and presentation of entity data
CN102902792B (zh) 列表页识别系统及方法
CN103618742A (zh) 获取子域名的方法和系统以及网站管理员权限验证方法
CN104778233A (zh) 一种基于点击量的搜索方法和装置
US8121991B1 (en) Identifying transient paths within websites
CN100357942C (zh) 一种移动互联网智能信息搜索引擎的搜索方法
CN104462519A (zh) 搜索查询方法和装置
CN103870590A (zh) 具有报错特征的网页识别方法和装置
Ganguly et al. Performance optimization of focused web crawling using content block segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20151007