CN101226533A - 一种网页的排重方法及排重系统 - Google Patents

一种网页的排重方法及排重系统 Download PDF

Info

Publication number
CN101226533A
CN101226533A CNA2007103045659A CN200710304565A CN101226533A CN 101226533 A CN101226533 A CN 101226533A CN A2007103045659 A CNA2007103045659 A CN A2007103045659A CN 200710304565 A CN200710304565 A CN 200710304565A CN 101226533 A CN101226533 A CN 101226533A
Authority
CN
China
Prior art keywords
webpage
forward chaining
coefficient
value
anchor text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007103045659A
Other languages
English (en)
Other versions
CN101226533B (zh
Inventor
禹荣凌
刘云峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN2007103045659A priority Critical patent/CN101226533B/zh
Publication of CN101226533A publication Critical patent/CN101226533A/zh
Application granted granted Critical
Publication of CN101226533B publication Critical patent/CN101226533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网页的排重方法,包括:获取互联网上各网页的正向链接信息,去除各网页正向链接信息中的导航链接和回引链接,比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页,将提取的网页组成排重集合,基于所述排重集合排除重复网页。本发明可根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。本发明还计算网页质量值,保留网页质量值超过设置阈值的网页,再计算网页签名,排除签名相似度超过设定阈值的网页。同时,本发明还公开一种网页的排重系统。本发明解决现有技术中网页排重效率低下的不足,网页排重效率较高,并且能够具有较高的精度和准确率。

Description

一种网页的排重方法及排重系统
技术领域
本发明涉及网页排重领域,特别是涉及一种网页的排重方法及排重系统。
背景技术
随着互联网技术的迅猛发展,互联网上的网页越来越多,据统计,中文网页已逾百亿,其中大约有70%属于重复网页。重复网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。重复网页在互联网网页中所占的比重非常大,如何在数量巨大的网页中有效去掉重复网页,是搜索引擎所面临的一个难题。目前,现有技术是通过在网页中选取特征码,对比特征码的方式排除重复网页。
参阅图1,示出现有网页的排重方法,具体步骤如下所述。
步骤S101、在网页中选取特定符号作为定位点。特定符号可为句号、逗号、分号、感叹号等。将网页正文中出现的特定符号作为定位点。
步骤S102、在定位点两边选取一定数量的词语作为特征码。一定数量可为根据网页正文内容的多少确定。例如,在定位点两边各选取5个词语组成特征码。
步骤S103、比较选取的特征码,如相同或相近似的特征码超过阈值,判定网页为重复网页;如低于阈值,判定网页不是重复网页。特征码相同是指特征码所包含的词语完全相同,特征码相近似是指特征码中所包含的具有实质意义的词语相同,例如,特征码为“天气真好啊”与特征码“天气真好”相近似。
步骤S104、去除重复的网页。
上述方法虽然在一定程度上可有效地去除重复网页,但针对互联网上数以百亿的网页,一一对比分析网页正文,通常网页正文数据量较大,使分析对比的效率低下。并且各网页正文内容的长短相差较大,特定符号的设置和阈值的大小难以具体把握,设置不当直接影响网页排重的效果。例如,对于网页正文内容很短的网页,根据特定符号只提取20到个特征码,但阈值为25,这样,就是造成重复网页的漏选,导致网页排重的精度降低;而对于网页正文内容较长的网页,根据特定符合提取500到个特征码,但阈值为25,两个内容相关但不重复的网页很可能因相同或相近似的特征码超过阈值,而被误判为重复网页,导致网页排重的准确率较低。
发明内容
本发明所要解决的技术问题是提供一种网页的排重方法,以解决现有技术中网页排重效率低下的不足,该排重方法效率较高,并且能够具有较高的精度和准确率。
本发明的另一个目的是提供一种网页的排重系统,以解决现有技术中网页排重效率低下的不足,该排重系统效率较高,并且能够具有较高的精度和准确率。
本发明一种网页的排重方法,包括:获取互联网上各网页的正向链接信息;比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提取的网页组成排重集合,基于所述排重集合排除重复网页。
优选的,比较各网页的正向链接信息之前,还包括:去除各网页正向链接信息中的导航链接和回引链接。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找广告链接,如广告链接数量大于预设数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找相同的链接类型,如相同的链接类型数量超于设置数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:获取相同正向链接指向的网页,如上述网页所属主域的个数小于设定数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:获取相同正向链接的锚文本,如锚文本相同或相近似,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找广告链接获取广告链接所占比例数,网页正文链接所占比例数,相同链接类型所占比例数,网页所属的主域所占比例数,相同及相近似的锚文本所占比例数;将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页签名;排除签名相似度超过设定阈值的网页。
优选的,还包括:获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数小于锚文本的系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页质量值;保留网页质量值超过设置阈值的网页。
本发明还公开一种网页的排重系统,包括获取模块、比较模块、提取模块、组成模块、及排除模块:所述获取模块,用于获取互联网上各网页的正向链接信息;所述比较模块,用于比较各网页的正向链接信息;所述提取模块,用于提取相同正向链接的数量超过阈值的网页;所述组成模块,用于将提取的网页组成排重集合;所述排除模块,用于基于所述排重集合排除重复网页。
优选的,还包括特性计算模块,用于根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,并将分值发送给排除模块;所述排除模块排除分值差在预定数值之内的网页。
优选的,还包括数据获取模块和网页签名计算模块:所述数据获取模块,用于获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;所述网页签名计算模块,用于分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页签名,将网页签名发送到所述排除模块;所述排除模块排除签名相似度超过设定阈值的网页。
与现有技术相比,本发明具有以下优点:
本发明提取具有相同正向链接数量超过阈值的网页作为排重集合,在基于该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。本发明提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围,减少计算量,提高排重效率。
附图说明
图1为现有网页的排重方法流程图;
图2为本发明网页的排重方法第一实施例流程图;
图3为本发明网页的排重方法第二实施例流程图;
图4为本发明网页的排重方法第三实施例流程图;
图5为本发明网页的排重方法第四实施例流程图;
图6为本发明网页的排重方法第五实施例流程图;
图7为本发明网页的排重方法第六实施例流程图;
图8为本发明网页的排重方法第七实施例流程图;
图9为本发明网页的排重方法第八实施例流程图;
图10为本发明网页的排重方法第九实施例流程图;
图11为本发明网页排重系统第一实施例示意图;
图12为本发明网页排重系统第二实施例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一个网页包含指向另一个网页的超链接(URL),认为这两个网页之间存在链接关系,超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B,该链接对于网页A为正向链接,对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。正向链接和锚文本可集中反映该网页与其它网页的链接关系,链接关系相同或相近似的网页一般网页内容也多相同或相近似。因此,本发明将网页中的正向链接和锚文本作为判断重复网页的依据,高效、准确的排除重复网页。
参阅图2,示出本发明网页的排重方法第一实施例,具体步骤如下所述。
步骤S201、获取互联网上各网页的正向链接信息。网页排重系统在互联网上抓取网页,并提取各网页的正向链接信息。正向链接包括图片链接、文字链接、广告链接、隐藏链接、空文本链接、回引链接、导航链接等。
其中,图片链接是指链接标识为图片形式;文字链接是指链接标识为文字形式;广告链接是指链接广告信息的链接;隐藏链接是指链接标识隐藏在其它信息中;空文本链接是指超链接上没有文字;回引链接是指指向本网页主域、子域首页的链接;导航链接是指指向下一级域名或上一级域名,只起导航作用的链接。
步骤S202、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。将各网页正向链接信息进行对比,如相同正向链接的数量超过阈值,则提取包含这些相同正向链接的网页;如相同正向链接的数量低于阈值,则不提取该网页。阈值的取值范围为5-20。优选为10。
同理,本发明也可以通过预置比例,提取网页。将各网页正向链接信息进行对比,如相同正向链接的数量超过预置比例,则提取包含这些相同正向链接的网页;如相同正向链接的数量低于预置比例,则不提取该网页。预置比例的取值范围为20%-70%。优选为50%。
步骤S203、将提取的网页组成排重集合,基于排重集合查找重复网页。例如,排重集合为{(网页A、网页B、网页C、网页D)、(网页A、网页B、网页C、网页D...)、(网页A、网页B、网页C、网页D...)...}。其中,小括号内为可能相互重复的网页集合。
本发明提取具有相同正向链接数量超过阈值的网页作为排重集合,在基于该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。本发明提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围,减少计算量,提高排重效率。
本发明可根据相同正向链接中广告链接的数量,在排重集合中排除重复网页。
参阅图3,示出本发明网页的排重方法第二实施例,具体步骤如下所述。
步骤S301、获取互联网上各网页的正向链接信息。
步骤S302、去除各网页的正向链接信息中的导航链接和回引链接。因导航链接和回引链接是同主域网页之间常使用的链接,不能很好地反映网页本身的链接特性,因此,将正向链接中的导航链接和回引链接去除,提高参与对比的正向链接的质量。
步骤S303、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S304、将提取的网页组成排重集合。
步骤S305、在相同正向链接中查找广告链接,如查找到的广告链接数量大于预设数值,排除包含上述相同正向链接的网页;如查找到的广告链接数量小于预设数值,确定该网页不为重复网页。预设数值的范围为5-10。
因网页广告链接与该网页正文内容是密切相关的,如果网页间相同正向链接集中表现为广告链接,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可根据相同正向链接中正文链接的数量,在排重集合中排除重复网页。
参阅图4,示出本发明网页的排重方法第三实施例,具体步骤如下所述。
步骤S401、获取互联网上各网页的正向链接信息。
步骤S402、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S403、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S404、将提取的网页组成排重集合。
步骤S405、在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链接的网页;如网页正文链接数量小于预置数值,确定该网页不为重复网页。预置数值的范围为5-10。
相对于其它正向链接,网页正文链接更能反映网页的链接特性,如相同正向链接集中表现为网页中文链接,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可在相同的正向链接查找相同的链接类型,根据相同链接类型的数量,在排重集合中排除重复网页。
参阅图5,示出本发明网页的排重方法第四实施例,具体步骤如下所述。
步骤S501、获取互联网上各网页的正向链接信息。
步骤S502、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S503、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S504、将提取的网页组成排重集合。
步骤S505、在相同的正向链接中查找相同链接类型,如相同链接类型数量超于设置数值,排除包含上述相同正向链接的网页;如相同链接类型数量小于设置数值,确定该网页不为重复网页。设置数值的范围为5-10。
链接类型包括图片链接、隐藏链接、文字链接、空文本链接等,如网页间相同正向链接的类型也基本相同,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可查找相同正向链接指向网页所属的主域,根据主域的数量在排重集合中排除重复网页。
参阅图6,示出本发明网页的排重方法第五实施例,具体步骤如下所述。
步骤S601、获取互联网上各网页的正向链接信息。
步骤S602、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S603、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S604、将提取的网页组成排重集合。
步骤S605、获取相同的正向链接指向的网页,如上述网页所属的主域个数小于设定数值,排除包含上述相同正向链接的网页;如上述网页所属的主域个数大于设定数值,确定该网页不为重复网页。设定数值的范围为5-10。
网页间相同正向链接集中指向某几个主域的网页,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可获取相同正向链接的锚文本,根据锚文本是否相同或相近似在排重集合中排除重复网页。
参阅图7,示出本发明网页的排重方法第六实施例,具体步骤如下所述。
步骤S701、获取互联网上各网页的正向链接信息。
步骤S702、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S703、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S704、将提取的网页组成排重集合。
步骤S705、获取相同正向链接的锚文本,如锚文本相同及相近似,排除包含上述相同正向链接的网页;如锚文本不相同也不相近似,确定该网页不为重复网页。
网页间相同正向链接所使用的锚文本也相同或相近似,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。正向链接的特性的可依据其广告链接、网页正文链接、链接类型、正向链接指向网页的主域、正向链接的锚文本等方面确定、例如,在上述方面任意选择几个组合使用,计算网页的分值。如将广告链接、网页正文链接两方面组合使用;如将正向链接指向网页的主域、正向链接的锚文本两方面组合使用。下面重点说明其中一优选实施例。
参阅图8,示出本发明网页的排重方法第七实施例,具体步骤如下所述。
步骤S801、获取互联网上各网页的正向链接信息。
步骤S802、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S803、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S804、将提取的网页组成排重集合。
步骤S805、根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。
在相同正向链接中查找广告链接,如广告链接所占比例为X1%,将该网页分值设置为P1=X1*U1;
在相同的正向链接中查找网页正文链接,如网页正文链接所占比例为X2%,将该网页分值设置为P2=X2*U2;
在相同的正向链接中查找相同链接类型,如相同链接类型所占比例为X3%,将该网页分值设置为P3=X3*U3;
获取相同的正向链接指向的网页,如上述网页所属的主域所占比例为X4%,将该网页分值设置为P4=X4*U4;
获取相同正向链接的锚文本,如相同及相近似的锚文本所占比例为X5%,将该网页分值设置为P5=X5*U5;
将网页的上述数值相加,得到网页的总分值为P=P1+P2+P3+P4+P5=X1*U1+X2*U2+X3*U3+X4*U4+X5*U5。其中,U1-U5为系数,取值范围为0-1,根据网页性质的不同可进行调整。
如相比较的网页总分值超过设定阈值,则认为该网页为重复网页,进行排重处理。
本发明依据相同正向链接中广告链接、网页正文链接、链接类型、正向链接指向网页的主域、正向链接的锚文本等多方面判断网页是否为重复网页,使判断更全面、更客观,相应的,网页排重也更准确。
本发明还引入多种判断标准,进一步提高网页排重的准确率。本发明引入网页签名的概念,根据正向链接指向网页的系数和各网页的Rank值,网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,计算网页的签名,排除签名相似度高的网页。
参阅图9,示出本发明网页的排重方法第八实施例,具体步骤如下所述。
步骤S901、获取互联网上各网页的正向链接信息。
步骤S902、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S903、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S904、将提取的网页组成排重集合。
步骤S905、计算网页签名,排除签名相似度超过设定阈值的网页。
获取正向链接指向网页的系数a和各网页的Rank值PR,网页所在主域的系数b和各主域的Rank值DR,及正向链接锚文本的系数c和各锚文本的权重值AR;
网页签名等于=a*(PR1+PR2+PR3+...)+b*(DR1+DR2+DR3...)+c*(AR1+AR2+AR3+...);
其中,a的取值大于b的取值和c的取值,a的取值范围为0.5-0.9;b的取值范围为0.1-0.3;c的取值范围为0.1-0.3;正向链接指向各网页的Rank值PR,网页所在各主域的Rank值DR,及正向链接各锚文本的权重值AR根据常规算法计算后存储在数据库内。设定阈值的取值范围100-10000。
本发明通过合理设置系数值,使网页签名更侧重反映正向链接指向网页的Rank值,签名相似度高的网页表明网页内容也非常相似,可直接认定为重复网页,进行排除。本发明在网页排重中综合考虑正向链接锚文本的权重值、正向链接指向的各网页的Rank值、上述网页所属主域的Rank值,使对重复网页的判断更加客观、全面,进一步提高网页排重的准确率。
本发明引入网页质量值的概念,根据正向链接指向网页的系数和各网页的Rank值,网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,计算网页的质量值,在排除重复网页之前,保留质量较高的网页。
参阅图10,示出本发明网页的排重方法第九实施例,具体步骤如下所述。
步骤S1001、获取互联网上各网页的正向链接信息。
步骤S1002、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S1003、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S1004、将提取的网页组成排重集合。
步骤S1005、计算网页质量值,保留网页质量值超过设置阈值的网页。
获取正向链接指向网页的系数x和各网页的Rank值PR,网页所在主域的系数y和各主域的Rank值DR,及正向链接锚文本的系数z和各锚文本的权重值AR;
网页签名等于=x*(PR1+PR2+PR3+...)+y*(DR1+DR2+DR3...)+z*(AR1+AR2+AR3+...);
其中,x的取值范围为0.1-0.3;b的取值范围为0.5-0.9;c的取值范围为0.5-0.9;正向链接指向各网页的Rank值PR,网页所在各主域的Rank值DR,及正向链接各锚文本的权重值AR根据常规算法计算后存储在数据库内。设置阈值的取值范围100-10000。
步骤S1006、计算网页签名,排除签名相似度超过设定阈值的网页。
本发明通过合理设置系数值,使网页质量值更侧重反映正向链接锚文本的权重值、及其正向链接指向网页所述主域的Rank值,质量值高可表明网页内容充实、丰富,存在重复的可能性较小。本发明在排重之前保留质量值较高的网页,可有效避免网页排重中的误判,进一步提高网页排重的准确率。
基于上述网页排重方法,本发明还提供一种网页排重系统,该排重系统效率较高,并且能够具有较高的精度和准确率。
参阅图11,示出本发明网页排重系统第一实施例,包括获取模块11、比较模块12、提取模块13、组成模块14、及排除模块15。
获取模块11获取互联网上各网页的正向链接信息。获取模块11在互联网上抓取网页,并提取各网页的正向链接信息。正向链接包括图片链接、文字链接、广告链接、隐藏链接、空文本链接、回引链接、导航链接等。获取模块11将获取的正向链接信息发送到比较模块12。
比较模块12比较各网页的正向链接信息。比较模块12将各网页正向链接信息进行对比,将比较结果发送到提取模块13。
提取模块13提取相同正向链接的数量超过阈值的网页,并将提取的网页发送到组成模块14。
组成模块14将提取的网页组成排重集合。排重集合为{(网页A、网页B、网页C、网页D)、(网页A、网页B、网页C、网页D...)、(网页A、网页B、网页C、网页D...)...}。其中,小括号内为可能相互重复的网页集合。组成模块14将排重集合发送到排除模块15。
排除模块15基于排重集合排除重复网页。
参阅图12,示出本发明网页排重系统第二实施例,包括获取模块11、比较模块12、提取模块13、组成模块14、排除模块15、特性计算模块16、数据获取模块17、及网页签名计算模块18。
特性计算模块16根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,并将分值发送给排除模块15。
特性计算模块16在相同正向链接中查找广告链接,如广告链接数量大于预设数值,将该网页分值加1;如查找到的广告链接数量小于预设数值,不增加分值;
特性计算模块16在相同的正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,将该网页分值加1;如查找到的网页正文链接数量小于预置数值,不增加分值;
特性计算模块16在相同的正向链接中查找相同链接类型,如相同链接类型数量超于设置数值,将该网页分值加1;如相同链接类型数量小于设置数值,不增加分值;
特性计算模块16获取相同的正向链接指向的网页,如上述网页所属的主域个数大于设定数值,将该网页分值加1;如上述网页所属的主域个数大于设定数值,不增加分值;
特性计算模块16获取相同正向链接的锚文本,如锚文本相同及相近似,将该网页分值加1;如锚文本不相同也不相近似,不增加分值。
排除模块15在包含相同正向链接的网页的分值在预定数值之内时,排除该网页。
数据获取模块17获取正向链接指向网页的系数a和各网页的Rank值PR,网页所在主域的系数b和各主域的Rank值DR,及正向链接锚文本的系数c和各锚文本的权重值AR,其中,a的取值大于b的取值和c的取值。数据获取模块17将获取的数值发送给网页签名计算模块18。
网页签名计算模块18利用算式:网页签名等于=a*(PR1+PR2+PR3+...)+b*(DR1+DR2+DR3...)+c*(AR1+AR2+AR3+...),计算网页签名,并将计算数值发送给排除模块15。
排除模块15排除模块排除签名相似度超过设定阈值的网页。
获取模块11、比较模块12、提取模块13、组成模块14在该实施例中的作用和功能与图11所示实施例相同,不再赘述。
以上对本发明所提供的一种网页的排重方法及排重系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (14)

1.一种网页的排重方法,其特征在于,包括:
获取互联网上各网页的正向链接信息;
比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;
将提取的网页组成排重集合,基于所述排重集合排除重复网页。
2.如权利要求1所述的方法,其特征在于,比较各网页的正向链接信息之前,还包括:
去除各网页正向链接信息中的导航链接和回引链接。
3.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
在相同正向链接中查找广告链接,如广告链接数量大于预设数值,排除包含上述相同正向链接的网页。
4.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链接的网页。
5.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
在相同正向链接中查找相同的链接类型,如相同的链接类型数量超于设置数值,排除包含上述相同正向链接的网页。
6.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
获取相同正向链接指向的网页,如上述网页所属主域的个数小于设定数值,排除包含上述相同正向链接的网页。
7.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
获取相同正向链接的锚文本,如锚文本相同或相近似,排除包含上述相同正向链接的网页。
8.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。
9.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
在相同正向链接中查找广告链接获取广告链接所占比例数,网页正文链接所占比例数,相同链接类型所占比例数,网页所属的主域所占比例数,相同及相近似的锚文本所占比例数;
将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除包含上述相同正向链接的网页。
10.如权利要求1或2所述的方法,其特征在于,基于所述排重集合排除重复网页具体为:
获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;
分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页签名;
排除签名相似度超过设定阈值的网页。
11.如权利要求10所述的方法,其特征在于,还包括:
获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数小于锚文本的系数和主域的系数;
分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页质量值;
保留网页质量值超过设置阈值的网页。
12.一种网页的排重系统,其特征在于,包括获取模块、比较模块、提取模块、组成模块、及排除模块:
所述获取模块,用于获取互联网上各网页的正向链接信息;
所述比较模块,用于比较各网页的正向链接信息;
所述提取模块,用于提取相同正向链接的数量超过阈值的网页;
所述组成模块,用于将提取的网页组成排重集合;
所述排除模块,用于基于所述排重集合排除重复网页。
13.如权利要求12所述的系统,其特征在于,还包括特性计算模块,用于根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,并将分值发送给排除模块;
所述排除模块排除分值差在预定数值之内的网页。
14.如权利要求12或13所述的方法,其特征在于,还包括数据获取模块和网页签名计算模块:
所述数据获取模块,用于获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;
所述网页签名计算模块,用于分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页签名,将网页签名发送到所述排除模块;
所述排除模块排除签名相似度超过设定阈值的网页。
CN2007103045659A 2007-12-28 2007-12-28 一种网页的排重方法及排重系统 Active CN101226533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007103045659A CN101226533B (zh) 2007-12-28 2007-12-28 一种网页的排重方法及排重系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007103045659A CN101226533B (zh) 2007-12-28 2007-12-28 一种网页的排重方法及排重系统

Publications (2)

Publication Number Publication Date
CN101226533A true CN101226533A (zh) 2008-07-23
CN101226533B CN101226533B (zh) 2010-06-09

Family

ID=39858534

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007103045659A Active CN101226533B (zh) 2007-12-28 2007-12-28 一种网页的排重方法及排重系统

Country Status (1)

Country Link
CN (1) CN101226533B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908047B (zh) * 2009-06-08 2012-05-30 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN102567313A (zh) * 2010-12-07 2012-07-11 盛乐信息技术(上海)有限公司 递进式网页库去重系统及其实现方法
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN103064874A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 获取网页质量数据的方法和浏览器及服务器
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103577418A (zh) * 2012-07-24 2014-02-12 北京拓尔思信息技术股份有限公司 海量文档分布式检索排重系统和方法
CN104063506A (zh) * 2014-07-08 2014-09-24 百度在线网络技术(北京)有限公司 重复网页识别方法和装置
CN104392002A (zh) * 2014-12-15 2015-03-04 中国科学院信息工程研究所 一种大规模网页集合的近似重复查找方法
CN104978431A (zh) * 2015-07-13 2015-10-14 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN106528569A (zh) * 2015-09-11 2017-03-22 北京国双科技有限公司 计算站内搜索有效度的方法及装置
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908047B (zh) * 2009-06-08 2012-05-30 北京搜狗科技发展有限公司 无效模板生成方法及装置、无效网页识别方法及装置
CN102567313A (zh) * 2010-12-07 2012-07-11 盛乐信息技术(上海)有限公司 递进式网页库去重系统及其实现方法
CN102622365B (zh) * 2011-01-28 2015-04-29 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN102622365A (zh) * 2011-01-28 2012-08-01 北京百度网讯科技有限公司 一种网页重复的判断系统及其判断方法
CN103577418B (zh) * 2012-07-24 2016-12-21 北京拓尔思信息技术股份有限公司 海量文档分布式检索排重系统和方法
CN103577418A (zh) * 2012-07-24 2014-02-12 北京拓尔思信息技术股份有限公司 海量文档分布式检索排重系统和方法
CN103064873A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 一种网页质量数据获取方法和系统
CN103064874B (zh) * 2012-10-26 2016-08-03 北京奇虎科技有限公司 获取网页质量数据的方法和浏览器及服务器
CN103064874A (zh) * 2012-10-26 2013-04-24 北京奇虎科技有限公司 获取网页质量数据的方法和浏览器及服务器
CN104063506A (zh) * 2014-07-08 2014-09-24 百度在线网络技术(北京)有限公司 重复网页识别方法和装置
CN104063506B (zh) * 2014-07-08 2017-04-12 百度在线网络技术(北京)有限公司 重复网页识别方法和装置
CN104392002A (zh) * 2014-12-15 2015-03-04 中国科学院信息工程研究所 一种大规模网页集合的近似重复查找方法
CN104392002B (zh) * 2014-12-15 2017-09-26 中国科学院信息工程研究所 一种大规模网页集合的近似重复查找方法
CN104978431A (zh) * 2015-07-13 2015-10-14 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN104978431B (zh) * 2015-07-13 2019-05-17 百度在线网络技术(北京)有限公司 网页数据融合方法和装置
CN106528569A (zh) * 2015-09-11 2017-03-22 北京国双科技有限公司 计算站内搜索有效度的方法及装置
CN106528569B (zh) * 2015-09-11 2019-09-17 北京国双科技有限公司 计算站内搜索有效度的方法及装置
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置

Also Published As

Publication number Publication date
CN101226533B (zh) 2010-06-09

Similar Documents

Publication Publication Date Title
CN101226533B (zh) 一种网页的排重方法及排重系统
CN105488196B (zh) 一种基于互联语料的热门话题自动挖掘系统
CN105630941B (zh) 基于统计和网页结构的Web正文内容抽取方法
CN103491205B (zh) 一种基于视频搜索的关联资源地址的推送方法和装置
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN103345496B (zh) 多媒体信息检索方法和系统
CN102081602B (zh) 确定未登录词的类别的方法和设备
CN106126235A (zh) 一种复用代码库构建方法、复用代码快速溯源方法及系统
CN104636325B (zh) 一种基于极大似然估计确定文档相似度的方法
CN102945244A (zh) 基于句号特征字串的中文网页重复文档检测和过滤方法
CN102760142A (zh) 一种针对搜索请求抽取搜索结果主题标签的方法和装置
CN105264518A (zh) 数据处理装置及故事模型构建方法
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN102750390A (zh) 新闻网页要素自动提取方法
CN101526956A (zh) 基于内容引用的网页搜索结果排序方法
CN102609407A (zh) 一种网络不良文本内容的细粒度语义检测方法
CN104679730A (zh) 网页摘要抽取方法及其装置
CN107220307A (zh) 网页搜索方法和装置
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN105095381A (zh) 新词识别方法和装置
CN103646029A (zh) 一种针对博文的相似度计算方法
CN101576872B (zh) 一种中文文本处理方法及装置
CN101102316A (zh) 一种网页去重的方法及系统
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN105528421A (zh) 一种针对海量数据中查询词的搜索维度挖掘方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENCENT TECHNOLOGY (BEIJING) CO., LTD.

Effective date: 20131024

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100089 HAIDIAN, BEIJING TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131024

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Beijing 100089 Haidian District 38 Haidian Avenue branch bank building 16 layer

Patentee before: Tencent Technology (Beijing) Co., Ltd