发明内容
本发明所要解决的技术问题是提供一种网页的排重方法,以解决现有技术中网页排重效率低下的不足,该排重方法效率较高,并且能够具有较高的精度和准确率。
本发明的另一个目的是提供一种网页的排重系统,以解决现有技术中网页排重效率低下的不足,该排重系统效率较高,并且能够具有较高的精度和准确率。
本发明一种网页的排重方法,包括:获取互联网上各网页的正向链接信息;比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页;将提取的网页组成排重集合,基于所述排重集合排除重复网页。
优选的,比较各网页的正向链接信息之前,还包括:去除各网页正向链接信息中的导航链接和回引链接。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找广告链接,如广告链接数量大于预设数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找相同的链接类型,如相同的链接类型数量超于设置数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:获取相同正向链接指向的网页,如上述网页所属主域的个数小于设定数值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:获取相同正向链接的锚文本,如锚文本相同或相近似,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。
优选的,基于所述排重集合排除重复网页具体为:在相同正向链接中查找广告链接获取广告链接所占比例数,网页正文链接所占比例数,相同链接类型所占比例数,网页所属的主域所占比例数,相同及相近似的锚文本所占比例数;将上述比例数乘以相应的系数后相加,如得到的数值大于设定阈值,排除包含上述相同正向链接的网页。
优选的,基于所述排重集合排除重复网页具体为:获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页签名;排除签名相似度超过设定阈值的网页。
优选的,还包括:获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数小于锚文本的系数和主域的系数;分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页质量值;保留网页质量值超过设置阈值的网页。
本发明还公开一种网页的排重系统,包括获取模块、比较模块、提取模块、组成模块、及排除模块:所述获取模块,用于获取互联网上各网页的正向链接信息;所述比较模块,用于比较各网页的正向链接信息;所述提取模块,用于提取相同正向链接的数量超过阈值的网页;所述组成模块,用于将提取的网页组成排重集合;所述排除模块,用于基于所述排重集合排除重复网页。
优选的,还包括特性计算模块,用于根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,并将分值发送给排除模块;所述排除模块排除分值差在预定数值之内的网页。
优选的,还包括数据获取模块和网页签名计算模块:所述数据获取模块,用于获取正向链接指向网页的系数和各网页的Rank值,上述网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,其中,网页的系数大于锚文本的系数和主域的系数;所述网页签名计算模块,用于分别计算网页的系数乘以各网页的Rank值之和,主域的系数乘以各主域的Rank值之和,锚文本的系数乘以各锚文本的权重值之和,将计算数值相加得到网页签名,将网页签名发送到所述排除模块;所述排除模块排除签名相似度超过设定阈值的网页。
与现有技术相比,本发明具有以下优点:
本发明提取具有相同正向链接数量超过阈值的网页作为排重集合,在基于该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。本发明提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围,减少计算量,提高排重效率。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一个网页包含指向另一个网页的超链接(URL),认为这两个网页之间存在链接关系,超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B,该链接对于网页A为正向链接,对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。正向链接和锚文本可集中反映该网页与其它网页的链接关系,链接关系相同或相近似的网页一般网页内容也多相同或相近似。因此,本发明将网页中的正向链接和锚文本作为判断重复网页的依据,高效、准确的排除重复网页。
参阅图2,示出本发明网页的排重方法第一实施例,具体步骤如下所述。
步骤S201、获取互联网上各网页的正向链接信息。网页排重系统在互联网上抓取网页,并提取各网页的正向链接信息。正向链接包括图片链接、文字链接、广告链接、隐藏链接、空文本链接、回引链接、导航链接等。
其中,图片链接是指链接标识为图片形式;文字链接是指链接标识为文字形式;广告链接是指链接广告信息的链接;隐藏链接是指链接标识隐藏在其它信息中;空文本链接是指超链接上没有文字;回引链接是指指向本网页主域、子域首页的链接;导航链接是指指向下一级域名或上一级域名,只起导航作用的链接。
步骤S202、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。将各网页正向链接信息进行对比,如相同正向链接的数量超过阈值,则提取包含这些相同正向链接的网页;如相同正向链接的数量低于阈值,则不提取该网页。阈值的取值范围为5-20。优选为10。
同理,本发明也可以通过预置比例,提取网页。将各网页正向链接信息进行对比,如相同正向链接的数量超过预置比例,则提取包含这些相同正向链接的网页;如相同正向链接的数量低于预置比例,则不提取该网页。预置比例的取值范围为20%-70%。优选为50%。
步骤S203、将提取的网页组成排重集合,基于排重集合查找重复网页。例如,排重集合为{(网页A、网页B、网页C、网页D)、(网页A、网页B、网页C、网页D...)、(网页A、网页B、网页C、网页D...)...}。其中,小括号内为可能相互重复的网页集合。
本发明提取具有相同正向链接数量超过阈值的网页作为排重集合,在基于该排重集合排除重复网页。相对应现有技术中提取特征码,对比特征码,本发明在互联网各网页上提取正向链接信息,对比正向链接信息。相对于人为规定的特征码,正向链接信息在网页中更明确,易于识别和提取,并且方便对比。本发明提取可能存在重复的网页作为排重集合,大大缩小的排重计算的范围,减少计算量,提高排重效率。
本发明可根据相同正向链接中广告链接的数量,在排重集合中排除重复网页。
参阅图3,示出本发明网页的排重方法第二实施例,具体步骤如下所述。
步骤S301、获取互联网上各网页的正向链接信息。
步骤S302、去除各网页的正向链接信息中的导航链接和回引链接。因导航链接和回引链接是同主域网页之间常使用的链接,不能很好地反映网页本身的链接特性,因此,将正向链接中的导航链接和回引链接去除,提高参与对比的正向链接的质量。
步骤S303、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S304、将提取的网页组成排重集合。
步骤S305、在相同正向链接中查找广告链接,如查找到的广告链接数量大于预设数值,排除包含上述相同正向链接的网页;如查找到的广告链接数量小于预设数值,确定该网页不为重复网页。预设数值的范围为5-10。
因网页广告链接与该网页正文内容是密切相关的,如果网页间相同正向链接集中表现为广告链接,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可根据相同正向链接中正文链接的数量,在排重集合中排除重复网页。
参阅图4,示出本发明网页的排重方法第三实施例,具体步骤如下所述。
步骤S401、获取互联网上各网页的正向链接信息。
步骤S402、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S403、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S404、将提取的网页组成排重集合。
步骤S405、在相同正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,排除包含上述相同正向链接的网页;如网页正文链接数量小于预置数值,确定该网页不为重复网页。预置数值的范围为5-10。
相对于其它正向链接,网页正文链接更能反映网页的链接特性,如相同正向链接集中表现为网页中文链接,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可在相同的正向链接查找相同的链接类型,根据相同链接类型的数量,在排重集合中排除重复网页。
参阅图5,示出本发明网页的排重方法第四实施例,具体步骤如下所述。
步骤S501、获取互联网上各网页的正向链接信息。
步骤S502、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S503、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S504、将提取的网页组成排重集合。
步骤S505、在相同的正向链接中查找相同链接类型,如相同链接类型数量超于设置数值,排除包含上述相同正向链接的网页;如相同链接类型数量小于设置数值,确定该网页不为重复网页。设置数值的范围为5-10。
链接类型包括图片链接、隐藏链接、文字链接、空文本链接等,如网页间相同正向链接的类型也基本相同,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可查找相同正向链接指向网页所属的主域,根据主域的数量在排重集合中排除重复网页。
参阅图6,示出本发明网页的排重方法第五实施例,具体步骤如下所述。
步骤S601、获取互联网上各网页的正向链接信息。
步骤S602、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S603、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S604、将提取的网页组成排重集合。
步骤S605、获取相同的正向链接指向的网页,如上述网页所属的主域个数小于设定数值,排除包含上述相同正向链接的网页;如上述网页所属的主域个数大于设定数值,确定该网页不为重复网页。设定数值的范围为5-10。
网页间相同正向链接集中指向某几个主域的网页,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可获取相同正向链接的锚文本,根据锚文本是否相同或相近似在排重集合中排除重复网页。
参阅图7,示出本发明网页的排重方法第六实施例,具体步骤如下所述。
步骤S701、获取互联网上各网页的正向链接信息。
步骤S702、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S703、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S704、将提取的网页组成排重集合。
步骤S705、获取相同正向链接的锚文本,如锚文本相同及相近似,排除包含上述相同正向链接的网页;如锚文本不相同也不相近似,确定该网页不为重复网页。
网页间相同正向链接所使用的锚文本也相同或相近似,表明上述网页的内容信息是相同或相近似的,可以确定上述网页为重复网页,进行排除。该排重方法简单实用,易于对比,可提高排除效率。
本发明可根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。正向链接的特性的可依据其广告链接、网页正文链接、链接类型、正向链接指向网页的主域、正向链接的锚文本等方面确定、例如,在上述方面任意选择几个组合使用,计算网页的分值。如将广告链接、网页正文链接两方面组合使用;如将正向链接指向网页的主域、正向链接的锚文本两方面组合使用。下面重点说明其中一优选实施例。
参阅图8,示出本发明网页的排重方法第七实施例,具体步骤如下所述。
步骤S801、获取互联网上各网页的正向链接信息。
步骤S802、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S803、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S804、将提取的网页组成排重集合。
步骤S805、根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,排除分值差在预定数值之内的网页。
在相同正向链接中查找广告链接,如广告链接所占比例为X1%,将该网页分值设置为P1=X1*U1;
在相同的正向链接中查找网页正文链接,如网页正文链接所占比例为X2%,将该网页分值设置为P2=X2*U2;
在相同的正向链接中查找相同链接类型,如相同链接类型所占比例为X3%,将该网页分值设置为P3=X3*U3;
获取相同的正向链接指向的网页,如上述网页所属的主域所占比例为X4%,将该网页分值设置为P4=X4*U4;
获取相同正向链接的锚文本,如相同及相近似的锚文本所占比例为X5%,将该网页分值设置为P5=X5*U5;
将网页的上述数值相加,得到网页的总分值为P=P1+P2+P3+P4+P5=X1*U1+X2*U2+X3*U3+X4*U4+X5*U5。其中,U1-U5为系数,取值范围为0-1,根据网页性质的不同可进行调整。
如相比较的网页总分值超过设定阈值,则认为该网页为重复网页,进行排重处理。
本发明依据相同正向链接中广告链接、网页正文链接、链接类型、正向链接指向网页的主域、正向链接的锚文本等多方面判断网页是否为重复网页,使判断更全面、更客观,相应的,网页排重也更准确。
本发明还引入多种判断标准,进一步提高网页排重的准确率。本发明引入网页签名的概念,根据正向链接指向网页的系数和各网页的Rank值,网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,计算网页的签名,排除签名相似度高的网页。
参阅图9,示出本发明网页的排重方法第八实施例,具体步骤如下所述。
步骤S901、获取互联网上各网页的正向链接信息。
步骤S902、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S903、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S904、将提取的网页组成排重集合。
步骤S905、计算网页签名,排除签名相似度超过设定阈值的网页。
获取正向链接指向网页的系数a和各网页的Rank值PR,网页所在主域的系数b和各主域的Rank值DR,及正向链接锚文本的系数c和各锚文本的权重值AR;
网页签名等于=a*(PR1+PR2+PR3+...)+b*(DR1+DR2+DR3...)+c*(AR1+AR2+AR3+...);
其中,a的取值大于b的取值和c的取值,a的取值范围为0.5-0.9;b的取值范围为0.1-0.3;c的取值范围为0.1-0.3;正向链接指向各网页的Rank值PR,网页所在各主域的Rank值DR,及正向链接各锚文本的权重值AR根据常规算法计算后存储在数据库内。设定阈值的取值范围100-10000。
本发明通过合理设置系数值,使网页签名更侧重反映正向链接指向网页的Rank值,签名相似度高的网页表明网页内容也非常相似,可直接认定为重复网页,进行排除。本发明在网页排重中综合考虑正向链接锚文本的权重值、正向链接指向的各网页的Rank值、上述网页所属主域的Rank值,使对重复网页的判断更加客观、全面,进一步提高网页排重的准确率。
本发明引入网页质量值的概念,根据正向链接指向网页的系数和各网页的Rank值,网页所在主域的系数和各主域的Rank值,及正向链接锚文本的系数和各锚文本的权重值,计算网页的质量值,在排除重复网页之前,保留质量较高的网页。
参阅图10,示出本发明网页的排重方法第九实施例,具体步骤如下所述。
步骤S1001、获取互联网上各网页的正向链接信息。
步骤S1002、去除各网页的正向链接信息中的导航链接和回引链接。
步骤S1003、比较各网页的正向链接信息,提取相同正向链接的数量超过阈值的网页。
步骤S1004、将提取的网页组成排重集合。
步骤S1005、计算网页质量值,保留网页质量值超过设置阈值的网页。
获取正向链接指向网页的系数x和各网页的Rank值PR,网页所在主域的系数y和各主域的Rank值DR,及正向链接锚文本的系数z和各锚文本的权重值AR;
网页签名等于=x*(PR1+PR2+PR3+...)+y*(DR1+DR2+DR3...)+z*(AR1+AR2+AR3+...);
其中,x的取值范围为0.1-0.3;b的取值范围为0.5-0.9;c的取值范围为0.5-0.9;正向链接指向各网页的Rank值PR,网页所在各主域的Rank值DR,及正向链接各锚文本的权重值AR根据常规算法计算后存储在数据库内。设置阈值的取值范围100-10000。
步骤S1006、计算网页签名,排除签名相似度超过设定阈值的网页。
本发明通过合理设置系数值,使网页质量值更侧重反映正向链接锚文本的权重值、及其正向链接指向网页所述主域的Rank值,质量值高可表明网页内容充实、丰富,存在重复的可能性较小。本发明在排重之前保留质量值较高的网页,可有效避免网页排重中的误判,进一步提高网页排重的准确率。
基于上述网页排重方法,本发明还提供一种网页排重系统,该排重系统效率较高,并且能够具有较高的精度和准确率。
参阅图11,示出本发明网页排重系统第一实施例,包括获取模块11、比较模块12、提取模块13、组成模块14、及排除模块15。
获取模块11获取互联网上各网页的正向链接信息。获取模块11在互联网上抓取网页,并提取各网页的正向链接信息。正向链接包括图片链接、文字链接、广告链接、隐藏链接、空文本链接、回引链接、导航链接等。获取模块11将获取的正向链接信息发送到比较模块12。
比较模块12比较各网页的正向链接信息。比较模块12将各网页正向链接信息进行对比,将比较结果发送到提取模块13。
提取模块13提取相同正向链接的数量超过阈值的网页,并将提取的网页发送到组成模块14。
组成模块14将提取的网页组成排重集合。排重集合为{(网页A、网页B、网页C、网页D)、(网页A、网页B、网页C、网页D...)、(网页A、网页B、网页C、网页D...)...}。其中,小括号内为可能相互重复的网页集合。组成模块14将排重集合发送到排除模块15。
排除模块15基于排重集合排除重复网页。
参阅图12,示出本发明网页排重系统第二实施例,包括获取模块11、比较模块12、提取模块13、组成模块14、排除模块15、特性计算模块16、数据获取模块17、及网页签名计算模块18。
特性计算模块16根据相同正向链接的特性,计算包含上述相同正向链接的网页的分值,并将分值发送给排除模块15。
特性计算模块16在相同正向链接中查找广告链接,如广告链接数量大于预设数值,将该网页分值加1;如查找到的广告链接数量小于预设数值,不增加分值;
特性计算模块16在相同的正向链接中查找网页正文链接,如网页正文链接数量大于预置数值,将该网页分值加1;如查找到的网页正文链接数量小于预置数值,不增加分值;
特性计算模块16在相同的正向链接中查找相同链接类型,如相同链接类型数量超于设置数值,将该网页分值加1;如相同链接类型数量小于设置数值,不增加分值;
特性计算模块16获取相同的正向链接指向的网页,如上述网页所属的主域个数大于设定数值,将该网页分值加1;如上述网页所属的主域个数大于设定数值,不增加分值;
特性计算模块16获取相同正向链接的锚文本,如锚文本相同及相近似,将该网页分值加1;如锚文本不相同也不相近似,不增加分值。
排除模块15在包含相同正向链接的网页的分值在预定数值之内时,排除该网页。
数据获取模块17获取正向链接指向网页的系数a和各网页的Rank值PR,网页所在主域的系数b和各主域的Rank值DR,及正向链接锚文本的系数c和各锚文本的权重值AR,其中,a的取值大于b的取值和c的取值。数据获取模块17将获取的数值发送给网页签名计算模块18。
网页签名计算模块18利用算式:网页签名等于=a*(PR1+PR2+PR3+...)+b*(DR1+DR2+DR3...)+c*(AR1+AR2+AR3+...),计算网页签名,并将计算数值发送给排除模块15。
排除模块15排除模块排除签名相似度超过设定阈值的网页。
获取模块11、比较模块12、提取模块13、组成模块14在该实施例中的作用和功能与图11所示实施例相同,不再赘述。
以上对本发明所提供的一种网页的排重方法及排重系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。