发明内容
本发明所要解决的技术问题是提供一种镜像网页的查找方法,以解决现有技术中查找方法效率低下的不足。本发明能够简单、快捷地查找镜像网页,具有较高的效率。
本发明的另一个目的是提供一种镜像网页的查找系统,以解决现有技术中查找方法效率低下的不足。本发明能够简单、快捷地查找镜像网页,具有较高的效率。
本发明一种镜像网页的查找方法,包括:获取网页反向链接的锚文本;判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识,确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。
优选的,判断上述锚文本相对于所述网页是否合法之前,还包括:计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本。
优选的,计算上述锚文本的权重具体为:统计与子网页同主域的父网页数量,乘以同主域权重系数;统计与子网页不同主域的各主域的父网页数量,乘以不同主域权重系数;将上述乘积相加的和做为上述锚文本权重。
优选的,还包括:如与子网页同主域的父网页数量大于预置数值,按预置数值计算。
优选的,还包括:与子网页不同主域的各主域的父网页数量大于预设数值,按预设数据计算。
优选的,获取网页反向链接的锚文本具体为:在互联网的各网页上提取正向链接的锚文本;反转各正向链接,获取网页反向链接的锚文本。
优选的,判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法具体为:对所述锚文本分解为各词语,判断在词语列表中或者在反向词语列表中是否能够查找到各词语,认为能够在词语列表中查找到的词语与所述网页相关联或者不能够在反向词语列表中查找到的词语与所述网页相关联;如相关联词语个数小于绝对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
优选的,判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法具体为:对所述锚文本分解为各词语, 判断在词语列表中或者在反向词语列表中是否能够查找到各词语,认为能够在词语列表中查找到的词语与所述网页相关联或者不能够在反向词语列表中查找到的词语与所述网页相关联;如相关联词语在上述各词语中的比例小于相对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
本发明一种镜像网页的查找系统,包括锚文本获取模块、合法性判断模块、网页提取模块、集合组成模块、及查找模块;所述锚文本获取模块,用于获取网页反向链接的锚文本;所述合法性判断模块,用于判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识;所述网页提取模块,用于确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;所述集合组成模块,用于将提取的网页组成镜像网页查找集合;所述查找模块,用于基于所述镜像网页查找集合查找镜像网页。
优选的,还包括权重计算模块,用于计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到所述合法性判断模块。
与现有技术相比,本发明具有以下优点:
本发明根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜像网页查找集合,本发明组成的镜像网页查找集合只包含可能存在镜像的网页,服务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,避免不必要的分析计算,具有较高的查找效率。
本发明在锚文本数量较多的情况下,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,组成镜像网页查找集合,进一步缩小镜像网站集合的范围,该集合的网页存在镜像的可能性较高,使得基于该集合查找镜像网页的效率进一步提高。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一个网页包含指向另一个网页的超链接(URL),认为这两个网页之间存在链接关系。超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B,网页A可称为父网页,网页B可称为子网页,该链接对于网页A为正向链接,对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。
一个网页使用某个锚文本链接另一个网页,可以看作是现实中一个人对另一个人的称谓、评价、总结。例如,网页A使用锚文本“北大”指向网页B,可以看作是网页A称呼网页B为“北大”。但如果“北大”并不是网页B合法称呼,那么网页A就可能存在问题。同理,使用锚文本“北大”指向网页B的各网页都可能存在同样的问题,因存在同样的问题,上述各网页间存在镜像网页可能性较大。将存在镜像可能性较大的网页提取出来,组成镜像网页查找集合,再基于该集合查找镜像网页,缩小查找范围,提高查找效率。
参阅图2,示出本发明镜像网页的查找方法第一实施例,具体步骤如下。
步骤S201、获取网页反向连接的锚文本。网络服务器在互联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。
例如,网页A使用锚文本S指向网页B,S是网页A的正向链接锚文本,为网页A(S)-->网页B。反转后,得到网页B(S)<--网页A,对于网页B,则是锚文本S为反向链接的锚文本。
再例如,新浪网首页使用“搜狐”指向搜狐网首页,“搜狐”是新浪网首页的正向链接锚文本,记录为{parent:www.sina.com child:www.sohu.comanchortext:搜狐},反转后获得{child:www.sohu.com parent:www.sina.com anchortext:搜狐}。
步骤S202、判断锚文本相对于网页是否合法,如是,可认为该锚文本合法;如否,则认为该锚文本不合法。
对于每个网页,可预置词语列表,词语列表内包含与该网页直接相关的词语、语句和标识。例如,对于新浪网首页,“新浪”、“新浪首页”“www.sina.com”等都是直接相关词语、语句和标识。判断时,在该网页的词语列表中查找该锚文本,如查找到,认为该锚文本相对于该网页合法;如查找不到,认为该锚文本相对于该网页不合法。
当然,对于每个网页,可预置反向词语列表,该反向词语列表内包含与该网页完全不相关的词语、语句和标识。例如,对于新浪网首页,“苹果”、“游戏”“www.sna.com”等都是不相关词语、语句和标识。如果锚文本包含在该反向词语列表内,认为该锚文本不合法;如锚文本不包含在该词语列表内,则认为该锚文本合法。
步骤S203、确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,组成镜像网页查找集合。锚文本所属的网页是指锚文本所在的网页,即使用该锚文本作为正向链接的网页。同主域是指包含相同的第一级域名,如新浪网首页、新浪网各子网页、和新浪网各目录网页为同主域,都包含www.sina.con这个第一级域名。子域是主域的下一级域名。
例如,网页A、网页B、网页C使用锚文本S正向链接网页D,如锚文本S不合法,确定锚文本S所属的网页A、网页B、网页C,在分别提取网页A、网页B、网页C所在主域、子域、及目录的首页。
再例如,网页A为http://news.sohu.com/20071217/n254120723.shtml,则提取其主域首页http://www.sohu.com,子域首页http://news.sohu.com,目录首页http://news.sohu.com/20071217。
步骤S204、基于镜像网页查找集合查找镜像网页。在镜像网页查找集合内,分别提取各个网页特征词语,再分析各网页的特征词语,统计特征词的特征值,依据特征值在镜像网页查找集合中查找镜像网页。将各项特征值相同及相近的网页作为镜像网页,在镜像网页查找集合提取出来,进行相应处理。
本发明根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜像网 页查找集合,本发明组成的镜像网页查找集合只包含可能存在镜像的网页,服务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,避免不必要的分析计算,具有较高的查找效率。
在上述步骤S202中,如果锚文本包含多个词语,简单将锚文本与网页词语列表内的语句进行比较,可能存在因某个虚词和某个词语不对应,导致锚文本的误判。本发明将该锚文本分解为各词语,依据各词语判断该锚文本是否合法。
参阅图3,示出本发明判断锚文本是否合法的方法第一实施例,具体步骤如下所述。
步骤S301、对上述锚文本进行分词。将上述锚文本分解为多个词语,选择具有实质意思的词语。例如,锚文本为“冬季请到海南旅游”分解为词语“冬季”、“请”、“到”、“海南”、“旅游”,过滤掉“请”和“到”等没有实质意义的词语,提取“冬季”、“海南”、“旅游”词语。
步骤S302、判断各词语与所述网页是否相关联。对于每个网页,可预置词语列表,词语列表内包含与该网页直接相关的词语、语句和标识。分别判断各词语是否包含在该词语列表内,如是,认为该词语与所述网页相关联;如否,认为该词语与所述网页不相关联。
例如,锚文本为“冬季请到海南旅游”,提取的具有实质意义的词语“冬季”、“海南”、“旅游”,其中,“海南”、“旅游”包含在词语列表内,为相关联词语;“冬季”不包含在词语列表内,为不相关联词语。
步骤S303、如相关联词语小于绝对阈值,判断该锚文本相对于该网页不合法;如相关联词语大于或等绝对阈值,判断该锚文本相对于该网页合法。绝对阈值的取值范围为3-5。
例如,绝对阈值为2,锚文本“冬季请到海南旅游”中2个词语为相关联词语,等于绝对阈值,该锚文本为合法锚文本。
本发明通过对锚文本分解后判断其是否合法,有利于对包含多个词语的锚文本的合法性进行准确判断。因网页词语列表所包含的词语数量有限,如果锚文本包含词语数量较多,很可能因与词语列表所包含的词语不完全相同而被误认为不合法锚文本,导致判断的准确性较低。本发明将锚文本分解后对各词语 分别进行判断,降低了判断的偶然性,增大判断的准确性。
参阅图4,示出发明判断锚文本是否合法的方法第二实施例,具体步骤如下所述。
步骤S401、对上述锚文本进行分词。将上述锚文本分解为多个词语,选择具有实质意思的词语。
步骤S402、判断各词语与所述网页是否相关联。对于每个网页,可预置词语列表,分别判断各词语是否包含在该词语列表内,如是,认为该词语与所述网页相关联;如否,认为该词语与所述网页不相关联。
步骤S403、如相关联词语在各词语中的比例小于相对阈值,判断锚文本不合法;如相关联词语的比例大于或等相对阈值,判断锚文本合法。相对阈值的取值范围是30%-70%。
例如,相对阈值取值为50%,锚文本为“冬季请到海南旅游”,其中,“海南”、“旅游”包含在词语列表内,为相关联词语;“冬季”不包含在词语列表内,为不相关联词语。相关联词语占67%,等于相对阈值,该锚文本为合法锚文本。
本发明依据对锚文本包含的相关联词语所占的比例进行判断,避免锚文本包含词语数量多或少而影响判断,能更准确判断锚文本与网页的相关度,使锚文本的合法性判断更科学、更准确。
锚文本的权重是指网页反向链接中该锚文本出现的总次数。如果某个锚文本权重很高,那么该网页反向链接可能来自多个不同的网站。如果高权重的锚文本不合法,那么该锚文本所述的全部网页就值得检验,这些网页存在镜像网页的可能性很高。本发明在锚文本数量较多的情况下,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,对进一步缩小镜像网站集合的范围。
参阅图5,示出本发明镜像网页的查找方法第二实施例,具体步骤如下。
步骤S501、获取网页反向连接的锚文本。网络服务器在互联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。
步骤S502、计算锚文本的权重。遍历网页的每一个反向链接,获取全部锚文本,统计每一个锚文本的权重。
对于某子页面的某个反向链接锚文本,设该子网页的父网页为N1个,上述父网页属于N2个主域(有些父页面可能属于同一个主域,即N1>=N2)。设和该子网页属于同主域的父网页有M1个,其它N1-M1个父网页分别属于N2-1个主域。设与子网页同主域的权重系数为u1,与子网页不同主域的权重系数为u2,该锚文本的权重为:
该锚文本权重=M1*u1+(N1-M1)*u2。
u1的权值范围是0.05-0.15,优选为0.1;u2的权值范围是0.15-0.25,优选为0.2。
举例为,共有网页A、A1、A2、A3、B、B1、B2、B3、C、C1、C2、C3,使用锚文本S正向链接网页K,对于网页K的反向链接锚文本S,父网页为A、A1、A2、A3、B、B1、B2、B3、C、C1、C2、C3共12个,其中,A、A1、A2、A3为同一主域,且与K为相同主域,B、B1、B2、B3为同一主域,C、C1、C2、C3为同一主域。计算可知,M1为4,N1-M1为8。如u1=0.1,u2=0.2,则;锚文本S的权重=4×0.1+8×0.2=2。
步骤S503、将各锚文本按权重大小排序,提取设置数量的锚文本,或提取设置比例的锚文本。计算各锚文本的权重后,如锚文本数量较大,可按设置比例提取一定数量权重较大的锚文本。设置比例可为20%-80%;如锚文本数量较小,可按设置数量提取权重较大的锚文本。设置数量可为100-10000。
步骤S504、判断锚文本相对于网页是否合法,如是,可认为该锚文本合法;如否,则认为该锚文本非法。
步骤S505、确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,组成镜像网页查找集合。锚文本所属的网页是指锚文本所在的网页,即使用该锚文本作为正向链接的网页。
步骤S506、基于镜像网页查找集合查找镜像网页。
本发明提取权重较高的锚文本进行分析,提取不合法锚文本对应的网页,组成镜像网页查找集合,该集合的网页存在镜像的可能性较高,使得基于该集合查找镜像网页的效率进一步提高。
为了避免某主域的对某网页的正向链接过多而使锚文本的权重失真,本发明对同主域的正向链接的网页数量进行限制,使锚文本权重能更好的体现其应 用的广度。在步骤S502中,本发明可对锚文本在父网页和子网页出现次数进行限制。
参阅图6,示出本发明计算锚文本权重方法第一实施例,具体步骤如下。
步骤S601、统计锚文本在各网页的出现次数。
步骤S602、检查与子网页同主域的父网页数量,如该数量超过预置数值,锚文本在该主域的数量按预置数值计算;如没有超过预置数值,按实际数量计算。预置数值的范围可为10-100。
如,预置数值为Y1,M1>Y1,则使M1=Y1;M1<Y1,则使M1不变。
参阅图7,示出本发明计算锚文本权重方法第二实施例,具体步骤如下。
步骤S701、统计上述锚文本在各网页的出现次数。
步骤S702、检查不与子网页同主域的各主域父网页数量,如该数量超过预设数值,按预设数值计算;如没有超过预设数值,按实际数量计算。预设数值的范围可为8-80。
如,预置数值为Y2,该主域父网页数量为X1,X1>Y2,则使X1=Y2;X1<Y2,则使X1不变。
本发明通过对同主域父网页数量的进行限制,防止锚文本在某主域出现次数过多,影响该锚文本权重的代表性。本发明计算的锚文本权重能更好地体现其在互联网使用的广度,从而使组成的镜像网页查找集合中的网页存在镜像的可能性更高,进一步提高查找效率。
基于上述镜像网页查找方法,本发明还提供一种镜像网页查找系统。该系统能够简单、快捷地查找镜像网页,具有较高的效率。
参阅图8,为本发明镜像网页的查找系统第一实施例,包括锚文本获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、及查找模块85。
锚文本获取模块81获取网页反向连接的锚文本。锚文本获取模块81在互联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。锚文本获取模块81将获取的锚文本发送到合法性判断模块82。
合法性判断模块82判断上述锚文本相对于所述网页是否合法,如是,可认为该锚文本合法;如否,则认为该锚文本不合法。合法性判断模块82将不 合法锚文本发送到网页提取模块83。
网页提取模块83确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页。锚文本所属的网页是指锚文本所在的网页,即使用该锚文本作为正向链接的网页。网页提取模块83将提取的网页发送到集合组成模块84。
集合组成模块84将提取的网页组成镜像网页查找集合,将该镜像网页查找集合发送到查找模块85。
查找模块85基于镜像网页查找集合查找镜像网页。查找模块85在镜像网页查找集合内,分别提取各个网页特征词语,再分析各网页的特征词语,统计特征词的特征值,依据特征值在镜像网页查找集合中查找镜像网页。将各项特征值相同及相近的网页作为镜像网页,在镜像网页查找集合提取出来,进行相应处理。
本发明镜像网页的查找系统在锚文本数量较多的情况下,通过权重计算模块计算各锚文本的权重,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页组成镜像网站查找集合,对进一步缩小镜像网站查找集合的范围。
参阅图9,为本发明镜像网页的查找系统第二实施例,包括锚文本获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、查找模块85、及权重计算模块86。
权重计算模块86在锚文本获取模块81中获取各锚文本,计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到合法性判断模块82。
获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、及查找模块85在该实施例中的功能和作用与图8所示实施例相同,不再赘述。
以上对本发明所提供的一种镜像网页查找方法及查找系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。