CN101226531B - 一种镜像网页的查找方法及查找系统 - Google Patents

一种镜像网页的查找方法及查找系统 Download PDF

Info

Publication number
CN101226531B
CN101226531B CN200710304563XA CN200710304563A CN101226531B CN 101226531 B CN101226531 B CN 101226531B CN 200710304563X A CN200710304563X A CN 200710304563XA CN 200710304563 A CN200710304563 A CN 200710304563A CN 101226531 B CN101226531 B CN 101226531B
Authority
CN
China
Prior art keywords
webpage
anchor text
word
word list
mirror
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200710304563XA
Other languages
English (en)
Other versions
CN101226531A (zh
Inventor
禹荣凌
刘云峰
熊展志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN200710304563XA priority Critical patent/CN101226531B/zh
Publication of CN101226531A publication Critical patent/CN101226531A/zh
Application granted granted Critical
Publication of CN101226531B publication Critical patent/CN101226531B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种镜像网页的查找方法,包括:获取网页反向连接的锚文本,计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,判断上述锚文本相对于所述网页是否合法,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,再将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。同时,本发明还提供一种镜像网页的查找系统。本发明解决现有技术中查找方法效率低下的不足,能够简单、快捷地查找镜像网页,具有较高的效率。

Description

一种镜像网页的查找方法及查找系统
技术领域
本发明涉及镜像网页领域,特别是涉及一种镜像网页的查找方法及查找系统。
背景技术
镜像网页是指实质内容相同的网页,例如,显示内容完全相同的网页;正文内容相同,但标题不同的网页;正文内容相同,但辅助内容不同的网页等。在互联网上查找镜像网页,可以排除重复的网页,便于用户检索下载。目前,现有技术常通过直接计算网页特征值的方法查找镜像网页,将特征值相同及相近的网页认定为镜像网页。
参阅图1,示出现有镜像网页的查找方法,具体步骤如下。
步骤S101、在互联网上抽取每个网站的主域首页、子域首页、目录首页等各个网页,组成镜像网页查找集合。新浪主域首页,如,http://www.sina.com网页:各子域首页,如,http://www.sina.com.cn/网页,http://news.sina.com.cn网页;http://finance.sina.com.cn网页;目录首页,如,http://finance.sina.com.cn/stock网页。
步骤S102、分别提取各个网页的特征词语。特征词语为具有实质意义的词语,如名词、动词等。
步骤S103、分析各个网页的特征词语,统计各个网页特征词的特征值,特征值包括词语数量、词频、出现位置等。
步骤S104、依据特征值在镜像网页查找集合中查找镜像网页。将各个网页的各项特征值进行比较,特征值相同及相近的网页确定镜像网页,在镜像网页查找集合中提取出来,进行相应处理。
上述方法虽然可以较全面地查找镜像网页,但互联网中的网站数以万计,每个网站还包括大量的子域页面、目录页面,由每个网站的主域首页、子域首页、目录首页等各个网页组成的镜像网页查找集合相当庞大,在如此庞大的集合中查找镜像网页,需占用大量的网络资源,进行相关运算、分析、统计,耗时耗力,查找效率低下。
发明内容
本发明所要解决的技术问题是提供一种镜像网页的查找方法,以解决现有技术中查找方法效率低下的不足。本发明能够简单、快捷地查找镜像网页,具有较高的效率。
本发明的另一个目的是提供一种镜像网页的查找系统,以解决现有技术中查找方法效率低下的不足。本发明能够简单、快捷地查找镜像网页,具有较高的效率。
本发明一种镜像网页的查找方法,包括:获取网页反向链接的锚文本;判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识,确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。
优选的,判断上述锚文本相对于所述网页是否合法之前,还包括:计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本。
优选的,计算上述锚文本的权重具体为:统计与子网页同主域的父网页数量,乘以同主域权重系数;统计与子网页不同主域的各主域的父网页数量,乘以不同主域权重系数;将上述乘积相加的和做为上述锚文本权重。
优选的,还包括:如与子网页同主域的父网页数量大于预置数值,按预置数值计算。
优选的,还包括:与子网页不同主域的各主域的父网页数量大于预设数值,按预设数据计算。
优选的,获取网页反向链接的锚文本具体为:在互联网的各网页上提取正向链接的锚文本;反转各正向链接,获取网页反向链接的锚文本。
优选的,判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法具体为:对所述锚文本分解为各词语,判断在词语列表中或者在反向词语列表中是否能够查找到各词语,认为能够在词语列表中查找到的词语与所述网页相关联或者不能够在反向词语列表中查找到的词语与所述网页相关联;如相关联词语个数小于绝对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
优选的,判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法具体为:对所述锚文本分解为各词语, 判断在词语列表中或者在反向词语列表中是否能够查找到各词语,认为能够在词语列表中查找到的词语与所述网页相关联或者不能够在反向词语列表中查找到的词语与所述网页相关联;如相关联词语在上述各词语中的比例小于相对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
本发明一种镜像网页的查找系统,包括锚文本获取模块、合法性判断模块、网页提取模块、集合组成模块、及查找模块;所述锚文本获取模块,用于获取网页反向链接的锚文本;所述合法性判断模块,用于判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识;所述网页提取模块,用于确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;所述集合组成模块,用于将提取的网页组成镜像网页查找集合;所述查找模块,用于基于所述镜像网页查找集合查找镜像网页。
优选的,还包括权重计算模块,用于计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到所述合法性判断模块。
与现有技术相比,本发明具有以下优点:
本发明根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜像网页查找集合,本发明组成的镜像网页查找集合只包含可能存在镜像的网页,服务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,避免不必要的分析计算,具有较高的查找效率。
本发明在锚文本数量较多的情况下,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,组成镜像网页查找集合,进一步缩小镜像网站集合的范围,该集合的网页存在镜像的可能性较高,使得基于该集合查找镜像网页的效率进一步提高。
附图说明
图1为现有镜像网页的查找方法流程图;
图2为本发明镜像网页的查找方法第一实施例流程图;
图3为本发明判断锚文本是否合法的方法第一实施例流程图;
图4为本发明判断锚文本是否合法的方法第二实施例流程图;
图5为本发明镜像网页的查找方法第二实施例流程图;
图6为本发明计算锚文本权重方法第一实施例流程图;
图7为本发明计算锚文本权重方法第二实施例流程图;
图8为本发明镜像网页的查找系统第一实施例示意图;
图9为本发明镜像网页的查找系统第二实施例示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一个网页包含指向另一个网页的超链接(URL),认为这两个网页之间存在链接关系。超链接上的文字为锚文本。如果网页A使用锚文本S链接网页B,网页A可称为父网页,网页B可称为子网页,该链接对于网页A为正向链接,对于网页B为反向链接。每个网页都可能存在多个正向链接和反向链接。
一个网页使用某个锚文本链接另一个网页,可以看作是现实中一个人对另一个人的称谓、评价、总结。例如,网页A使用锚文本“北大”指向网页B,可以看作是网页A称呼网页B为“北大”。但如果“北大”并不是网页B合法称呼,那么网页A就可能存在问题。同理,使用锚文本“北大”指向网页B的各网页都可能存在同样的问题,因存在同样的问题,上述各网页间存在镜像网页可能性较大。将存在镜像可能性较大的网页提取出来,组成镜像网页查找集合,再基于该集合查找镜像网页,缩小查找范围,提高查找效率。
参阅图2,示出本发明镜像网页的查找方法第一实施例,具体步骤如下。
步骤S201、获取网页反向连接的锚文本。网络服务器在互联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。
例如,网页A使用锚文本S指向网页B,S是网页A的正向链接锚文本,为网页A(S)-->网页B。反转后,得到网页B(S)<--网页A,对于网页B,则是锚文本S为反向链接的锚文本。
再例如,新浪网首页使用“搜狐”指向搜狐网首页,“搜狐”是新浪网首页的正向链接锚文本,记录为{parent:www.sina.com child:www.sohu.comanchortext:搜狐},反转后获得{child:www.sohu.com parent:www.sina.com anchortext:搜狐}。
步骤S202、判断锚文本相对于网页是否合法,如是,可认为该锚文本合法;如否,则认为该锚文本不合法。
对于每个网页,可预置词语列表,词语列表内包含与该网页直接相关的词语、语句和标识。例如,对于新浪网首页,“新浪”、“新浪首页”“www.sina.com”等都是直接相关词语、语句和标识。判断时,在该网页的词语列表中查找该锚文本,如查找到,认为该锚文本相对于该网页合法;如查找不到,认为该锚文本相对于该网页不合法。
当然,对于每个网页,可预置反向词语列表,该反向词语列表内包含与该网页完全不相关的词语、语句和标识。例如,对于新浪网首页,“苹果”、“游戏”“www.sna.com”等都是不相关词语、语句和标识。如果锚文本包含在该反向词语列表内,认为该锚文本不合法;如锚文本不包含在该词语列表内,则认为该锚文本合法。
步骤S203、确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,组成镜像网页查找集合。锚文本所属的网页是指锚文本所在的网页,即使用该锚文本作为正向链接的网页。同主域是指包含相同的第一级域名,如新浪网首页、新浪网各子网页、和新浪网各目录网页为同主域,都包含www.sina.con这个第一级域名。子域是主域的下一级域名。
例如,网页A、网页B、网页C使用锚文本S正向链接网页D,如锚文本S不合法,确定锚文本S所属的网页A、网页B、网页C,在分别提取网页A、网页B、网页C所在主域、子域、及目录的首页。
再例如,网页A为http://news.sohu.com/20071217/n254120723.shtml,则提取其主域首页http://www.sohu.com,子域首页http://news.sohu.com,目录首页http://news.sohu.com/20071217。
步骤S204、基于镜像网页查找集合查找镜像网页。在镜像网页查找集合内,分别提取各个网页特征词语,再分析各网页的特征词语,统计特征词的特征值,依据特征值在镜像网页查找集合中查找镜像网页。将各项特征值相同及相近的网页作为镜像网页,在镜像网页查找集合提取出来,进行相应处理。
本发明根据锚文本判断选取可能存在镜像的网页,只将可能存在镜像的网页组成镜像网页查找集合,相对于现有技术中由互联网上全部网页组成镜像网 页查找集合,本发明组成的镜像网页查找集合只包含可能存在镜像的网页,服务器也只针对可能存在镜像的网页进行计算、分析、统计,查找镜像网页,避免不必要的分析计算,具有较高的查找效率。
在上述步骤S202中,如果锚文本包含多个词语,简单将锚文本与网页词语列表内的语句进行比较,可能存在因某个虚词和某个词语不对应,导致锚文本的误判。本发明将该锚文本分解为各词语,依据各词语判断该锚文本是否合法。
参阅图3,示出本发明判断锚文本是否合法的方法第一实施例,具体步骤如下所述。
步骤S301、对上述锚文本进行分词。将上述锚文本分解为多个词语,选择具有实质意思的词语。例如,锚文本为“冬季请到海南旅游”分解为词语“冬季”、“请”、“到”、“海南”、“旅游”,过滤掉“请”和“到”等没有实质意义的词语,提取“冬季”、“海南”、“旅游”词语。
步骤S302、判断各词语与所述网页是否相关联。对于每个网页,可预置词语列表,词语列表内包含与该网页直接相关的词语、语句和标识。分别判断各词语是否包含在该词语列表内,如是,认为该词语与所述网页相关联;如否,认为该词语与所述网页不相关联。
例如,锚文本为“冬季请到海南旅游”,提取的具有实质意义的词语“冬季”、“海南”、“旅游”,其中,“海南”、“旅游”包含在词语列表内,为相关联词语;“冬季”不包含在词语列表内,为不相关联词语。
步骤S303、如相关联词语小于绝对阈值,判断该锚文本相对于该网页不合法;如相关联词语大于或等绝对阈值,判断该锚文本相对于该网页合法。绝对阈值的取值范围为3-5。
例如,绝对阈值为2,锚文本“冬季请到海南旅游”中2个词语为相关联词语,等于绝对阈值,该锚文本为合法锚文本。
本发明通过对锚文本分解后判断其是否合法,有利于对包含多个词语的锚文本的合法性进行准确判断。因网页词语列表所包含的词语数量有限,如果锚文本包含词语数量较多,很可能因与词语列表所包含的词语不完全相同而被误认为不合法锚文本,导致判断的准确性较低。本发明将锚文本分解后对各词语 分别进行判断,降低了判断的偶然性,增大判断的准确性。
参阅图4,示出发明判断锚文本是否合法的方法第二实施例,具体步骤如下所述。
步骤S401、对上述锚文本进行分词。将上述锚文本分解为多个词语,选择具有实质意思的词语。
步骤S402、判断各词语与所述网页是否相关联。对于每个网页,可预置词语列表,分别判断各词语是否包含在该词语列表内,如是,认为该词语与所述网页相关联;如否,认为该词语与所述网页不相关联。
步骤S403、如相关联词语在各词语中的比例小于相对阈值,判断锚文本不合法;如相关联词语的比例大于或等相对阈值,判断锚文本合法。相对阈值的取值范围是30%-70%。
例如,相对阈值取值为50%,锚文本为“冬季请到海南旅游”,其中,“海南”、“旅游”包含在词语列表内,为相关联词语;“冬季”不包含在词语列表内,为不相关联词语。相关联词语占67%,等于相对阈值,该锚文本为合法锚文本。
本发明依据对锚文本包含的相关联词语所占的比例进行判断,避免锚文本包含词语数量多或少而影响判断,能更准确判断锚文本与网页的相关度,使锚文本的合法性判断更科学、更准确。
锚文本的权重是指网页反向链接中该锚文本出现的总次数。如果某个锚文本权重很高,那么该网页反向链接可能来自多个不同的网站。如果高权重的锚文本不合法,那么该锚文本所述的全部网页就值得检验,这些网页存在镜像网页的可能性很高。本发明在锚文本数量较多的情况下,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,对进一步缩小镜像网站集合的范围。
参阅图5,示出本发明镜像网页的查找方法第二实施例,具体步骤如下。
步骤S501、获取网页反向连接的锚文本。网络服务器在互联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。
步骤S502、计算锚文本的权重。遍历网页的每一个反向链接,获取全部锚文本,统计每一个锚文本的权重。
对于某子页面的某个反向链接锚文本,设该子网页的父网页为N1个,上述父网页属于N2个主域(有些父页面可能属于同一个主域,即N1>=N2)。设和该子网页属于同主域的父网页有M1个,其它N1-M1个父网页分别属于N2-1个主域。设与子网页同主域的权重系数为u1,与子网页不同主域的权重系数为u2,该锚文本的权重为:
该锚文本权重=M1*u1+(N1-M1)*u2。
u1的权值范围是0.05-0.15,优选为0.1;u2的权值范围是0.15-0.25,优选为0.2。
举例为,共有网页A、A1、A2、A3、B、B1、B2、B3、C、C1、C2、C3,使用锚文本S正向链接网页K,对于网页K的反向链接锚文本S,父网页为A、A1、A2、A3、B、B1、B2、B3、C、C1、C2、C3共12个,其中,A、A1、A2、A3为同一主域,且与K为相同主域,B、B1、B2、B3为同一主域,C、C1、C2、C3为同一主域。计算可知,M1为4,N1-M1为8。如u1=0.1,u2=0.2,则;锚文本S的权重=4×0.1+8×0.2=2。
步骤S503、将各锚文本按权重大小排序,提取设置数量的锚文本,或提取设置比例的锚文本。计算各锚文本的权重后,如锚文本数量较大,可按设置比例提取一定数量权重较大的锚文本。设置比例可为20%-80%;如锚文本数量较小,可按设置数量提取权重较大的锚文本。设置数量可为100-10000。
步骤S504、判断锚文本相对于网页是否合法,如是,可认为该锚文本合法;如否,则认为该锚文本非法。
步骤S505、确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页,组成镜像网页查找集合。锚文本所属的网页是指锚文本所在的网页,即使用该锚文本作为正向链接的网页。
步骤S506、基于镜像网页查找集合查找镜像网页。
本发明提取权重较高的锚文本进行分析,提取不合法锚文本对应的网页,组成镜像网页查找集合,该集合的网页存在镜像的可能性较高,使得基于该集合查找镜像网页的效率进一步提高。
为了避免某主域的对某网页的正向链接过多而使锚文本的权重失真,本发明对同主域的正向链接的网页数量进行限制,使锚文本权重能更好的体现其应 用的广度。在步骤S502中,本发明可对锚文本在父网页和子网页出现次数进行限制。
参阅图6,示出本发明计算锚文本权重方法第一实施例,具体步骤如下。
步骤S601、统计锚文本在各网页的出现次数。
步骤S602、检查与子网页同主域的父网页数量,如该数量超过预置数值,锚文本在该主域的数量按预置数值计算;如没有超过预置数值,按实际数量计算。预置数值的范围可为10-100。
如,预置数值为Y1,M1>Y1,则使M1=Y1;M1<Y1,则使M1不变。
参阅图7,示出本发明计算锚文本权重方法第二实施例,具体步骤如下。
步骤S701、统计上述锚文本在各网页的出现次数。
步骤S702、检查不与子网页同主域的各主域父网页数量,如该数量超过预设数值,按预设数值计算;如没有超过预设数值,按实际数量计算。预设数值的范围可为8-80。
如,预置数值为Y2,该主域父网页数量为X1,X1>Y2,则使X1=Y2;X1<Y2,则使X1不变。
本发明通过对同主域父网页数量的进行限制,防止锚文本在某主域出现次数过多,影响该锚文本权重的代表性。本发明计算的锚文本权重能更好地体现其在互联网使用的广度,从而使组成的镜像网页查找集合中的网页存在镜像的可能性更高,进一步提高查找效率。
基于上述镜像网页查找方法,本发明还提供一种镜像网页查找系统。该系统能够简单、快捷地查找镜像网页,具有较高的效率。
参阅图8,为本发明镜像网页的查找系统第一实施例,包括锚文本获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、及查找模块85。
锚文本获取模块81获取网页反向连接的锚文本。锚文本获取模块81在互联网的各网页内提取全部正向链接的锚文本,再反转获得各网页反向链接的锚文本。锚文本获取模块81将获取的锚文本发送到合法性判断模块82。
合法性判断模块82判断上述锚文本相对于所述网页是否合法,如是,可认为该锚文本合法;如否,则认为该锚文本不合法。合法性判断模块82将不 合法锚文本发送到网页提取模块83。
网页提取模块83确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页。锚文本所属的网页是指锚文本所在的网页,即使用该锚文本作为正向链接的网页。网页提取模块83将提取的网页发送到集合组成模块84。
集合组成模块84将提取的网页组成镜像网页查找集合,将该镜像网页查找集合发送到查找模块85。
查找模块85基于镜像网页查找集合查找镜像网页。查找模块85在镜像网页查找集合内,分别提取各个网页特征词语,再分析各网页的特征词语,统计特征词的特征值,依据特征值在镜像网页查找集合中查找镜像网页。将各项特征值相同及相近的网页作为镜像网页,在镜像网页查找集合提取出来,进行相应处理。
本发明镜像网页的查找系统在锚文本数量较多的情况下,通过权重计算模块计算各锚文本的权重,只对权重较高的锚文本进行合法性判断,确定不合法锚文本所属的网页,提取该网页所在主域、子域、及目录的首页组成镜像网站查找集合,对进一步缩小镜像网站查找集合的范围。
参阅图9,为本发明镜像网页的查找系统第二实施例,包括锚文本获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、查找模块85、及权重计算模块86。
权重计算模块86在锚文本获取模块81中获取各锚文本,计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到合法性判断模块82。
获取模块81、合法性判断模块82、网页提取模块83、集合组成模块84、及查找模块85在该实施例中的功能和作用与图8所示实施例相同,不再赘述。
以上对本发明所提供的一种镜像网页查找方法及查找系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种镜像网页的查找方法,其特征在于,包括:
获取网页反向链接的锚文本;
判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识,确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;
将提取的网页组成镜像网页查找集合,基于所述镜像网页查找集合查找镜像网页。
2.如权利要求1所述的方法,其特征在于,判断上述锚文本相对于所述网页是否合法之前,还包括:
计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本。
3.如权利要求2所述的方法,其特征在于,计算上述锚文本的权重具体为:
统计与子网页同主域的父网页数量,乘以同主域权重系数;
统计与子网页不同主域的各主域的父网页数量,乘以不同主域权重系数;
将上述乘积相加的和做为上述锚文本权重。
4.如权利要求3所述的方法,其特征在于,还包括:
如与子网页同主域的父网页数量大于预置数值,按预置数值计算。
5.如权利要求3所述的方法,其特征在于,还包括:
与子网页不同主域的各主域的父网页数量大于预设数值,按预设数值计算。
6.如权利要求1至5任一项所述的方法,其特征在于,获取网页反向链接的锚文本具体为:
在互联网的各网页上提取正向链接的锚文本;
反转各正向链接,获取网页反向链接的锚文本。
7.如权利要求1至5任一项所述的方法,其特征在于,判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法具体为:
对所述锚文本分解为各词语,判断在词语列表中或者在反向词语列表中是否能够查找到各词语,认为能够在词语列表中查找到的词语与所述网页相关联或者不能够在反向词语列表中查找到的词语与所述网页相关联;
如相关联词语个数小于绝对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
8.如权利要求1至5任一项所述的方法,其特征在于,判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法具体为:
对所述锚文本分解为各词语,判断在词语列表中或者在反向词语列表中是否能够查找到各词语,认为能够在词语列表中查找到的词语与所述网页相关联或者不能够在反向词语列表中查找到的词语与所述网页相关联;
如相关联词语在上述各词语中的比例小于相对阈值,确定上述锚文本相对于所述网页不合法;否则,确定上述锚文本相对于所述网页合法。
9.一种镜像网页的查找系统,其特征在于,包括锚文本获取模块、合法性判断模块、网页提取模块、集合组成模块、及查找模块;
所述锚文本获取模块,用于获取网页反向链接的锚文本;
所述合法性判断模块,用于判断在所述网页的词语列表或者反向词语列表中是否能够查找到所述锚文本,如果在词语列表中查找不到所述锚文本或者在反向词语列表中查找到所述锚文本,认为所述锚文本不合法,其中,所述词语列表内包含与所述网页直接相关的词语、语句和标识,所述反向词语列表内包含与所述网页完全不相关的词语、语句和标识;
所述网页提取模块,用于确定不合法锚文本所属的网页,提取所述不合法锚文本所属的网页所在主域、子域、及目录的首页;
所述集合组成模块,用于将提取的网页组成镜像网页查找集合;
所述查找模块,用于基于所述镜像网页查找集合查找镜像网页。
10.如权利要求9所述的系统,其特征在于,还包括权重计算模块,用于计算上述锚文本的权重,按权重大小顺序,提取设置数量的锚文本,或提取设置比例的锚文本,发送到所述合法性判断模块。
CN200710304563XA 2007-12-28 2007-12-28 一种镜像网页的查找方法及查找系统 Active CN101226531B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710304563XA CN101226531B (zh) 2007-12-28 2007-12-28 一种镜像网页的查找方法及查找系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710304563XA CN101226531B (zh) 2007-12-28 2007-12-28 一种镜像网页的查找方法及查找系统

Publications (2)

Publication Number Publication Date
CN101226531A CN101226531A (zh) 2008-07-23
CN101226531B true CN101226531B (zh) 2010-12-15

Family

ID=39858532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710304563XA Active CN101226531B (zh) 2007-12-28 2007-12-28 一种镜像网页的查找方法及查找系统

Country Status (1)

Country Link
CN (1) CN101226531B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102902675B (zh) * 2011-07-26 2017-10-10 腾讯科技(深圳)有限公司 图片内容审核方法和装置
CN104317940B (zh) * 2014-10-31 2018-07-10 北京奇虎科技有限公司 网页标识确定方法和装置
CN110765336B (zh) * 2019-11-01 2022-04-01 北京天融信网络安全技术有限公司 一种网页信息处理方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435775A (zh) * 2002-01-31 2003-08-13 百度在线网络技术(北京)有限公司 一种互联网上镜像和准镜像网站的识别方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435775A (zh) * 2002-01-31 2003-08-13 百度在线网络技术(北京)有限公司 一种互联网上镜像和准镜像网站的识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Amruta Joshi etc.Anchor-based Proximity Measures.ACM.2007,1131-1132. *
刘菁菁等.基于锚文本相似度的链接算法.郑州大学学报39 2.2007,39(2),96-99.
刘菁菁等.基于锚文本相似度的链接算法.郑州大学学报39 2.2007,39(2),96-99. *
陆一鸣等.一种基于源网页质量的锚文本相似度计算方法-LAAT.情报学报24 5.2005,24(5),548-554.
陆一鸣等.一种基于源网页质量的锚文本相似度计算方法-LAAT.情报学报24 5.2005,24(5),548-554. *

Also Published As

Publication number Publication date
CN101226531A (zh) 2008-07-23

Similar Documents

Publication Publication Date Title
US11847612B2 (en) Social media profiling for one or more authors using one or more social media platforms
CN102693271B (zh) 一种网络信息推荐方法及系统
CN101256596B (zh) 一种站内导航的方法及系统
CN102254038B (zh) 一种分析网络评论相关度的系统及其分析方法
CN103186574B (zh) 一种搜索结果的生成方法和装置
CN100476830C (zh) 一种网络资源检索方法及系统
CN103678652B (zh) 一种基于Web日志数据的信息个性化推荐方法
CN102663064B (zh) 一种收藏夹数据的处理方法及装置
CN101950312B (zh) 一种互联网网页内容解析方法
CN103870973A (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
CN102779136A (zh) 一种信息搜索的方法和装置
CN101493832A (zh) 网站内容联合推荐系统与方法
CN108959413B (zh) 一种主题网页爬取方法及主题爬虫系统
CN103294781A (zh) 一种用于处理页面数据的方法与设备
CN104424308A (zh) 网页分类标准获取方法、装置及网页分类方法、装置
CN105138558A (zh) 基于用户访问内容的实时个性化信息采集方法
CN103778238B (zh) 一种从维基百科半结构化数据自动构建分类树的方法
CN110457579B (zh) 基于模板和分类器协同工作的网页去噪方法及系统
US20140365868A1 (en) Method, server, browser, and system for recommending text information
CN105183784A (zh) 一种基于内容的垃圾网页检测方法及其检测装置
CN104834736A (zh) 构建索引库的方法、装置及检索的方法、装置和系统
CN100458797C (zh) 一种对网络广告进行排序的方法
CN105069112A (zh) 一种行业垂直搜索引擎系统
CN102955850A (zh) 加载排序网址的方法和装置
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENCENT TECHNOLOGY (BEIJING) CO., LTD.

Effective date: 20131024

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100089 HAIDIAN, BEIJING TO: 518000 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131024

Address after: 518000 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Beijing 100089 Haidian District 38 Haidian Avenue branch bank building 16 layer

Patentee before: Tencent Technology (Beijing) Co., Ltd