CN106484696A - 一种改进搜索引擎质量的方法 - Google Patents

一种改进搜索引擎质量的方法 Download PDF

Info

Publication number
CN106484696A
CN106484696A CN201510526920.1A CN201510526920A CN106484696A CN 106484696 A CN106484696 A CN 106484696A CN 201510526920 A CN201510526920 A CN 201510526920A CN 106484696 A CN106484696 A CN 106484696A
Authority
CN
China
Prior art keywords
domain name
website
time
described website
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510526920.1A
Other languages
English (en)
Other versions
CN106484696B (zh
Inventor
吴尉林
许欢庆
郭永福
陈沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201510526920.1A priority Critical patent/CN106484696B/zh
Publication of CN106484696A publication Critical patent/CN106484696A/zh
Application granted granted Critical
Publication of CN106484696B publication Critical patent/CN106484696B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

本发明涉及一种改进搜索引擎质量的方法,所述方法包括:(1)获取网站对应域名的注册信息;(2)确定网站对应域名的信任度;(3)根据所述网站对应域名的信任度,进行下述步骤a)、b)或c):a)修正网页的权威度PageRank计算;b)修正对所述网站的锚文本传递;或c)修正所述网站的网页相关性分数;本发明提供一种改进搜索引擎质量的方法,能够根据域名的注册时间,计算出域名的年龄,根据年龄给定不同的信任度,再根据域名的信任度对网站质量进行修正,从而提高搜索引擎质量,避免网站作弊的情况。

Description

一种改进搜索引擎质量的方法
技术领域
本发明涉及搜索引擎领域,具体涉及一种改进搜索引擎质量的方法。
背景技术
在当今信息爆炸的大数据时代,搜索引擎已经成为人们获取信息的不可或缺的手段。正因为搜索引擎如此流行,出于商业利益驱使,互联网上针对搜索引擎的作弊网站越来越多。网页作弊主要包括:内容作弊,通常通过堆积大量无关的关键词来提高网页在搜索引擎中的排名;链接作弊,通过堆积链接来抬高这些网站中网页的网页权威度PageRank和锚文本;搜索引擎爬虫欺骗,网站给搜索引擎爬虫的是一个网页,而给浏览器的是另外一个网页;还有购买过期域名的作弊行为,因为有些过期域名本身的PageRank排名是很高的,通过购买域名可以获得高价值的外链。
现有的搜索引擎反作弊方法通常基于以下模式:对已知的作弊方式,发现相应的作弊特点,然后采用针对性的策略进行识别。例如,对于交换链接作弊,可以通过统计站点间链接情况、互相链接情况来判断。这种反作弊方式的缺点是有延迟性,即对于新的作弊方法不能及时发现。而且作弊者在了解搜索引擎的反作弊方法之后,还可以升级作弊方法来绕开搜索引擎的反作弊机制。
发明内容
针对现有技术的不足,本发明提供一种改进搜索引擎质量的方法,能够根据域名的注册时间,计算出域名的年龄,根据年龄给定不同的信任度,再根据域名的信任度对网站质量进行修正,从而提高搜索引擎质量,避免网站作弊的情况。
本发明的目的是采用下述技术方案实现的:
一种改进搜索引擎质量的方法,其改进之处在于,所述方法包括:
(1)获取网站对应域名的注册信息;
(2)确定网站对应域名的信任度trust;
(3)根据所述网站对应域名的信任度trust,进行下述步骤a)、b)或c):
a)修正网页的权威度PageRank计算;
b)修正对所述网站的锚文本传递;或
c)修正所述网站的相关性分数。
优选的,所述注册信息包括:域名注册时间、域名续费时间、域名到期时间和域名注册者。
优选的,所述步骤(2)包括:
(2-1)处理器计算域名年龄a,公式为:
域名年龄a=当前时间-域名注册时间(1)
式(1)中,所述域名年龄a为以年为单位的实数;若所述域名更换域名注册者,则所述域名注册时间为该域名更换域名注册者的时间;
(2-2)根据所述域名年龄a计算所述域名的信任度trust。
进一步的,所述步骤(2-2)包括:
根据所述域名年龄a计算所述域名的信任度trust,公式为:
式(2)中,r为域名租约期等于域名到期时间与域名注册时间的差值,λ为阈值且λ为大于等于3的正整数。
优选的,所述步骤a)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页不向外传递权威度PagePank;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页向外传递的权威度PagePank乘以所述域名的信任度trust;
若所述网站对应域名在续费时间点上更换域名注册者,则该续费时间点之前的入链不向该域名对应网站传递权威度PagePank,该域名对应网站在该续费时间点之前的出链不向外传递权威度PagePank。
优选的,所述步骤b)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页不向外传递锚文本;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页向外传递的锚文本乘以所述域名的信任度trust;
若所述网站对应域名在续费时间点上更换域名注册者,则该续费时间点之前的锚文本都不向外传递。
优选的,所述步骤c)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页的相关性分数乘以惩罚系数β,0<β<0.1;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页的相关性分数乘以所述域名的信任度trust。
与最接近的现有技术相比,本发明具有的有益效果:
本发明提供一种改进搜索引擎质量的方法,能够根据域名的注册时间,计算出域名的年龄,根据年龄给定不同的信任度,再根据域名的信任度对网站质量进行修正;具有较强的通用性和可靠性,无论作弊者如何改变作弊方法,只要作弊者使用较新的域名进行作弊,都能起作用,同时,作弊者无法操控自己网站的域名注册信息;本发明提供的方法操作简单,容易实施,能够直接抑制对于购买过期域名的作弊方式,提高了搜索引擎质量,避免网站作弊的情况。
附图说明
图1是本发明提供的一种改进搜索引擎质量的方法流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
网站作弊者购买的域名期限很短,如果作弊行为被搜索引擎发现并被打压,就放弃这些域名并购买另一组新的域名继续进行作弊。另一方面,好的网站通常会用心经营很多年,会一次性购买较长的域名期限。从这个意义上说,越新的域名越容易作弊,而存活时间较长的域名则通常是正常网站。因此,利用网站的域名注册信息来提高搜索引擎质量,可以作为传统的反作弊方法一个很好的补充;
本发明提供了一种改进搜索引擎质量的方法,主要利用网站域名注册信息来提高搜索质量,注册信息包括:域名注册时间、域名续费时间、域名到期时间和域名注册者等,这些信息可以从域名注册商获取。根据这些域名注册信息,计算出域名的信任度,信任度可以应用到搜索引擎的各个环节中,如图1所示,包括如下步骤:
(1)获取网站对应域名的注册信息;
(2)确定网站对应域名的信任度trust;
(3)根据所述网站对应域名的信任度trust,进行下述步骤a)、b)或c):
a)修正网页的权威度PageRank计算;
b)修正对所述网站的锚文本传递;或
c)修正所述网站的相关性分数。
所述步骤(2),包括:
(2-1)处理器计算域名年龄a,公式为:
域名年龄a=当前时间-域名注册时间 (1)
式(1)中,所述域名年龄a为以年为单位的实数;若所述域名更换域名注册者,则所述域名注册时间为该域名更换域名注册者的时间;
例如:用户于2012年5月5日注册的域名,当前时间为2014年5月5日,则当前时间与域名注册时间的差值为2年,则该域名年龄为2;
(2-2)根据所述域名年龄a计算所述域名的信任度trust;
其中,所述步骤(2-2)包括:
根据所述域名年龄a计算所述域名的信任度trust,公式为:
式(2)中,r为域名租约期等于域名到期时间与域名注册时间的差值,λ为阈值且λ为大于等于3的正整数,表示大于λ年的域名可以完全信任。
例如:定义过程中,设定阈值λ=3,若所述域名年龄a=2,则通过公式(2)可以计算得到该域名的信任度trust=0.716,若所述域名年龄a=4,则通过公式(2)可以计算得到该域名的信任度trust=1。
域名的信任度能够使用在搜索引擎的各个环节中,例如:PageRank计算、锚文本的统计以及相关性分数计算,以提高搜索引擎质量,PageRank是指网页的权威度,每个网页的PageRank由链入网页的PageRank决定,它的值与链入网页的数目以及链入网页的PageRank成正比。PageRank是搜索引擎的网页排序算法的重要组成部分,因此网站作弊者构造了很多网页链接结构来提升自己网页的PageRank,例如交换链接、链接农场和链接炸弹等,本发明提供的方法中,采用基于域名注册信息的域名信任度,抑制信任度低的网站传播它们的PageRank权重,从而防止网站作弊者利用网站数量抬高PageRank。
所述步骤a)包括:
针对利用短期域名进行作弊的行为,若所述网站对应域名到期时间小于当前时间,则所述网站的网页不向外传递权威度PagePank;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页向外传递的权威度PagePank乘以所述域名的信任度trust;
针对购买过期域名的作弊行为,若所述网站对应域名在续费时间点上更换域名注册者,则该续费时间点之前的入链不向该域名对应网站传递权威度PagePank,该域名对应网站在该续费时间点之前的出链不向外传递权威度PagePank;
例如:若所述网站对应域名到期时间大于当前时间,则说明该域名未过期,定义过程中,设定阈值λ=3,若所述域名年龄a=2,则通过公式(2)可以计算得到该域名的信任度trust=0.716,则所述网站的网页向外传递权威度PagePank乘以所述域名的信任度0.716,若所述网站对应域名到期时间小于当前时间,则说明该域名已过期,所述网站的网页不向外传递权威度PagePank,该方法能够避免或者减轻PageRank受到利用短期域名进行作弊的行为的操控。
进一步的,域名的信任度也可以应用在锚文本统计。所谓锚文本就是链接上的文字,它是对网页内容的概括性描述。收集网页的锚文本对提高搜索引擎质量有重要的作用,因此,网站作弊者也千方百计地为自己网站堆积锚文本。为了防止网站作弊者利用短期域名堆积锚文本,抑制信任度低的网站传播它们的锚文本权重。
所述步骤b)包括:
针对利用短期域名进行作弊的行为,若所述网站对应域名到期时间小于当前时间,则所述网站的网页不向外传递锚文本;
若所述网站对应域名到期时间小于当前时间,则所述网站的网页向外传递的锚文本乘以所述域名的信任度trust;
针对购买过期域名的作弊行为,若所述网站对应域名在续费时间点上更换域名注册者,则该续费时间点之前的锚文本都不向外传递。
例如:若所述网站对应域名到期时间大于当前时间,则说明该域名未过期,定义过程中,设定阈值λ=3,若所述域名年龄a=2,则通过公式(2)可以计算得到该域名的信任度trust=0.716,则所述网站的网页向外传递锚文本乘以所述域名的信任度0.716,若所述网站对应域名到期时间小于当前时间,则说明该域名已过期,所述网站的网页不向外传递锚文本;
所述步骤c)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页的相关性分数乘以惩罚系数β,0<β<0.1;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页的相关性分数乘以所述域名的信任度trust。
例如:若所述网站对应域名到期时间大于当前时间,则说明该域名未过期,定义过程中,设定阈值λ=3,若所述域名年龄a=2,惩罚系数β=0.03,则通过公式(2)可以计算得到该域名的信任度trust=0.716,则所述网站的网页向外传递相关性分数乘以所述域名的信任度0.716,若所述网站对应域名到期时间小于当前时间,则说明该域名已过期,则所述网站的网页相关性分数乘以所述惩罚系数0.03;
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种改进搜索引擎质量的方法,其特征在于,所述方法包括:
(1)获取网站对应域名的注册信息;
(2)确定网站对应域名的信任度trust;
(3)根据所述网站对应域名的信任度trust,进行下述步骤a)、b)或c):
a)修正网页的权威度PageRank计算;
b)修正对所述网站的锚文本传递;或
c)修正所述网站的网页相关性分数。
2.如权利要求1所述的方法,其特征在于,所述注册信息包括:域名注册时间、域名续费时间、域名到期时间和域名注册者。
3.如权利要求1所述的方法,其特征在于,所述步骤(2)包括:
(2-1)处理器计算域名年龄a,公式为:
域名年龄a=当前时间-域名注册时间 (1)
式(1)中,所述域名年龄a为以年为单位的实数;若所述域名更换域名注册者,则所述域名注册时间为该域名更换域名注册者的时间;
(2-2)根据所述域名年龄a计算所述域名的信任度trust。
4.如权利要求3所述的方法,其特征在于,所述步骤(2-2)包括:
根据所述域名年龄a计算所述域名的信任度trust,公式为:
t r u s t = e ( a - &lambda; ) / &lambda; , i f a < &lambda; 1 , i f a > = &lambda; o r ( a > 0 a n d r > = &lambda; ) - - - ( 2 )
式(2)中,r为域名租约期等于域名到期时间与域名注册时间的差值,λ为阈值且λ为大于等于3的正整数。
5.如权利要求1所述的方法,其特征在于,所述步骤a)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页不向外传递权威度PagePank;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页向外传递的权威度PagePank乘以所述域名的信任度trust;
若所述网站对应域名在续费时间点上更换域名注册者,则该续费时间点之前的入链不向该域名对应网站传递权威度PagePank,该域名对应网站在该续费时间点之前的出链不向外传递权威度PagePank。
6.如权利要求1所述的方法,其特征在于,所述步骤b)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页不向外传递锚文本;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页向外传递的锚文本乘以所述域名的信任度trust;
若所述网站对应域名在续费时间点上更换域名注册者,则该续费时间点之前的锚文本都不向外传递。
7.如权利要求1所述的方法,其特征在于,所述步骤c)包括:
若所述网站对应域名到期时间小于当前时间,则所述网站的网页相关性分数乘以惩罚系数β,0<β<0.1;
若所述网站对应域名到期时间大于当前时间,则所述网站的网页相关性分数乘以所述域名的信任度trust。
CN201510526920.1A 2015-08-25 2015-08-25 一种改进搜索引擎质量的方法 Active CN106484696B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510526920.1A CN106484696B (zh) 2015-08-25 2015-08-25 一种改进搜索引擎质量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510526920.1A CN106484696B (zh) 2015-08-25 2015-08-25 一种改进搜索引擎质量的方法

Publications (2)

Publication Number Publication Date
CN106484696A true CN106484696A (zh) 2017-03-08
CN106484696B CN106484696B (zh) 2019-05-28

Family

ID=58233173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510526920.1A Active CN106484696B (zh) 2015-08-25 2015-08-25 一种改进搜索引擎质量的方法

Country Status (1)

Country Link
CN (1) CN106484696B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737591A (zh) * 2018-05-22 2018-11-02 华为技术有限公司 一种服务配置的方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148275A1 (en) * 2003-01-29 2004-07-29 Dimitris Achlioptas System and method for employing social networks for information discovery
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN102243661A (zh) * 2011-07-21 2011-11-16 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
CN102567417A (zh) * 2010-12-31 2012-07-11 百度在线网络技术(北京)有限公司 一种用于确定超链接的锚文本可信度的分析设备和方法
CN102768661A (zh) * 2011-05-05 2012-11-07 株式会社理光 从多个网页中抽取对象和网页的方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040148275A1 (en) * 2003-01-29 2004-07-29 Dimitris Achlioptas System and method for employing social networks for information discovery
CN101093510A (zh) * 2007-07-25 2007-12-26 北京搜狗科技发展有限公司 一种针对网页作弊的反作弊方法及系统
CN102567417A (zh) * 2010-12-31 2012-07-11 百度在线网络技术(北京)有限公司 一种用于确定超链接的锚文本可信度的分析设备和方法
CN102768661A (zh) * 2011-05-05 2012-11-07 株式会社理光 从多个网页中抽取对象和网页的方法和设备
CN102243661A (zh) * 2011-07-21 2011-11-16 中国科学院计算机网络信息中心 网站内容质量评估方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘阳 等: "基于结合内容特征的TrustRank算法改进", 《计算机工程与设计》 *
黄飞 等: "基于畅体验的网络消费偏好影响因素研究", 《管理学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108737591A (zh) * 2018-05-22 2018-11-02 华为技术有限公司 一种服务配置的方法及装置
CN108737591B (zh) * 2018-05-22 2021-09-14 华为技术有限公司 一种服务配置的方法及装置

Also Published As

Publication number Publication date
CN106484696B (zh) 2019-05-28

Similar Documents

Publication Publication Date Title
Girling America and the Third World: Revolution and Intervention
Smith et al. Knowledge matters: Anchoring effects are moderated by knowledge level
US20100145941A1 (en) Rules and method for improving image search relevance through games
Nor-Hisham et al. A conditional trinity as ‘no-go’against non-credible development? Resettlement, customary rights and Malaysia's Kelau Dam
Lewis Controlling abuse to maintain control: the exclusionary rule in China
CN103246677A (zh) 基于社交的搜索办法及搜索系统
Kurowski et al. Exercise‐induced respiratory symptoms and allergy in elite athletes: A llergy and A sthma in P olish O lympic A thletes (A2POLO) project within GA2LEN initiative
Bernstein et al. Where the Consumer Is the Commodity: The Difficulty with the Current Definition of Commercial Speech
CN106484696A (zh) 一种改进搜索引擎质量的方法
Adhikari Child marriage and physical violence: Results from a nationally representative study in Nepal
Keogh et al. The determinants of marathon performance: an observational analysis of anthropometric, pre-race and in-race variables
Zimmerman Curbing the High Price of Loose Talk
Modekurti Setting final target score in T-20 cricket match by the team batting first
Pines Mirror, Mirror, on the Wall-Biased Impartiality, Appearances, and the Need for Recusal Reform
Lin et al. Testing Coase theorem: The case of free agency in NBA
Petras et al. The use of multiple versus single assessment time points to improve screening accuracy in identifying children at risk for later serious antisocial behavior
Zhang et al. Modeling and Predicting the Outcomes of NBA Basketball Games
Rubin et al. Measuring attitudes toward the rights of indigenous peoples: An index of global citizenship
Sawyer Wilderness quality mapping—The Australian experience
Holland et al. A Cadaveric Study of the Fibularis Longus: A Descriptive Study of Tendon Insertion and Curvature
Bharadwaj Token representation?: Impact of female reservations in Panchayati Raj Institutions in elections to state and national legislatures
McFall et al. Pandora's groove: analysing the effect of the U-groove ban on PGA Tour golfers' performances and strategies
Khalsa Braves ready to defend in St. Louis with fire under feet.
Dolgoy Revenge as Wild Justice: A Research Note on Francis Bacon’s ‘Of Revenge’
Chen et al. Response effect assessment of internet public opinion based on fuzzy comprehensive evaluation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170503

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: Beijing Zhongsou Network Technology Co,Ltd

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant