CN103544257B - 网页质量检测方法和装置 - Google Patents

网页质量检测方法和装置 Download PDF

Info

Publication number
CN103544257B
CN103544257B CN201310482891.4A CN201310482891A CN103544257B CN 103544257 B CN103544257 B CN 103544257B CN 201310482891 A CN201310482891 A CN 201310482891A CN 103544257 B CN103544257 B CN 103544257B
Authority
CN
China
Prior art keywords
quality
web
target web
score
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310482891.4A
Other languages
English (en)
Other versions
CN103544257A (zh
Inventor
郭凯敏
何恺铎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201310482891.4A priority Critical patent/CN103544257B/zh
Publication of CN103544257A publication Critical patent/CN103544257A/zh
Application granted granted Critical
Publication of CN103544257B publication Critical patent/CN103544257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页质量检测方法和装置。该网页质量检测方法包括:获取目标网页的网页信息,该网页信息为目标网页的页面上的信息;由网页信息确定目标网页的质量等级;以及由质量等级确定目标网页的网页质量,根据网页页面上的信息对网页自身的结构或者内容的质量进行检测。通过本发明,解决了网页质量检测不准确的问题,进而达到了准确检测网页质量的效果。

Description

网页质量检测方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种网页质量检测方法和装置。
背景技术
随着互联网的发展,数据已经渗透到大量的行业和业务职能领域,以网页形式出现的互联网数据正在快速地增长。网页的质量直接影响到用户的浏览兴趣,网络营销的效果等。现有的网页质量检测方案是采用用户数据进行检测,即利用浏览网页的用户给出的评价信息以及这些用户在网页上的行为,如停留时间、热力图等信息进行检测。这种做法要求获取大量的用户数据,对用户数据进行清洗过滤,再在这些数据的基础上进行分析计算。在用户数据的数据量较少的情况下,这种检测方案的质量将得不到保证,但是数据量大也将增加计算的复杂度。
现有的网页质量检测方案存在着如下问题:一方面,用户数据的获取是动态的,且对用户数据计算和处理过程需要大量的时间与软硬件的支持;另一方面,网页是动态变化的,历史的用户数据与当前的网页质量并没有直接的关系,这部分数据不能用于评估当前网页的质量;另外,用户的对网页的评价主要依赖用户的主观判断,存在一定的主观因素。上述问题都会影响网页质量的检测的准确性。
针对现有技术中网页质量检测不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种网页质量检测方法和装置,以解决网页质量检测不准确的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页质量检测方法。根据本发明的网页质量检测方法包括:获取目标网页的网页信息,网页信息为目标网页的页面上的信息;由网页信息确定目标网页的质量等级;由质量等级确定目标网页的网页质量。
进一步地,获取目标网页的网页信息包括:获取目标网页的网页特征。由网页信息获取目标网页的质量等级包括:获取网页特征对应的质量分值,质量分值为用于反映目标网页的网页质量的数值;由质量分值确定目标网页的质量等级。
进一步地,获取目标网页的网页特征包括获取目标网页的结构特征和内容特征,结构特征为用于表示目标网页的结构的特征,内容特征为用于表示目标网页的内容的特征,其中,获取网页特征对应的质量分值包括:获取第一质量分值和第二质量分值,其中,第一质量分值为用于反映目标网页结构特征的质量数值,第二质量分值为用于反映目标网页内容特征的质量数值;以及将第一质量分值与第二质量分值相加得到网页特征的质量分值。
进一步地,获取目标网页的网页信息包括:获取目标网页的网页特征;获取目标网页的父节点,父节点为由出链指向目标网页的网页。由网页信息获取目标网页的质量等级包括:获取网页特征的质量分值,质量分值为用于反映目标网页的网页质量的数值;获取父节点的认可分值,认可分值为用于反映父节点对目标网页的认可程度的数值;由质量分值和认可分值确定目标网页的质量等级。
进一步地,由质量分值和认可分值确定目标网页的质量等级包括:获取认可分值在目标网页的质量中所占的比例;通过公式SW=F*d+S*(1-d)计算目标网页的总分值,其中SW为总分值,F为认可分值,d为认可分值在目标网页的质量中所占的比例,S为质量分值;如果目标网页的总分值超过设定阈值,确定目标网页为第一质量等级;以及如果目标网页的总分值未超过设定阈值,确定目标网页为第二质量等级。
为了实现上述目的,根据本发明的另一方面,提供了一种网页质量检测装置。根据本发明的网页质量检测装置包括:获取单元,用于获取目标网页的网页信息,网页信息为目标网页的页面上的信息;第一确定单元,用于由网页信息确定目标网页的质量等级;以及第二确定单元,用于由质量等级确定目标网页的网页质量。
进一步地,获取单元包括:第一获取模块,用于获取目标网页的网页特征。第一确定单元包括:第二获取模块,用于获取网页特征对应的质量分值,质量分值为用于反映目标网页的网页质量的数值;第一确定模块,用于由质量分值确定目标网页的质量等级。
进一步地,第一获取模块用于获取目标网页的结构特征和内容特征,结构特征为用于表示目标网页的结构的特征,内容特征为用于表示目标网页的内容的特征,其中,第二获取模块包括:第一获取子模块,用于获取第一质量分值和第二质量分值,其中,第一质量分值为用于反映目标网页结构特征的质量数值,第二质量分值为用于反映目标网页内容特征的质量数值;以及第一计算子模块,用于将第一质量分值与第二质量分值相加得到网页特征的质量分值。
进一步地,获取单元包括:第三获取模块,用于获取目标网页的网页特征;第三获取模块还用于获取目标网页的父节点,父节点为由出链指向目标网页的网页。第一确定单元包括:第四获取模块,用于获取网页特征的质量分值,质量分值为用于反映目标网页的网页质量的数值;第四获取模块还用于获取父节点的认可分值,认可分值为用于反映父节点对目标网页的认可程度的数值;第二确定模块,用于由质量分值和认可分值确定目标网页的质量等级。
进一步地,第二确定模块包括:第二获取子模块,用于获取认可分值在目标网页的质量中所占的比例;第二计算子模块,用于通过公式SW=F*d+S*(1-d)计算目标网页的总分值,其中SW为总分值,F为认可分值,d为认可分值在目标网页的质量中所占的比例,S为质量分值;第一确定子模块,用于如果目标网页的总分值超过设定阈值,确定目标网页为第一质量等级;以及第二确定子模块,用于如果目标网页的总分值未超过设定阈值,确定目标网页为第二质量等级。
通过本发明,采用网页质量检测方法包括:获取目标网页的网页信息,该网页信息为目标网页的页面上的信息;由网页信息确定目标网页的质量等级;以及由质量等级确定目标网页的网页质量,根据网页页面上的信息对网页自身的结构或者内容的质量进行检测,避免了由于用户数据的不确定性对网页质量检测的影响,解决了网页质量检测不准确的问题,进而达到了准确检测网页质量的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明第一实施例的网页质量检测装置的结构示意图;
图2是根据本发明第二实施例的网页质量检测装置的结构示意图;
图3是根据本发明第三实施例的网页质量检测装置的结构示意图;
图4是根据本发明第一实施例的网页质量检测方法的流程图;
图5是根据本发明第二实施例的网页质量检测方法的流程图;
图6是根据本发明第三实施例的网页质量检测方法的流程图;以及
图7是根据本发明第四实施例的网页质量检测方法的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种网页质量检测装置,该装置可以通过计算机设备实现其功能。
图1是根据本发明第一实施例的网页质量检测装置的结构示意图。如图1所示,该装置包括获取单元10、第一确定单元20和第二确定单元30。
获取单元10用于获取目标网页的网页信息,该网页信息为目标网页的页面上的信息。目标网页为需要进行质量检测的网页,目标网页可以是任意一个网页,也可以是多个网页,可以是任意一个网站中的任意一个网页,也可以是一个单独的网页。获取单元10获取的目标网页上的网页信息,该网页信息可以是反映目标网页结构的信息,可以是反映目标网页内容的信息,也可以是目标网页的父节点的信息,目标网页的父节点为由出链指向目标网页的网页。例如,目标网页的页面布局信息、页面内容、分词、关键词以及关键词的密度、出链或者入链等因素对应的信息。获取上述网页信息,以便于对目标网页的质量进行检测。
第一确定单元20用于由网页信息确定目标网页的质量等级。质量等级可以根据网页质量划分高质量等级和低质量等级,高质量等级表示网页的质量较高,低质量等级表示网页的质量较低。当网页的结构设计越好,内容组织越好以及对外关系越好,可以确定该网页的质量等级为高质量等级,反之则认为网页质量的质量等级为低质量等级。根据获取单元10获取到的目标网页的网页信息,来确定目标网页的质量等级,以对目标网页的质量进行判定。由于在网页质量检测的时候,首先要检测网页是否出现一些严重影响网页质量的因素,例如,网页中是否具有欺骗性跳转或重定向的因素,是否含有专门针对搜索引擎所做的桥页,是否为针对搜索引擎利用程序生成的网页,以及是否包含有害代码、病毒、木马或其他有害软件。当目标网页的网页信息中包括以上任意一个或者几个影响网页质量的因素时,第一确定单元20可以直接将该目标网页的质量等级确定为低质量等级。
第二确定单元30用于由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
根据本发明实施例,通过获取目标网页自身的网页信息,包括目标网页的结构和内容等因素,对目标网页的质量进行检测,能够检测出当前时刻目标网页的网页质量,避免了由于用户数据的不确定性对网页质量检测的影响,解决了网页质量检测不准确的问题,达到了准确检测网页质量的效果。
由于本发明实施例的网页质量检测装置是对目标网页的静态质量进行检测,因此该装置可以用于对上线前的网站中网页进行检测,可以帮助开发人员在网站上线前,找出其中网页中的缺陷,及时地提高网页质量。
图2是根据本发明第二实施例的网页质量检测装置的结构示意图。该实施例的网页质量检测装置可以作为上述实施例的网页质量检测装置的结构示意图。如图2所示,该网页质量检测装置包括获取单元10、第一确定单元20和第二确定单元30,其中,获取单元10包括第一获取模块101,第一确定单元20包括第二获取模块201和第一确定模块202。该实施例的第二确定单元30与图1所示的第二确定单元30功能相同,这里不做赘述。
第一获取模块101用于获取目标网页的网页特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(Hyper Text Make-up Language超文本标记语言,简称Html)结构和Url(UniformResource Locator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会对网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
优选地,第一获取模块101用于获取目标网页的结构特征和内容特征,结构特征为用于表示目标网页的结构的特征,内容特征为用于表示目标网页的内容的特征。目标网页的结构特征可以包括特征A、B、C、D和E,其中,特征A、Url包含关键词;特征B、Url路径中包含中文;特征C、Url目录层次;特征D、图片的alt属性标签的缺失比例;特征E、有缺失的标签等。目标网页的内容特征可以包括特征F、G、H、I、J、K、L和M,其中特征F、标题中出现关键词;特征G正文中关键词出现的密度;特征H、Description中关键词出现的密度;特征I、图片alt属性标签,包含关键词的比例;特征J、文本超链接中包含关键词的比例;特征K标题与正文内容相符程度;特征L、Description与正文内容的相符程度;特征M、Description的字符数加空格数是否超过某个阀值等。获取上述目标网页的网页特征,以便于对目标网页的网页质量进行判定。
由于网页主要包括内容和结构两个方面,获取网页的结构特征和内容特征以便于从网页自身的结构和内容对网页的质量进行检测。
第二获取模块201用于获取网页特征对应的质量分值,质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
优选地,第二获取模块201包括第一获取子模块和第一计算子模块。
第一获取子模块用于获取第一质量分值和第二质量分值,其中,第一质量分值为用于反映目标网页结构特征的质量数值,第二质量分值为用于反映目标网页内容特征的质量数值。上述中的结构特征A、B、C、D和E,以及内容特征F、G、H、I、J、K、L和M,预先配置的相应的权值分别为:W(A)、W(B)、W(C)、W(D)、W(E)、W(F)、W(G)、W(H)、W(I)、W(J)、W(K)、W(L)、W(M),各特征对应的质量分值为S(A)、S(B)、S(C)、S(D)、S(E)、S(F)、S(G)、S(H)、S(I)、S(J)、S(K)、S(L)、S(M),其中第一质量分值S(1)=S(A)+S(B)+S(C)+S(D)+S(E),第二质量分值S(2)=S(F)+S(G)+S(H)+S(I)+S(J)+S(K)+S(L)+S(M)。对于上述每个特征的得分判定标准如下所示:
特征A:如果Url中包含关键词,则S(A)=W(A);否则S(A)=0。
特征B:如果Url中包含中文,则S(B)=0;否则S(B)=W(B)。
特征C:记Url的域名的深度(depth)为1,每增加一个目录,则深度增加1。如对于Url:http://www.gridsum.com/products/的深度为2。则特征C对应的质量分值计算公式为:
S ( C ) = W ( C ) depth
特征D:记网页中包含的图片的总个数为total,有alt标签的图片的总个数为altcount。则特征D对应的质量分值计算公式为:
S ( D ) = W ( D ) * altcount total
特征E:缺失的标签指:存在有<>标记的而没有对应的</>标记的标签或存在其他无法满足网页设计要求的标签格式。如果存在,则S(E)=0;否则S(E)=W(E)。
特征F:如果一个网页的标题包含关键词,则S(F)=W(F);否则S(F)=0。
特征G或H:正文与Description的关键词密度这两个特征的得分计算公式相同,这里对正文的关键词密度对应的质量分值计算进行描述,Description的关键词密度对应的质量分值计算不做赘述。
正文的关键词的密度(density,记为dy)是指关键词的字符个数与正文的总字符个数之比。根据经验,关键词的密度在1%至7%之间较好,最佳为3%。因此设置一个可配置的最佳密度值(best density),记为bd,最佳密度值可以根据需要进行设定。利用最佳密度值对关键词密度值进行正则化(regularization,记为r)计算,具体的计算公式为:
r = | dy - bd | bd
记网页的正文总字符个数为total;关键词的总字符数为kw。
关键词密度的计算公式:
dy = kw total
最后,这个特征G的最终质量分值计算公式为:
S ( G ) = W ( G ) * 1 1 + r
特征I:记网页中具有alt标签的图片的总个数为total,记具有alt标签且具有关键词描述的图片总个数为kw,则特征I对应的质量分值计算公式为:
S ( I ) = W ( I ) * kw total
特征J:记网页中具有的超链接的总个数为total,记说明文本中具有关键词的超链接的总个数为kw。则特征J对应的质量分值计算公式为:
S ( J ) = W ( J ) * kw total
特征K和L:由于标题与Description两者与正文的相符程度的计算公式相同,对标题与正文的相符程度来进行描述,Description不做赘述。
首先,利用分词器为标题与正文进行分词,分别得到标题的分词列表和正文的分词列表,设标题的分词总个数为b;其次,利用这两个分词列表,计算出两者共有的分词个数,记为a。则计算特征K的分值计算公式为:
S ( K ) = W ( K ) * a b
特征M:Description的字符总个数不是越多越好的,也不是越少越好的。根据经验,一般为200个左右最佳。因此,可以设置一个最佳阀值,记为b,该最佳预置,可以根据需要进行设置。而记当前网页的Description的总字符个数为t。记正则化(regularization)因子r的计算公式为:
r = | t - b | b
则特征M的质量分值计算公式为:
( M ) = W ( M ) * 1 1 + r
根据上述判定规则,获取最终的第一质量分值S(1)和第二质量分值S(2)。
第一计算子模块用于将第一质量分值与第二质量分值相加得到网页特征的质量分值。根据第一获取子模块获取的第一质量分值S(1)和第二质量分值S(2),所述网页特征对应的质量分值为:S(1)+S(2)。
通过对网页的网页特征预先设定质量分值,根据获取到的网页的结构特征对应的第一质量分值和内容特征对应的第二质量分值,相加得到网页的质量分值根据质量分值来确定网页的质量等级,以最终确定网页质量。
第一确定模块202用于由质量分值确定目标网页的质量等级。一段质量分值对应一个质量等级,例如,预先设定质量分值大于等于60时,网页的质量等级为高质量等级,表明当目标网页的质量分值大于等于60时,其网页质量较高。根据获取到的目标网页的质量分值可以确定目标网页所在的质量等级,以便于进一步评价目标网页的质量。
图3是根据本发明第三实施例的网页质量检测装置的结构示意图。该实施例的网页质量检测装置可以作为上述实施例的网页质量检测装置的结构示意图。如图3所示,该网页质量检测装置包括获取单元10、第一确定单元20和第二确定单元30,其中,获取单元10包括第三获取模块102,第一确定单元20包括第四获取模块203和第二确定模块204。其中第二确定单元30与图1所示的第二确定单元30功能相同,这里不做赘述。
第三获取模块102用于获取目标网页的网页特征。网页特征为用于反映目标网页的特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(Hyper Text Make-up Language超文本标记语言,简称Html)结构和Url(Uniform Resource Locator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会都网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
第三获取模块102还用于获取目标网页的父节点,父节点为由出链指向目标网页的网页。获取目标网页的父节点,父节点为由出链指向目标网页的网页。父节点可以是在某次目标网页的抓取过程中,由出链指向目标网页的一个网页或者多个网页,该网页也可以称为节点。例如,网页X包含有多个链接,通过网页X中的一个链接可以链接到网页Y,那么可以称网页X为网页Y的父节点,网页Y为网页X的子节点。
第四获取模块203用于获取网页特征的质量分值,质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
第四获取模块203还用于获取父节点的认可分值,认可分值为用于反映父节点对目标网页的认可程度的数值。当目标网页只有一个父节点时,父节点的认可分值为一个认可分值,当目标网页有多个父节点时,父节点的认可分值为所有父节点的认可总分值,即为父节点认可程度之和,记为F。由于目标网页的父节点一般包括多个子节点,目标网页属于其中一个子节点,那么该父节点的将其自身的静态网页质量平均分给每一个子节点。父节点认可程度之和由当前网页在的所有父节点的认可程度迭加计算得到。每个父节点将它的静态质量分值平均分配给他的没有由Nofollow标记的所有出链对应的子节点。例如,网页Y为目标网页,该网页Y包括3个父节点,其中一个父节点为网页X,而网页X又包括3个子节点,其中一个子节点为网页Y。假设网页X的网页静态质量分值为Z,那么网页Y从网页X得到的认可分值为Z/3,网页Y的父节点认可分值为从网页X得到的认可分值加上另外两个父节点处得到的认可分值的总认可分值。
第二确定模块204用于由质量分值和认可分值确定目标网页的质量等级。由网页特征对应的质量分值和父节点的认可分值得到目标网页的质量等级。可以是由质量分值和认可分值直接相加得到的总分值来确定目标网页的质量等级,也可以是根据质量分值和认可分值对目标网页的质量影响程度进行权值配置,再通过质量分值及其对应的权值和认可分值及其对应的权值计算最终的质量总分值来确定目标网页的质量等级。
优选地,第二确定模块204包括第二获取子模块、第二计算子模块、第一确定子模块和第二确定子模块。
第二获取子模块用于获取认可分值在目标网页的质量中所占的比例。认可分值在目标网页的质量中所占的比例可以是预先设置好的比值,记为d,那么网页特征对应的质量分值在目标网页质量中所占的比例为1-d,根据这些比值可以计算出目标网页的最终质量分值。例如,当父节点的认可程度对网页质量的贡献量为20%时,则d为0.2。d的取值范围为0~1,d值可以根据需要进行预先设定,第二获取子模块用于获取该值用于网页质量的计算。
第二计算子模块,用于通过公式SW=F*d+S*(1-d)计算目标网页的总分值,其中SW为总分值,F为认可分值,d为认可分值在目标网页的质量中所占的比例,S为质量分值。总分值SW为目标网页的总质量分值,由于网页的质量既包括网页自身的质量,还包括网页的对外关系,如果网页对外关系越好,也表明网页的质量越高,其中,网页的对外关系的好坏主要通过父节点的认可分值进行判断,通过网页特征对网页自身的结构和内容等质量进行判定,并通过网页的父节点对网页的对外关系进行判定,能够更客观准确地检测出网页质量。
第一确定子模块用于如果目标网页的总分值超过设定阈值,确定目标网页为第一质量等级。设定阈值可以是预先设置好的分值,第一质量等级为高质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为81分,则确定目标网页为第一质量等级,表明目标网页的网页质量较高,其结构设计,内容组织以及对外关系较好。
第二确定子模块用于如果目标网页的总分值未超过设定阈值,确定目标网页为第二质量等级。设定阈值可以是预先设置好的分值,第二质量等级为低质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为70分,则确定目标网页为第二质量等级,表明目标网页的网页质量较低,其结构设计,内容组织以及对外关系有一定的缺陷。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本发明实施例还提供了一种网页质量检测方法。该方法可以运行在计算机设备上。需要说明的是,本发明实施例的网页质量检测方法可以通过本发明实施例所提供的网页质量检测装置来执行,本发明实施例的网页质量检测装置也可以用于执行本发明实施例所提供的网页质量检测方法。
图4是根据本发明第一实施例的网页质量检测方法的流程图。如图4所示,该网页质量检测方法包括步骤如下:
步骤S101,获取目标网页的网页信息,该网页信息为目标网页的页面上的信息。目标网页为需要进行质量检测的网页,目标网页可以是任意一个网页,也可以是多个网页,可以是任意一个网站中的任意一个网页,也可以是一个单独的网页。获取单元10获取的目标网页上的网页信息,该网页信息可以是反映目标网页结构的信息,可以是反映目标网页内容的信息,也可以是目标网页的父节点的信息,目标网页的父节点为由出链指向目标网页的网页。例如,目标网页的页面布局信息、页面内容、分词、关键词以及关键词的密度、出链或者入链等因素对应的信息。获取上述网页信息,以便于对目标网页的质量进行检测。
步骤S102,由网页信息确定目标网页的质量等级。质量等级可以根据网页质量划分高质量等级和低质量等级,高质量等级表示网页的质量较高,低质量等级表示网页的质量较低。当网页的结构设计越好,内容组织越好以及对外关系越好,可以确定该网页的质量等级为高质量等级,反之则认为网页质量的质量等级为低质量等级。根据获取单元10获取到的目标网页的网页信息,来确定目标网页的质量等级,以对目标网页的质量进行判定。由于在网页质量检测的时候,首先要检测网页是否出现一些严重影响网页质量的因素,例如,网页中是否具有欺骗性跳转或重定向的因素,是否含有专门针对搜索引擎所做的桥页,是否为针对搜索引擎利用程序生成的网页,以及是否包含有害代码、病毒、木马或其他有害软件。当目标网页的网页信息中包括以上任意一个或者几个影响网页质量的因素时,第一确定单元20可以直接将该目标网页的质量等级确定为低质量等级。
步骤S103,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
根据本发明实施例,通过获取目标网页自身的网页信息,包括目标网页的结构和内容等因素,对目标网页的质量进行检测,能够检测出当前时刻目标网页的网页质量,避免了由于用户数据的不确定性对网页质量检测的影响,解决了网页质量检测不准确的问题,达到了准确检测网页质量的效果。
由于本发明实施例的网页质量检测方法是对目标网页的静态质量进行检测,因此该方法可以用于对上线前的网站中网页进行检测,可以帮助开发人员在网站上线前,找出其中网页中的缺陷,及时地提高网页质量。
图5是根据本发明第二实施例的网页质量检测方法的流程图。该实施例提供的网页质量检测方法可以作为图4所示的网页质量检测方法的一种优选实施方式。如图5所示,该网页质量检测方法包括步骤如下:
步骤S201,获取目标网页的网页特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(HyperText Make-up Language超文本标记语言,简称Html)结构和Url(Uniform ResourceLocator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会对网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
步骤S202,获取网页特征对应的质量分值。该质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
步骤S203,由质量分值确定目标网页的质量等级。一段质量分值对应一个质量等级,例如,预先设定质量分值大于等于60时,网页的质量等级为高质量等级,表明当目标网页的质量分值大于等于60时,其网页质量较高。根据获取到的目标网页的质量分值可以确定目标网页所在的质量等级,以便于进一步评价目标网页的质量。
步骤S204,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
根据本发明实施例,通过采用质量分值来确定目标网页的质量等级,能够比较直观地反映出目标网页的质量。
图6是根据本发明第三实施例的网页质量检测方法的流程图。该实施例提供的网页质量检测方法可以作为图4所示的网页质量检测方法的一种优选实施方式。如图6所示,该网页质量检测方法包括步骤如下:
步骤S301,获取目标网页的结构特征和内容特征。结构特征为用于表示目标网页的结构的特征,内容特征为用于表示目标网页的内容的特征。目标网页的结构特征可以包括特征A、B、C、D和E,其中特征A、Url包含关键词;特征B、Url路径中包含中文;特征C、Url目录层次;特征D、图片的alt属性标签的缺失比例;特征E、有缺失的标签等。目标网页的内容特征可以包括特征F、G、H、I、J、K、L和M,其中特征F、标题中出现关键词;特征G正文中关键词出现的密度;特征H、Description中关键词出现的密度;特征I、图片alt属性标签,包含关键词的比例;特征J、文本超链接中包含关键词的比例;特征K标题与正文内容相符程度;特征L、Description与正文内容的相符程度;特征M、Description的字符数加空格数是否超过某个阀值等。获取上述目标网页的网页特征,以便于对目标网页的网页质量进行判定。
步骤S302,获取第一质量分值和第二质量分值。其中,第一质量分值为用于反映目标网页结构特征的质量数值,第二质量分值为用于反映目标网页内容特征的质量数值。上述中的结构特征A、B、C、D和E,以及内容特征F、G、H、I、J、K、L和M,预先配置的相应的权值分别为:W(A)、W(B)、W(C)、W(D)、W(E)、W(F)、W(G)、W(H)、W(I)、W(J)、W(K)、W(L)、W(M),各特征对应的质量分值为S(A)、S(B)、S(C)、S(D)、S(E)、S(F)、S(G)、S(H)、S(I)、S(J)、S(K)、S(L)、S(M),其中第一质量分值S(1)=S(A)+S(B)+S(C)+S(D)+S(E),第二质量分值S(2)=S(F)+S(G)+S(H)+S(I)+S(J)+S(K)+S(L)+S(M)。对于上述每个特征的得分判定标准如下所示:
特征A:如果Url中包含关键词,则S(A)=W(A);否则S(A)=0。
特征B:如果Url中包含中文,则S(B)=0;否则S(B)=W(B)。
特征C:记Url的域名的深度(depth)为1,每增加一个目录,则深度增加1。如对于Url:http://www.gridsum.com/products/的深度为2。则特征C对应的质量分值计算公式为:
S ( C ) = W ( C ) depth
特征D:记网页中包含的图片的总个数为total,有alt标签的图片的总个数为altcount。则特征D对应的质量分值计算公式为:
S ( D ) = W ( D ) * altcount total
特征E:缺失的标签指:存在有<>标记的而没有对应的</>标记的标签或存在其他无法满足网页设计要求的标签格式。如果存在,则S(E)=0;否则S(E)=W(E)。
特征F:如果一个网页的标题包含关键词,则S(F)=W(F);否则S(F)=0。
特征G或H:正文与Description的关键词密度这两个特征的得分计算公式相同,这里对正文的关键词密度对应的质量分值计算进行描述,Description的关键词密度对应的质量分值计算不做赘述。
正文的关键词的密度(density,记为dy)是指关键词的字符个数与正文的总字符个数之比。根据经验,关键词的密度在1%至7%之间较好,最佳为3%。因此设置一个可配置的最佳密度值(best density),记为bd,最佳密度值可以根据需要进行设定。利用最佳密度值对关键词密度值进行正则化(regularization,记为r)计算,具体的计算公式为:
r = | dy - bd | bd
记网页的正文总字符个数为total;关键词的总字符数为kw。
关键词密度的计算公式:
dy = kw total
最后,这个特征G的最终质量分值计算公式为:
S ( G ) = W ( G ) * 1 1 + r
特征I:记网页中具有alt标签的图片的总个数为total,记具有alt标签且具有关键词描述的图片总个数为kw,则特征I对应的质量分值计算公式为:
S ( I ) = W ( I ) * kw total
特征J:记网页中具有的超链接的总个数为total,记说明文本中具有关键词的超链接的总个数为kw。则特征J对应的质量分值计算公式为:
S ( J ) = W ( J ) * kw total
特征K和L:由于标题与Description两者与正文的相符程度的计算公式相同,对标题与正文的相符程度来进行描述,Description不做赘述。
首先,利用分词器为标题与正文进行分词,分别得到标题的分词列表和正文的分词列表,设标题的分词总个数为b;其次,利用这两个分词列表,计算出两者共有的分词个数,记为a。则计算特征K的分值计算公式为:
S ( K ) = W ( K ) * a b
特征M:Description的字符总个数不是越多越好的,也不是越少越好的。根据经验,一般为200个左右最佳。因此,可以设置一个最佳阀值,记为b,该最佳预置,可以根据需要进行设置。而记当前网页的Description的总字符个数为t。记正则化(regularization)因子r的计算公式为:
r = | t - b | b
则特征M的质量分值计算公式为:
S ( M ) = W ( M ) * 1 1 + r
根据上述判定规则,获取最终的第一质量分值S(1)和第二质量分值S(2)。
步骤S303,将第一质量分值与第二质量分值相加得到网页特征对应的质量分值。根据步骤S302获取的第一质量分值S(1)和第二质量分值S(2),所述网页特征对应的质量分值为:S(1)+S(2)。
步骤S304,由质量分值确定目标网页的质量等级。一段质量分值对应一个质量等级,例如,预先设定质量分值大于等于60时,网页的质量等级为高质量等级,表明当目标网页的质量分值大于等于60时,其网页质量较高。根据获取到的目标网页的质量分值可以确定目标网页所在的质量等级,以便于进一步评价目标网页的质量。
步骤S305,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
图7是根据本发明第四实施例的网页质量检测方法的流程图。该实施例提供的网页质量检测方法可以作为图4所示的网页质量检测方法的一种优选实施方式。如图7所示,该网页质量检测方法包括步骤如下:
步骤S401,获取目标网页的网页特征。网页特征为用于反映目标网页的特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(Hyper Text Make-up Language超文本标记语言,简称html)结构和Url(Uniform Resource Locator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会都网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
步骤S402,获取目标网页的父节点,父节点为由出链指向目标网页的网页。父节点可以是在某次目标网页的抓取过程中,由出链指向目标网页的一个网页或者多个网页,该网页也可以称为节点。例如,网页X包含有多个链接,通过网页X中的一个链接可以链接到网页Y,那么可以称网页X为网页Y的父节点,网页Y为网页X的子节点。
步骤S403,获取网页特征的质量分值,质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
步骤S404,获取父节点的认可分值,认可分值为用于反映父节点对目标网页的认可程度的数值。当目标网页只有一个父节点时,父节点的认可分值为一个认可分值,当目标网页有多个父节点时,父节点的认可分值为所有父节点的认可总分值,即为父节点认可程度之和,记为F。由于目标网页的父节点一般包括多个子节点,目标网页属于其中一个子节点,那么该父节点的将其自身的静态网页质量平均分给每一个子节点。父节点认可程度之和由当前网页在的所有父节点的认可程度迭加计算得到。每个父节点将它的静态质量分值平均分配给他的没有由Nofollow标记的所有出链对应的子节点。例如,网页Y为目标网页,该网页Y包括3个父节点,其中一个父节点为网页X,而网页X又包括3个子节点,其中一个子节点为网页Y。假设网页X的网页静态质量分值为Z,那么网页Y从网页X得到的认可分值为Z/3,网页Y的父节点认可分值为从网页X得到的认可分值加上另外两个父节点处得到的认可分值的总认可分值。
步骤S405,由质量分值和认可分值确定目标网页的质量等级。由网页特征对应的质量分值和父节点的认可分值得到目标网页的质量等级。可以是由质量分值和认可分值直接相加得到的总分值来确定目标网页的质量等级,也可以是根据质量分值和认可分值对目标网页的质量影响程度进行权值配置,再通过质量分值及其对应的权值和认可分值及其对应的权值计算最终的质量总分值来确定目标网页的质量等级。
优选地,步骤S405可以包括步骤4051到步骤4054:
步骤S4051,获取认可分值在目标网页的质量中所占的比例。认可分值在目标网页的质量中所占的比例可以是预先设置好的比值,记为d,那么网页特征对应的质量分值在目标网页质量中所占的比例为1-d,根据这些比值可以计算出目标网页的最终质量分值。例如,当父节点的认可程度对网页质量的贡献量为20%时,则d为0.2。d的取值范围为0~1,d值可以根据需要进行预先设定,第二获取子模块用于获取该值用于网页质量的计算。
步骤S4052,通过公式SW=F*d+S*(1-d)计算目标网页的总分值,其中SW为总分值,F为认可分值,d为认可分值在目标网页的质量中所占的比例,S为质量分值。总分值SW为目标网页的总质量分值,由于网页的质量既包括网页自身的质量,还包括网页的对外关系,如果网页对外关系越好,也表明网页的质量越高,其中,网页的对外关系的好坏主要通过父节点的认可分值进行判断,通过网页特征对网页自身的结构和内容等质量进行判定,并通过网页的父节点对网页的对外关系进行判定,能够更客观准确地检测出网页质量。
步骤S4053,如果目标网页的总分值超过设定阈值,确定目标网页为第一质量等级。设定阈值可以是预先设置好的分值,第一质量等级为高质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为81分,则确定目标网页为第一质量等级,表明目标网页的网页质量较高,其结构设计,内容组织以及对外关系较好。
步骤S4054,如果目标网页的总分值未超过设定阈值,确定目标网页为第二质量等级。设定阈值可以是预先设置好的分值,第二质量等级为低质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为70分,则确定目标网页为第二质量等级,表明目标网页的网页质量较低,其结构设计,内容组织以及对外关系有一定的缺陷。
步骤S406,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种网页质量检测方法,其特征在于,包括:
获取目标网页的网页信息,所述网页信息为所述目标网页的页面上的信息;
由所述网页信息确定所述目标网页的质量等级;以及
由所述质量等级确定所述目标网页的网页质量,
其中,获取目标网页的网页信息包括:获取所述目标网页的网页特征;获取所述目标网页的父节点,所述父节点为由出链指向所述目标网页的网页;
由所述网页信息获取所述目标网页的质量等级包括:获取所述网页特征的质量分值,所述质量分值为用于反映所述目标网页的网页质量的数值;获取所述父节点的认可分值,所述认可分值为用于反映所述父节点对所述目标网页的认可程度的数值;由所述质量分值和所述认可分值确定所述目标网页的质量等级;
由所述质量分值和所述认可分值确定所述目标网页的质量等级包括:
获取所述认可分值在所述目标网页的质量中所占的比例;
通过公式SW=F*d+S*(1-d)计算所述目标网页的总分值,其中SW为所述总分值,F为所述认可分值,d为所述认可分值在所述目标网页的质量中所占的比例,S为所述质量分值;
如果所述目标网页的总分值超过设定阈值,确定所述目标网页为第一质量等级;以及
如果所述目标网页的总分值未超过设定阈值,确定所述目标网页为第二质量等级。
2.根据权利要求1所述的网页质量检测方法,其特征在于,
获取目标网页的网页信息包括:获取所述目标网页的网页特征;
由所述网页信息获取所述目标网页的质量等级包括:获取所述网页特征对应的质量分值,所述质量分值为用于反映所述目标网页的网页质量的数值;由所述质量分值确定所述目标网页的质量等级。
3.根据权利要求2所述的网页质量检测方法,其特征在于,获取所述目标网页的网页特征包括获取目标网页的结构特征和内容特征,所述结构特征为用于表示所述目标网页的结构的特征,所述内容特征为用于表示所述目标网页的内容的特征,其中,获取所述网页特征对应的质量分值包括:
获取第一质量分值和第二质量分值,其中,第一质量分值为用于反映所述目标网页结构特征的质量数值,所述第二质量分值为用于反映所述目标网页内容特征的质量数值;以及
将所述第一质量分值与所述第二质量分值相加得到所述网页特征的质量分值。
4.一种网页质量检测装置,其特征在于,包括:
获取单元,用于获取目标网页的网页信息,所述网页信息为所述目标网页的页面上的信息;
第一确定单元,用于由所述网页信息确定所述目标网页的质量等级;以及
第二确定单元,用于由所述质量等级确定所述目标网页的网页质量,
其中,所述获取单元包括:第三获取模块,用于获取所述目标网页的网页特征;所述第三获取模块还用于获取所述目标网页的父节点,所述父节点为由出链指向所述目标网页的网页;
所述第一确定单元包括:第四获取模块,用于获取所述网页特征的质量分值,所述质量分值为用于反映所述目标网页的网页质量的数值;所述第四获取模块还用于获取所述父节点的认可分值,所述认可分值为用于反映所述父节点对所述目标网页的认可程度的数值;第二确定模块,用于由所述质量分值和所述认可分值确定所述目标网页的质量等级;
所述第二确定模块包括:
第二获取子模块,用于获取所述认可分值在所述目标网页的质量中所占的比例;
第二计算子模块,用于通过公式SW=F*d+S*(1-d)计算所述目标网页的总分值,其中SW为所述总分值,F为所述认可分值,d为所述认可分值在所述目标网页的质量中所占的比例,S为所述质量分值;
第一确定子模块,用于如果所述目标网页的总分值超过设定阈值,确定所述目标网页为第一质量等级;以及
第二确定子模块,用于如果所述目标网页的总分值未超过设定阈值,确定所述目标网页为第二质量等级。
5.根据权利要求4所述的网页质量检测装置,其特征在于,
所述获取单元包括:第一获取模块,用于获取所述目标网页的网页特征;
所述第一确定单元包括:第二获取模块,用于获取所述网页特征对应的质量分值,所述质量分值为用于反映所述目标网页的网页质量的数值;第一确定模块,用于由所述质量分值确定所述目标网页的质量等级。
6.根据权利要求5所述的网页质量检测装置,其特征在于,所述第一获取模块用于获取目标网页的结构特征和内容特征,所述结构特征为用于表示所述目标网页的结构的特征,所述内容特征为用于表示所述目标网页的内容的特征,其中,所述第二获取模块包括:
第一获取子模块,用于获取第一质量分值和第二质量分值,其中,第一质量分值为用于反映所述目标网页结构特征的质量数值,所述第二质量分值为用于反映所述目标网页内容特征的质量数值;以及
第一计算子模块,用于将所述第一质量分值与所述第二质量分值相加得到所述网页特征的质量分值。
CN201310482891.4A 2013-10-15 2013-10-15 网页质量检测方法和装置 Active CN103544257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310482891.4A CN103544257B (zh) 2013-10-15 2013-10-15 网页质量检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310482891.4A CN103544257B (zh) 2013-10-15 2013-10-15 网页质量检测方法和装置

Publications (2)

Publication Number Publication Date
CN103544257A CN103544257A (zh) 2014-01-29
CN103544257B true CN103544257B (zh) 2017-01-18

Family

ID=49967709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310482891.4A Active CN103544257B (zh) 2013-10-15 2013-10-15 网页质量检测方法和装置

Country Status (1)

Country Link
CN (1) CN103544257B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104391955B (zh) * 2014-11-27 2018-02-23 北京国双科技有限公司 网页相关性检测方法及装置
CN104615680B (zh) 2015-01-21 2016-11-02 广州神马移动信息科技有限公司 网页质量模型的建立方法及装置
CN104615705B (zh) * 2015-01-30 2018-09-18 百度在线网络技术(北京)有限公司 网页质量检测方法及装置
CN107463844B (zh) * 2016-06-06 2020-08-25 国家计算机网络与信息安全管理中心 Web木马检测方法及系统
CN108733672B (zh) * 2017-04-14 2023-01-24 腾讯科技(深圳)有限公司 实现网络信息质量评估的方法和系统
CN114925308B (zh) * 2022-04-29 2023-10-03 北京百度网讯科技有限公司 网站的网页处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1442803A (zh) * 2002-03-06 2003-09-17 富士通株式会社 评价网页的装置和方法
CN101582086A (zh) * 2009-06-11 2009-11-18 腾讯科技(深圳)有限公司 获取博客质量信息的方法和装置
CN102486774A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 一种网络页面的质量获取方法、系统及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346763B2 (en) * 2007-03-30 2013-01-01 Microsoft Corporation Ranking method using hyperlinks in blogs

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1442803A (zh) * 2002-03-06 2003-09-17 富士通株式会社 评价网页的装置和方法
CN101582086A (zh) * 2009-06-11 2009-11-18 腾讯科技(深圳)有限公司 获取博客质量信息的方法和装置
CN102486774A (zh) * 2010-12-01 2012-06-06 腾讯科技(深圳)有限公司 一种网络页面的质量获取方法、系统及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
链接分析工具—博客链接索引(BSI)的功能与应用;邱均平 等;《图书情报工作》;20070918;第51卷(第9期);25-28,108 *

Also Published As

Publication number Publication date
CN103544257A (zh) 2014-01-29

Similar Documents

Publication Publication Date Title
CN103544257B (zh) 网页质量检测方法和装置
Blooma et al. A predictive framework for retrieving the best answer
Hussain et al. Usability metric framework for mobile phone application
US20150295942A1 (en) Method and server for performing cloud detection for malicious information
US20120296918A1 (en) Credibility Information in Returned Web Results
JP2015511363A (ja) 売り主に関係付けられた信頼レベルの値に基づくサーチ結果順位の決定
CN102855309A (zh) 一种基于用户行为关联分析的信息推荐方法及装置
CN106599299A (zh) 一种网站关键词的确定方法及装置
CN110019642A (zh) 一种相似文本检测方法及装置
CN103942211B (zh) 一种正文页的识别方法及装置
CN106603490A (zh) 一种钓鱼网站的检测方法和系统
US20150199357A1 (en) Selecting primary resources
CN110781497B (zh) 网页链接的检测方法及存储介质
Kumar et al. Website Performance Analysis and Evaluation using Automated Tools
CN105306462A (zh) 网页链接检测方法及装置
KR101331453B1 (ko) 연관어를 이용한 확장 키워드 검색 광고 방법
US9164985B1 (en) Techniques for detecting poor machine translations of key terms
CN103646053A (zh) 一种网站提供对象的推荐方法和装置
CN105138539A (zh) 信息搜索方法和系统
CN110297751A (zh) 页面元素的检测方法、装置、存储介质及处理器
KR101421819B1 (ko) 온라인 환경에서의 벌룬을 이용한 키워드 검색 결과 제공 방법
TW201510886A (zh) 地名排序方法及地名排序系統與電腦可讀取記錄媒體
CN107402882B (zh) Web页面测试方法和装置
KR101279753B1 (ko) 검색 결과에 대한 사용자 응답에 기반하여 검색 결과값을 재구성하는 검색 서비스 제공 장치 및 방법
Lamprecht et al. Quo vadis? On the effects of Wikipedia’s policies on navigation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for webpage quality detection

Effective date of registration: 20190531

Granted publication date: 20170118

Pledgee: Shenzhen Black Horse World Investment Consulting Co.,Ltd.

Pledgor: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Registration number: 2019990000503

PE01 Entry into force of the registration of the contract for pledge of patent right
CP02 Change in the address of a patent holder

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Patentee after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Patentee before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CP02 Change in the address of a patent holder
PP01 Preservation of patent right

Effective date of registration: 20240604

Granted publication date: 20170118

PP01 Preservation of patent right