具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
本发明实施例提供了一种网页质量检测装置,该装置可以通过计算机设备实现其功能。
图1是根据本发明第一实施例的网页质量检测装置的结构示意图。如图1所示,该装置包括获取单元10、第一确定单元20和第二确定单元30。
获取单元10用于获取目标网页的网页信息,该网页信息为目标网页的页面上的信息。目标网页为需要进行质量检测的网页,目标网页可以是任意一个网页,也可以是多个网页,可以是任意一个网站中的任意一个网页,也可以是一个单独的网页。获取单元10获取的目标网页上的网页信息,该网页信息可以是反映目标网页结构的信息,可以是反映目标网页内容的信息,也可以是目标网页的父节点的信息,目标网页的父节点为由出链指向目标网页的网页。例如,目标网页的页面布局信息、页面内容、分词、关键词以及关键词的密度、出链或者入链等因素对应的信息。获取上述网页信息,以便于对目标网页的质量进行检测。
第一确定单元20用于由网页信息确定目标网页的质量等级。质量等级可以根据网页质量划分高质量等级和低质量等级,高质量等级表示网页的质量较高,低质量等级表示网页的质量较低。当网页的结构设计越好,内容组织越好以及对外关系越好,可以确定该网页的质量等级为高质量等级,反之则认为网页质量的质量等级为低质量等级。根据获取单元10获取到的目标网页的网页信息,来确定目标网页的质量等级,以对目标网页的质量进行判定。由于在网页质量检测的时候,首先要检测网页是否出现一些严重影响网页质量的因素,例如,网页中是否具有欺骗性跳转或重定向的因素,是否含有专门针对搜索引擎所做的桥页,是否为针对搜索引擎利用程序生成的网页,以及是否包含有害代码、病毒、木马或其他有害软件。当目标网页的网页信息中包括以上任意一个或者几个影响网页质量的因素时,第一确定单元20可以直接将该目标网页的质量等级确定为低质量等级。
第二确定单元30用于由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
根据本发明实施例,通过获取目标网页自身的网页信息,包括目标网页的结构和内容等因素,对目标网页的质量进行检测,能够检测出当前时刻目标网页的网页质量,避免了由于用户数据的不确定性对网页质量检测的影响,解决了网页质量检测不准确的问题,达到了准确检测网页质量的效果。
由于本发明实施例的网页质量检测装置是对目标网页的静态质量进行检测,因此该装置可以用于对上线前的网站中网页进行检测,可以帮助开发人员在网站上线前,找出其中网页中的缺陷,及时地提高网页质量。
图2是根据本发明第二实施例的网页质量检测装置的结构示意图。该实施例的网页质量检测装置可以作为上述实施例的网页质量检测装置的结构示意图。如图2所示,该网页质量检测装置包括获取单元10、第一确定单元20和第二确定单元30,其中,获取单元10包括第一获取模块101,第一确定单元20包括第二获取模块201和第一确定模块202。该实施例的第二确定单元30与图1所示的第二确定单元30功能相同,这里不做赘述。
第一获取模块101用于获取目标网页的网页特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(Hyper Text Make-up Language超文本标记语言,简称Html)结构和Url(UniformResource Locator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会对网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
优选地,第一获取模块101用于获取目标网页的结构特征和内容特征,结构特征为用于表示目标网页的结构的特征,内容特征为用于表示目标网页的内容的特征。目标网页的结构特征可以包括特征A、B、C、D和E,其中,特征A、Url包含关键词;特征B、Url路径中包含中文;特征C、Url目录层次;特征D、图片的alt属性标签的缺失比例;特征E、有缺失的标签等。目标网页的内容特征可以包括特征F、G、H、I、J、K、L和M,其中特征F、标题中出现关键词;特征G正文中关键词出现的密度;特征H、Description中关键词出现的密度;特征I、图片alt属性标签,包含关键词的比例;特征J、文本超链接中包含关键词的比例;特征K标题与正文内容相符程度;特征L、Description与正文内容的相符程度;特征M、Description的字符数加空格数是否超过某个阀值等。获取上述目标网页的网页特征,以便于对目标网页的网页质量进行判定。
由于网页主要包括内容和结构两个方面,获取网页的结构特征和内容特征以便于从网页自身的结构和内容对网页的质量进行检测。
第二获取模块201用于获取网页特征对应的质量分值,质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
优选地,第二获取模块201包括第一获取子模块和第一计算子模块。
第一获取子模块用于获取第一质量分值和第二质量分值,其中,第一质量分值为用于反映目标网页结构特征的质量数值,第二质量分值为用于反映目标网页内容特征的质量数值。上述中的结构特征A、B、C、D和E,以及内容特征F、G、H、I、J、K、L和M,预先配置的相应的权值分别为:W(A)、W(B)、W(C)、W(D)、W(E)、W(F)、W(G)、W(H)、W(I)、W(J)、W(K)、W(L)、W(M),各特征对应的质量分值为S(A)、S(B)、S(C)、S(D)、S(E)、S(F)、S(G)、S(H)、S(I)、S(J)、S(K)、S(L)、S(M),其中第一质量分值S(1)=S(A)+S(B)+S(C)+S(D)+S(E),第二质量分值S(2)=S(F)+S(G)+S(H)+S(I)+S(J)+S(K)+S(L)+S(M)。对于上述每个特征的得分判定标准如下所示:
特征A:如果Url中包含关键词,则S(A)=W(A);否则S(A)=0。
特征B:如果Url中包含中文,则S(B)=0;否则S(B)=W(B)。
特征C:记Url的域名的深度(depth)为1,每增加一个目录,则深度增加1。如对于Url:http://www.gridsum.com/products/的深度为2。则特征C对应的质量分值计算公式为:
特征D:记网页中包含的图片的总个数为total,有alt标签的图片的总个数为altcount。则特征D对应的质量分值计算公式为:
特征E:缺失的标签指:存在有<>标记的而没有对应的</>标记的标签或存在其他无法满足网页设计要求的标签格式。如果存在,则S(E)=0;否则S(E)=W(E)。
特征F:如果一个网页的标题包含关键词,则S(F)=W(F);否则S(F)=0。
特征G或H:正文与Description的关键词密度这两个特征的得分计算公式相同,这里对正文的关键词密度对应的质量分值计算进行描述,Description的关键词密度对应的质量分值计算不做赘述。
正文的关键词的密度(density,记为dy)是指关键词的字符个数与正文的总字符个数之比。根据经验,关键词的密度在1%至7%之间较好,最佳为3%。因此设置一个可配置的最佳密度值(best density),记为bd,最佳密度值可以根据需要进行设定。利用最佳密度值对关键词密度值进行正则化(regularization,记为r)计算,具体的计算公式为:
记网页的正文总字符个数为total;关键词的总字符数为kw。
关键词密度的计算公式:
最后,这个特征G的最终质量分值计算公式为:
特征I:记网页中具有alt标签的图片的总个数为total,记具有alt标签且具有关键词描述的图片总个数为kw,则特征I对应的质量分值计算公式为:
特征J:记网页中具有的超链接的总个数为total,记说明文本中具有关键词的超链接的总个数为kw。则特征J对应的质量分值计算公式为:
特征K和L:由于标题与Description两者与正文的相符程度的计算公式相同,对标题与正文的相符程度来进行描述,Description不做赘述。
首先,利用分词器为标题与正文进行分词,分别得到标题的分词列表和正文的分词列表,设标题的分词总个数为b;其次,利用这两个分词列表,计算出两者共有的分词个数,记为a。则计算特征K的分值计算公式为:
特征M:Description的字符总个数不是越多越好的,也不是越少越好的。根据经验,一般为200个左右最佳。因此,可以设置一个最佳阀值,记为b,该最佳预置,可以根据需要进行设置。而记当前网页的Description的总字符个数为t。记正则化(regularization)因子r的计算公式为:
则特征M的质量分值计算公式为:
根据上述判定规则,获取最终的第一质量分值S(1)和第二质量分值S(2)。
第一计算子模块用于将第一质量分值与第二质量分值相加得到网页特征的质量分值。根据第一获取子模块获取的第一质量分值S(1)和第二质量分值S(2),所述网页特征对应的质量分值为:S(1)+S(2)。
通过对网页的网页特征预先设定质量分值,根据获取到的网页的结构特征对应的第一质量分值和内容特征对应的第二质量分值,相加得到网页的质量分值根据质量分值来确定网页的质量等级,以最终确定网页质量。
第一确定模块202用于由质量分值确定目标网页的质量等级。一段质量分值对应一个质量等级,例如,预先设定质量分值大于等于60时,网页的质量等级为高质量等级,表明当目标网页的质量分值大于等于60时,其网页质量较高。根据获取到的目标网页的质量分值可以确定目标网页所在的质量等级,以便于进一步评价目标网页的质量。
图3是根据本发明第三实施例的网页质量检测装置的结构示意图。该实施例的网页质量检测装置可以作为上述实施例的网页质量检测装置的结构示意图。如图3所示,该网页质量检测装置包括获取单元10、第一确定单元20和第二确定单元30,其中,获取单元10包括第三获取模块102,第一确定单元20包括第四获取模块203和第二确定模块204。其中第二确定单元30与图1所示的第二确定单元30功能相同,这里不做赘述。
第三获取模块102用于获取目标网页的网页特征。网页特征为用于反映目标网页的特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(Hyper Text Make-up Language超文本标记语言,简称Html)结构和Url(Uniform Resource Locator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会都网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
第三获取模块102还用于获取目标网页的父节点,父节点为由出链指向目标网页的网页。获取目标网页的父节点,父节点为由出链指向目标网页的网页。父节点可以是在某次目标网页的抓取过程中,由出链指向目标网页的一个网页或者多个网页,该网页也可以称为节点。例如,网页X包含有多个链接,通过网页X中的一个链接可以链接到网页Y,那么可以称网页X为网页Y的父节点,网页Y为网页X的子节点。
第四获取模块203用于获取网页特征的质量分值,质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
第四获取模块203还用于获取父节点的认可分值,认可分值为用于反映父节点对目标网页的认可程度的数值。当目标网页只有一个父节点时,父节点的认可分值为一个认可分值,当目标网页有多个父节点时,父节点的认可分值为所有父节点的认可总分值,即为父节点认可程度之和,记为F。由于目标网页的父节点一般包括多个子节点,目标网页属于其中一个子节点,那么该父节点的将其自身的静态网页质量平均分给每一个子节点。父节点认可程度之和由当前网页在的所有父节点的认可程度迭加计算得到。每个父节点将它的静态质量分值平均分配给他的没有由Nofollow标记的所有出链对应的子节点。例如,网页Y为目标网页,该网页Y包括3个父节点,其中一个父节点为网页X,而网页X又包括3个子节点,其中一个子节点为网页Y。假设网页X的网页静态质量分值为Z,那么网页Y从网页X得到的认可分值为Z/3,网页Y的父节点认可分值为从网页X得到的认可分值加上另外两个父节点处得到的认可分值的总认可分值。
第二确定模块204用于由质量分值和认可分值确定目标网页的质量等级。由网页特征对应的质量分值和父节点的认可分值得到目标网页的质量等级。可以是由质量分值和认可分值直接相加得到的总分值来确定目标网页的质量等级,也可以是根据质量分值和认可分值对目标网页的质量影响程度进行权值配置,再通过质量分值及其对应的权值和认可分值及其对应的权值计算最终的质量总分值来确定目标网页的质量等级。
优选地,第二确定模块204包括第二获取子模块、第二计算子模块、第一确定子模块和第二确定子模块。
第二获取子模块用于获取认可分值在目标网页的质量中所占的比例。认可分值在目标网页的质量中所占的比例可以是预先设置好的比值,记为d,那么网页特征对应的质量分值在目标网页质量中所占的比例为1-d,根据这些比值可以计算出目标网页的最终质量分值。例如,当父节点的认可程度对网页质量的贡献量为20%时,则d为0.2。d的取值范围为0~1,d值可以根据需要进行预先设定,第二获取子模块用于获取该值用于网页质量的计算。
第二计算子模块,用于通过公式SW=F*d+S*(1-d)计算目标网页的总分值,其中SW为总分值,F为认可分值,d为认可分值在目标网页的质量中所占的比例,S为质量分值。总分值SW为目标网页的总质量分值,由于网页的质量既包括网页自身的质量,还包括网页的对外关系,如果网页对外关系越好,也表明网页的质量越高,其中,网页的对外关系的好坏主要通过父节点的认可分值进行判断,通过网页特征对网页自身的结构和内容等质量进行判定,并通过网页的父节点对网页的对外关系进行判定,能够更客观准确地检测出网页质量。
第一确定子模块用于如果目标网页的总分值超过设定阈值,确定目标网页为第一质量等级。设定阈值可以是预先设置好的分值,第一质量等级为高质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为81分,则确定目标网页为第一质量等级,表明目标网页的网页质量较高,其结构设计,内容组织以及对外关系较好。
第二确定子模块用于如果目标网页的总分值未超过设定阈值,确定目标网页为第二质量等级。设定阈值可以是预先设置好的分值,第二质量等级为低质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为70分,则确定目标网页为第二质量等级,表明目标网页的网页质量较低,其结构设计,内容组织以及对外关系有一定的缺陷。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
本发明实施例还提供了一种网页质量检测方法。该方法可以运行在计算机设备上。需要说明的是,本发明实施例的网页质量检测方法可以通过本发明实施例所提供的网页质量检测装置来执行,本发明实施例的网页质量检测装置也可以用于执行本发明实施例所提供的网页质量检测方法。
图4是根据本发明第一实施例的网页质量检测方法的流程图。如图4所示,该网页质量检测方法包括步骤如下:
步骤S101,获取目标网页的网页信息,该网页信息为目标网页的页面上的信息。目标网页为需要进行质量检测的网页,目标网页可以是任意一个网页,也可以是多个网页,可以是任意一个网站中的任意一个网页,也可以是一个单独的网页。获取单元10获取的目标网页上的网页信息,该网页信息可以是反映目标网页结构的信息,可以是反映目标网页内容的信息,也可以是目标网页的父节点的信息,目标网页的父节点为由出链指向目标网页的网页。例如,目标网页的页面布局信息、页面内容、分词、关键词以及关键词的密度、出链或者入链等因素对应的信息。获取上述网页信息,以便于对目标网页的质量进行检测。
步骤S102,由网页信息确定目标网页的质量等级。质量等级可以根据网页质量划分高质量等级和低质量等级,高质量等级表示网页的质量较高,低质量等级表示网页的质量较低。当网页的结构设计越好,内容组织越好以及对外关系越好,可以确定该网页的质量等级为高质量等级,反之则认为网页质量的质量等级为低质量等级。根据获取单元10获取到的目标网页的网页信息,来确定目标网页的质量等级,以对目标网页的质量进行判定。由于在网页质量检测的时候,首先要检测网页是否出现一些严重影响网页质量的因素,例如,网页中是否具有欺骗性跳转或重定向的因素,是否含有专门针对搜索引擎所做的桥页,是否为针对搜索引擎利用程序生成的网页,以及是否包含有害代码、病毒、木马或其他有害软件。当目标网页的网页信息中包括以上任意一个或者几个影响网页质量的因素时,第一确定单元20可以直接将该目标网页的质量等级确定为低质量等级。
步骤S103,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
根据本发明实施例,通过获取目标网页自身的网页信息,包括目标网页的结构和内容等因素,对目标网页的质量进行检测,能够检测出当前时刻目标网页的网页质量,避免了由于用户数据的不确定性对网页质量检测的影响,解决了网页质量检测不准确的问题,达到了准确检测网页质量的效果。
由于本发明实施例的网页质量检测方法是对目标网页的静态质量进行检测,因此该方法可以用于对上线前的网站中网页进行检测,可以帮助开发人员在网站上线前,找出其中网页中的缺陷,及时地提高网页质量。
图5是根据本发明第二实施例的网页质量检测方法的流程图。该实施例提供的网页质量检测方法可以作为图4所示的网页质量检测方法的一种优选实施方式。如图5所示,该网页质量检测方法包括步骤如下:
步骤S201,获取目标网页的网页特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(HyperText Make-up Language超文本标记语言,简称Html)结构和Url(Uniform ResourceLocator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会对网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
步骤S202,获取网页特征对应的质量分值。该质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
步骤S203,由质量分值确定目标网页的质量等级。一段质量分值对应一个质量等级,例如,预先设定质量分值大于等于60时,网页的质量等级为高质量等级,表明当目标网页的质量分值大于等于60时,其网页质量较高。根据获取到的目标网页的质量分值可以确定目标网页所在的质量等级,以便于进一步评价目标网页的质量。
步骤S204,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
根据本发明实施例,通过采用质量分值来确定目标网页的质量等级,能够比较直观地反映出目标网页的质量。
图6是根据本发明第三实施例的网页质量检测方法的流程图。该实施例提供的网页质量检测方法可以作为图4所示的网页质量检测方法的一种优选实施方式。如图6所示,该网页质量检测方法包括步骤如下:
步骤S301,获取目标网页的结构特征和内容特征。结构特征为用于表示目标网页的结构的特征,内容特征为用于表示目标网页的内容的特征。目标网页的结构特征可以包括特征A、B、C、D和E,其中特征A、Url包含关键词;特征B、Url路径中包含中文;特征C、Url目录层次;特征D、图片的alt属性标签的缺失比例;特征E、有缺失的标签等。目标网页的内容特征可以包括特征F、G、H、I、J、K、L和M,其中特征F、标题中出现关键词;特征G正文中关键词出现的密度;特征H、Description中关键词出现的密度;特征I、图片alt属性标签,包含关键词的比例;特征J、文本超链接中包含关键词的比例;特征K标题与正文内容相符程度;特征L、Description与正文内容的相符程度;特征M、Description的字符数加空格数是否超过某个阀值等。获取上述目标网页的网页特征,以便于对目标网页的网页质量进行判定。
步骤S302,获取第一质量分值和第二质量分值。其中,第一质量分值为用于反映目标网页结构特征的质量数值,第二质量分值为用于反映目标网页内容特征的质量数值。上述中的结构特征A、B、C、D和E,以及内容特征F、G、H、I、J、K、L和M,预先配置的相应的权值分别为:W(A)、W(B)、W(C)、W(D)、W(E)、W(F)、W(G)、W(H)、W(I)、W(J)、W(K)、W(L)、W(M),各特征对应的质量分值为S(A)、S(B)、S(C)、S(D)、S(E)、S(F)、S(G)、S(H)、S(I)、S(J)、S(K)、S(L)、S(M),其中第一质量分值S(1)=S(A)+S(B)+S(C)+S(D)+S(E),第二质量分值S(2)=S(F)+S(G)+S(H)+S(I)+S(J)+S(K)+S(L)+S(M)。对于上述每个特征的得分判定标准如下所示:
特征A:如果Url中包含关键词,则S(A)=W(A);否则S(A)=0。
特征B:如果Url中包含中文,则S(B)=0;否则S(B)=W(B)。
特征C:记Url的域名的深度(depth)为1,每增加一个目录,则深度增加1。如对于Url:http://www.gridsum.com/products/的深度为2。则特征C对应的质量分值计算公式为:
特征D:记网页中包含的图片的总个数为total,有alt标签的图片的总个数为altcount。则特征D对应的质量分值计算公式为:
特征E:缺失的标签指:存在有<>标记的而没有对应的</>标记的标签或存在其他无法满足网页设计要求的标签格式。如果存在,则S(E)=0;否则S(E)=W(E)。
特征F:如果一个网页的标题包含关键词,则S(F)=W(F);否则S(F)=0。
特征G或H:正文与Description的关键词密度这两个特征的得分计算公式相同,这里对正文的关键词密度对应的质量分值计算进行描述,Description的关键词密度对应的质量分值计算不做赘述。
正文的关键词的密度(density,记为dy)是指关键词的字符个数与正文的总字符个数之比。根据经验,关键词的密度在1%至7%之间较好,最佳为3%。因此设置一个可配置的最佳密度值(best density),记为bd,最佳密度值可以根据需要进行设定。利用最佳密度值对关键词密度值进行正则化(regularization,记为r)计算,具体的计算公式为:
记网页的正文总字符个数为total;关键词的总字符数为kw。
关键词密度的计算公式:
最后,这个特征G的最终质量分值计算公式为:
特征I:记网页中具有alt标签的图片的总个数为total,记具有alt标签且具有关键词描述的图片总个数为kw,则特征I对应的质量分值计算公式为:
特征J:记网页中具有的超链接的总个数为total,记说明文本中具有关键词的超链接的总个数为kw。则特征J对应的质量分值计算公式为:
特征K和L:由于标题与Description两者与正文的相符程度的计算公式相同,对标题与正文的相符程度来进行描述,Description不做赘述。
首先,利用分词器为标题与正文进行分词,分别得到标题的分词列表和正文的分词列表,设标题的分词总个数为b;其次,利用这两个分词列表,计算出两者共有的分词个数,记为a。则计算特征K的分值计算公式为:
特征M:Description的字符总个数不是越多越好的,也不是越少越好的。根据经验,一般为200个左右最佳。因此,可以设置一个最佳阀值,记为b,该最佳预置,可以根据需要进行设置。而记当前网页的Description的总字符个数为t。记正则化(regularization)因子r的计算公式为:
则特征M的质量分值计算公式为:
根据上述判定规则,获取最终的第一质量分值S(1)和第二质量分值S(2)。
步骤S303,将第一质量分值与第二质量分值相加得到网页特征对应的质量分值。根据步骤S302获取的第一质量分值S(1)和第二质量分值S(2),所述网页特征对应的质量分值为:S(1)+S(2)。
步骤S304,由质量分值确定目标网页的质量等级。一段质量分值对应一个质量等级,例如,预先设定质量分值大于等于60时,网页的质量等级为高质量等级,表明当目标网页的质量分值大于等于60时,其网页质量较高。根据获取到的目标网页的质量分值可以确定目标网页所在的质量等级,以便于进一步评价目标网页的质量。
步骤S305,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
图7是根据本发明第四实施例的网页质量检测方法的流程图。该实施例提供的网页质量检测方法可以作为图4所示的网页质量检测方法的一种优选实施方式。如图7所示,该网页质量检测方法包括步骤如下:
步骤S401,获取目标网页的网页特征。网页特征为用于反映目标网页的特征。网页特征可以成为对网页质量产生影响的因素。该网页特征可以是用于反映目标网页的结构的特征,例如,目标网页的Html(Hyper Text Make-up Language超文本标记语言,简称html)结构和Url(Uniform Resource Locator统一资源定位符,简称Url)结构等。该网页特征也可以是用于反映目标网页的内容的特征,例如,目标网页的文本内容,文本内容可以是网页文本的标题和描述(Description),也可以是标题和描述(Description)与文本内容的相符程度等特征。由于对网页质量的影响的因素有很多,且每一个因素都会都网页的质量产生一定的影响,因此目标网页的网页特征可以包括多个网页特征。
步骤S402,获取目标网页的父节点,父节点为由出链指向目标网页的网页。父节点可以是在某次目标网页的抓取过程中,由出链指向目标网页的一个网页或者多个网页,该网页也可以称为节点。例如,网页X包含有多个链接,通过网页X中的一个链接可以链接到网页Y,那么可以称网页X为网页Y的父节点,网页Y为网页X的子节点。
步骤S403,获取网页特征的质量分值,质量分值为用于反映目标网页的网页质量的数值。该质量分值为根据网页特征对目标网页质量的影响的权重预先设置好的分值,由于目标网页包括多个网页特征,每个网页特征都对应有一个质量分值,各网页特征对应的质量分值可以相同,也可以不相同。例如,当网页特征为Url中包含的关键词时,预先设置“Url中包含关键词”的质量分值为W(A),“Url中不包含关键词”的质量分值为0,表明当Url中包含关键词时,能够使得网页的质量更好。那么当获取到的网页特征为“Url中包含关键词”时,则获取其对应的质量分值为W(A),以便于通过最终获取的质量分值确定目标网页的质量等级。其中W(A)的数值可以根据“Url中包含关键词”这一网页特征对网页质量的影响程度进行设置。
步骤S404,获取父节点的认可分值,认可分值为用于反映父节点对目标网页的认可程度的数值。当目标网页只有一个父节点时,父节点的认可分值为一个认可分值,当目标网页有多个父节点时,父节点的认可分值为所有父节点的认可总分值,即为父节点认可程度之和,记为F。由于目标网页的父节点一般包括多个子节点,目标网页属于其中一个子节点,那么该父节点的将其自身的静态网页质量平均分给每一个子节点。父节点认可程度之和由当前网页在的所有父节点的认可程度迭加计算得到。每个父节点将它的静态质量分值平均分配给他的没有由Nofollow标记的所有出链对应的子节点。例如,网页Y为目标网页,该网页Y包括3个父节点,其中一个父节点为网页X,而网页X又包括3个子节点,其中一个子节点为网页Y。假设网页X的网页静态质量分值为Z,那么网页Y从网页X得到的认可分值为Z/3,网页Y的父节点认可分值为从网页X得到的认可分值加上另外两个父节点处得到的认可分值的总认可分值。
步骤S405,由质量分值和认可分值确定目标网页的质量等级。由网页特征对应的质量分值和父节点的认可分值得到目标网页的质量等级。可以是由质量分值和认可分值直接相加得到的总分值来确定目标网页的质量等级,也可以是根据质量分值和认可分值对目标网页的质量影响程度进行权值配置,再通过质量分值及其对应的权值和认可分值及其对应的权值计算最终的质量总分值来确定目标网页的质量等级。
优选地,步骤S405可以包括步骤4051到步骤4054:
步骤S4051,获取认可分值在目标网页的质量中所占的比例。认可分值在目标网页的质量中所占的比例可以是预先设置好的比值,记为d,那么网页特征对应的质量分值在目标网页质量中所占的比例为1-d,根据这些比值可以计算出目标网页的最终质量分值。例如,当父节点的认可程度对网页质量的贡献量为20%时,则d为0.2。d的取值范围为0~1,d值可以根据需要进行预先设定,第二获取子模块用于获取该值用于网页质量的计算。
步骤S4052,通过公式SW=F*d+S*(1-d)计算目标网页的总分值,其中SW为总分值,F为认可分值,d为认可分值在目标网页的质量中所占的比例,S为质量分值。总分值SW为目标网页的总质量分值,由于网页的质量既包括网页自身的质量,还包括网页的对外关系,如果网页对外关系越好,也表明网页的质量越高,其中,网页的对外关系的好坏主要通过父节点的认可分值进行判断,通过网页特征对网页自身的结构和内容等质量进行判定,并通过网页的父节点对网页的对外关系进行判定,能够更客观准确地检测出网页质量。
步骤S4053,如果目标网页的总分值超过设定阈值,确定目标网页为第一质量等级。设定阈值可以是预先设置好的分值,第一质量等级为高质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为81分,则确定目标网页为第一质量等级,表明目标网页的网页质量较高,其结构设计,内容组织以及对外关系较好。
步骤S4054,如果目标网页的总分值未超过设定阈值,确定目标网页为第二质量等级。设定阈值可以是预先设置好的分值,第二质量等级为低质量等级,例如,设置网页的最高质量分值为100分,设定预置为80分,假如通过上述公式计算得到的目标网页的总分值为70分,则确定目标网页为第二质量等级,表明目标网页的网页质量较低,其结构设计,内容组织以及对外关系有一定的缺陷。
步骤S406,由质量等级确定目标网页的网页质量。根据目标网页的质量等级确定目标网页的质量,当目标网页的质量等级为高质量等级时,可以认为目标网页的质量较高,表明目标网页的结构设计、内容组织、对外关系等均表现较好;反之,当目标网页的质量等级为低等级时,则可以确定目标网页的网页质量较低。例如,当目标网页的出现上述任意一个或者几个严重影响网页质量的因素时,则确定目标网页的质量等级较低,第二确定单元30根据该质量等级确定目标网页的质量存在一定问题,即表明目标网页的网页质量较低。由于质量等级是有目标网页自身的页面信息进行确定,该页面信息一般不随时间变化,因此通过质量等级确定的网页质量可以称为网页的静态质量。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。