CN108121741A - 网站质量评估方法及装置 - Google Patents

网站质量评估方法及装置 Download PDF

Info

Publication number
CN108121741A
CN108121741A CN201611082107.0A CN201611082107A CN108121741A CN 108121741 A CN108121741 A CN 108121741A CN 201611082107 A CN201611082107 A CN 201611082107A CN 108121741 A CN108121741 A CN 108121741A
Authority
CN
China
Prior art keywords
website
feature
assessed
webpage
weights
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611082107.0A
Other languages
English (en)
Other versions
CN108121741B (zh
Inventor
柴琛林
张霄
朱仕亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201611082107.0A priority Critical patent/CN108121741B/zh
Publication of CN108121741A publication Critical patent/CN108121741A/zh
Application granted granted Critical
Publication of CN108121741B publication Critical patent/CN108121741B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种网站质量评估方法及装置,所述方法包括:获取待评估网站的网站拓扑结构图;基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估。本发明实施例通过根据网站的网站拓扑结构图的图结构特征对所述待评估网站进行评估,不仅能够提高评估效率,而且能够有效识别出网站存在的死链、网站设计分布不合理问题。

Description

网站质量评估方法及装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种网站质量评估方法及装置。
背景技术
随着搜索推广的普及以及同行业推广客户之间的竞争越来越大,推广网站作为搜索推广的重要信息平台,起到了链接用户与产品的桥梁作用。
目前,对推广网站的评估主要包含以下两类:一类是采用人工评估的方式,例如,第三方建站人员由于接触的网站较多,具有一定领域经验,从而给出较合理的评估;另一类是基于单页面或多页面内容的评估,比如推广页面内容与推广词的相关性、推广页长度和推广页包含的图片个数等等。
而采用人工评估的方法具有以下缺陷:(1)偏主观性,由于需要人工构思,往往受个人水平或情感的影响,与实际需求吻合不佳;(2)工作量巨大,例如像百度这样提供几乎全行业推广服务的广告平台来说,推广网站量达40万之多,如果用人工的方法对站点进行评估,工作量巨大;(3)时效性差,当今科技发展迅速,用户需求的变化非常之快,人工处理方法往往不能及时跟踪这种变化,而且完成一次评估的迭代周期较长,不能反映当前最真实的网站情况。
而基于单页面或多页面内容的评估,商家在搜索推广平台往往推广的是网站首页,网站链接如果存在死链,当访问到某一页面时,无法继续访问其他页面。
发明内容
本发明实施例提供一种网站质量评估方法及装置,不仅能够提高评估效率,而且能够有效识别出网站存在的死链、网站设计分布不合理问题。
第一方面,本发明实施例提供了一种网站质量评估方法,包括:
获取待评估网站的网站拓扑结构图;
基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估。
第二方面,本发明实施例还提供了一种网站质量评估装置,包括:
网站结构获取模块,用于获取待评估网站的网站拓扑结构图;
网站评估模块,用于基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例所述的方法。
本发明实施例通过根据网站的网站拓扑结构图的图结构特征对所述待评估网站进行评估,不仅能够提高评估效率,而且能够有效识别出网站存在的死链、网站设计分布不合理问题。
附图说明
图1是本发明实施例一中的一种网站质量评估方法的流程图;
图2是本发明实施例二中的一种网站质量评估方法的流程图;
图3是本发明实施例三中的一种网站质量评估方法的流程图;
图4是本发明实施例四中的一种网站质量评估装置的结构图;
图5是本发明实施例五中的一种电子设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
随着搜索推广的普及以及同行业推广客户之间的竞争越来越大,推广网站作为搜索推广的重要信息平台,起到了链接用户与产品的桥梁作用。而网站自身的网站拓扑结构是否合适,直接影响推广效果。比如,商家在搜索推广平台往往推广的是网站首页,而网站最具价值页面或客户最感兴趣页面,如果离首页太远(即跳数太多),非常影响用户购买的转化;或者,网站链接如果存在死链,当访问到某一页面时,无法继续访问其他页面,严重影响用户体验;因此,网站的层级结构应该尽可能扁平、分布均匀,层级太深或分布不平衡,不方便网页间的相互跳转,降低转化的可能性。
而本发明实施例提供的网站质量评估方法可以根据推广网站的网站拓扑结构图对推广网站的质量进行自动评估。典型的案例,可将应用在百度无线推广站点优化产品中,对在百度做无线推广的所有网站进行自动评估。由于百度无线推广中的所有待评估网站达到30万,并且存在很多大户,网络拓扑结果非常复杂,这种情况下,本发明实施例可以很好地解决这种场景的问题。
实施例一
图1为本发明实施例一提供的一种网站质量评估方法的流程图,该方法可以由本发明实施例提供的网站质量评估装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可集成在推广平台或终端设备中,例如可以是移动终端(例如手机)、平板电脑和台式电脑等。如图1所示,具体包括:
S110、获取待评估网站的网站拓扑结构图。
其中,待评估网站可为推广平台内的推广网站,也可以为其它性质的非推广网站。网站拓扑结构图由网站中各网页节点和网页链接关系构成。
S120、基于网站拓扑结构图的图结构特征对待评估网站进行评估。
其中,图结构特征反映了整个网站中所有网页间的连通关系。
具体的,可通过计算机图论算法对网站拓扑结构图进行处理,挖掘出其包含的图结构特征,然后基于挖掘出的图结构特征对待评估网站进行评估。其中,计算机图论算法可以为以下任意一种或多种:广度优先搜索算法、深度优先搜索算法、Tarjan算法、拉普拉斯矩阵谱分解算法、Floyd算法和Dijkstra算法等。
本实施例通过根据网站的网站拓扑结构图的图结构特征对待评估网站进行评估,不仅能够提高评估效率,而且能够有效识别出网站存在的死链、网站设计分布不合理问题。
在上述实施例的基础上,图结构特征可优选包括以下至少一类特征:全站连通性特征、全站规模性特征、路径长度特征、推广页规模性特征和最具价值页面规模性特征。
其中,全站连通性特征反映整个网站内部的网页间的连接情况,可通过计算机图论算法中的广度优先搜索算法、深度优先搜索算法、Tarjan算法以及拉普拉斯矩阵的谱分解算法得到如下表一所示的全站连通性特征。全站连通性特征可以有效检测到网站的死链站点、连通度等指标,直接反映用户在浏览网站时的跳转便利程度。
表一
全站规模性特征反映整个网站规模情况,可基于广度优先搜索和深度优先搜索,遍历整个网站拓扑结构图,统计如下表二所示的节点数,边数,点边比等一系列反映网站规模的指标:
表二
路径长度特征,主要反映用户在访问网站时所需要的跳转路径长度信息。可采用Flyod最短路径算法计算各个网页节点之间的最短跳转路径,以及运用广度优先搜索算法计算图的直径信息。例如,可获取如下表三所示的路径长度特征:
表三
推广页规模性特征和最高价值页规模性特征,主要是对推广页和高价值页相关特征进行统计,推广页是站在用户角度对自身站点重要性的感知,高价值页面是基于百度统计数据,利用用户历史访问信息对推广站点重要性的感知,二者有一定交集,但不完全重合,对于这些重点页面的相关特征的统计,便于后续分析各个特征的重要程度。例如,可得到以下表四的推广页规模性特征和最高价值页规模性特征:
表四
在上述实施例的基础上,还包括最高价值页的获取方法,具体如下:
获取网页链接地址对应网页的网页信息;
基于网页信息确定待评估网站的最具价值页面。
其中,网页信息优选包括以下至少一项:网页访问量、网页访问时长和网页平均访问时长。网页平均访问时长优选为预设时间段内的网页总访问时长除以网页总访问量。其中,预设时间段可以为一个月、一周等。
具体的,可基于百度统计数据,如果某个网页访问量比较大、用户停留的时间比较长,那么该网页很可能就是用户比较认可的网页。
但是在百度推广环境下,商家往往会有少量的几个自己认为的重要网页,那么这些网页在这些指标上天然具有一定优势,同时可发现网页访问量和用户停留时长不一定正相关,为此本发明实施例综合上述指标定义了网页平均访问时长,即预设时间段内的网页总访问时间/网页总访问量,作为刻画最具价值页的评价标准。
实施例二
图2为本发明实施例二提供的一种网站质量评估的流程图,本实施例在上述实施例的基础上,将基于网站拓扑结构图的图结构特征对待评估网站进行评估步骤优化为:将网站拓扑结构图的图结构特征输入打分卡模型中进行打分;基于图结构特征的打分结果对待评估网站进行评估。
相应的,本实施例的方法包括:
S210、获取待评估网站的网站拓扑结构图。
S220、将网站拓扑结构图的图结构特征输入打分卡模型中进行打分。
其中,打分卡模型优选为金融领域中的打分卡模型。
在上述实施例中,可以通过计算机图论算法统计基于网站的四类图结构特征的各项相关性特征,有些特征具有一定的解释性,比如死链站点数目,用户自然希望实际访问网站时,不要只浏览本页面信息,无法跳转访问其他页面,所以死链站点应该尽量避免;到最高价值页的最短路径,用户自然希望最快到达最具价值页面,不想通过多次无意义的跳转才抵达最具价值页面,所以到最具价值的页面应该尽可能短;但是大部分指标不一定有很好的解释性,并且无法从经验找到一定范围,使用户体验达到最优,比如推广图中点的个数,边的个数,网站层级数等等指标,这是就需要借鉴机器学习相关技术,寻找全站拓扑特征与用户体验的相关性。
其中,打分卡模型是金融领域成熟的一套评分框架,它不但能找到各个特征与评估基准的相关性,最重要的是能找到一个映射,使得各个特征的实际数值能对应到一项打分,对所有打分进行求和就可以得到整个网站的评分,而且根据打分卡模型制定的打分卡,如果打出的分值小于预设分值,则针对分值对应的特征给出优化建议。例如,可以清晰的指明用户应该增加或减少某项特征,从而使得总分最大化。
S230、基于图结构特征的打分结果对待评估网站进行评估。
本实施例通过使用打分卡模型对图结构特征进行打分,能够更加直观、准确的对待评估网站进行评估。
在上述实施例的基础上,基于图结构特征的打分结果对待评估网站进行评估可包括:
当图结构特征包含多个特征时,基于各个特征的打分结果求取总分或平均分;
基于总分或平均分对待评估网站进行评估。
在上述实施例的基础上,将网站拓扑结构图的图结构特征输入打分卡模型中进行打分包括:
确定评估基准,评估基准为以下至少一种:网页访问量、网页访问时长和网页平均访问时长;
基于评估基准为图结构特征中的各个特征进行赋值;
基于各个特征的赋值进行打分。
具体的,网页访问量、网页访问时长和网页平均访问时长等网站质量转化数据是网站质量的后验数据,在理论上有一定保证,可根据实际分析从网页访问量、网页访问时长和网页平均访问时长中选取其中的一种数据作为评估基准。例如,以评估基准为网页平均访问时长为例对各个特征进行赋值进行说明,首先获取足量的页面平均访问时长数据,并对页面平均访问时长由大到小或由小到大的顺序进行排列,利用极值原则确定正负样本。即按照排序将前后5%的数据作为异常点去除,然后根据剩余数据按照排序分别选取前后25%和30%的数据分别作为正负样本,然后确定正负样本的阈值区间。其余剩余的数据作为无法正确区分的数据,全部抛弃。
在确定了评估基准及对应的正负样本数据之后,根据确定的正负样本数据对各个特征的赋值进行打分。打分分值基准可以设为0-100分,或者0-5分等。
在上述实施例的基础上,基于各个特征的赋值进行打分包括:
基于等距划分原则或最优划分原则对各个特征的赋值进行分类处理;
基于分类结果对各个特征进行打分。
在上述实施例的基础上,基于评估基准为图结构特征中的各个特征进行赋值之前,还包括:
基于预设数值对各个特征的取值个数进行降基处理。
具体的,在对各个特征进行赋值之前,当该特征的取值范围较大时,不利于快速的统计计算,因此,需要对其取值个数进行降基处理。例如,可将基准值设为12,当特征的取值个数在12个以内时,不需要做处理,当特征的取值个数超过12个时,则进行降基处理,使其取值个数位置在12个或小于12个。
而在对各个特征进行赋值之后,为便于处理,可各个特征对应的特征值进行等距划分,或者,为了更好地考虑特征与评估基准的关系,可采用最优分段方法进行划分。通过划分之后,处于相同区间的特征为一类特征,在赋值时,为该类特征赋予相同的特征值,即该类特征内所有的特征的特征值都相同。这样,可以大大提高赋值效率。
在上述实施例的基础上,基于各个特征的赋值进行打分包括:
基于评估基准和各个特征的赋值相关性,确定各个特征的WOE权重;
基于各个特征的WOE权重进行打分。
具体的,WOE权重表征了各特征与评估基准的相关性。如果特征值与评估基准相关,则WOE权重为正数例如1,代表正相关,如果特征值与评估基准不相关,则WOE权重为负或0,代表负相关。WOE权重越大代表相关性越大。基于各个特征的WOE权重进行打分。
在上述实施例的基础上,基于各个特征的WOE权重进行打分包括:
将图结构特征中的各个特征和评估基准输入逻辑斯特回归模型LR中进行训练,得到各个特征的LR权重;
基于各个特征的LR权重和各个特征的WOE权重进行打分。
或者,在进行逻辑斯特回归模型(Logistic Regression,LR)训练之前,进行WOE权重计算,将得到的WOE权重输入LR中进行训练,得到LR权重。本实施例通过在LR权重模型训练前又加了一层WOE权重模型训练,学习到的权重衡量了该在LR训练时会被替换为WOE值,如果特征有效,学习出来的模型是有效地LR,学习对应的权重应该都为正值。
在上述实施例的基础上,基于各个特征的LR权重和各个特征的WOE权重进行打分包括:
基于预设的打分算法将各个特征的LR权重和各个特征的WOE权重转换为具体分值,并输出具体分值。
例如,可直接将各个特征的LR权重和WOE权重进行相乘,将乘积作为各个特征的具体分值。
实施例三
图3为本发明实施例三提供的一种网站质量评估方法的流程图,本实施例在上述实施例的基础上,将获取待评估网站的网站拓扑结构图优选为:获取待评估网站包含的至少一个网页的网页链接地址;基于网页链接地址建立待评估网站的网站拓扑结构图。
相应的,本实施例的方法包括:
S310、获取待评估网站包含的至少一个网页的网页链接地址。
其中,网页链接地址可以为URL。
具体的,每一个网站都会包含至少一个网页链接地址,通过批量抓取即可可获取每个网页的网页链接地址。
S320、基于网页链接地址建立待评估网站的网站拓扑结构图。
具体的,构造网站拓扑结构图的网页链接地址必须为待评估网站内包含的网页对应的网页链接地址。例如,可通过解析网页链接地址获取网站主域名的方式确定该网页链接地址是否属于该待评估网站,若属于该待评估网站则可根据其确定网站拓扑结构图。
S330、基于网站拓扑结构图的图结构特征对待评估网站进行评估。
关于本步骤的详细描述参见上述实施例一中的相关描述,这里不再赘述。
本实施例通过根据网站的网站拓扑结构图的图结构特征对待评估网站进行评估,不仅能够提高评估效率,而且能够有效识别出网站存在的死链、网站设计分布不合理问题。
在上述实施例的基础上,基于网页链接地址建立待评估网站的网站拓扑结构图包括:
确定待评估网站的主域名;
基于主域名和网页链接地址确定待评估网站中网页间的跳转关系;
基于跳转关系建立待评估网站的网站拓扑结构图。
具体的,首先确定待评估网站的主域名,然后确定包含该主域名的网页链接地址,将包含该主域名的网页链接地址作为该待评估网站内包含的网页链接地址,并解析各网页链接地址,基于各网页链接地址确定网页间的跳转关系。
在上述实施例的基础上,基于跳转关系建立待评估网站的网站拓扑结构图包括:
将存在跳转关系的网页链接地址作为端点;
基于网页链接地址间的跳转关系连接端点构成边,由端点和边形成网站拓扑结构图。
实施例四
图4所示为本发明实施例四提供的一种网站质量评估装置的结构示意图。该装置可采用软件和/或硬件的方式实现,该装置可集成在推广平台或终端设备中,例如可以是移动终端(例如手机)、平板电脑和台式电脑等。如图4所示,具体包括:网站结构获取模块41和网站评估模块42。
网站结构获取模块41用于获取待评估网站的网站拓扑结构图;
网站评估模块42用于基于网站拓扑结构图的图结构特征对待评估网站进行评估。
本实施例的网站质量评估装置用于执行上述各实施例的网站质量评估方法,其技术原理和产生的技术效果类似,这里不再赘述。
在上述实施例的基础上,网站评估模块42包括打分单元421和网站评估单元422。
打分单元421用于将网站拓扑结构图的图结构特征输入打分卡模型中进行打分;
网站评估单元422用于基于图结构特征的打分结果对待评估网站进行评估。
在上述实施例的基础上,网站评估单元422具体用于当图结构特征包含多个特征时,基于各个特征的打分结果求取总分或平均分;基于总分或平均分对待评估网站进行评估。
在上述实施例的基础上,打分单元421包括基准确定子单元4211、赋值子单元4212和打分子单元4213。
基准确定子单元4211用于确定评估基准,评估基准为以下至少一种:网页访问量、网页访问时长和网页平均访问时长;
赋值子单元4212用于基于评估基准为图结构特征中的各个特征进行赋值;
打分子单元4213用于基于各个特征的赋值进行打分。
在上述实施例的基础上,打分子单元4213具体用于基于等距划分原则或最优划分原则对各个特征的赋值进行分类处理;基于分类结果对各个特征进行打分。
在上述实施例的基础上,打分子单元4213具体用于基于评估基准和各个特征的赋值相关性,确定各个特征的WOE权重;基于各个特征的WOE权重进行打分。
在上述实施例的基础上,打分子单元4213具体用于将图结构特征中的各个特征和评估基准输入逻辑斯特回归模型LR中进行训练,得到各个特征的LR权重;基于各个特征的LR权重和各个特征的WOE权重进行打分。
在上述实施例的基础上,打分子单元4213具体用于基于预设的打分算法将各个特征的LR权重和各个特征的WOE权重转换为具体分值,并输出具体分值。
在上述实施例的基础上,还包括降基处理模块43。
降基处理模块43用于在赋值子单元4212基于评估基准为图结构特征中的各个特征进行赋值之前,基于预设数值对各个特征的取值个数进行降基处理。
在上述实施例的基础上,还包括:建议模块44。
建议模块44用于如果打出的分值小于预设分值,则针对分值对应的特征给出优化建议。
在上述实施例的基础上,网站结构获取模块41包括:网页地址获取单元411和网站结构建立单元412。
网页地址获取单元411用于获取待评估网站包含的至少一个网页的网页链接地址;
网站结构建立单元412用于基于网页链接地址建立待评估网站的网站拓扑结构图。
在上述实施例的基础上,网站结构建立单元412包括:主域名确定子单元4121、网页关系确定子单元4122和网站结构建立子单元4123。
主域名确定子单元4121用于确定待评估网站的主域名;
网页关系确定子单元4122用于基于主域名和网页链接地址确定待评估网站中网页间的跳转关系;
网站结构建立子单元4123用于基于跳转关系建立待评估网站的网站拓扑结构图。
在上述实施例的基础上,网站结构建立子单元4123具体用于将存在跳转关系的网页链接地址作为端点;基于网页链接地址间的跳转关系连接端点构成边,由端点和边形成网站拓扑结构图。
在上述实施例的基础上,还包括:最具价值页面确定模块45;
最具价值页面确定模块45用于获取网页链接地址对应网页的网页信息;基于网页信息确定待评估网站的最具价值页面。
在上述实施例的基础上,网页信息包括以下至少一项:网页访问量、网页访问时长和网页平均访问时长。
在上述实施例的基础上,网页平均访问时长为预设时间段内的网页总访问时长除以网页总访问量。
在上述实施例的基础上,图结构特征包括以下至少一类特征:全站连通性特征、全站规模性特征、路径长度特征、推广页规模性特征和最具价值页面规模性特征。
实施例五
如图5所示,为本申请实施例五提供的电子设备的硬件结构示意图,如图5所示,该电子设备包括:
一个或多个处理器510,图5中以一个处理器510为例;
存储器520;
所述电子设备还可以包括:输入装置530和输出装置540。
所述电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接,图5中以通过总线连接为例。
存储器520作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例中的网站质量评估方法对应的程序指令/模块(例如,附图4所示的网站结构获取模块41和网站评估模块42)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的网站质量评估方法。
存储器520可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器520可选包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置530可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。
当上述电子设备的存储器中存储的一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如下操作:获取待评估网站的网站拓扑结构图;基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估。
进一步的,所述基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估包括:
将所述网站拓扑结构图的图结构特征输入打分卡模型中进行打分;
基于所述图结构特征的打分结果对所述待评估网站进行评估。
进一步的,所述基于所述图结构特征的打分结果对所述待评估网站进行评估包括:
当所述图结构特征包含多个特征时,基于各个特征的打分结果求取总分或平均分;
基于所述总分或平均分对所述待评估网站进行评估。
进一步的,所述将所述网站拓扑结构图的图结构特征输入打分卡模型中进行打分包括:
确定评估基准,所述评估基准为以下至少一种:网页访问量、网页访问时长和网页平均访问时长;
基于所述评估基准为所述图结构特征中的各个特征进行赋值;
基于所述各个特征的赋值进行打分。
进一步的,所述基于所述各个特征的赋值进行打分包括:
基于等距划分原则或最优划分原则对所述各个特征的赋值进行分类处理;
基于分类结果对各个特征进行打分。
进一步的,所述基于所述各个特征的赋值进行打分包括:
基于所述评估基准和各个特征的赋值相关性,确定各个特征的WOE权重;
基于所述各个特征的WOE权重进行打分。
进一步的,所述基于所述各个特征的WOE权重进行打分包括:
将所述图结构特征中的各个特征和评估基准输入逻辑斯特回归模型LR中进行训练,得到所述各个特征的LR权重;
基于所述各个特征的LR权重和所述各个特征的WOE权重进行打分。
进一步的,所述基于所述各个特征的LR权重和所述各个特征的WOE权重进行打分包括:
基于预设的打分算法将所述各个特征的LR权重和所述各个特征的WOE权重转换为具体分值,并输出所述具体分值。
进一步的,所述基于所述评估基准为所述图结构特征中的各个特征进行赋值之前,还包括:
基于预设数值对所述各个特征的取值个数进行降基处理。
进一步的,还包括:
如果打出的分值小于预设分值,则针对所述分值对应的特征给出优化建议。
进一步的,所述获取待评估网站的网站拓扑结构图包括:
获取所述待评估网站包含的至少一个网页的网页链接地址;
基于所述网页链接地址建立所述待评估网站的网站拓扑结构图。
进一步的,所述基于所述网页链接地址建立所述待评估网站的网站拓扑结构图包括:
确定所述待评估网站的主域名;
基于所述主域名和所述网页链接地址确定所述待评估网站中网页间的跳转关系;
基于所述跳转关系建立所述待评估网站的网站拓扑结构图。
进一步的,所述基于所述跳转关系建立所述待评估网站的网站拓扑结构图包括:
将存在跳转关系的网页链接地址作为端点;
基于网页链接地址间的跳转关系连接所述端点构成边,由所述端点和边形成网站拓扑结构图。
进一步的,还包括:
获取所述网页链接地址对应网页的网页信息;
基于所述网页信息确定所述待评估网站的最具价值页面。
进一步的,所述网页信息包括以下至少一项:网页访问量、网页访问时长和网页平均访问时长。
进一步的,所述网页平均访问时长为预设时间段内的网页总访问时长除以网页总访问量。
进一步的,所述图结构特征包括以下至少一类特征:全站连通性特征、全站规模性特征、路径长度特征、推广页规模性特征和最具价值页面规模性特征。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (32)

1.一种网站质量评估方法,其特征在于,包括:
获取待评估网站的网站拓扑结构图;
基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估。
2.根据权利要求1所述的方法,其特征在于,所述基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估包括:
将所述网站拓扑结构图的图结构特征输入打分卡模型中进行打分;
基于所述图结构特征的打分结果对所述待评估网站进行评估。
3.根据权利要求2所述的方法,其特征在于,所述基于所述图结构特征的打分结果对所述待评估网站进行评估包括:
当所述图结构特征包含多个特征时,基于各个特征的打分结果求取总分或平均分;
基于所述总分或平均分对所述待评估网站进行评估。
4.根据权利要求2或3所述的方法,其特征在于,所述将所述网站拓扑结构图的图结构特征输入打分卡模型中进行打分包括:
确定评估基准,所述评估基准为以下至少一种:网页访问量、网页访问时长和网页平均访问时长;
基于所述评估基准为所述图结构特征中的各个特征进行赋值;
基于所述各个特征的赋值进行打分。
5.根据权利要求4所述的方法,其特征在于,所述基于所述各个特征的赋值进行打分包括:
基于等距划分原则或最优划分原则对所述各个特征的赋值进行分类处理;
基于分类结果对各个特征进行打分。
6.根据权利要求4所述的方法,其特征在于,所述基于所述各个特征的赋值进行打分包括:
基于所述评估基准和各个特征的赋值相关性,确定各个特征的WOE权重;
基于所述各个特征的WOE权重进行打分。
7.根据权利要求6所述的方法,其特征在于,所述基于所述各个特征的WOE权重进行打分包括:
将所述图结构特征中的各个特征和评估基准输入逻辑斯特回归模型LR中进行训练,得到所述各个特征的LR权重;
基于所述各个特征的LR权重和所述各个特征的WOE权重进行打分。
8.根据权利要求7所述的方法,其特征在于,所述基于所述各个特征的LR权重和所述各个特征的WOE权重进行打分包括:
基于预设的打分算法将所述各个特征的LR权重和所述各个特征的WOE权重转换为具体分值,并输出所述具体分值。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述基于所述评估基准为所述图结构特征中的各个特征进行赋值之前,还包括:
基于预设数值对所述各个特征的取值个数进行降基处理。
10.根据权利要求1-9中任一项所述的方法,其特征在于,还包括:
如果打出的分值小于预设分值,则针对所述分值对应的特征给出优化建议。
11.根据权利要求1-10中任一项所述的方法,其特征在于,所述获取待评估网站的网站拓扑结构图包括:
获取所述待评估网站包含的至少一个网页的网页链接地址;
基于所述网页链接地址建立所述待评估网站的网站拓扑结构图。
12.根据权利要求11所述的方法,其特征在于,所述基于所述网页链接地址建立所述待评估网站的网站拓扑结构图包括:
确定所述待评估网站的主域名;
基于所述主域名和所述网页链接地址确定所述待评估网站中网页间的跳转关系;
基于所述跳转关系建立所述待评估网站的网站拓扑结构图。
13.根据权利要求12所述的方法,其特征在于,所述基于所述跳转关系建立所述待评估网站的网站拓扑结构图包括:
将存在跳转关系的网页链接地址作为端点;
基于网页链接地址间的跳转关系连接所述端点构成边,由所述端点和边形成网站拓扑结构图。
14.根据权利要求1-13中任一项所述的方法,其特征在于,还包括:
获取所述网页链接地址对应网页的网页信息;
基于所述网页信息确定所述待评估网站的最具价值页面。
15.基于权利要求14所述的方法,其特征在于,所述网页信息包括以下至少一项:网页访问量、网页访问时长和网页平均访问时长。
16.根据权利要求1-15中任一项所述的方法,其特征在于,所述图结构特征包括以下至少一类特征:全站连通性特征、全站规模性特征、路径长度特征、推广页规模性特征和最具价值页面规模性特征。
17.一种网站质量评估装置,其特征在于,包括:
网站结构获取模块,用于获取待评估网站的网站拓扑结构图;
网站评估模块,用于基于所述网站拓扑结构图的图结构特征对所述待评估网站进行评估。
18.根据权利要求17所述的装置,其特征在于,所述网站评估模块包括:
打分单元,用于将所述网站拓扑结构图的图结构特征输入打分卡模型中进行打分;
网站评估单元,用于基于所述图结构特征的打分结果对所述待评估网站进行评估。
19.根据权利要求18所述的装置,其特征在于,所述网站评估单元具体用于:
当所述图结构特征包含多个特征时,基于各个特征的打分结果求取总分或平均分;基于所述总分或平均分对所述待评估网站进行评估。
20.根据权利要求18或19所述的装置,其特征在于,所述打分单元包括:
基准确定子单元,用于确定评估基准,所述评估基准为以下至少一种:网页访问量、网页访问时长和网页平均访问时长;
赋值子单元,用于基于所述评估基准为所述图结构特征中的各个特征进行赋值;
打分子单元,用于基于所述各个特征的赋值进行打分。
21.根据权利要求20所述的装置,其特征在于,所述打分子单元具体用于:
基于等距划分原则或最优划分原则对所述各个特征的赋值进行分类处理;基于分类结果对各个特征进行打分。
22.根据权利要求20所述的装置,其特征在于,所述打分子单元具体用于:
基于所述评估基准和各个特征的赋值相关性,确定各个特征的WOE权重;基于所述各个特征的WOE权重进行打分。
23.根据权利要求22所述的装置,其特征在于,所述打分子单元具体用于:
将所述图结构特征中的各个特征和评估基准输入逻辑斯特回归模型LR中进行训练,得到所述各个特征的LR权重;基于所述各个特征的LR权重和所述各个特征的WOE权重进行打分。
24.根据权利要求23所述的装置,其特征在于,所述打分子单元具体用于:
基于预设的打分算法将所述各个特征的LR权重和所述各个特征的WOE权重转换为具体分值,并输出所述具体分值。
25.根据权利要求17-24中任一项所述的装置,其特征在于,还包括:
降基处理模块,用于在所述赋值子单元基于所述评估基准为所述图结构特征中的各个特征进行赋值之前,基于预设数值对所述各个特征的取值个数进行降基处理。
26.根据权利要求17-25中任一项所述的装置,其特征在于,还包括:
建议模块,用于如果打出的分值小于预设分值,则针对所述分值对应的特征给出优化建议。
27.根据权利要求17-26中任一项所述的装置,其特征在于,所述网站结构获取模块包括:
网页地址获取单元,用于获取所述待评估网站包含的至少一个网页的网页链接地址;
网站结构建立单元,用于基于所述网页链接地址建立所述待评估网站的网站拓扑结构图。
28.根据权利要求27所述的装置,其特征在于,所述网站结构建立单元包括:
主域名确定子单元,用于确定所述待评估网站的主域名;
网页关系确定子单元,用于基于所述主域名和所述网页链接地址确定所述待评估网站中网页间的跳转关系;
网站结构建立子单元,用于基于所述跳转关系建立所述待评估网站的网站拓扑结构图。
29.根据权利要求28所述的装置,其特征在于,所述网站结构建立子单元具体用于:
将存在跳转关系的网页链接地址作为端点;基于网页链接地址间的跳转关系连接所述端点构成边,由所述端点和边形成网站拓扑结构图。
30.根据权利要求17-29中任一项所述的装置,其特征在于,还包括:
最具价值页面确定模块,用于获取所述网页链接地址对应网页的网页信息;基于所述网页信息确定所述待评估网站的最具价值页面。
31.根据权利要求17-30中任一项所述的装置,其特征在于,所述图结构特征包括以下至少一类特征:全站连通性特征、全站规模性特征、路径长度特征、推广页规模性特征和最具价值页面规模性特征。
32.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-16中任一所述的方法。
CN201611082107.0A 2016-11-30 2016-11-30 网站质量评估方法及装置 Active CN108121741B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611082107.0A CN108121741B (zh) 2016-11-30 2016-11-30 网站质量评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611082107.0A CN108121741B (zh) 2016-11-30 2016-11-30 网站质量评估方法及装置

Publications (2)

Publication Number Publication Date
CN108121741A true CN108121741A (zh) 2018-06-05
CN108121741B CN108121741B (zh) 2021-12-28

Family

ID=62226121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611082107.0A Active CN108121741B (zh) 2016-11-30 2016-11-30 网站质量评估方法及装置

Country Status (1)

Country Link
CN (1) CN108121741B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900339A (zh) * 2018-07-02 2018-11-27 阿里巴巴集团控股有限公司 一种度量业务质量的方法、装置及电子设备
CN113139146A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 网站质量评估方法、装置及计算设备
CN113342524A (zh) * 2021-06-04 2021-09-03 中国人民解放军军事科学院评估论证研究中心 作战体系结构可靠性分析方法、装置、设备和介质
WO2023206988A1 (zh) * 2022-04-29 2023-11-02 北京百度网讯科技有限公司 网站的网页处理方法、装置、电子设备和存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070072618A1 (en) * 2005-09-28 2007-03-29 Ilya Freytsis Methods and apparatus for allocating resources in a distributed environment based on network assessment
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN101079062A (zh) * 2007-06-22 2007-11-28 腾讯科技(深圳)有限公司 一种网页重要性评价方法及系统
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN102243661A (zh) * 2011-07-21 2011-11-16 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
JP2015106295A (ja) * 2013-11-29 2015-06-08 株式会社 ドキュメントハウス Webサイト評価システム、その評価方法および品質評価サーバ
CN105320787A (zh) * 2014-07-22 2016-02-10 张琳 一种网络链路可靠性动态评估模型构建方法
CN105843840A (zh) * 2016-02-22 2016-08-10 乐视体育文化产业发展(北京)有限公司 网页质量监控方法及装置
CN105975984A (zh) * 2016-04-29 2016-09-28 吉林大学 基于证据理论的网络质量评价方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070072618A1 (en) * 2005-09-28 2007-03-29 Ilya Freytsis Methods and apparatus for allocating resources in a distributed environment based on network assessment
EP1770952A1 (en) * 2005-09-28 2007-04-04 Avaya Technology Llc Method and system for allocating resources in a distributed environment based on network assessment
CN1996299A (zh) * 2006-12-12 2007-07-11 孙斌 对网页和网站评级的方法
CN101079062A (zh) * 2007-06-22 2007-11-28 腾讯科技(深圳)有限公司 一种网页重要性评价方法及系统
CN101441662A (zh) * 2008-11-28 2009-05-27 北京交通大学 基于网络拓扑的主题信息采集方法
CN102243661A (zh) * 2011-07-21 2011-11-16 中国科学院计算机网络信息中心 网站内容质量评估方法和装置
JP2015106295A (ja) * 2013-11-29 2015-06-08 株式会社 ドキュメントハウス Webサイト評価システム、その評価方法および品質評価サーバ
CN105320787A (zh) * 2014-07-22 2016-02-10 张琳 一种网络链路可靠性动态评估模型构建方法
CN105843840A (zh) * 2016-02-22 2016-08-10 乐视体育文化产业发展(北京)有限公司 网页质量监控方法及装置
CN105975984A (zh) * 2016-04-29 2016-09-28 吉林大学 基于证据理论的网络质量评价方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
文庭孝,王尧,杨雅惟,刘璇: "网络链接分析应用研究综述", 《图书情报知识》 *
范佳佳,叶继元: "叶继元.21世纪以来网站评价研究进展与趋势", 《中国图书馆学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108900339A (zh) * 2018-07-02 2018-11-27 阿里巴巴集团控股有限公司 一种度量业务质量的方法、装置及电子设备
CN108900339B (zh) * 2018-07-02 2021-12-07 创新先进技术有限公司 一种度量业务质量的方法、装置及电子设备
CN113139146A (zh) * 2020-01-17 2021-07-20 中国移动通信集团浙江有限公司 网站质量评估方法、装置及计算设备
CN113342524A (zh) * 2021-06-04 2021-09-03 中国人民解放军军事科学院评估论证研究中心 作战体系结构可靠性分析方法、装置、设备和介质
CN113342524B (zh) * 2021-06-04 2023-10-24 中国人民解放军军事科学院评估论证研究中心 作战体系结构可靠性分析方法、装置、设备和介质
WO2023206988A1 (zh) * 2022-04-29 2023-11-02 北京百度网讯科技有限公司 网站的网页处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN108121741B (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
KR102301899B1 (ko) 정보 검색 방법, 장치 및 시스템
CN105302903B (zh) 搜索方法、装置、系统以及搜索结果调序依据的确定方法
CN108121741A (zh) 网站质量评估方法及装置
CN106130756B (zh) 一种预测访问内容点击率的方法及装置
CN103593373B (zh) 一种用于搜索结果排序的方法与设备
CN105306495B (zh) 用户识别方法和装置
CN103365904B (zh) 一种广告信息搜索方法和系统
CN103713894B (zh) 一种用于确定用户的访问需求信息的方法与设备
US8606777B1 (en) Re-ranking a search result in view of social reputation
CN106156372A (zh) 一种互联网网站的分类方法及装置
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
CN106156257A (zh) 一种微博舆情事件的态势预测方法
CN107391659A (zh) 一种基于信誉度的引文网络学术影响力评价排序方法
CN106656741A (zh) 一种信息推送方法和系统
CN107766234A (zh) 一种基于移动设备的网页健康度的测评方法、装置及系统
CN103186604B (zh) 用于确定用户对搜索结果满意度的方法、装置和设备
CN106682677A (zh) 广告识别规则归纳方法、装置及设备
CN108280560A (zh) 一种对象评价防刷方法及装置
Dawis et al. Evaluation of the website ‘Aisyiyah Surakarta of University performance based on search engine optimization using automated software testing Gtmetrix
CN104933149B (zh) 一种信息搜索方法及装置
CN103678312B (zh) 一种推荐网址的方法与客户端
CN107844536A (zh) 应用程序选择的方法、装置和系统
CN103324720A (zh) 根据用户状态进行个性化推荐的方法和系统
CN103631832B (zh) 业务对象排序方法、业务对象搜索方法及相关装置
CN110264283A (zh) 一种推广资源展示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant