CN103544170B

CN103544170B - 浏览质量的评估方法及装置

Info

Publication number: CN103544170B
Application number: CN201210242504.5A
Authority: CN
Inventors: 于高; 薛林波
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-07-12
Filing date: 2012-07-12
Publication date: 2016-12-21
Anticipated expiration: 2032-07-12
Also published as: CN103544170A

Abstract

本发明公开了一种浏览质量的评估方法，包括：获取第三方站点的待测页面，并分析所述待测页面以获得第一原始特征集；对所述待测页面进行转码以生成转码后的待测页面，并获得所述待测页面的结构化特征集；对所述转码后的待测页面进行分析以获得第二原始特征集；按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集；根据预设的评估模型和所述组合特征集对所述待测页面进行质量评估。本发明可以实现对页面的排版质量、内容完整性、展现速度等进行评估，从而为用户访问该页面提供指导，有利于提高用户访问的体验度。本发明还公开了一种浏览质量的评估系统。

Description

浏览质量的评估方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种浏览质量的评估方法及装置。

背景技术

随着互联网深入到人们的日常生活，页面的浏览质量也越来越受到开发人员及用户的关注。为了提高页面的浏览质量，需要对页面质量进行评估。特别是在搜索引擎系统中，页面质量评估具有关键作用。因为，页面的浏览质量会直接影响到用户选择的搜索结果。例如，页面中的文字、图片的排版或质量有问题，则可能导致用户选择的搜索结果的改变。

发明内容

本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此，本发明的第一个目的在于提出一种准确度高、评估内容全面的浏览质量的评估方法。本发明的第二个目的在于提出一种浏览质量的评估装置。

为实现上述目的，本发明的第一个目的在于提出一种浏览质量的评估方法，包括如下步骤：

获取第三方站点的待测页面，并分析所述待测页面以获得第一原始特征集；

对所述待测页面进行转码以生成转码后的待测页面，并获得所述待测页面的结构化特征集；

对所述转码后的待测页面进行分析以获得第二原始特征集；

按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集；以及

根据预设的评估模型和所述组合特征集对所述待测页面进行质量评估。

根据本发明实施例的浏览质量的评估方法，利用提取得到的待测页面的转码前和转码后的特征，以及转码后得到的结构化特征集生成组合特征集，从而表征转码后的页面中各种原始特征的分析结果，利用上述组合特征集和预设的评估模型对页面的质量进行评估，可以实现对页面的排版质量、内容完整性、展现速度等进行评估，从而为用户访问该页面提供指导，有利于提高用户访问的体验度。

本发明第二方面的实施例提供了一种浏览质量的评估装置，包括：页面获取模块，用于获取第三方站点的待测页面；转码模块，用于对所述待测页面进行转码以生成转码后的待测页面，并获得所述待测页面的结构化特征集；分析模块，用于对所述待测页面进行分析以获得第一原始特征集，以及对所述转码后的待测页面进行分析以获得第二原始特征集；组合模块，用于按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集；质量评估模块，用于建立评估模型，并根据所述评估模型和所述组合特征集对所述待测页面进行质量评估。

根据本发明实施例的浏览质量的评估装置，利用提取得到的待测页面的转码前和转码后的特征，以及转码后得到的结构化特征集生成组合特征集，从而表征转码后的页面中各种原始特征的分析结果，利用上述组合特征集和预设的评估模型对页面的质量进行评估，可以实现对页面的排版质量、内容完整性、展现速度等进行评估，从而为用户访问该页面提供指导，有利于提高用户访问的体验度。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的浏览质量的评估方法的流程图；

图2为根据本发明实施例的评估模型的建立流程图；

图3为根据本发明实施例的特征提取的流程图；

图4为根据本发明实施例的对页面进行质量评估的流程图；

图5为根据本发明实施例的浏览质量的评估装置的示意图；

图6为根据本发明实施例的转码模块的示意图；以及

图7为根据本发明实施例的质量评估模块的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

在本发明中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

在本发明中，除非另有明确的规定和限定，第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触，也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且，第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正上方和斜上方，或仅仅表示第一特征水平高度小于第二特征。

下面参考图1至图4描述根据本发明实施例的浏览质量的评估方法。

如图1所示，本发明实施例提供的浏览质量的评估方法，包括如下步骤：

步骤S101，获取第三方站点的待测页面，并对该待测页面进行分析，获得第一原始特征集。

在本发明的示例中，第一原始特征集包括转码前的待测页面中的文字、图片、动画的数量和面积信息。

步骤S102，对待测页面进行转码以生成转码后的待测页面，并获得待测页面的结构化特征集。

通过以下步骤获得待测页面的结构化特征集：

首先，对待测页面进行结构化分析，获得待测页面的页面类型和内容块。其中，页面类型包括但不限于新闻页面、购物页面、论坛页面等。

然后，对待测页面的内容块进行分析，获得待测页面的结构化特征。

在本发明的一个实施例中，结构化特征包括但不限于待测页面中的标题、图标（Logo）和联系方式中的一种或多种。

步骤S103，对转码后的待测页面进行分析以获得第二原始特征集。

在本发明的示例中，第二原始特征集包括转码后的待测页面中的文字、图片、动画的数量和面积信息。

步骤S104，按照预设的组合规则将第一原始特征集、第二原始特征集和结构化特征集进行组合以生成组合特征集。

根据待测页面的页面类型选择对应的组合规则。具体地，不同的页面类型具有不同的质量关键点，待测页面为不同的页面类型时，其选择的组合规则也是不同的。例如，待测页面为新闻页面、论坛页面或购物页面时，其选择的组合规则是不同的。

步骤S105，根据预设的评估模型和组合特征集对待测页面进行质量评估。

在本发明的实施例中，对待测页面质量的评估包括对以下内容进行评估：

（1）页面能否正常访问。

（2）页面排版是否合理。

例如，转码后的待测页面中的图片是否可以完整显示，并且图文混排时是否会导致页面杂乱。

（3）页面内容是否完整。

例如，文字内容是否被截断、相关导航和翻页转码后是否存在、图片缩放后是否失真，以及图片中文字能否辨认。

（4）页面展现速度

例如，是否出现网速过慢或者网站响应慢。或者，页面元素过于复杂导致的浏览器加载过慢，例如，javascript、flash等资源的加载。

综上，通过上述对待测页面的评估具有两个用处：

（1）验证评估模型的准确性。

（2）通过将本轮评估结果应用到下一轮对评估模型的学习，从而提升评估模型的准确性。

如图2所示，从初始样本训练评估模型，根据评估模型预测待测样本的浏览质量，获取预测结果。然后，从预测结果中抽样，并将评估中的被误判的样本（badcase）再更新至样本集，利用更新后的样本集训练新的评估模型。由此，可知，上述对评估模型的训练过程为一个循环过程。其中，被误判的样本可以包括：实际为好的样本，而被误判为差的；或者实际为差的样本，而被误判为好的。

具体地，通过以下步骤建立评估模型：

1）从初始样本建立训练样本库。

其中，训练样本库中包括多个训练样本。

在本发明的一个示例中，训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。

需要说明的是，训练样本可以通过以下两种方式进行选取：

（1）随机选取

此种方式适于标准未知或者标准比较模糊的情况。

（2）目的选取

有目的性选择区分度较大的样本。

在本发明的一个实施例中，选取标准包括：

（1）好的样本和差的样本的数量相当。

（2）好的样本、差的样本均具有明显的好或坏的特征，不可以模棱两可。

例如，如果页面内容没有缺失，则该页面即为好的，否则页面为差的。如果页面的字体的颜色和背景颜色相近，则可能导致看不清内容，即可判断该页面为差的。

需要说明的是，如果页面排版质量好，但不一定为好的样本。所以，好的样本需要具有明显的好的特征。

（3）当有明确的评估标准时，初始样本集不宜过大，应该通过不断循环学习过程、扩充样本集使得训练得到的模型尽量拟合真实情况。

2）对训练样本库中的每个训练样本进行特征提取，并生成每个训练样本对应的训练特征集。

3）根据机器学习算法对训练特征集进行处理，生成评估模型。

在本发明的示例中，机器学习算法可以采用目前通用的学习算法。例如，线性分类器、决策树、神经网络等。其中，每种学习算法又可以分为学习算法和预测算法。

下面参考图3对获取原始特征、结构化特征和组合特征的步骤进行描述。

如图3所示，首先，从PC端页面和/或手机端页面获取第一原始特征。其中，第一原始特征包括页面的文字、图片、动画（flash）等的数量和面积信息。然后，对PC端页面和/或手机端页面进行转码，生成转码后的待测页面。并且，通过在转码过程中分析待测页面的页面类型及结构，获得待测页面的结构化特征集。

此外，对转码后的待测页面进行分析，获得转码后的待测页面的第二原始特征集。其中，第二原始特征集包括转码后的待测页面中的文字、图片、动画的数量和面积信息。

其后，根据待测页面的页面类型，选取对应的组合规则对第一原始特征集、第二原始特征集和结构化特征集进行组合，生成组合特征集。其中，组合特征集包括待测页面的文字、图片、动画图片面积占比、转码前后文字、图片、动画数目差。

在本发明的一个实施例中，通过人工分析获得有意义的组合特征，例如，从上述多种组合特征中选取对于用户有意义的特征，并通过多个特征计算得到组合特征集。

下面参考图4描述对页面进行质量评估的流程。其中，训练样本和待测样本均可以为来自PC端和/或手机端的页面。

步骤S401，输入训练样本，建立训练样本库。

步骤S402，对训练样本库中的每个训练样本进行特征提取。

步骤S403，根据提取得到的训练样本，生成每个训练样本对应的训练特征集。

步骤S404，采用机器学习算法对训练特征集进行处理。

步骤S405，根据步骤S404的处理结果生成评估模型。

步骤S406，输入待测样本。

其中，待测样本也可以成为未知样本，是指未经人工评估的URL列表。

步骤S407，对待测样本进行特征提取。

具体地，提取待测样本的第一原始特征集。对待测样本进行转码，获得转码后的结构化特征集。对转码后的待测样本进行分析以获得第二原始特征集。

步骤S408，根据待测样本的类型，采用预设的组合规则对第一原始特征集、第二原始特征集、结构化特征集进行组合以生成组合特征集。

步骤S409，根据预设的评估模型和组合特征集对待测页面采用预测算法对浏览质量进行预测。

步骤S410，获得对待测样本的浏览质量的预测结果。

需要说明的是，步骤S401和步骤S406可以并行执行。

下面参考图5至图7描述根据本发明实施例的浏览质量的评估装置500。

如图5所示，本发明实施例的浏览质量的评估装置500，包括页面获取模块510、转码模块520、分析模块530、组合模块540和质量评估模块550。

页面获取模块510获取第三方站点的待测页面。转码模块520对待测页面进行转码以生成转码后的待测页面，并获得待测页面的结构化特征集。分析模块530对待测页面进行分析以获得第一原始特征集，对转码后的待测页面进行分析获得第二原始特征集。

如图6所示，本发明实施例提供的转码模块520包括：结构化分析单元521和结构化特征获取单元522。其中，结构化分析单元521对待测页面进行结构化分析，获得待测页面的页面类型和内容块。其中，页面类型包括但不限于新闻页面、购物页面、论坛页面等。

结构化特征获取单元522对待测页面的内容块进行分析，获得待测页面的结构化特征。

在本发明的示例中，第一原始特征集包括转码前的待测页面中的文字、图片、动画的数量和面积信息。第二原始特征集包括转码后的待测页面中的文字、图片、动画的数量和面积信息。

组合模块540按照预设的组合规则将第一原始特征集、第二原始特征集和结构化特征集进行组合，生成组合特征集。

组合模块540根据待测页面的页面类型选择对应的组合规则。具体地，不同的页面类型具有不同的质量关键点，待测页面为不同的页面类型时，其选择的组合规则也是不同的。例如，待测页面为新闻页面、论坛页面或购物页面时，其选择的组合规则是不同的。

质量评估模块550建立评估模型，并根据评估模型和组合特征集对待测页面进行质量评估。

如图7所示，本发明实施例的质量评估模块550包括：接收单元551、模型建立单元552和评估单元553。其中，接收单元551接收来自组合模块540的组合特征集，模型建立单元552建立训练样本库，并对训练样本库中的每个训练样本进行特征提取，生成每个训练样本对应的训练特征集，以及根据机器学习算法对训练特征集进行处理，生成评估模型。其中，训练样本库中包括有多个训练样本。

具体地，模型建立单元552通过以下步骤建立评估模型：

1）从初始样本建立训练样本库。

其中，训练样本库中包括多个训练样本。

需要说明的是，训练样本可以通过以下两种方式进行选取：

（2）随机选取

此种方式适于标准未知或者标准比较模糊的情况。

（2）目的选取

有目的性选择区分度较大的样本。

在本发明的一个实施例中，选取标准包括：

（1）好的样本和差的样本的数量相当。

评估单元553根据评估模型和组合特征集对待测页面进行质量评估。

在本发明的实施例中，评估单元553对待测页面质量的评估包括对以下内容进行评估：

（1）页面能否正常访问。

（2）页面排版是否合理。

（3）页面内容是否完整。

（4）页面展现速度

综上，通过上述对待测页面的评估具有两个用处：

（1）验证评估模型的准确性。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种浏览质量的评估方法，其特征在于，包括：

获取第三方站点的待测页面，并分析所述待测页面以获得第一原始特征集，其中，所述第一原始特征集包括转码前的待测页面中的文字、图片、动画的数量和面积信息；

对所述待测页面进行转码以生成转码后的待测页面，并获得所述待测页面的结构化特征集，其中，所述结构化特征包括所述待测页面中的标题、图标和联系方式中的一种或多种；

对所述转码后的待测页面进行分析以获得第二原始特征集，其中，第二原始特征集包括转码后的待测页面中的文字、图片、动画的数量和面积信息；

2.如权利要求1所述的浏览质量的评估方法，其特征在于，所述评估模型通过以下步骤得到：

建立训练样本库，所述训练样本库中包括多个训练样本；

对所述训练样本库中的每个训练样本进行特征提取，并生成每个训练样本对应的训练特征集；

根据机器学习算法对所述训练特征集进行处理以生成所述评估模型。

3.如权利要求2所述的浏览质量的评估方法，其特征在于，所述训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。

4.如权利要求1所述的浏览质量的评估方法，其特征在于，还包括：

根据所述待测页面的页面类型选择对应的组合规则。

5.如权利要求1所述的浏览质量的评估方法，其特征在于，所述获得所述待测页面的结构化特征集进一步包括：

对所述待测页面进行结构化分析，以获得所述待测页面的页面类型和内容块；

对所述待测页面的内容进行分析以获得所述待测页面的结构化特征。

6.一种浏览质量的评估装置，其特征在于，包括：

页面获取模块，用于获取第三方站点的待测页面；

转码模块，用于对所述待测页面进行转码以生成转码后的待测页面，并获得所述待测页面的结构化特征集，其中，所述结构化特征包括所述待测页面中的标题、图标和联系方式中的一种或多种；

分析模块，用于对所述待测页面进行分析以获得第一原始特征集，以及对所述转码后的待测页面进行分析以获得第二原始特征集，其中，所述第一原始特征集和第二原始特征集分别包括转码前和转码后的所述待测页面中的文字、图片、动画的数量和面积信息；

组合模块，用于按照预设的组合规则将所述第一原始特征集、第二原始特征集和所述结构化特征集进行组合以生成组合特征集；以及

质量评估模块，用于建立评估模型，并根据所述评估模型和所述组合特征集对所述待测页面进行质量评估。

7.如权利要求6所述的浏览质量的评估装置，其特征在于，所述质量评估模块包括：

接收单元，用于接收来自所述组合模块的所述组合特征集；

模型建立单元，用于建立训练样本库，以及对所述训练样本库中的每个训练样本进行特征提取，并生成每个训练样本对应的训练特征集，并根据机器学习算法对所述训练特征集进行处理以生成所述评估模型，其中，所述训练样本库中包括多个训练样本；

评估单元，用于根据所述评估模型和所述组合特征集对所述待测页面进行质量评估。

8.如权利要求7所述的浏览质量的评估装置，其特征在于，所述训练样本包括URL列表和URL列表中每个URL对应的人工评估结果。

9.如权利要求6所述的浏览质量的评估装置，其特征在于，所述组合模块根据所述待测页面的页面类型选择对应的组合规则。

10.如权利要求6所述的浏览质量的评估装置，其特征在于，所述转码模块包括：

结构化分析单元，用于对所述待测页面进行结构化分析，以获得所述待测页面的页面类型和内容块；

结构化特征获取单元，用于对所述待测页面的内容块进行分析以获得所述待测页面的结构化特征。