CN104462284A

CN104462284A - 判定网页质量的方法及系统

Info

Publication number: CN104462284A
Application number: CN201410697438.XA
Authority: CN
Inventors: 阮星华; 张文; 徐晓光; 崔涣; 蒋璐婕
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-27
Filing date: 2014-11-27
Publication date: 2015-03-25
Anticipated expiration: 2034-11-27
Also published as: CN104462284B

Abstract

本发明提供一种判定网页质量的方法及系统，所述方法包括：通过动态扫描对浮层进行识别以及通过静态扫描对弹框进行识别；提取所述识别出的浮层及弹框的布局参数以及文字内容；根据所述提取出的布局参数以及文字内容，判定出所述网页的质量。通过采用本发明可以动态识别出网页中的浮层，从而能够提高判定异步网页质量的准确率。

Description

判定网页质量的方法及系统

技术领域

本发明涉及通信领域，更为具体而言，涉及判定网页质量的方法及系统。

背景技术

由于手机屏幕的大小有限，因此对于网页的质量提出更高的要求。然而目前很多网页存在浮层多、遮盖现象严重、低俗广告、强制安装app(应用程序，application)等多种低质网页的情况，影响用户体验。因此需要通过判定网页质量来挖掘出低质量的网页，作为网页排序的参考因素，提高搜索效果。在现有技术中，一般是通过抓取网页静态代码进行代码扫描分析来判定网页质量，但随着异步网页的普及，这种方法越来越难以满足要求。

发明内容

为有效地解决上述技术问题，本发明提供了一种判定网页质量的方法及系统。

一方面，本发明的实施方式提供了一种判定网页质量的方法，所述方法包括：

通过动态扫描对浮层进行识别以及通过静态扫描对弹框进行识别；

提取所述识别出的浮层及弹框的布局参数以及文字内容；

根据所述提取出的布局参数以及文字内容，判定出所述网页的质量。

另一方面，本发明的实施方式提供了一种判定网页质量的系统，所述系统包括：

识别模块，包括：用于通过动态扫描对浮层进行识别的动态扫描单元和用于通过静态扫描对弹框进行识别的静态扫描单元；

提取模块，用于提取所述识别模块所识别出的浮层及弹框的布局参数以及文字内容；

判定模块，用于根据所述提取模块所提取出的布局参数以及文字内容，判定出所述网页的质量。

实施本发明提供的判定网页质量的方法及系统可以动态识别出网页中的浮层，从而能够提高判定异步网页质量的准确率。

附图说明

图1是根据本发明实施方式的判定网页质量的方法的流程图；

图2示出了本发明中对于浮层的识别的一种实施方式；

图3示出了图2所示的步骤S150的一种实施方式；

图4示出了本发明实施方式中提取浮层的布局参数以及内容的具体形式；

图5示出了本发明实施方式中的提取图片中的文字内容的一种实施方式；

图6示出了图5所示的步骤S240的一种实施方式；

图7示出了本发明实施方式中的根据布局参数及文字内容判定出网页的质量的一种实施方式；

图8示出了图7所示的步骤S350的一种实施方式；

图9是根据本发明实施方式的判定网页质量的系统的结构示意图。

具体实施方式

为使本发明的实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

图1是根据本发明实施方式的判定网页质量的方法的流程图。参见图1，该方法包括：

S100：通过动态扫描对浮层进行识别以及通过静态扫描对弹框进行识别。

其中，对于所述通过动态扫描对浮层进行识别，例如可以通过在对网页进行渲染后，根据浮层判定条件对所述浮层进行识别的方式来实现,其中所述浮层判定条件可以包括不在页面表层、位置固定、具有透明度以及未显示出来；若满足上述四个条件则判定为是浮层。

而对于所述通过静态扫描对弹框进行识别，例如可以通过分析网页源代码来进行。

S200：提取所述识别出的浮层及弹框的布局参数以及文字内容。

其中，该布局参数包括数量、位置、大小。此外，由于浮层及弹框的内容可以包括：文本形式的文字内容以及图片。因此，对于文本形式的文字内容，从所述浮层和弹框中直接提取，而对于图片，则

通过OCR(Optical Character Recognition，光学字符识别)提取所述图片中的文字内容。

S300：根据所述提取出的布局参数以及文字内容，判定出所述网页的质量。

其中，在本发明的实施方式中，该步骤S300可以通过以下方式实现：

首先，根据所述布局参数确定所述浮层及弹框的遮盖状态，其中所述遮盖状态包括遮盖面积及位置；

其次，判断所述遮盖状态是否满足可接受遮盖条件以及判断所述文字内容是否为可接受内容。

其中，所述可接受遮盖条件包括：1)遮盖面积与屏幕总面积的比值小于或等于预定比值阈值(例如为1/3，当然不限于此，根据实际需要可以设定预定比值阈值为1/4～1/2的范围内的任意数值)；2)位置位于屏幕顶部且遮盖面积小于屏幕面积。在本发明实施方式中，当遮盖状态符合上述两个条件中的任意一条时，则为满足所述可接受遮盖条件，当均不符合上述两个条件时，则为不满足所述可接受遮盖条件。

对于判断所述文字内容是否为可接受内容，可以通过以下方式实现：

对所述文字内容进行切词并生成词语序列；

将所述生成的词语序列中的各词语与不良词词典进行匹配，并得出所述词语序列的匹配结果，其中所述匹配结果包括匹配词的数量及位置等信息；

根据所述得出的匹配结果，计算出匹配变量，其中所述匹配变量包括匹配词在样本中的比例以及匹配词的位置接近度；

根据所述计算出的匹配变量计算出不良系数，其中不良系数与匹配词在样本中的比例以及匹配词的位置接近度分别呈正相关，示例性地，该不良系数例如可以与匹配词在样本中的比例以及匹配词的位置接近度分别呈正比，并且该不良系数的数值范围可以介于0至1之间，越接近0表示“待分析的文字内容”越有可能是可接受内容，越接近1表示越有可能是不良内容，即不可接受内容，其中可接受内容指一般意义上的符合法律、法规、社会公德的要求的内容，与此对应地不良内容指一般意义上的违反法律、社会公德或者妨害公共利益的内容，例如黄、反内容；

将所述计算出的不良系数与预定阈值(例如可以是0.85，当然不限于此，根据实际需要可以设定为0.5～1的范围内的任意数值)进行比较，若小于或等于所述预定阈值，则确定所述文字内容为可接受内容，否则为不良内容。

最后，若所述遮盖状态满足所述可接受遮盖条件且所述文字内容为可接受内容，则判定所述网页的质量为合格，否则判定所述网页的质量为低质，即所述网页属于低质网页。

以下结合具体的例子对本发明的实施方式进行具体说明。

影响网页质量的因素主要包括浮层及弹框。在本发明中，首先对于网页中的浮层以及弹框进行识别，其中对于静态的alert(JavaScript或VBscript脚本语言中窗口window对象的一个常用方法，中文意思是“提醒”)/confirm(JavaScript语言中的一个方法，可以弹出一个包含"确定"与"取消"的对话方块)等形式的弹框，可以通过分析网页源代码来进行识别。对于渲染过程的div(划分，全称为division)/section(区段)等形式的浮层，可以在渲染后进行识别。图2示出了本发明中对于浮层的识别的一种实施方式。参见图2，其具体过程如下：

S110：创建phantomjs(基于JavaScript的webkit(一个开源的浏览器引擎)内核无头浏览器)对象；

S120：设置UserAgent(用户代理)；

S130：加载待分析的页面；

S140：加载jQuery(一个JavaScript库)；

S150：待页面渲染完成后，在页面对象内执行jQuery代码来识别浮层，以下以所述浮层为div形式为例对其具体过程进行说明，如图3所示该步骤S150包括：

S151：遍历所有div；

S152：判断div层叠深度是否大于0，大于0则表示不在页面表层，若是则执行步骤S153，若否则返回步骤S151；

S153：判断位置是否固定，若是则执行步骤S154，若否则返回步骤S151；

S154：判断透明度是否小于1(有透明度)，若是则执行步骤S155，若否则返回步骤S151；

S155：判断是否未显示出来，若是则判断为是浮层并执行步骤S156，若否则返回步骤S151，当然在本发明中，步骤S151至S155的执行顺序不限于此，可以对该执行顺序进行适当的变化。

S156：输出该浮层的位置、大小等信息。

当然，本发明不限于此，本领域技术人员应当理解，还可以通过真实浏览器进行渲染，然后开发浏览器的插件来判断浮层。并且由于渲染网页会消耗较多的时间，可以同时发起多个网页的浮层识别。

其次在通过上述方式识别出浮层以及弹框后，提取浮层及弹框的布局参数以及内容，其中布局参数包括数量、大小、位置，其中浮层的数量、位置、大小及内容等信息的提取形式如图4所示；并且在本发明中所述内容包括文本形式的文字内容以及图片。其中，对于文本形式的文字内容可以直接进行提取，并通过OCR提取图片中的文字内容，如图5所示，该过程具体为：

S210：判断待识别图片数据是否需要预处理，若是则执行步骤S220，否则执行步骤S230；

S220：进行图像预处理；

其中，预处理的过程具体包括：图像解码；局部增强；图像编码。

S230：获取OCR服务，具体包括：Base64转码；获取OCR服务。

S240：进行文字整理，如图6所示该过程具体包括：

S241：去除无效字符；

S242：判断是否分行识别；若是，则继续执行步骤S243，否则执行步骤S245；

S243：字符分割；

S244：字符整理连接；

S245：输出识别结果。

最后根据通过上述方式提取出的浮层及弹框的布局参数以及文字内容判定出网页的质量。如图7所示，该过程具体包括：

S310：读取浮层及弹框的布局参数；

S320：计算浮层及弹框的总面积并获取浮层及弹框的位置；

S330：判断浮层及弹框的总面积与屏幕总面积的比值是否大于预定比值阈值(例如1/3，当然不限于此，根据实际需要可以设定预定比值阈值为1/4～1/2的范围内的任意数值)，若是，则执行步骤S340，否则执行步骤S350；

S340：判断浮层及弹框的位置是否位于屏幕顶端且面积小于屏幕面积，若是，则执行步骤S350，若否，则确定网页的质量为低质；

S350：判断浮层及弹框的文字内容是否为不良内容，若是，则确定网页的质量为低质，否则确定网页的质量为合格,其中所述不良内容指一般意义上的违反法律、社会公德或者妨害公共利益的内容，例如黄、反内容。

当然本发明的实施方式不限于此，例如还可先执行步骤S350判断浮层及弹框的文字内容是否为不良内容，若是，则确定网页质量为低质，否则再执行步骤S310至S340。其中为提高判定网页质量的准确率，在本发明的实施方式中可以通过对于已确定的低质网页样本(每个样本就是一个网页)进行归纳总结(也就是机器学习的过程)而修正该预定比值阈值。比如经过学习发现低质网页中的浮层及弹框的总面积一般都大于页面的1/3，因此将1/3作为预定比值阈值。

其中，如图8所示，步骤S350可以通过以下步骤实现：

S351：获取种子不良词词典，在本发明中首先有一批人工标注的不良词词典，为了加速人工标注的效率，可以采用LDA(一种文档主题生成模型，全称为Latent Dirichlet Allocation)等方法进行聚类，从中挑选一批不良词；

S352：通过Bootstrapping(拔靴法，一种统计算法)扩展扩充不良词，也就是从大量的文本里面分析和已有的不良词的共现率(同时出现的概率)比较高的词扩充到该种子不良词词典中；

S353：对待分析的文字内容进行切词，并生成词语序列；

S354：将所述生成的词语序列中的各词语与不良词词典进行匹配，并得出所述词语序列的匹配结果，其中所述匹配结果包括匹配词的数量及位置等信息；

S355：根据所述得出的匹配结果，计算出匹配变量，其中所述匹配变量包括匹配词在样本中的比例以及匹配词的位置接近度；

S356：根据所述计算出的匹配变量计算不良系数，其中不良系数与匹配词在样本中的比例以及匹配词的位置接近度分别呈正相关，示例性地，该不良系数例如可以与匹配词在样本中的比例以及匹配词的位置接近度分别呈正比，并且该不良系数的数值范围可以介于0至1之间，越接近1表示“待分析的文字内容”越有可能是不良内容，越接近0表示越有可能是可接受内容，与不良内容相对，该可接受内容指指一般意义上的符合法律、法规、社会公德的要求的内容；

S357：将所述计算出的不良系数与预定阈值进行比较，若大于所述预定阈值，则确定所述文字内容为不良内容，否则为可接受内容。并且由于如上所述该不良系数的数值可以介于0至1之间，且越接近1表示“待分析的文字内容”越有可能是不良内容，因此将阈值选取的越高，判定出低质网页的准确率会越高，但可能会影响召回率，因此为兼顾准确率与召回率，优选将预定阈值设为0.85，当然不限于此，根据实际需要可以设定预定阈值为0.5至1的范围内的任意数值。

并且，步骤S351至步骤S352不是每次判断文字内容是否为不良内容时都需要进行，例如可以在首次执行该方法时执行一次。

图9是根据本发明实施方式的判定网页质量的系统的结构示意图。参见图9，该系统1000包括：

识别模块100，包括用于通过动态扫描对浮层进行识别的动态扫描单元和用于通过静态扫描对弹框进行识别的静态扫描单元。

在本发明的实施方式中动态扫描单元可以包括渲染识别组件，用于在对网页进行渲染后，根据浮层判定条件对所述浮层进行识别，其中所述浮层判定条件可以包括不在页面表层、位置固定、具有透明度以及未显示出来；若满足上述四个条件则判定为是浮层。

并且，在本发明的实施方式中静态扫描单元可以包括代码识别组件，用于通过分析网页源代码对所述弹框进行识别。

提取模块200，用于提取所述识别模块100所识别出的浮层及弹框的布局参数以及文字内容。

其中，在本发明的实施方式中，该提取模块200可以包括：文本及图片提取单元，用于提取所述浮层及弹框中的文本形式的文字内容及图片；以及图片文字提取单元，用于通过OCR提取所述图片中的文字内容。

判定模块300，用于根据所述提取模块200所提取出的布局参数以及文字内容，判定出所述网页的质量。

在本发明的实施方式中，该判定模块300可以包括：

遮盖确定单元，用于根据所述布局参数确定所述浮层及弹框的遮盖状态，其中所述遮盖状态包括遮盖面积及位置。

判断单元，包括：用于判断所述遮盖确定单元所确定的遮盖状态是否满足可接受遮盖条件的遮盖判断子单元和用于判断所述文字内容是否为可接受内容的文字判断子单元。

其中所述可接受遮盖条件包括：1)遮盖面积与屏幕总面积的比值小于或等于预定比值阈值(例如为1/3，当然不限于此，根据实际需要可以设定预定比值阈值为1/4～1/2的范围内的任意数值)；2)位置位于屏幕顶部且遮盖面积小于屏幕面积。在本发明中当遮盖状态符合上述两个条件中的任意一条时，则为满足所述可接受遮盖条件，当均不符合上述两个条件时，则为不满足所述可接受遮盖条件。

具体而言，在本发明的实施方式中，所述文字判断子单元可以包括：

切词组件，用于对所述文字内容进行切词并生成词语序列；

匹配组件，用于将所述切词组件生成的词语序列中的各词语与不良词词典进行匹配，并得出所述词语序列的匹配结果，其中所述匹配结果包括匹配词的数量及位置等信息；

匹配变量计算组件，用于根据所述匹配组件所得出的匹配结果，计算出匹配变量，其中所述匹配变量包括匹配词在样本中的比例以及匹配词的位置接近度；

不良系数计算组件，用于根据所述匹配变量计算组件所计算出的匹配变量计算出不良系数，其中不良系数与匹配词在样本中的比例以及匹配词的位置接近度分别呈正相关，示例性地，该不良系数例如可以与匹配词在样本中的比例以及匹配词的位置接近度分别呈正比，并且该不良系数的数值范围可以介于0至1之间，越接近0表示“待分析的文字内容”越有可能是可接受内容，越接近1表示越有可能是不良内容，即不可接受内容，其中可接受内容指一般意义上的符合法律、法规、社会公德的要求的内容，与此对应地不良内容指一般意义上的违反法律、社会公德或者妨害公共利益的内容，例如黄、反内容；

阈值比较组件，用于将所述不良系数计算组件所计算出的不良系数与预定阈值(例如可以是0.85，当然不限于此，根据实际需要可以设定为0.5～1的范围内的任意数值)进行比较，若小于或等于所述预定阈值，则确定所述文字内容为可接受内容，否则为不良内容。

以及，质量判定单元，用于当所述遮盖状态满足所述可接受遮盖条件且所述文字内容为可接受内容时，判定所述网页的质量为合格，否则判定所述网页的质量为低质。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种判定网页质量的方法，其特征在于，所述方法包括：

提取所述识别出的浮层及弹框的布局参数以及文字内容；

2.如权利要求1所述的方法，其特征在于，通过动态扫描对浮层进行识别包括：

在对网页进行渲染后，根据浮层判定条件对所述浮层进行识别。

3.如权利要求1所述的方法，其特征在于，通过静态扫描对弹框进行识别包括：

通过分析网页源代码对所述弹框进行识别。

4.如权利要求1～3中任意一项所述的方法，其特征在于，提取所述识别出的浮层及弹框的文字内容包括：

提取所述浮层及弹框中的文本形式的文字内容及图片；

通过光学字符识别OCR提取所述图片中的文字内容。

5.如权利要求1～3中任意一项所述的方法，其特征在于，根据所述提取出的布局参数以及文字内容，判定出所述网页的质量包括：

根据所述布局参数确定所述浮层及弹框的遮盖状态；

判断所述遮盖状态是否满足可接受遮盖条件以及判断所述文字内容是否为可接受内容；

若所述遮盖状态满足所述可接受遮盖条件且所述文字内容为可接受内容，则判定所述网页的质量为合格，否则判定所述网页的质量为低质。

6.如权利要求5所述的方法，其特征在于，判断所述文字内容是否为可接受内容包括：

对所述文字内容进行切词并生成词语序列；

将所述生成的词语序列中的各词语与不良词词典进行匹配，并得出所述词语序列的匹配结果；

根据所述得出的匹配结果，计算出匹配变量；

根据所述计算出的匹配变量计算出不良系数；

将所述计算出的不良系数与预定阈值进行比较，若小于或等于所述预定阈值，则确定所述文字内容为可接受内容。

7.一种判定网页质量的系统，其特征在于，所述系统包括：

8.如权利要求7所述的系统，其特征在于，所述动态扫描单元包括：

渲染识别组件，用于在对网页进行渲染后，根据浮层判定条件对所述浮层进行识别。

9.如权利要求7所述的系统，其特征在于，所述静态扫描单元包括：

代码识别组件，用于通过分析网页源代码对所述弹框进行识别。

10.如权利要求7～9中任意一项所述的系统，其特征在于，所述提取模块包括：

文本及图片提取单元，用于提取所述浮层及弹框中的文本形式的文字内容及图片；

图片文字提取单元，用于通过光学字符识别OCR提取所述图片中的文字内容。

11.如权利要求7～9中任意一项所述的系统，其特征在于，所述判定模块包括：

遮盖确定单元，用于根据所述布局参数确定所述浮层及弹框的遮盖状态；

判断单元，包括：用于判断所述遮盖确定单元所确定的遮盖状态是否满足可接受遮盖条件的遮盖判断子单元和用于判断所述文字内容是否为可接受内容的文字判断子单元；

质量判定单元，用于当所述遮盖状态满足所述可接受遮盖条件且所述文字内容为可接受内容时，判定所述网页的质量为合格，否则判定所述网页的质量为低质。

12.如权利要求11所述的系统，其特征在于，所述文字判断子单元包括：

切词组件，用于对所述文字内容进行切词并生成词语序列；

匹配组件，用于将所述切词组件生成的词语序列中的各词语与不良词词典进行匹配，并得出所述词语序列的匹配结果；

匹配变量计算组件，用于根据所述匹配组件所得出的匹配结果，计算出匹配变量；

不良系数计算组件，用于根据所述匹配变量计算组件所计算出的匹配变量计算出不良系数；

阈值比较组件，用于将所述不良系数计算组件所计算出的不良系数与预定阈值进行比较，若小于或等于所述预定阈值，则确定所述文字内容为可接受内容。