CN108228641A

CN108228641A - 网页数据分析的方法、设备和系统

Info

Publication number: CN108228641A
Application number: CN201611190035.1A
Authority: CN
Inventors: 高东生
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Liaoning Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2018-06-29

Abstract

本申请涉及一种网页数据分析的方法、设备和系统，其中，所述方法包括：分割网页内的DOM节点，形成不同的页面块；根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；将所述网页被分割而得到的各个部分合并为两个部分；并且对合并后的所述两个部分执行语义分析。通过将网页分割为语义不同的部分，有效地提高对网页执行语义分析的效率。

Description

网页数据分析的方法、设备和系统

技术领域

本申请涉及互联网技术领域，更具体地，本申请涉及一种网页数据分析的方法、设备和系统。

背景技术

随着移动互联网的飞速发展，网络上的信息量呈现出爆炸性的增长趋势，网络所承载的数据量已远远超出人们的想象。在大数据时代，面对如此巨大的数据量，如何高效地提取并分析网络信息，以及如何快速精准地检索信息，起到至关重要的作用。

在2006年前后，提出了WEB 3.0的概念，其中涉及利用语义网络来实现知识共享。然而，虽然近年来移动互联网飞速发展，开放式API、SOA越来越普及，但是真正意义上的语义网络似乎离我们还存在相当距离。因此，在实际网络中，采用爬虫技术来提取信息仍然是最重要的手段。在采用爬虫技术时，一端不断地解析和提取网络数据，另一端向各种应用输送数据。

在Web网络爬虫系统中，首先将种子URL放入下载队列，然后从下载队列的队首取出一个URL来下载其对应的网页；将所得到的网页内容存储之后，通过解析网页中的链接信息可以得到一些新的URL，将这些URL放入下载队列；然后从下载队列取出一个新的URL，采用相同的方式下载相应的网页、解析网页中的链接信息并得到新的URL、以及将这些新的URL放入下载队列；如此循环执行，直到遍历了整个网络或达到某种终止条件才停止这一过程。当前主流的网络爬虫技术以定向爬取为主，网页的解析部分占据整体工作量的80％左右。

现有的Web网络爬虫系统存在以下问题：在编写页面数据解析代码时，虽然已存在一些基本工具chrome、forecdebug等可以使用，但始终需要进行人工分析并编写解析规则。无论是使用xpath、正则表达式或css selector等，都不能减少这一部分的工作量。

随着互联网尤其是移动互联网的飞速发展，数据量呈几何级数增长，由于竞争原因，互联网上各类网站也保持快速更新。因此，传统的定向爬取方式既耗费大量人力，其性能也无法跟上互联网的更新量，无法满足运营商对用户互联网行为数据的采集需求。

发明内容

本申请提出了一种新颖的用于网页数据分析的方法、设备和系统，通过将网页分割为语义不同的部分，有效地提高对网页执行语义分析的效率。

本申请提供了一种网页数据分析方法，包括：分割网页内的DOM节点，形成由被分离部分构成的页面块；根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；将所述网页被分割而得到的各个部分合并为至少两个部分；并且对合并得到的所述至少两个部分执行语义分析。

根据本申请的另一方面，还提供了一种网页数据分析系统，包括：网页分割模块，用于分割网页内的DOM节点，形成由被分离部分构成的页面块；分割模块，用于根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；合并模块，用于将所述网页被分割而得到的各个部分合并为至少两个部分；以及语义分析模块，用于对合并得到的所述至少两个部分执行语义分析。

根据本申请的另一方面，还提供了一种网页数据分析设备，包括：处理器；以及存储器，存储用于网页数据分析的程序；其中：当所述处理器执行所述程序时，被配置为执行以下步骤：分割网页内的DOM节点，形成由被分离部分构成的页面块；根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；将所述网页被分割而得到的各个部分合并为至少两个部分；并且对合并得到的所述至少两个部分执行语义分析。

基于上述网页数据分析方法、系统和设备，将网页切割为多个语义不同的部分，通过视觉上的切割页面来快速分析出整个网页的结构及内容，有效提高对网页执行语义分析的效率。本发明提供的方案，能够提高网页内容解析的准确率，有助于运营商积累网站规则，使得规则库中的网站数据趋于完整、精确，为用户标签尤其是互联网行标签提供了更为有力规则匹配支撑，能够全方位再现用户上网浏览场景，实现精准分析用户互联网行为，以精确地用户画像促进运营商开展精准营销。

附图说明

本申请的以上方面和其他方面将参照附图通过下面对示例性实施例的详细描述变得更加显然，其中：

图1根据一个或多个实施例，示出了一种用于网页数据分析的方法的流程图；

图2根据一个或多个实施例，示出了用于切割DOM节点的方法的流程图；

图3示出了根据本发明的一个或多个实施例的通过切割条来分割网页的一个示例。

图4根据一个或多个实施例，示出了一种用于网页数据分析的系统的框图。

图5根据一个或多个实施例，示出了一种用于网页数据分析的设备的框图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

这里，我们根据手机所访问的WAP页面和传统的WEB页面的区别，对WAP页面的数据提取方式进行改进；如果是传统的WEB页面，则采用传统的爬虫算法对页面块进行解析。

图1根据一个或多个实施例，示出了一种用于网页数据分析的方法100的流程图。该图仅是示例，其不应不适当地限制权利要求的范围。本领域的技术人员可以在该图的基础上进行适应性地变化、替代和修改。此外，方法100中的某些步骤是可选而非必需的；在可行的情况下，部分步骤不一定要按照图1所示的顺序执行，而是可以并行地执行或者改变顺序。

在步骤110中，分割网页内的DOM节点，形成网页内由被分离部分构成的页面块。DOM节点是指在XML文档中的每个成分都是一个节点，例如，整个XML文档就是一个文档节点，每个XML标签是一个元素节点，包含在XML元素中的文本是文本节点，每一个XML属性是一个属性节点，等等。DOM节点可以视为由它的孩子节点构成的树结构。DOM节点的属性包括其自身的标签、节点的背景色、当前节点所代表的的页面块的大小、形状等。

这里，在每次分割时，考虑当前DOM节点的属性与其孩子节点在某项属性上的差异，将该孩子节点从该当前DOM节点切割分离。重复这一过程，直到达到某种终止条件为止。

在图2中具体示出了根据本发明的一个或多个实施例的用于切割DOM节点的方法的流程图。

在步骤120中，根据所述页面块，通过切割条来分割网页以形成网页的不同部分。作为示例，切割的一种具体方式如下：

初始时，整个网页仅存在一个切割条，并且所述切割条的起始坐标和终止坐标与所述网页的起始坐标和终止坐标相同；之后执行以下操作：

如果页面块被包括在切割条中，则所述切割条于所述页面块的边缘处分裂为两个切割条；

如果页面块与切割条部分重合，则根据所述页面块的边缘调整所述切割条的大小；

如果页面块跨过切割条，则移除所述切割条。

为了便于理解，在图3中，具体示出了根据本发明的一个或多个实施例的通过切割条来分割网页的一个示例。

在步骤130中，将被分割的网页的不同部分合并为至少两个部分。注意到网页被切割条分割为不同部分，因此，将网页的不同部分合并需依据切割条来执行。网页的不同部分具有不同的语义，可以依据切割条两侧的页面块的背景色在色温上的差异来设置切割条的权重。色温上的差异越大，切割条的权重也越大。切割条两侧的页面块属于不同语义块的概率随着切割条权重的增加而增加。

在这一步骤中，在完成各个切割条的权重设置之后，从最小权重的切割条开始，所述切割条两侧的页面块被合并为一个新的页面块，并且移除所述最小权重的切割条；反复执行这一合并过程，直到所述网页被合并为所述至少两个部分为止；此时，整个网页被这一切割条分为具有不同语义的至少两个页面块。

在步骤140中，对合并后的至少两个部分执行语义分析。

通过以上方法，Web页面的语义结构被有效地重新构建并分析。

在图2中具体示出了根据本发明的一个或多个实施例的用于切割DOM节点的方法200的流程图。该图仅是示例，其不应不适当地限制权利要求的范围。本领域的技术人员可以在该图的基础上进行适应性地变化、替代和修改。此外，方法200中的某些步骤是可选而非必需的；在可行的情况下，部分步骤不一定要按照图2所示的顺序执行，而是可以并行地执行或者改变顺序。

在步骤210中，获取当前DOM节点。例如，当前DOM节点可以是孩子节点最多的DOM节点，或者是树结构的层次最多的DOM节点等。在获取所述当前DOM节点后，进入步骤220。

在步骤220中，判断所述当前DOM节点中是否包含<HR>标签。如果不包含<HR>标签，则结束整个过程；否则，前进至步骤230。在网页中，<HR>标签通常用来从视觉上分隔不同主题的内容，因此，如果当前DOM节点包含<HR>节点，该DOM节点将允许被继续切割。

在步骤230中，切割所述当前DOM节点。在这一切割过程中，将由被<HR>标签分隔开的部分构成的孩子节点从所述当前DOM节点切割分离。执行这一步骤后，前进至步骤240。

在步骤240中，判定所述当前DOM节点的不低于85％的孩子节点是否是文本节点或虚拟文本节点。作为判断的一种方式，例如可以通过这些孩子节点的背景色属性来判断。如果当前DOM节点的孩子节点中存在背景色与所述当前DOM节点的背景色不同的孩子节点，则将所述背景色不同的孩子节点从所述当前DOM节点分割。当所述当前DOM节点的大部分，例如不低于85％，孩子节点是文本节点或虚拟文本节点时，则结束整个过程，这里，如果孩子节点是文本节点或虚拟文本节点，则其背景色与当前DOM节点相同；否则，前进至步骤250。

在步骤250中，判断所述当前DOM节点的尺寸是否小于某个预定的阈值。如果小于所述阈值，则结束整个过程，否则，回到步骤230。

在图3中，具体示出了根据本发明的一个或多个实施例的通过切割条来分割网页的一个示例。为了便于说明，这里只采用了水平方向的切割条来分割页面。在图中可见，网页中具有编号为1-4的页面块。

初始时，网页中只有一个切割条S1，且所述切割条与所述网页重合。然后，在检测到页面块1之后，S1分裂为两个切割条S1和S2；继续执行检测操作，并检测到页面块2，S2分裂为两个切割条S2和S3；继续执行检测操作，并检测到页面块3，S3分裂为两个切割条S3和S4；继续执行检测操作，并检测到页面块4，S3和S4之间在网页右边的分界消失，并且S2的宽度变小。

图4根据一个或多个实施例，示出了用于一种网页数据提取的系统400的框图。该框图仅是示例，其不应不适当地限制权利要求书的范围。本领域的技术人员在该示图的基础上将可进行适应性地变化、替代和修改。

如图4所示，该网页数据提取系统400包括网页分割模块410、分割模块420、合并模块430、以及语义分析模块440。

网页分割模块410，用于分割网页内的DOM节点，形成由被分离部分构成的页面块。

分割模块420，用于根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；

合并模块430，用于将所述网页被分割而得到的各个部分合并为至少两个部分。

语义分析模块440，用于对合并得到的所述至少两个部分执行语义分析。

图5是根据一个或多个实施例示出的一种网页数据提取设备500的框图。在该设备500内，一组指令或一系列指令可以被执行以使该设备根据示例实施例，执行本文所讨论的任意一种方法。在替代的实施例中，该设备作为独立设备操作或者可以连接至(例如，被联网)至其它设备。在联网部署中，该设备可以在服务器-客户端网络环境中的服务器或客户端设备的能力中允许，或者它可以作为点对点(或分布式)网络环境中的对等设备运行。该设备可以为移动通信设备(例如，蜂窝手机)、计算机、个人计算机(PC)、平板PC、混合平板、个人数字助理(PDA)、或任何能够执行指令的设备(顺序执行或以其它方式)，该指令指定将被该设备采用的行动。此外，当仅单个设备被表述时，术语“设备”还应当被认为包括单独或联合执行一组(或多组)指令以施行本文所讨论的一个或多个方法的设备的任意集合。类似地，术语“基于处理器的系统”应当被认为包括一个或多个设备的任意集合，该设备被处理器(例如，计算机)操作或管理以单独或联合执行本文所讨论的任意一个或多个方法。

参照图5，设备500可以包括以下一个或多个组件：处理组件502、存储器504、电源组件506、多媒体组件508、音频组件510、输入/输出(I/O)接口512、传感器组件514、以及通信组件516。

处理组件502通常控制设备500的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件502可以包括一个或多个模块，便于处理组件502和其他组件之间的交互。例如，处理组件502可以包括多媒体模块，以方便多媒体组件508和处理组件502之间的交互。

存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件506为设备500的各种组件提供电力。电源组件506可以包括电源管理系统，一个或多个电源，及其他与为设备500生成、管理和分配电力相关联的组件。

多媒体组件508包括在所述设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件510被配置为输出和/或输入音频信号。例如，音频组件510包括一个麦克风(MIC，当设备500处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中，音频组件510还包括一个扬声器，用于输出音频信号。

I/O接口512为处理组件502和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件514包括一个或多个传感器，用于为设备500提供各个方面的状态评估。例如，传感器组件514可以检测到设备500的打开/关闭状态，组件的相对定位，例如所述组件为设备500的显示器和小键盘，传感器组件514还可以检测设备500或设备500一个组件的位置改变，用户与设备500接触的存在或不存在，设备500方位或加速/减速和设备500的温度变化。传感器组件514可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件514还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络，如WiFi，2G或5G，或它们的组合。在一个示例性实施例中，通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件516还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器504，上述指令可由设备500的处理器520执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请中，通过依据网页内DOM节点的属性分割网页并形成网页的不同部分，将各个部分合并，直到得到具有不同语义的两个页面块并且进行分析。基于以上思路以及方式，通过替代和/或等价的实施方式以实现本申请的目的，均应认为属于本发明的范围之内。

以上描述了本申请的优选实施例，但是，该实施例仅是示例性的，而不是要限制本申请的范围，本申请的范围由所附权利要求书及其等同物限定。

此外，尽管已经详细描述了本申请及其优势，但应该理解，可以在不背离所附权利要求限定的本申请的主旨和范围的情况下，进行各种不同的改变、替换和更改；而且，本申请的范围并不仅限于本说明书中描述的系统、方法和步骤的实施例。作为本领域的普通技术人员应当理解，通过本申请，现有的或今后开发的用于执行和根据本申请所采用的技术方案基本相同的方式或获得基本相同结果的方法和步骤根据本申请可以被使用。

Claims

1.一种网页数据分析方法，其特征在于，所述方法包括：

分割网页内的DOM节点，形成由被分离部分构成的页面块；

根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；

将所述网页被分割而得到的各个部分合并为至少两个部分；

对合并得到的所述至少两个部分执行语义分析。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述DOM节点中包含<HR>标签，则继续切割所述DOM节点；否则结束切割过程。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：

如果当前DOM节点的孩子节点中存在背景色与所述当前DOM节点的背景色不同的孩子节点，表明所述孩子节点是文本节点或虚拟文本节点；将所述背景色不同的孩子节点从所述当前DOM节点分割。

4.如权利要求3所述的方法，其特征在于，所述方法还包括：

如果当前DOM节点的不低于85％的孩子节点是文本节点或虚拟文本节点，则结束对所述当前DOM节点的切割过程。

5.如权利要求1所述的方法，其特征在于，所述方法还包括：

如果当前DOM节点的尺寸小于某个阈值，则结束对所述当前DOM节点的切割过程。

6.如权利要求1所述的方法，其特征在于，所述方法利用切割条分割所述网页的方式包括：

初始时网页仅存在一个切割条，所述切割条的起始坐标和终止坐标与所述网页的起始坐标和终止坐标相同；并且

如果存在页面块被包括在切割条中，则所述切割条于所述页面块的边缘处分裂为两个切割条；

如果存在页面块与切割条部分重合，则根据所述页面块的边缘调整所述切割条的大小；

如果存在页面块跨过切割条，则移除所述切割条。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

根据切割条两边的页面块在色温上的差异，设置所述切割条的权重。

8.如权利要求7所述的方法，其特征在于，所述将被分割的网页的不同部分合并还包括：

从具有最小权重的切割条开始，合并所述最小权重的切割条两侧的部分，并移除所述具有最小权重的切割条；反复执行所述过程，直到所述网页被合并为所述至少两个部分为止。

9.一种网页数据分析系统，其特征在于，所述系统包括：

网页分割模块，用于分割网页内的DOM节点，形成由被分离部分构成的页面块；

分割模块，用于根据所述页面块，利用切割条来分割所述网页以形成所述网页的不同部分；

合并模块，用于将所述网页被分割而得到的各个部分合并为至少两个部分；以及

语义分析模块，用于对合并得到的所述至少两个部分执行语义分析。

10.一种网页数据分析设备，其特征在于，所述网页数据分析设备包括：

处理器；以及

存储器，存储用于网页数据分析的程序；其中：

当所述处理器执行所述程序时，被配置为执行以下步骤：

分割网页内的DOM节点，形成由被分离部分构成的页面块；

将所述网页被分割而得到的各个部分合并为至少两个部分；并且

对合并得到的所述至少两个部分执行语义分析。