CN106844640B

CN106844640B - 一种网页数据分析处理方法

Info

Publication number: CN106844640B
Application number: CN201710045575.9A
Authority: CN
Inventors: 杨爱华; 陈林水
Original assignee: ZHANGZHOU TECHNOLOGY VOCATIONAL COLLEGE
Current assignee: ZHANGZHOU TECHNOLOGY VOCATIONAL COLLEGE
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2020-02-21
Anticipated expiration: 2037-01-22
Also published as: CN106844640A

Abstract

本发明公开了一种网页数据分析处理方法。该方法基于网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器及分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统及数据库，该方法具体包括以下步骤：S1、网页抓取；S2、内容提取；S3、中文分词；S4、内容分析；S5、结果呈现，客户端从数据库中调取数据结果，并呈现给用户。本发明采用基于阅读习惯的网页内容提取技术，能够快速识别出网页的主题内容并进行提取，采用云分词技术实现高效中文分词，为大数据分析提供了基础保障，用户无需投入软硬件资源，能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求。

Description

一种网页数据分析处理方法

技术领域

本发明涉及互联网数据挖掘分析技术领域，尤其涉及一种网页数据分析处理方法。

背景技术

目前，互联网充斥着大量各式各样的信息，人们处于数据庞大、信息海量的时代。这些大量数据需要通过一定的发现方法，才能实现对企业或者社会发展有意义的信息进行深度挖掘。

以往的信息挖掘的方式一般通过信息检索或者数理统计的方法进行，比如普通个人用户使用的百度、谷歌等搜索引擎，虽然可以检索到词条相关内容，但是绝大多数都是无用信息，在这样大量的数据条件下很难得到所希望的精准结果。而其深度挖掘和分析的功能往往都是面向大型企业或事业单位，相对于广大中小企业或普通个人用户来说成本及其昂贵。因此迫切需要面向广大中小企业和普通个人用户的低成本、定向化、精准化的大数据分析平台，为其提供精准的情报搜集、舆情分析及决策服务，使得广大中小企业能够在大数据时代的机遇与挑战中充分掘取更多商业价值，提升企业核心竞争力。

发明内容

本发明的目的在于提供一种网页数据分析处理方法，该方法具有低成本、定向化、精准化的特点。

为实现上述目的，本发明的技术方案是：一种网页数据分析处理方法，该方法基于一网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器和分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库，所述方法具体实现步骤如下：

S1、网页抓取

所述网页抓取系统获取爬取任务，将待爬取 URL 加入爬虫队列，抓取网页页面；

S2、内容提取

所述内容提取系统基于阅读习惯对步骤S1抓取的网页页面进行分割，生成多个区块，所述多个区块包括主题块和噪音块，剔除所述噪音块，提取主题块的核心文本数据；

S3、中文分词

向所述分词云服务器发送分词任务请求，并提交步骤S2提取的核心文本数据，分词云服务器对核心文本数据进行中文分词处理，并将分词结果发送给所述内容分析系统；

S4、内容分析

预先建立实体关系数据集，所述实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库，内容分析系统针提取所述步骤S3得到的分词结果的关键词，得到关键词数据集，针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词数据集中的所有关键词，得到结构化数据集，基于结构化数据集对核心文本数据及对应的网页页面进行分类，并存储到数据库；

S5、结果呈现

客户端从数据库中调取数据结果，并呈现给用户。

在本发明一实施例中，所述步骤S2具体实现步骤如下：

S21、内容提取系统针对步骤S1抓取的网页页面生成初始 DOM 树；

S22、清理初始DOM 树中无用节点，构建目标 DOM 树；

S23、利用基于视觉信息的网页分块算法对网页页面进行分割，生成多个区块，所述区块携带有语义属性，所述语义属性包括链接个数、链接长度及文本长度；

S24、根据网页页面的链接数量和链接密度判断网页类型，若网页类型为导航页，则中止，若网页类型为主题页，则执行步骤 S25；

S25、根据各个区块的语义属性，对各个区块进行分类，分为主题块及噪音块；

S26、剔除所述噪音块，提取主题块的核心文本数据。

在本发明一实施例中，所述步骤S22中的无用节点为初始DOM树种与内容提取无关的节点，其包括脚本、样式控制信息、注释及空格文本节点。

在本发明一实施例中，所述内容服务器上安装有第一压缩/解压缩系统，所述分词云服务器上安装有第二压缩/解压缩系统以及中文分词系统，第一压缩/解压缩系统和第二压缩/解压缩系统均具有压缩词典，所述第一压缩/解压缩系统还包括第一压缩模块、第一解压缩模块及词典升级模块，所述第二压缩/解压缩系统还包括第二压缩模块、第二解压缩模块及词典更新模块；

所述步骤 S3 具体实现步骤如下：

S31、内容服务器向分词云服务器发送分词任务请求，并利用第一压缩模块基于压缩词典对所述核心文本数据进行数据压缩处理，发送给分词云服务器；

S32、分词云服务器对分词任务请求进行安全验证，验证通过后利用第二解压缩模块进行数据解压缩处理，还原出核心文本数据；

S33、中文分词系统对核心文本数据进行中文分词处理，生成分词结果；

S34、利用第二压缩模块基于压缩词典对分词结果进行数据压缩处理，发送给内容服务器，同时将分词结果存储在分词云服务器，对第二压缩/解压缩系统的压缩词典进行更新；

S35、内容服务器利用第一解压缩模块进行数据解压缩处理，还原出分词结果，同时与分词云服务器进行通信，对第一压缩/解压缩系统的压缩词典进行升级。

在本发明一实施例中，所述步骤 S33中的中文分词处理通过以下步骤实现：

汉转音剔除错误字词；

通过同义匹配、词性确认、语法切割、固定词匹配、标点规范、缩进规范、冗余感知及网络修正进行分词处理。

在本发明一实施例中，所述步骤S4还包括：

计算每个关键词在核心文本数据出现的频度，找出未与特征信息知识库实现匹配且频度高于预设频度阈值的关键词，并将该关键词计入候选词库，存储到数据库中。

相较于现有技术，本发明具有以下有益效果：

1、本发明采用基于阅读习惯的网页内容提取技术，能够快速识别出网页的主题内容并进行提取，采用云分词技术实现高效中文分词，为大数据分析提供了基础保障，用户无需投入软硬件资源，能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求；

2、本发明基于关系抽取技术来实现网页内容分析和网页分类，通过针对不同行业和需求设定实体关系数据集，可实现数据分析的精准性；

3、本发明采用云分词技术进行中文分词处理的过程中，通过配备压缩词典及相应的压缩、解压缩模块，可较小分词数据上传、回传的数量，提升了中文分词的效率，压缩词典可进行更新升级（自动或定时），进一步确保了分词数据的压缩效果。

附图说明

图 1 为本发明网页数据服务平台的结构示意图；

图 2 为本发明的工作流程图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

本发明的一种网页数据分析处理方法，该方法基于一网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器和分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库，所述方法具体实现步骤如下：

S1、网页抓取

S2、内容提取

S3、中文分词

S4、内容分析

S5、结果呈现

客户端从数据库中调取数据结果，并呈现给用户。

以下为本发明的具体实施过程。

请参阅图 1 和图 2，本发明公开了一种网页数据分析处理方法，基于网页数据服务平台实现，网页数据服务平台包括客户端 10、内容服务器 20 及分词云服务器 30，内容服务器 20 上安装有网页抓取系统 21、内容提取系统 22、内容分析系统 23 及数据库24，该方法包括以下步骤：

S1、网页抓取

网页抓取系统 21 获取爬取任务，将待爬取 URL 加入爬虫队列，抓取网页页面；

S2、内容提取

内容提取系统 22 基于阅读习惯对网页页面进行分割，生成多个区块，多个区块包括主题块及噪音块，剔除噪音块，提取主题块的核心文本数据。步骤 S2 具体包括以下分步骤：

S21、内容提取系统 22 针对网页页面生成初始 DOM 树。

S22、清理初始 DOM 树中无用节点，构建目标 DOM 树。无用节点为初始 DOM 树中与内容提取无关的节点，其包括脚本、样式控制信息、注释及空格文本节点。

S23、利用基于视觉信息的网页分块算法(VIPS) 对网页页面进行分割，生成多个区块，区块携带有语义属性，语义属性包括链接个数、链接长度及文本长度。

S24、根据网页页面的链接数量和链接密度判断网页类型，若网页类型为导航页，则中止，若网页类型为主题页，则执行步骤 S25。

S25、根据各个区块的语义属性，对各个区块进行分类，分为主题块及噪音块。噪音块包括导航栏、广告栏及其他干扰信息

S26、剔除噪音块，提取主题块的核心文本数据。优选地，无用节点为初始 DOM 树中与内容提取无关的节点，其包括脚本、样式控制信息、注释及空格文本节点。

S3、中文分词

向分词云服务器 30 发送分词任务请求，并提交核心文本数据，分词云服务器 30对核心文本数据进行中文分词处理，并将分词结果发送给内容分析系统23。

为实现核心文本数据和分词结果的传输效率，本实施例采用了词典压缩技术。在本实施例中，内容服务器 20 上安装有第一压缩/解压缩系统 25，分词云服务器 30 上安装有第二压缩/解压缩系统 31 以及中文分词系统 32，第一压缩/解压缩系统 25 和第二压缩/解压缩系统 31 均具有压缩词典，第一压缩/解压缩系统 25 还包括第一压缩模块、第一解压缩模块及词典升级模块，第二压缩/解压缩系统 31 还包括第二压缩模块、第二解压缩模块及词典更新模块。压缩词典可根据行业特点和用户需求进行定制。

步骤 S3 包括以下分步骤：

S31、内容服务器 20 向分词云服务器 30 发送分词任务请求，并利用第一压缩模块基于压缩词典对核心文本数据进行数据压缩处理，发送给分词云服务器 30。

S32、分词云服务器 30 对分词任务请求进行安全验证，验证通过后利用第二解压缩模块进行数据解压缩处理，还原出核心文本数据。

S33、中文分词系统 32 对核心文本数据进行中文分词处理，生成分词结果。中文分词处理具体为，首先通过汉转音剔除错误字词，然后通过同义匹配、词性确认、语法切割、固定词匹配、标点规范、缩进规范、冗余感知及网络修正进行分词处理。

S34、利用第二压缩模块基于压缩词典对分词结果进行数据压缩处理，发送给内容服务器 20，同时将分词结果存储在分词云服务器 30，对第二压缩/解压缩系统 31 的压缩词典进行更新。

S35、内容服务器 20 利用第一解压缩模块进行数据解压缩处理，还原出分词结果，同时与分词云服务器 30 进行通信，对第一压缩/解压缩系统 25 的压缩词典进行升级。

S4、内容分析

预先建立实体关系数据集，建立实体关系数据集包含一组命名实体以及与每个命名实体对应的特征信息知识库。

内容分析系统 23 针对分词结果提取关键词，得到关键词数据集。

针对每个关键词在特征信息知识库搜索与该关键词对应的匹配结果，将该匹配结果对应的命名实体作为属性索引项添加到结构化数据表，将该关键词作为属性值添加到结构化数据表，遍历关键词数据集中的所有关键词，得到结构化数据集。

基于结构化数据集对核心文本数据及对应的网页页面进行分类，并存储到数据库24。

计算每个关键词在核心文本数据出现的频度，找出未与特征信息知识库实现匹配且频度高于预设频度阈值的关键词，并将该关键词计入候选词库，存储到数据库 24 中，后续可通过人工方式对候选词库中的关键词进行评估，选择添加到特征信息知识库中或者删除。

S5、结果呈现

客户端 10 从数据库 24 中调取数据结果，并呈现给用户。

通过以上描述可以看出，本发明可根据用户需求定制业务规则和分析模型，利用内容服务器 20 进行网页主题内容提取和数据分析，利用分词云服务器 30 进行中文分词，利用客户端 10 查看数据推送结果。用户无需投入软硬件资源，能够满足中小企业和普通个人用户的大数据分析服务的低成本、定向化要求。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种网页数据分析处理方法，其特征在于：该方法基于一网页数据服务平台实现，所述网页数据服务平台包括客户端、内容服务器和分词云服务器，所述内容服务器上安装有网页抓取系统、内容提取系统、内容分析系统和数据库，所述方法具体实现步骤如下：

S1、网页抓取

S2、内容提取

S3、中文分词

S4、内容分析

S5、结果呈现

客户端从数据库中调取数据结果，并呈现给用户；

所述内容服务器上安装有第一压缩/解压缩系统，所述分词云服务器上安装有第二压缩/解压缩系统以及中文分词系统，第一压缩/解压缩系统和第二压缩/解压缩系统均具有压缩词典，所述第一压缩/解压缩系统还包括第一压缩模块、第一解压缩模块及词典升级模块，所述第二压缩/解压缩系统还包括第二压缩模块、第二解压缩模块及词典更新模块；

所述步骤 S3 具体实现步骤如下：

2.根据权利要求1所述的一种网页数据分析处理方法，其特征在于：所述步骤S2具体实现步骤如下：

S22、清理初始DOM 树中无用节点，构建目标 DOM 树；

S26、剔除所述噪音块，提取主题块的核心文本数据。

3.根据权利要求2所述的一种网页数据分析处理方法，其特征在于：所述步骤S22中的无用节点为初始DOM树种与内容提取无关的节点，其包括脚本、样式控制信息、注释及空格文本节点。

4.根据权利要求1所述的一种网页数据分析处理方法，其特征在于：所述步骤 S33中的中文分词处理通过以下步骤实现：

汉转音剔除错误字词；

5.根据权利要求1所述的一种网页数据分析处理方法，其特征在于：所述步骤S4还包括：