CN114238735A

CN114238735A - 一种互联网数据智能采集方法

Info

Publication number: CN114238735A
Application number: CN202111523735.9A
Authority: CN
Inventors: 李玺; 彭亮; 冯凯; 王元卓
Original assignee: China Science And Technology Big Data Research Institute
Current assignee: China Science And Technology Big Data Research Institute
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-25
Anticipated expiration: 2041-12-14
Also published as: CN114238735B

Abstract

本发明属于计算机数据挖掘技术领域，具体涉及一种互联网数据智能采集方法。本发明根据网络爬虫技术的基本原理和最新进展，对网络智能采集技术和系统设计相关工作进行了整合,并结合聚焦爬虫和通用爬虫技术设计智能数据采集系统。主要是基于需求分类,设计了不同的分类采集规则，并利用互联网站点主体,提出的权威站点分类和根据数据类型主体分类的采集方法。该方法适用于互联网公开数据，能够实现对数据采集时的需求进行自动理解，对采集目标的合理分类、对采集到的数据智能解析并存储，能够提高数据获取的效率和准确性，并满足数据的深度和广度,可对进一步数据挖掘奠定良好基础。

Description

一种互联网数据智能采集方法

技术领域

本发明属于计算机数据挖掘技术领域，具体涉及一种互联网数据智能采集方法。

背景技术

互联网的信息非常丰富,大数据及其应用正是基于互联网海量信息的价值提取。目前互联网数据采集的方法有通过日志获取数据、通过代码埋点跟踪数据、通过网络爬虫采集数据。通过日志和埋点获取数据一般是服务端来分析或监测用户数据，而通过网络爬虫只要是互联网公开数据均可根据需求采集所需数据。

网络爬虫是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。但因传统数据采集的局限性,数据采集往往需要在网络爬虫开发的封闭环境进行，数据生成和管理都由第三方提供，这导致数据采集具有成本高、数据管理复杂化等问题。

目前的网络爬虫分为两种，通用爬虫和聚焦爬虫。传统的通用爬虫例如搜索引擎Baidu，Yahoo和Google等。作为一个辅助人们检索信息的工具，这些通用搜索引擎也存在着一定的局限性，如：

（1）不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎大多是基于关键字的通用检索，难以满足需求，通用性限制了聚焦性。

（2）通用搜索引擎的宗旨是尽可能大的网络覆盖率，导致所返回的结果包含大量用户不关心的网页。

（3）通用搜索引擎往往对图片、数据库、音频、视频等不同数据类型不能很好地发现和获取。

为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫和通用爬虫相反，更注重需求的定向性和数据的准确性。聚焦爬虫需要有明确的采集目标（网址）和采集网页的数据解析规则。所以相对于通用网络爬虫，聚焦爬虫还需要解决两个主要问题：

（1）对抓取目标（需求）的描述或定义；

（2）对网页或数据的分析与过滤。

发明内容

针对目前数据抓取方法存在的缺陷和问题，本发明提供一种互联网数据智能采集方法和系统。

本发明解决其技术问题所采用的方案是：一种互联网数据智能采集方法，包括以下步骤：

步骤一、数据采集：提供程序输入入口输入采集需求文字，对输入的采集需求文字进行处理得到命名实体识别结果，对命名实体识别结果进行采集规则分类得到需求分类结果；

步骤二、页面数据解析：根据不同需求分类结果选择对应的解析策略进行页面数据解析，得到解析结果；

步骤三、数据存储：将采集完成的数据进行云端存储。

上述的互联网数据智能采集方法，步骤一具体包括以下步骤：

S1、提供程序输入入口，让使用者输入文字来描述采集需求；

S2、使用自然语言处理技术和语义识别技术，将输入内容进行分词和词性识别，提取名词、动词、副词、数词、形容词，完成命名实体识别；

S3、对命名实体识别结果进行采集规则分类：根据采集需求分别提供智能采集、垂直采集、定制采集三种选择标签，让使用者自行选择对应的需求分类规则，得到需求分类结果。

上述的互联网数据智能采集方法，步骤S2中分别采用基于Hmm和Viterbi算法进行中文分词和词性标注，包括以下步骤：

（1）通过正则检测输入字符串的中文字符，根据邻近词词典对中文字符进行预分词；

（2）基于HMM模型得出状态序列并采用Viterbi算法得出状态序列的最优路径，完成中文分词；

（3）根据词性标注语料库对分词结果进行分类，并基于Viterbi算法完成命名实体识别。

上述的互联网数据智能采集方法，步骤（3）包括以下步骤：

a、通过正则表达式从输入的字符串的匹配出中文字符,非中文则保留原有字符；

b、加载相邻词词典进行分词：遍历中文字符串，以字符串每两个相邻的字为一组，在词典中进行匹配。如果两个字在词典中则为一组普通词语。就把词语的第一字保留下来，遍历第二组词。如果第二组词在相邻词典中匹配不到，则认为第一组词为正常词语，否则继续遍历，直到匹配不到内容；

c、分词后通过查词性标注语料库，标上所有可能的词类，组成词性序列，采用Hmm模型将词性序列作为隐藏序列，将词语序列作为观测序列，然后通过Viterbi算法遍历所有词；每个词都计算各个词性下的一阶HMM值，取值最大的为最终词性，保存该词性和概率，得出最优词性序列；

d、根据得出的最优词性序列，提取出关键信息，最后返回命名实体识别结果，所述关键信息包括采集目标，采集规则，采集内容。

上述的互联网数据智能采集方法，步骤S3中智能采集是自动根据命名实体识别结果进行需求分类，对识别后的采集目标进行网页主体类型识别，具体是运用基于Web结构特征的数据挖掘算法进行网页主体识别，网页主体识别流程为：爬虫系统获取网页源码并解析成 DOM 树，然后对DOM树的节点预处理，提取文本特征，使用TF-IDF算法计算关键词权重，然后构造分类器，最后通过分类器完成网页类型的自动识别。

上述的互联网数据智能采集方法，采用主体解析方式对智能采集的分类结果进行页面数据解析；采用模板解析的方式对垂直采集的分类结果进行页面数据解析；采用定制解析的方式对定制采集的分类结果进行页面数据解析。

上述的互联网数据智能采集方法，定制解析是由人工确定解析规则或者由使用者自行配置解析规则，可以根据需要采集的字段名称、HTML标签、DOM节点配置解析规则。

上述的互联网数据智能采集方法，步骤三中数据存储包括以下步骤：

S1、数据存储：采集者选择存储类型对采集完成的数据进行云端存储，并实时查看当前采集内容和采集效率；所述存储类型包括关系型、文档型、音视频文件型；

S2、数据管理：对采集完成的数据按照规则进行去重、过滤、清洗、转换、分组等，进行数据分析和数据可视化；

S3、数据导出：将采集完成的数据下载下来，并可按照需求类型将数据。

本发明的有益效果：本发明能够面向不同领域的企业、人群,实现基于网络爬虫的智能数据采集技术。

本发明适用场景是互联网公开数据，同时遵守网络爬虫协议，提高数据获取的效率和准确性，并满足数据的深度和广度，可对进一步数据挖掘奠定良好基础。

附图说明

图1为本发明方法整体流程图。

图2为数据采集流程图。

图3为网页主体类型识别流程图。

图4为页面数据解析流程图。

图5为数据存储流程图。

具体实施方式

本发明面向不同领域的企业、人群需求,提供一种基于网络爬虫的智能数据采集技术，该技术结合通用爬虫和聚焦爬虫的网络爬虫技术，可采集的数据来源动态且多样,可满足数据的深度和广度,可对进一步数据分析奠定良好基础。下面结合附图和实施例对本发明进一步说明。

实施例1：本实施例提供一种互联网数据智能采集方法，如图1所示，该方法包括以下步骤：

步骤一、数据采集

根据情况把采集需求分为三类：智能采集，垂直采集，定制采集

其中：智能采集是根据某一项关键信息所进行的数据挖掘，是对领域和范围准确度要求不高的相关数据采集。首先根据输入的需求基于算法进行需求类型匹配，亦可由输入者选择需求类型，确定需求类型之后，筛选采集目标网站的网址，亦可由输入者直接输入网址，根据待采集的目标进行网页类型自动识别，然后智能解析网页内容。

垂直采集是指针对某一特定站点的聚焦数据采集。根据现有采集模板生成的解析策略，是需要根据特定站点来匹配的。比如已有采集模板淘宝网、京东网，使用者的需求也是这两个网站，那么直接使用垂直采集方法进行采集，然后根据对应的解析模板智能解析并存储数据。

定制采集即是自定义数据内容和解析规则，是遇到无法理解的需求或者无法正确识别采集目标时由人工来完成的，一种是与开发者进行需求沟通、评估，定制；另一种是使用者自行定制采集规则，提供数据的关键信息，如字段名称、HTML标签等。

包括以下步骤：

S2、对输入的文字需求进行处理；处理方法为：使用自然语言处理技术和语义识别技术，将输入内容进行分词和词性识别，提取名词、动词、副词、数词、形容词等完成命名实体识别；

其中：分别采用基于Hmm（隐马尔科夫模型）和Viterbi（维特比）算法进行中文分词和词性标注；步骤如下：

首先通过正则检测输入字符串的中文字符,根据邻近词词典对中文字符进行预分词；

然后基于HMM模型得出状态序列并采用Viterbi算法得出状态序列的最优路径，完成中文分词；

再根据词性标注语料库对分词结果进行分类，并基于Viterbi算法完成命名实体识别；

具体步骤为：

（1）通过正则表达式从输入的字符串的匹配出中文字符,非中文则保留原有字符；

（2）加载相邻词词典进行分词：该词典中的所有两个字构成的词都是普通词汇。通过遍历中文字符串，以字符串每两个相邻的字为一组，在词典中进行匹配。如果两个字在词典中则为一组普通词语。就把词语的第一字保留下来，遍历第二组词。如果第二组词在相邻词典中匹配不到，则认为第一组词为正常词语，否则继续遍历，直到匹配不到内容，例如：字符串为 '生物电子学和脑机接口'，通过遍历字符串，可知'生物'在词典中，'物电'不在，则生物为一组词，'电子'为一组词，'子学'也在词典中,'学和'不匹配，那么'电子学'则为返回的词语。'和脑'不在词典中，则'和'为单一词汇，根据该规则可再计算出'脑机'、'接口'两个词汇。则最后得出的词组为 “生物，电子学，和，脑机，接口”。

（3）分词后通过查词性标注语料库，标上所有可能的词类，组成词性序列。具体是采用Hmm模型将词性序列作为隐藏序列，将词语序列作为观测序列，然后通过Viterbi算法遍历所有词。每个词都计算各个词性下的一阶HMM值，取值最大的为最终词性，保存该词性和概率，得出最优词性序列。

（4）根据得出的最优词性序列，提取出关键信息，比如采集目标，采集规则，采集内容等，最后返回命名实体识别结果。

S3、对命名实体识别结果进行采集规则分类；如图3所示，根据采集需求分别提供智能采集、垂直采集、定制采集三种选择标签，让使用者自行选择对应的需求分类规则，得到需求分类结果。

其中智能采集是自动根据命名实体识别结果进行需求分类，还需要对识别后的采集目标进行网页主体类型识别；如图2所示，具体是：

运用基于Web结构特征的数据挖掘算法进行网页主体识别，网页主体识别流程为：爬虫系统获取网页源码并解析成 DOM 树，然后对DOM树的节点预处理，提取文本特征，使用TF-IDF算法计算关键词权重，然后构造分类器，最后通过分类器完成网页类型的自动识别。

例如：输入内容《微博一周内的热门文章》，通过识别算法得出专有名词‘微博’为采集目标，副词‘一周内’和形容词‘热门’为采集规则，普通名词‘文章’为采集内容。在语义识别完成之后得出此处适合使用垂直采集，如果没有指定需求标签，智能采集系统默认会根据识别结果选择对应的分类方式。

步骤二、根据不同采集需求的分类结果选择相对应的解析策略解析页面数据；

具体如图4所示，采用主体解析方式对智能采集的分类结果进行页面数据解析；采用模板解析的方式对垂直采集的分类结果进行页面数据解析；采用定制解析的方式对定制采集的分类结果进行页面数据解析。

（1）主体解析：智能采集的解析模式是主体解析；主体类型主要分为文章主体、物质主体、社交主体等。智能采集方式没有明确的采集目标和采集方式，如果使用者选择了主体类型则按照对应解析规则提取数据，如果没有选择系统会根据待采集内容进行主体识别，选择对应主体类型。比如《采集国内环保公告》，系统会认定为文章主体，按照文章主体解析规则解析页面数据；比如《采集某地区的房价数据》，系统会根据物质主体解析方式解析页面数据；比如《采集某热点评论》，系统会根据社交主体解析页面数据。

（2）模板解析：垂直采集的解析模式是模板解析，垂直采集是针对某一特定领域的数据采集，有明确的采集目标，系统会提供解析模板供使用者选择，如果没有选择则按照默认的解析模板进行页面数据解析。比如《采集某论文网站的论文》，系统会使用该站点的特定解析模板进行解析。

（3）定制解析：定制采集的解析模式是定制解析，由人工确定解析规则或者由使用者自行配置解析规则，可以根据需要采集的字段名称、HTML标签、DOM节点等配置解析规则。可配置解析规则的原理：基于Dom元素节点的页面解析、基于关键词的html数据抽取。比如只采集某站点的价格数据、某社区的文章作者、某网站页面的特定标签内容。

步骤三、数据云端存储，如图5所示，数据存储包括以下步骤：

S1、数据存储：采集者选择存储类型（关系型、文档型、音视频文件型）对采集完成的数据进行云端存储，并实时查看当前采集内容和采集效率。

S2、数据管理：对采集完成的数据按照规则进行去重、过滤、清洗、转换、分组等，进行数据分析和数据可视化。

S3、数据导出：将采集完成的数据下载下来，支持多种导出类型，比如html、txt、excel、csv、word、pdf等。

Claims

1.一种互联网数据智能采集方法，其特征在于：包括以下步骤：

步骤三、数据存储：将采集完成的数据进行云端存储。

2.根据权利要求1所述的互联网数据智能采集方法，其特征在于：步骤一具体包括以下步骤：

3.根据权利要求2所述的互联网数据智能采集方法，其特征在于：步骤S2中分别采用基于Hmm和Viterbi算法进行中文分词和词性标注，包括以下步骤：

4.根据权利要求3所述的互联网数据智能采集方法，其特征在于：步骤（3）包括以下步骤：

b、加载相邻词词典进行分词：遍历中文字符串，以字符串每两个相邻的字为一组，在词典中进行匹配；如果两个字在词典中则为一组普通词语，就把词语的第一字保留下来，遍历第二组词；如果第二组词在相邻词典中匹配不到，则认为第一组词为正常词语，否则继续遍历，直到匹配不到内容；

5.根据权利要求2所述的互联网数据智能采集方法，其特征在于：步骤S3中智能采集是自动根据命名实体识别结果进行需求分类，对识别后的采集目标进行网页主体类型识别，具体是运用基于Web结构特征的数据挖掘算法进行网页主体识别，网页主体识别流程为：爬虫系统获取网页源码并解析成 DOM 树，然后对DOM树的节点预处理，提取文本特征，使用TF-IDF算法计算关键词权重，然后构造分类器，最后通过分类器完成网页类型的自动识别。

6.根据权利要求2所述的互联网数据智能采集方法，其特征在于：采用主体解析方式对智能采集的分类结果进行页面数据解析；采用模板解析的方式对垂直采集的分类结果进行页面数据解析；采用定制解析的方式对定制采集的分类结果进行页面数据解析。

7.根据权利要求6所述的互联网数据智能采集方法，其特征在于：定制解析是由人工确定解析规则或者由使用者自行配置解析规则，可以根据需要采集的字段名称、HTML标签、DOM节点配置解析规则。

8.根据权利要求1所述的互联网数据智能采集方法，其特征在于：步骤三中数据存储包括以下步骤：