CN103870567A

CN103870567A - 一种云计算中垂直搜索引擎网页采集模板自动识别方法

Info

Publication number: CN103870567A
Application number: CN201410087058.4A
Authority: CN
Inventors: 范莹; 于治楼; 梁华勇
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2014-03-11
Filing date: 2014-03-11
Publication date: 2014-06-18

Abstract

本发明公开了一种云计算中垂直搜索引擎网页采集模板自动识别方法，针对需采集网站随机获取一定数量的样本网页，对已有网页进行分析，抽取特征属性，将属性值采集至数据表中作为训练样本数据进行聚类，得到多个不同的网页模板；给网页模板标识类别，作为训练样本训练出网页模板分类器；应用该分类器对所有采集网页进行模板分类，根据分类得到的模板进行信息抽取。该方法通过对不同网站进行网页抽样，利用数据挖掘的聚类、分类算法，为这些网站内不同的网页结构识别出不同的分析模板，达到智能化解析的目的。

Description

一种云计算中垂直搜索引擎网页采集模板自动识别方法

技术领域

本发明涉及云计算的垂直搜索引擎领域，具体是一种垂直搜索引擎网页采集模板自动识别方法。

技术背景

搜索引擎是云计算的关键技术，它充分利用了云计算带来的便利，也给云计算注入无尽的活力。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据抽取成特定的结构化信息数据。然后将这些数据存储到数据库，进行进一步的加工处理，如：去重、分类等，最后分词、索引再以搜索的方式满足用户的需求。

垂直搜索引擎中某个行业会涉及多个网站，每个网站的组织形式、网页结构千差万别，想要从中抽取所需信息，需要有高效、准确的结构化信息抽取技术。信息抽取有两种方式，一个是模板方式，优点是快速实施、成本低、灵活性强，缺点是后期维护成本高，信息源和信息量小；另外就是对网页不依赖web结构化信息抽取方式，优点是数据容量大，但是其灵活性差、准确度低、成本高。

发明内容

本发明要解决的技术问题是：本发明的目的就是利用数据挖掘技术，为垂直搜索引擎实现智能网页解析。

本发明所采用的技术方案为：

一种云计算中垂直搜索引擎网页采集模板自动识别方法，针对需采集网站随机获取一定数量的样本网页，对已有网页进行分析，抽取特征属性，将属性值采集至数据表中作为训练样本数据进行聚类，得到多个不同的网页模板；给网页模板标识类别，作为训练样本训练出网页模板分类器；应用该分类器对所有采集网页进行模板分类，根据分类得到的模板进行信息抽取。

本发明的有益效果为：该方法通过对不同网站进行网页抽样，利用数据挖掘的聚类、分类算法，为这些网站内不同的网页结构识别出不同的分析模板，达到智能化解析的目的。

附图说明

图1为本发明原理示意图。

具体实施方式

下面参照附图，通过具体实施方式对本发明进一步说明：

如图1所示，一种云计算中垂直搜索引擎网页采集模板自动识别方法，针对需采集网站随机获取一定数量的样本网页，对已有网页进行分析，抽取特征属性，将属性值采集至数据表中作为训练样本数据进行聚类，得到多个不同的网页模板；给网页模板标识类别，作为训练样本训练出网页模板分类器；应用该分类器对所有采集网页进行模板分类，根据分类得到的模板进行信息抽取。

Claims

1.一种云计算中垂直搜索引擎网页采集模板自动识别方法，其特征在于：针对需采集网站随机获取一定数量的样本网页，对已有网页进行分析，抽取特征属性，将属性值采集至数据表中作为训练样本数据进行聚类，得到多个不同的网页模板；给网页模板标识类别，作为训练样本训练出网页模板分类器；应用该分类器对所有采集网页进行模板分类，根据分类得到的模板进行信息抽取。