CN103870567A - 一种云计算中垂直搜索引擎网页采集模板自动识别方法 - Google Patents
一种云计算中垂直搜索引擎网页采集模板自动识别方法 Download PDFInfo
- Publication number
- CN103870567A CN103870567A CN201410087058.4A CN201410087058A CN103870567A CN 103870567 A CN103870567 A CN 103870567A CN 201410087058 A CN201410087058 A CN 201410087058A CN 103870567 A CN103870567 A CN 103870567A
- Authority
- CN
- China
- Prior art keywords
- webpage
- template
- templates
- search engine
- cloud computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种云计算中垂直搜索引擎网页采集模板自动识别方法,针对需采集网站随机获取一定数量的样本网页,对已有网页进行分析,抽取特征属性,将属性值采集至数据表中作为训练样本数据进行聚类,得到多个不同的网页模板;给网页模板标识类别,作为训练样本训练出网页模板分类器;应用该分类器对所有采集网页进行模板分类,根据分类得到的模板进行信息抽取。该方法通过对不同网站进行网页抽样,利用数据挖掘的聚类、分类算法,为这些网站内不同的网页结构识别出不同的分析模板,达到智能化解析的目的。
Description
技术领域
本发明涉及云计算的垂直搜索引擎领域,具体是一种垂直搜索引擎网页采集模板自动识别方法。
技术背景
搜索引擎是云计算的关键技术,它充分利用了云计算带来的便利,也给云计算注入无尽的活力。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据。然后将这些数据存储到数据库,进行进一步的加工处理,如:去重、分类等,最后分词、索引再以搜索的方式满足用户的需求。
垂直搜索引擎中某个行业会涉及多个网站,每个网站的组织形式、网页结构千差万别,想要从中抽取所需信息,需要有高效、准确的结构化信息抽取技术。信息抽取有两种方式,一个是模板方式,优点是快速实施、成本低、灵活性强,缺点是后期维护成本高,信息源和信息量小;另外就是对网页不依赖web结构化信息抽取方式,优点是数据容量大,但是其灵活性差、准确度低、成本高。
发明内容
本发明要解决的技术问题是:本发明的目的就是利用数据挖掘技术,为垂直搜索引擎实现智能网页解析。
本发明所采用的技术方案为:
一种云计算中垂直搜索引擎网页采集模板自动识别方法,针对需采集网站随机获取一定数量的样本网页,对已有网页进行分析,抽取特征属性,将属性值采集至数据表中作为训练样本数据进行聚类,得到多个不同的网页模板;给网页模板标识类别,作为训练样本训练出网页模板分类器;应用该分类器对所有采集网页进行模板分类,根据分类得到的模板进行信息抽取。
本发明的有益效果为:该方法通过对不同网站进行网页抽样,利用数据挖掘的聚类、分类算法,为这些网站内不同的网页结构识别出不同的分析模板,达到智能化解析的目的。
附图说明
图1为本发明原理示意图。
具体实施方式
下面参照附图,通过具体实施方式对本发明进一步说明:
如图1所示,一种云计算中垂直搜索引擎网页采集模板自动识别方法,针对需采集网站随机获取一定数量的样本网页,对已有网页进行分析,抽取特征属性,将属性值采集至数据表中作为训练样本数据进行聚类,得到多个不同的网页模板;给网页模板标识类别,作为训练样本训练出网页模板分类器;应用该分类器对所有采集网页进行模板分类,根据分类得到的模板进行信息抽取。
Claims (1)
1.一种云计算中垂直搜索引擎网页采集模板自动识别方法,其特征在于:针对需采集网站随机获取一定数量的样本网页,对已有网页进行分析,抽取特征属性,将属性值采集至数据表中作为训练样本数据进行聚类,得到多个不同的网页模板;给网页模板标识类别,作为训练样本训练出网页模板分类器;应用该分类器对所有采集网页进行模板分类,根据分类得到的模板进行信息抽取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410087058.4A CN103870567A (zh) | 2014-03-11 | 2014-03-11 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410087058.4A CN103870567A (zh) | 2014-03-11 | 2014-03-11 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103870567A true CN103870567A (zh) | 2014-06-18 |
Family
ID=50909097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410087058.4A Pending CN103870567A (zh) | 2014-03-11 | 2014-03-11 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103870567A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268283A (zh) * | 2014-10-21 | 2015-01-07 | 浪潮集团有限公司 | 一种自动解析互联网网页的方法 |
CN104915415A (zh) * | 2015-06-08 | 2015-09-16 | 浪潮集团有限公司 | 一种分布式互联网数据采集解析系统 |
CN106776652A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN111339396A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 提取网页内容的方法、装置和计算机存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
CN101464905A (zh) * | 2009-01-08 | 2009-06-24 | 中国科学院计算技术研究所 | 一种网页信息抽取的系统及方法 |
CN101702167A (zh) * | 2009-11-03 | 2010-05-05 | 上海第二工业大学 | 一种基于互联网的模板抽取属性和评论词的方法 |
CN101833555A (zh) * | 2009-03-12 | 2010-09-15 | 富士通株式会社 | 信息提取方法和装置 |
CN101957816A (zh) * | 2009-07-13 | 2011-01-26 | 上海谐宇网络科技有限公司 | 基于多页面比较的网页元数据自动抽取方法和系统 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN102591992A (zh) * | 2012-02-15 | 2012-07-18 | 苏州亚新丰信息技术有限公司 | 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法 |
CN102662954A (zh) * | 2012-03-02 | 2012-09-12 | 杭州电子科技大学 | 一种基于url字符串信息学习的主题爬虫系统的实现方法 |
CN102681994A (zh) * | 2011-03-07 | 2012-09-19 | 北京百度网讯科技有限公司 | 一种网页信息抽取方法及系统 |
GB2499395A (en) * | 2012-02-14 | 2013-08-21 | British Sky Broadcasting Ltd | Search method |
US8521741B1 (en) * | 2007-07-25 | 2013-08-27 | Emc Corporation | Systems and methods for performing integrated searches with actions |
-
2014
- 2014-03-11 CN CN201410087058.4A patent/CN103870567A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101211339A (zh) * | 2006-12-29 | 2008-07-02 | 上海芯盛电子科技有限公司 | 基于用户行为的智能网页分类器 |
US8521741B1 (en) * | 2007-07-25 | 2013-08-27 | Emc Corporation | Systems and methods for performing integrated searches with actions |
CN101464905A (zh) * | 2009-01-08 | 2009-06-24 | 中国科学院计算技术研究所 | 一种网页信息抽取的系统及方法 |
CN101833555A (zh) * | 2009-03-12 | 2010-09-15 | 富士通株式会社 | 信息提取方法和装置 |
CN101957816A (zh) * | 2009-07-13 | 2011-01-26 | 上海谐宇网络科技有限公司 | 基于多页面比较的网页元数据自动抽取方法和系统 |
CN101702167A (zh) * | 2009-11-03 | 2010-05-05 | 上海第二工业大学 | 一种基于互联网的模板抽取属性和评论词的方法 |
CN102402539A (zh) * | 2010-09-15 | 2012-04-04 | 倪毅 | 对象级个性化垂直搜索引擎设计技术 |
CN102681994A (zh) * | 2011-03-07 | 2012-09-19 | 北京百度网讯科技有限公司 | 一种网页信息抽取方法及系统 |
GB2499395A (en) * | 2012-02-14 | 2013-08-21 | British Sky Broadcasting Ltd | Search method |
CN102591992A (zh) * | 2012-02-15 | 2012-07-18 | 苏州亚新丰信息技术有限公司 | 基于垂直搜索和聚焦爬虫技术的网页分类识别系统及方法 |
CN102662954A (zh) * | 2012-03-02 | 2012-09-12 | 杭州电子科技大学 | 一种基于url字符串信息学习的主题爬虫系统的实现方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104268283A (zh) * | 2014-10-21 | 2015-01-07 | 浪潮集团有限公司 | 一种自动解析互联网网页的方法 |
CN104915415A (zh) * | 2015-06-08 | 2015-09-16 | 浪潮集团有限公司 | 一种分布式互联网数据采集解析系统 |
CN106776652A (zh) * | 2015-11-24 | 2017-05-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN106776652B (zh) * | 2015-11-24 | 2020-09-25 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN111339396A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 提取网页内容的方法、装置和计算机存储介质 |
CN111339396B (zh) * | 2018-12-18 | 2024-04-16 | 富士通株式会社 | 提取网页内容的方法、装置和计算机存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105279277A (zh) | 知识数据的处理方法和装置 | |
CN102542061B (zh) | 一种产品的智能分类方法 | |
CN105468744B (zh) | 一种实现税务舆情分析和全文检索的大数据平台 | |
CN103841216A (zh) | 一种基于云平台的网络舆情监控系统 | |
JP2016508264A5 (zh) | ||
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN103870567A (zh) | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 | |
CN102567494B (zh) | 网站分类方法及装置 | |
RU2015103949A (ru) | Способ и система агрегирования, классификации и отображения информации | |
CN103927400A (zh) | Web网站产品详细信息的分类抓取及产品信息库建立方法 | |
CN103838754A (zh) | 信息搜索装置及方法 | |
CN108846117A (zh) | 商业快讯的去重筛选方法及装置 | |
CN106844782B (zh) | 一种面向网络的多通道大数据采集系统及方法 | |
CN105808722A (zh) | 一种信息判别方法和系统 | |
CN104536830A (zh) | 一种基于MapReduce的KNN文本分类方法 | |
CN104866606A (zh) | 一种MapReduce并行化大数据文本分类方法 | |
JP2014109852A5 (zh) | ||
CN104268214B (zh) | 一种基于微博用户关系的用户性别识别方法及系统 | |
CN105243095A (zh) | 一种基于微博文本的情绪分类方法及系统 | |
CN105183806A (zh) | 一种不同平台间识别同一用户的方法与系统 | |
CN104537392A (zh) | 一种基于判别性语义部件学习的对象检测方法 | |
CN104281710A (zh) | 一种网络数据挖掘方法 | |
CN103824161A (zh) | 一种云计算可专利技术导航系统及方法 | |
CN104915682A (zh) | 一种豆科种子识别系统及方法 | |
Tang et al. | A method of text dimension reduction based on CHI and TF-IDF |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140618 |
|
RJ01 | Rejection of invention patent application after publication |