CN101833554A - 产生抽取模板的方法、设备和抽取网页内容的方法和设备 - Google Patents
产生抽取模板的方法、设备和抽取网页内容的方法和设备 Download PDFInfo
- Publication number
- CN101833554A CN101833554A CN200910127231A CN200910127231A CN101833554A CN 101833554 A CN101833554 A CN 101833554A CN 200910127231 A CN200910127231 A CN 200910127231A CN 200910127231 A CN200910127231 A CN 200910127231A CN 101833554 A CN101833554 A CN 101833554A
- Authority
- CN
- China
- Prior art keywords
- node
- tree
- input
- text
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910127231A CN101833554B (zh) | 2009-03-09 | 2009-03-09 | 产生抽取模板的方法、设备和抽取网页内容的方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910127231A CN101833554B (zh) | 2009-03-09 | 2009-03-09 | 产生抽取模板的方法、设备和抽取网页内容的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101833554A true CN101833554A (zh) | 2010-09-15 |
CN101833554B CN101833554B (zh) | 2012-09-26 |
Family
ID=42717625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910127231A Expired - Fee Related CN101833554B (zh) | 2009-03-09 | 2009-03-09 | 产生抽取模板的方法、设备和抽取网页内容的方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101833554B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004805A (zh) * | 2010-12-30 | 2011-04-06 | 上海交通大学 | 基于最大相似性匹配的网页去噪系统及其去噪方法 |
CN102135976A (zh) * | 2010-09-27 | 2011-07-27 | 华为技术有限公司 | 超文本标识语言页面结构化数据提取方法及装置 |
CN102314497A (zh) * | 2011-08-26 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于识别标记语言文件主体内容的方法和设备 |
CN102436472A (zh) * | 2011-09-30 | 2012-05-02 | 北京航空航天大学 | 一种基于关系机制的多类别web对象抽取方法 |
CN102591931A (zh) * | 2011-12-23 | 2012-07-18 | 浙江大学 | 基于树权值的网页数据记录识别和抽取方法 |
CN102073654B (zh) * | 2009-11-20 | 2012-12-19 | 富士通株式会社 | 生成与维护网页内容抽取模板的方法和设备 |
CN103064966A (zh) * | 2012-12-31 | 2013-04-24 | 中国科学院计算技术研究所 | 一种从单记录网页中抽取规律噪音的方法 |
CN103345532A (zh) * | 2013-07-26 | 2013-10-09 | 人民搜索网络股份公司 | 一种网页信息抽取方法及装置 |
CN104636481A (zh) * | 2015-02-16 | 2015-05-20 | 浪潮集团有限公司 | 一种网页模板的提取方法和装置 |
CN106802899A (zh) * | 2015-11-26 | 2017-06-06 | 北京搜狗科技发展有限公司 | 网页正文抽取方法及装置 |
CN107220250A (zh) * | 2016-03-21 | 2017-09-29 | 北大方正集团有限公司 | 一种模板配置方法及系统 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
CN111125483A (zh) * | 2019-12-17 | 2020-05-08 | 湖南星汉数智科技有限公司 | 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104361081A (zh) * | 2014-11-13 | 2015-02-18 | 河海大学 | 一种基于web文档的自动摘要方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100442278C (zh) * | 2003-09-18 | 2008-12-10 | 富士通株式会社 | 网页信息块提取方法和装置 |
CN100504879C (zh) * | 2007-06-08 | 2009-06-24 | 北京大学 | 动态网页的分块方法 |
CN101582075B (zh) * | 2009-06-24 | 2011-05-11 | 大连海事大学 | Web信息抽取系统 |
-
2009
- 2009-03-09 CN CN200910127231A patent/CN101833554B/zh not_active Expired - Fee Related
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073654B (zh) * | 2009-11-20 | 2012-12-19 | 富士通株式会社 | 生成与维护网页内容抽取模板的方法和设备 |
CN102135976A (zh) * | 2010-09-27 | 2011-07-27 | 华为技术有限公司 | 超文本标识语言页面结构化数据提取方法及装置 |
CN102135976B (zh) * | 2010-09-27 | 2013-12-18 | 华为技术有限公司 | 超文本标识语言页面结构化数据提取方法及装置 |
CN102004805A (zh) * | 2010-12-30 | 2011-04-06 | 上海交通大学 | 基于最大相似性匹配的网页去噪系统及其去噪方法 |
CN102004805B (zh) * | 2010-12-30 | 2013-06-19 | 上海交通大学 | 基于最大相似性匹配的网页去噪系统及其去噪方法 |
CN102314497A (zh) * | 2011-08-26 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于识别标记语言文件主体内容的方法和设备 |
CN102314497B (zh) * | 2011-08-26 | 2014-12-10 | 百度在线网络技术(北京)有限公司 | 一种用于识别标记语言文件主体内容的方法和设备 |
CN102436472B (zh) * | 2011-09-30 | 2013-10-30 | 北京航空航天大学 | 一种基于关系机制的多类别web对象抽取方法 |
CN102436472A (zh) * | 2011-09-30 | 2012-05-02 | 北京航空航天大学 | 一种基于关系机制的多类别web对象抽取方法 |
CN102591931B (zh) * | 2011-12-23 | 2015-03-18 | 浙江大学 | 基于树权值的网页数据记录识别和抽取方法 |
CN102591931A (zh) * | 2011-12-23 | 2012-07-18 | 浙江大学 | 基于树权值的网页数据记录识别和抽取方法 |
CN103064966A (zh) * | 2012-12-31 | 2013-04-24 | 中国科学院计算技术研究所 | 一种从单记录网页中抽取规律噪音的方法 |
CN103064966B (zh) * | 2012-12-31 | 2016-01-27 | 中国科学院计算技术研究所 | 一种从单记录网页中抽取规律噪音的方法 |
CN103345532A (zh) * | 2013-07-26 | 2013-10-09 | 人民搜索网络股份公司 | 一种网页信息抽取方法及装置 |
CN104636481A (zh) * | 2015-02-16 | 2015-05-20 | 浪潮集团有限公司 | 一种网页模板的提取方法和装置 |
CN106802899A (zh) * | 2015-11-26 | 2017-06-06 | 北京搜狗科技发展有限公司 | 网页正文抽取方法及装置 |
CN107220250A (zh) * | 2016-03-21 | 2017-09-29 | 北大方正集团有限公司 | 一种模板配置方法及系统 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
CN111125483A (zh) * | 2019-12-17 | 2020-05-08 | 湖南星汉数智科技有限公司 | 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101833554B (zh) | 2012-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101833554B (zh) | 产生抽取模板的方法、设备和抽取网页内容的方法和设备 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
EP2057557B1 (en) | Joint optimization of wrapper generation and template detection | |
CN101957816B (zh) | 基于多页面比较的网页元数据自动抽取方法和系统 | |
US7406459B2 (en) | Concept network | |
US7676465B2 (en) | Techniques for clustering structurally similar web pages based on page features | |
CN101251855B (zh) | 一种互联网网页清洗方法、系统及设备 | |
US7680858B2 (en) | Techniques for clustering structurally similar web pages | |
CN102073654B (zh) | 生成与维护网页内容抽取模板的方法和设备 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
US8626789B2 (en) | Geocoding using information retrieval | |
US20050267915A1 (en) | Method and apparatus for recognizing specific type of information files | |
US20080235567A1 (en) | Intelligent form filler | |
CN111190900B (zh) | 一种云计算模式下json数据可视化优化方法 | |
US7516397B2 (en) | Methods, apparatus and computer programs for characterizing web resources | |
US20090070366A1 (en) | Method and system for web document clustering | |
CN104008109A (zh) | 基于用户兴趣的Web信息推送服务系统 | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN102890702A (zh) | 一种面向网络论坛的意见领袖挖掘方法 | |
CN101802776A (zh) | 应用语义向量和关键字分析关联数据集的方法和装置 | |
CN103246732A (zh) | 一种在线Web新闻内容的抽取方法及系统 | |
US10157222B2 (en) | Methods and apparatuses for content preparation and/or selection | |
An et al. | A heuristic approach on metadata recommendation for search engine optimization | |
Liu et al. | The research of Web mining | |
CN102043846A (zh) | 一种基于遗传算法的搜索方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CI01 | Correction of invention patent gazette |
Correction item: Description Correct: Correct False: Error Number: 39 Volume: 28 |
|
CI02 | Correction of invention patent application |
Correction item: Description Correct: Correct False: Error Number: 39 Page: Description Volume: 28 |
|
ERR | Gazette correction |
Free format text: CORRECT: DESCRIPTION; FROM: ERROR TO: CORRECT |
|
RECT | Rectification | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120926 Termination date: 20180309 |
|
CF01 | Termination of patent right due to non-payment of annual fee |