CN1786947A - 基于网页页面布局提取网页核心内容的系统、方法和程序 - Google Patents
基于网页页面布局提取网页核心内容的系统、方法和程序 Download PDFInfo
- Publication number
- CN1786947A CN1786947A CN 200410100059 CN200410100059A CN1786947A CN 1786947 A CN1786947 A CN 1786947A CN 200410100059 CN200410100059 CN 200410100059 CN 200410100059 A CN200410100059 A CN 200410100059A CN 1786947 A CN1786947 A CN 1786947A
- Authority
- CN
- China
- Prior art keywords
- basic structure
- core content
- text
- web page
- text block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (38)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004101000594A CN100432996C (zh) | 2004-12-07 | 2004-12-07 | 基于网页页面布局提取网页核心内容的系统、方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2004101000594A CN100432996C (zh) | 2004-12-07 | 2004-12-07 | 基于网页页面布局提取网页核心内容的系统、方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1786947A true CN1786947A (zh) | 2006-06-14 |
CN100432996C CN100432996C (zh) | 2008-11-12 |
Family
ID=36784413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004101000594A Expired - Fee Related CN100432996C (zh) | 2004-12-07 | 2004-12-07 | 基于网页页面布局提取网页核心内容的系统、方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100432996C (zh) |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444174C (zh) * | 2006-09-25 | 2008-12-17 | 北京中搜在线软件有限公司 | 网页微内容提取、聚合和自动更新系统的方法 |
CN101237465B (zh) * | 2007-01-30 | 2010-11-03 | 中国科学院声学研究所 | 一种基于快速傅里叶变换的网页正文提取方法 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
CN101246481B (zh) * | 2007-02-16 | 2011-04-20 | 易搜比控股公司 | 使超文字标示语言网页转换成纯文字的方法及其系统 |
CN102184239A (zh) * | 2011-05-16 | 2011-09-14 | 复旦大学 | Xml无线数据广播模式下基于访问概率的文档分片方法 |
CN102375829A (zh) * | 2010-08-13 | 2012-03-14 | 富士通株式会社 | 识别网页节点类型的方法和装置 |
CN102460417A (zh) * | 2009-04-07 | 2012-05-16 | 弗里塞恩公司 | 域状态、作用和种类 |
CN102541874A (zh) * | 2010-12-16 | 2012-07-04 | 中国移动通信集团公司 | 网页正文内容提取方法及装置 |
CN103838728A (zh) * | 2012-11-21 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 网页信息的处理方法及浏览器 |
CN104598462A (zh) * | 2013-10-30 | 2015-05-06 | 深圳市国信互联科技有限公司 | 提取结构化数据的方法及装置 |
US9292612B2 (en) | 2009-04-22 | 2016-03-22 | Verisign, Inc. | Internet profile service |
CN106802899A (zh) * | 2015-11-26 | 2017-06-06 | 北京搜狗科技发展有限公司 | 网页正文抽取方法及装置 |
CN106855859A (zh) * | 2015-12-08 | 2017-06-16 | 北京搜狗科技发展有限公司 | 一种网页正文提取方法及装置 |
WO2017113645A1 (zh) * | 2015-12-30 | 2017-07-06 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107203527A (zh) * | 2016-03-16 | 2017-09-26 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
CN108073588A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
WO2018210164A1 (zh) * | 2017-05-17 | 2018-11-22 | 中兴通讯股份有限公司 | 一种网页内容处理方法及装置、存储介质 |
CN111931113A (zh) * | 2020-09-16 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 一种数据清洗方法及相关设备 |
CN112230989A (zh) * | 2020-12-14 | 2021-01-15 | 北京智慧星光信息技术有限公司 | 网页频道导航栏提取方法、系统、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1402156A (zh) * | 2001-08-22 | 2003-03-12 | 威瑟科技股份有限公司 | 网站信息提取系统与方法 |
EP1376408B1 (en) * | 2002-06-28 | 2007-07-11 | Nippon Telegraph and Telephone Corporation | Extraction of information from structured documents |
US20040111400A1 (en) * | 2002-12-10 | 2004-06-10 | Xerox Corporation | Method for automatic wrapper generation |
-
2004
- 2004-12-07 CN CNB2004101000594A patent/CN100432996C/zh not_active Expired - Fee Related
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100444174C (zh) * | 2006-09-25 | 2008-12-17 | 北京中搜在线软件有限公司 | 网页微内容提取、聚合和自动更新系统的方法 |
CN101237465B (zh) * | 2007-01-30 | 2010-11-03 | 中国科学院声学研究所 | 一种基于快速傅里叶变换的网页正文提取方法 |
CN101246481B (zh) * | 2007-02-16 | 2011-04-20 | 易搜比控股公司 | 使超文字标示语言网页转换成纯文字的方法及其系统 |
CN102460417B (zh) * | 2009-04-07 | 2015-07-29 | 弗里塞恩公司 | 域状态、作用和种类 |
CN102460417A (zh) * | 2009-04-07 | 2012-05-16 | 弗里塞恩公司 | 域状态、作用和种类 |
US9742723B2 (en) | 2009-04-22 | 2017-08-22 | Verisign, Inc. | Internet profile service |
US9292612B2 (en) | 2009-04-22 | 2016-03-22 | Verisign, Inc. | Internet profile service |
CN102375829A (zh) * | 2010-08-13 | 2012-03-14 | 富士通株式会社 | 识别网页节点类型的方法和装置 |
CN102541874B (zh) * | 2010-12-16 | 2013-11-06 | 中国移动通信集团公司 | 网页正文内容提取方法及装置 |
CN102541874A (zh) * | 2010-12-16 | 2012-07-04 | 中国移动通信集团公司 | 网页正文内容提取方法及装置 |
CN102004724A (zh) * | 2010-12-23 | 2011-04-06 | 哈尔滨工业大学 | 文档段落分割方法 |
CN102184239A (zh) * | 2011-05-16 | 2011-09-14 | 复旦大学 | Xml无线数据广播模式下基于访问概率的文档分片方法 |
CN103838728A (zh) * | 2012-11-21 | 2014-06-04 | 腾讯科技(深圳)有限公司 | 网页信息的处理方法及浏览器 |
CN103838728B (zh) * | 2012-11-21 | 2018-01-09 | 腾讯科技(深圳)有限公司 | 网页信息的处理方法及浏览器 |
CN104598462A (zh) * | 2013-10-30 | 2015-05-06 | 深圳市国信互联科技有限公司 | 提取结构化数据的方法及装置 |
CN104598462B (zh) * | 2013-10-30 | 2018-08-07 | 深圳市国信互联科技有限公司 | 提取结构化数据的方法及装置 |
CN106802899A (zh) * | 2015-11-26 | 2017-06-06 | 北京搜狗科技发展有限公司 | 网页正文抽取方法及装置 |
CN106855859A (zh) * | 2015-12-08 | 2017-06-16 | 北京搜狗科技发展有限公司 | 一种网页正文提取方法及装置 |
CN106855859B (zh) * | 2015-12-08 | 2020-11-10 | 北京搜狗科技发展有限公司 | 一种网页正文提取方法及装置 |
WO2017113645A1 (zh) * | 2015-12-30 | 2017-07-06 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
US10679051B2 (en) | 2015-12-30 | 2020-06-09 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting information |
CN107203527A (zh) * | 2016-03-16 | 2017-09-26 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
CN107203527B (zh) * | 2016-03-16 | 2019-06-28 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
CN108073588A (zh) * | 2016-11-09 | 2018-05-25 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
CN108073588B (zh) * | 2016-11-09 | 2021-07-30 | 北京国双科技有限公司 | 栏目信息提取方法和装置 |
WO2018210164A1 (zh) * | 2017-05-17 | 2018-11-22 | 中兴通讯股份有限公司 | 一种网页内容处理方法及装置、存储介质 |
US10970464B2 (en) | 2017-05-17 | 2021-04-06 | Zte Corporation | Method, device for processing webpage content and storage medium |
CN108959287A (zh) * | 2017-05-17 | 2018-12-07 | 中兴通讯股份有限公司 | 一种网页内容处理方法及装置、存储介质 |
CN108959287B (zh) * | 2017-05-17 | 2021-08-03 | 中兴通讯股份有限公司 | 一种网页内容处理方法及装置、存储介质 |
CN111931113A (zh) * | 2020-09-16 | 2020-11-13 | 深圳壹账通智能科技有限公司 | 一种数据清洗方法及相关设备 |
CN112230989A (zh) * | 2020-12-14 | 2021-01-15 | 北京智慧星光信息技术有限公司 | 网页频道导航栏提取方法、系统、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN100432996C (zh) | 2008-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1786947A (zh) | 基于网页页面布局提取网页核心内容的系统、方法和程序 | |
US8356045B2 (en) | Method to identify common structures in formatted text documents | |
JP4427500B2 (ja) | 意味解析装置、意味解析方法および意味解析プログラム | |
US9098581B2 (en) | Method for finding text reading order in a document | |
US7310773B2 (en) | Removal of extraneous text from electronic documents | |
CN1559044A (zh) | 信息解析方法以及装置 | |
JP2007233913A (ja) | 画像処理装置及びプログラム | |
US20080288309A1 (en) | Future technology projection supporting apparatus, method, program and method for providing a future technology projection supporting service | |
CN1577328A (zh) | 基于视觉的文档分割 | |
CN1991837A (zh) | 结构化文档处理装置和方法 | |
CN1924858A (zh) | 一种获取新词的方法、装置以及一种输入法系统 | |
CN1945599A (zh) | 图像处理装置,图像处理方法和计算机程序产品 | |
US7672958B2 (en) | Method and system to identify records that relate to a pre-defined context in a data set | |
US7853595B2 (en) | Method and apparatus for creating a tool for generating an index for a document | |
CN1650327A (zh) | 可训练可扩充的自动数据-知识转换器 | |
WO2021108038A1 (en) | Systems and methods for extracting and implementing document text according to predetermined formats | |
CN1629837A (zh) | 电子文档的处理、浏览及分类查询的方法、装置及其系统 | |
Carey et al. | HTML web content extraction using paragraph tags | |
CN1503164A (zh) | 信息处理装置、用于实现该信息处理装置的程序 | |
JP2007047974A (ja) | 情報抽出装置および情報抽出方法 | |
CN107590448A (zh) | 从文献中自动获取qtl数据的方法 | |
JP2010250439A (ja) | 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体 | |
CN107526795B (zh) | 知识库的构建方法及装置、存储介质、计算设备 | |
US20110270862A1 (en) | Information processing apparatus and information processing method | |
CN108733733B (zh) | 基于机器学习的生物医学文本分类方法、系统和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: IBM (CHINA) CO., LTD. Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORP. Effective date: 20101101 |
|
C41 | Transfer of patent application or patent right or utility model | ||
COR | Change of bibliographic data |
Free format text: CORRECT: ADDRESS; FROM: NEW YORK STATE, UNITED STATES TO: 201203 7/F, BUILDING 10, ZHANGJIANG INNOVATION PARK, NO.399, KEYUAN ROAD, HIGH-TECH PARK, ZHANGJIANG, PUDONG NEW DISTRICT, SHANGHAI |
|
TR01 | Transfer of patent right |
Effective date of registration: 20101101 Address after: 201203 Shanghai city Pudong New Area Keyuan Road No. 399 Zhang Jiang Zhang Jiang high tech Park Innovation Park 10 Building 7 layer Patentee after: International Business Machines (China) Co., Ltd. Address before: American New York Patentee before: International Business Machines Corp. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20081112 Termination date: 20171207 |