CN101727461B - 一种网页的正文抽取方法 - Google Patents
一种网页的正文抽取方法 Download PDFInfo
- Publication number
- CN101727461B CN101727461B CN2008102237919A CN200810223791A CN101727461B CN 101727461 B CN101727461 B CN 101727461B CN 2008102237919 A CN2008102237919 A CN 2008102237919A CN 200810223791 A CN200810223791 A CN 200810223791A CN 101727461 B CN101727461 B CN 101727461B
- Authority
- CN
- China
- Prior art keywords
- node
- paragraph
- increment
- text
- subtree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102237919A CN101727461B (zh) | 2008-10-13 | 2008-10-13 | 一种网页的正文抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2008102237919A CN101727461B (zh) | 2008-10-13 | 2008-10-13 | 一种网页的正文抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101727461A CN101727461A (zh) | 2010-06-09 |
CN101727461B true CN101727461B (zh) | 2012-11-21 |
Family
ID=42448361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008102237919A Active CN101727461B (zh) | 2008-10-13 | 2008-10-13 | 一种网页的正文抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101727461B (zh) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130155463A1 (en) * | 2010-07-30 | 2013-06-20 | Jian-Ming Jin | Method for selecting user desirable content from web pages |
US20130204867A1 (en) * | 2010-07-30 | 2013-08-08 | Hewlett-Packard Development Company, Lp. | Selection of Main Content in Web Pages |
CN102591881B (zh) * | 2011-01-17 | 2017-10-27 | 腾讯科技(深圳)有限公司 | 生成标签的方法和装置 |
CN102890681B (zh) * | 2011-07-20 | 2016-03-09 | 阿里巴巴集团控股有限公司 | 一种生成网页结构模板的方法及系统 |
CN102955796B (zh) * | 2011-08-16 | 2017-06-27 | 微软技术许可有限责任公司 | 基于频繁子树来导出记录模板的方法 |
CN102314520A (zh) * | 2011-10-24 | 2012-01-11 | 莫雅静 | 基于统计回溯定位的网页正文提取方法和装置 |
CN103150307B (zh) * | 2011-12-06 | 2016-02-10 | 株式会社理光 | 从网络中查找与主题词相关的名称的方法和设备 |
CN102591612B (zh) * | 2011-12-27 | 2014-12-03 | 厦门市美亚柏科信息股份有限公司 | 一种基于标点连续性的通用网页正文提取方法及其系统 |
CN103136312B (zh) * | 2011-12-27 | 2016-08-31 | 北京麦克斯泰科技有限公司 | 一种新闻网页内容的抽取方法 |
CN103116592A (zh) * | 2012-01-13 | 2013-05-22 | 昆山麦克斯泰科技有限公司 | 一种网页内容的格式化输出方法 |
CN103853760B (zh) * | 2012-12-03 | 2017-05-03 | 中国移动通信集团公司 | 一种网页正文内容提取方法和装置 |
CN103198118B (zh) * | 2013-04-01 | 2017-06-16 | 清华大学 | 一种商品网页回溯方法及系统 |
CN103530429B (zh) * | 2013-11-04 | 2017-01-18 | 北京中搜网络技术股份有限公司 | 一种网页正文抽取的方法 |
CN103778200B (zh) * | 2014-01-09 | 2017-08-08 | 中国科学院计算技术研究所 | 一种报文信息源抽取方法及其系统 |
CN104951302A (zh) * | 2015-06-11 | 2015-09-30 | 广州神马移动信息科技有限公司 | 网页渲染方法及装置 |
CN105022803B (zh) * | 2015-07-01 | 2018-05-15 | 广州市万隆证券咨询顾问有限公司 | 一种提取网页正文内容的方法及系统 |
CN105354292A (zh) * | 2015-10-30 | 2016-02-24 | 东莞酷派软件技术有限公司 | 一种页面输出方法及装置 |
CN107203527B (zh) * | 2016-03-16 | 2019-06-28 | 北大方正集团有限公司 | 新闻网页的正文抽取方法和系统 |
CN108228676B (zh) | 2016-12-22 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 信息抽取方法和系统 |
CN107229668B (zh) * | 2017-03-07 | 2020-04-21 | 桂林电子科技大学 | 一种基于关键词匹配的正文抽取方法 |
CN108664522A (zh) * | 2017-04-01 | 2018-10-16 | 优信互联(北京)信息技术有限公司 | 网页处理方法及装置 |
CN106960057A (zh) * | 2017-04-05 | 2017-07-18 | 上海威固信息技术有限公司 | 一种基于信息密度提取网页正文的方法 |
CN108509469A (zh) * | 2017-05-17 | 2018-09-07 | 苏州纯青智能科技有限公司 | 一种基于分块的网页正文信息提取方法 |
CN109766524B (zh) * | 2018-12-28 | 2022-11-25 | 重庆邮电大学 | 一种并购重组类公告信息抽取方法及系统 |
CN112667874A (zh) * | 2020-12-23 | 2021-04-16 | 深圳壹账通智能科技有限公司 | 网页的数据抽取方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100442278C (zh) * | 2003-09-18 | 2008-12-10 | 富士通株式会社 | 网页信息块提取方法和装置 |
CN101035128B (zh) * | 2007-04-18 | 2010-04-21 | 大连理工大学 | 基于中文标点符号的三重网页文本内容识别及过滤方法 |
CN101197849B (zh) * | 2007-12-21 | 2012-10-03 | 腾讯科技(深圳)有限公司 | 将互联网页面转换为无线应用协议页面的转换方法 |
-
2008
- 2008-10-13 CN CN2008102237919A patent/CN101727461B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN101727461A (zh) | 2010-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101727461B (zh) | 一种网页的正文抽取方法 | |
CN101361063B (zh) | 支持基于规则的文档内容挖掘的系统与方法 | |
US8255793B2 (en) | Automatic visual segmentation of webpages | |
US20150067476A1 (en) | Title and body extraction from web page | |
WO2017113645A1 (zh) | 信息提取方法和装置 | |
CN104598577B (zh) | 一种网页正文的提取方法 | |
CN109543126B (zh) | 基于块文字占比的网页正文信息提取方法 | |
US20090248707A1 (en) | Site-specific information-type detection methods and systems | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN103544210A (zh) | 一种识别网页类型的系统和方法 | |
CN101251855A (zh) | 一种互联网网页清洗方法、系统及设备 | |
CN102663023A (zh) | 一种提取网页内容的实现方法 | |
CN102298638A (zh) | 使用网页标签聚类提取新闻网页内容的方法和系统 | |
CN103714176A (zh) | 基于最大文本密度的网页正文抽取方法 | |
CN110390038A (zh) | 基于dom树的页面分块方法、装置、设备及存储介质 | |
CN101246494A (zh) | 一种互联网网页转换方法、系统及设备 | |
CN107590288B (zh) | 用于抽取网页图文块的方法和装置 | |
CN104317786A (zh) | 一种文本段落切片方法及系统 | |
CN104217036A (zh) | 一种网页内容提取方法和设备 | |
CN102117289A (zh) | 一种从网页中抽取评论内容的方法和装置 | |
CN103049536A (zh) | 提取网页正文内容的方法和系统 | |
CN106777259A (zh) | 自适应抽取HTML Table标签中结构化信息的方法及装置 | |
CN115270723A (zh) | Pdf文档拆分方法、装置、设备及存储介质 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN101996190B (zh) | 一种从网页中抽取信息的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C53 | Correction of patent for invention or patent application | ||
CB03 | Change of inventor or designer information |
Inventor after: Guo Yan Inventor after: Ding Guodong Inventor after: Zhang Gang Inventor after: Cheng Xueqi Inventor before: Guo Yan Inventor before: Ding Guodong Inventor before: Zhang Gang |
|
COR | Change of bibliographic data |
Free format text: CORRECT: INVENTOR; FROM: GUO YAN DING GUODONG ZHANG GANG TO: GUO YAN DING GUODONG ZHANG GANG CHENG XUEQI |
|
EE01 | Entry into force of recordation of patent licensing contract | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20100609 Assignee: Branch DNT data Polytron Technologies Inc Assignor: Institute of Computing Technology, Chinese Academy of Sciences Contract record no.: 2018110000033 Denomination of invention: Method for extracting content of web page Granted publication date: 20121121 License type: Common License Record date: 20180807 |