CN105630941A - 基于统计和网页结构的Web正文内容抽取方法 - Google Patents
基于统计和网页结构的Web正文内容抽取方法 Download PDFInfo
- Publication number
- CN105630941A CN105630941A CN201510977385.1A CN201510977385A CN105630941A CN 105630941 A CN105630941 A CN 105630941A CN 201510977385 A CN201510977385 A CN 201510977385A CN 105630941 A CN105630941 A CN 105630941A
- Authority
- CN
- China
- Prior art keywords
- text
- tag path
- text node
- node
- complete tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510977385.1A CN105630941B (zh) | 2015-12-23 | 2015-12-23 | 基于统计和网页结构的Web正文内容抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510977385.1A CN105630941B (zh) | 2015-12-23 | 2015-12-23 | 基于统计和网页结构的Web正文内容抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105630941A true CN105630941A (zh) | 2016-06-01 |
CN105630941B CN105630941B (zh) | 2018-11-06 |
Family
ID=56045874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510977385.1A Active CN105630941B (zh) | 2015-12-23 | 2015-12-23 | 基于统计和网页结构的Web正文内容抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105630941B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294722A (zh) * | 2016-08-09 | 2017-01-04 | 上海资誉网络科技有限公司 | 一种网页内容自动提取方法及装置 |
CN108920434A (zh) * | 2018-06-06 | 2018-11-30 | 武汉酷犬数据科技有限公司 | 一种通用的网页主题内容提取方法和系统 |
CN109165333A (zh) * | 2018-07-12 | 2019-01-08 | 电子科技大学 | 一种基于网页数据的高速主题爬虫方法 |
CN109271598A (zh) * | 2018-08-01 | 2019-01-25 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
CN109948015A (zh) * | 2017-09-26 | 2019-06-28 | 中国科学院信息工程研究所 | 一种元搜索列表结果抽取方法及系统 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
CN110245349A (zh) * | 2019-05-21 | 2019-09-17 | 武汉数博科技有限责任公司 | 一种句法依存分析方法、装置及一种电子设备 |
CN110390037A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
CN111177301A (zh) * | 2019-11-26 | 2020-05-19 | 云南电网有限责任公司昆明供电局 | 一种关键信息识别提取方法及系统 |
CN111241446A (zh) * | 2020-01-13 | 2020-06-05 | 杭州安恒信息技术股份有限公司 | 一种web网页的正文内容提取方法、装置、设备及介质 |
CN111339457A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 用于从网页抽取信息的方法和设备及存储介质 |
CN112328928A (zh) * | 2020-11-27 | 2021-02-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于结构序列的文本脉络抽取方法及系统 |
US10922366B2 (en) | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
CN112667940A (zh) * | 2020-10-15 | 2021-04-16 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
CN112765940A (zh) * | 2021-01-20 | 2021-05-07 | 南京万得资讯科技有限公司 | 一种基于主题特征和内容语义的新型网页去重方法 |
CN113378088A (zh) * | 2021-06-24 | 2021-09-10 | 中国电子信息产业集团有限公司第六研究所 | 一种网页正文抽取方法、装置、设备及存储介质 |
CN116881595A (zh) * | 2023-09-06 | 2023-10-13 | 江西顶易科技发展有限公司 | 一种可自定义的网页数据爬取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120059859A1 (en) * | 2009-11-25 | 2012-03-08 | Li-Mei Jiao | Data Extraction Method, Computer Program Product and System |
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
CN103246732A (zh) * | 2013-05-10 | 2013-08-14 | 合肥工业大学 | 一种在线Web新闻内容的抽取方法及系统 |
CN104462532A (zh) * | 2014-12-23 | 2015-03-25 | 北京奇虎科技有限公司 | 网页正文提取的方法和装置 |
-
2015
- 2015-12-23 CN CN201510977385.1A patent/CN105630941B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120059859A1 (en) * | 2009-11-25 | 2012-03-08 | Li-Mei Jiao | Data Extraction Method, Computer Program Product and System |
CN102760150A (zh) * | 2012-04-05 | 2012-10-31 | 中国人民解放军国防科学技术大学 | 基于属性重现和标签路径的网页抽取方法 |
CN103246732A (zh) * | 2013-05-10 | 2013-08-14 | 合肥工业大学 | 一种在线Web新闻内容的抽取方法及系统 |
CN104462532A (zh) * | 2014-12-23 | 2015-03-25 | 北京奇虎科技有限公司 | 网页正文提取的方法和装置 |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294722A (zh) * | 2016-08-09 | 2017-01-04 | 上海资誉网络科技有限公司 | 一种网页内容自动提取方法及装置 |
CN106294722B (zh) * | 2016-08-09 | 2019-11-22 | 上海资誉网络科技有限公司 | 一种网页内容自动提取方法及装置 |
CN109948015A (zh) * | 2017-09-26 | 2019-06-28 | 中国科学院信息工程研究所 | 一种元搜索列表结果抽取方法及系统 |
CN109948015B (zh) * | 2017-09-26 | 2023-10-03 | 中国科学院信息工程研究所 | 一种元搜索列表结果抽取方法及系统 |
CN110020302A (zh) * | 2017-11-16 | 2019-07-16 | 富士通株式会社 | 提取网页内容的方法和网页内容提取装置 |
US10922366B2 (en) | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
CN108920434A (zh) * | 2018-06-06 | 2018-11-30 | 武汉酷犬数据科技有限公司 | 一种通用的网页主题内容提取方法和系统 |
CN108920434B (zh) * | 2018-06-06 | 2022-08-30 | 武汉酷犬数据科技有限公司 | 一种通用的网页主题内容提取方法和系统 |
CN109165333A (zh) * | 2018-07-12 | 2019-01-08 | 电子科技大学 | 一种基于网页数据的高速主题爬虫方法 |
CN109271598A (zh) * | 2018-08-01 | 2019-01-25 | 数据地平线(广州)科技有限公司 | 一种抽取新闻网页内容的方法、装置及存储介质 |
CN111339457B (zh) * | 2018-12-18 | 2023-09-08 | 富士通株式会社 | 用于从网页抽取信息的方法和设备及存储介质 |
CN111339457A (zh) * | 2018-12-18 | 2020-06-26 | 富士通株式会社 | 用于从网页抽取信息的方法和设备及存储介质 |
CN110245349B (zh) * | 2019-05-21 | 2023-02-07 | 武汉数博科技有限责任公司 | 一种句法依存分析方法、装置及一种电子设备 |
CN110245349A (zh) * | 2019-05-21 | 2019-09-17 | 武汉数博科技有限责任公司 | 一种句法依存分析方法、装置及一种电子设备 |
CN110390037B (zh) * | 2019-07-25 | 2021-12-03 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
CN110390037A (zh) * | 2019-07-25 | 2019-10-29 | 中南民族大学 | 基于dom树的信息分类方法、装置、设备及存储介质 |
CN111177301B (zh) * | 2019-11-26 | 2023-05-26 | 云南电网有限责任公司昆明供电局 | 一种关键信息识别提取方法及系统 |
CN111177301A (zh) * | 2019-11-26 | 2020-05-19 | 云南电网有限责任公司昆明供电局 | 一种关键信息识别提取方法及系统 |
CN111241446A (zh) * | 2020-01-13 | 2020-06-05 | 杭州安恒信息技术股份有限公司 | 一种web网页的正文内容提取方法、装置、设备及介质 |
CN111241446B (zh) * | 2020-01-13 | 2023-10-31 | 杭州安恒信息技术股份有限公司 | 一种web网页的正文内容提取方法、装置、设备及介质 |
CN112667940B (zh) * | 2020-10-15 | 2022-02-18 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
CN112667940A (zh) * | 2020-10-15 | 2021-04-16 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
CN112328928A (zh) * | 2020-11-27 | 2021-02-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于结构序列的文本脉络抽取方法及系统 |
CN112765940A (zh) * | 2021-01-20 | 2021-05-07 | 南京万得资讯科技有限公司 | 一种基于主题特征和内容语义的新型网页去重方法 |
CN112765940B (zh) * | 2021-01-20 | 2024-04-19 | 南京万得资讯科技有限公司 | 一种基于主题特征和内容语义的网页去重方法 |
CN113378088A (zh) * | 2021-06-24 | 2021-09-10 | 中国电子信息产业集团有限公司第六研究所 | 一种网页正文抽取方法、装置、设备及存储介质 |
CN113378088B (zh) * | 2021-06-24 | 2024-01-19 | 中国电子信息产业集团有限公司第六研究所 | 一种网页正文抽取方法、装置、设备及存储介质 |
CN116881595A (zh) * | 2023-09-06 | 2023-10-13 | 江西顶易科技发展有限公司 | 一种可自定义的网页数据爬取方法 |
CN116881595B (zh) * | 2023-09-06 | 2023-12-15 | 江西顶易科技发展有限公司 | 一种可自定义的网页数据爬取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105630941B (zh) | 2018-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105630941B (zh) | 基于统计和网页结构的Web正文内容抽取方法 | |
CN102541874B (zh) | 网页正文内容提取方法及装置 | |
CN103853760B (zh) | 一种网页正文内容提取方法和装置 | |
CN102663023B (zh) | 一种提取网页内容的实现方法 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN105718586A (zh) | 分词的方法及装置 | |
CN110765235B (zh) | 训练数据的生成方法、装置、终端及可读介质 | |
US10528664B2 (en) | Preserving and processing ambiguity in natural language | |
CN101937438A (zh) | 网页内容提取方法和装置 | |
CN103714176A (zh) | 基于最大文本密度的网页正文抽取方法 | |
CN103927397A (zh) | 一种基于区块树的Web页面链接块的识别方法 | |
CN109165295B (zh) | 一种智能简历评估方法 | |
CN103810251A (zh) | 一种文本提取方法及装置 | |
CN101114281A (zh) | 开放式文档同构引擎系统 | |
CN114238575A (zh) | 文档解析方法、系统、计算机设备及计算机可读存储介质 | |
CN109657114B (zh) | 一种抽取网页半结构化数据的方法 | |
CN102117289A (zh) | 一种从网页中抽取评论内容的方法和装置 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
CN106528509B (zh) | 网页信息提取方法及装置 | |
CN106227770A (zh) | 一种智能化的新闻网页信息抽取方法 | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
CN108694192B (zh) | 网页类型的判断方法及装置 | |
CN110795933B (zh) | 一种网页正文的识别处理方法及装置 | |
Kim et al. | Main content extraction from web documents using text block context | |
CN105550279A (zh) | 基于视觉的列表页识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 610000 Chengdu Research Institute, University of Electronic Science and technology, Southwest Airlines Development Zone, Shuangliu, Chengdu, Sichuan Applicant after: Chengdu cloud Future Information Science Co., Ltd. Address before: 610041 Shuangliu County Chengdu Southwest Airlines Economic Development Zone, Sichuan, China Applicant before: CHENGDU DIANKE XINTONG JIEXIN TECHNOLOGY CO., LTD. |
|
CB02 | Change of applicant information | ||
CB03 | Change of inventor or designer information |
Inventor after: Sun Jian Inventor after: Lu Chuan Inventor after: Tang Luyang Inventor before: Sun Jian Inventor before: Tang Luyang |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20200617 Address after: 610000 Sichuan city of Chengdu province Tianfu Zheng Xing Shun Shing Street No. 172 Patentee after: Chengdu Tianfu cloud number information technology Co., Ltd Address before: 610000 Chengdu Research Institute, University of Electronic Science and technology, Southwest Airlines Development Zone, Shuangliu, Chengdu, Sichuan Patentee before: CHENGDU YUNSHU FUTURE INFORMATION SCIENCE Co.,Ltd. |
|
TR01 | Transfer of patent right |