CN101957816A - 基于多页面比较的网页元数据自动抽取方法和系统 - Google Patents
基于多页面比较的网页元数据自动抽取方法和系统 Download PDFInfo
- Publication number
- CN101957816A CN101957816A CN2009100547012A CN200910054701A CN101957816A CN 101957816 A CN101957816 A CN 101957816A CN 2009100547012 A CN2009100547012 A CN 2009100547012A CN 200910054701 A CN200910054701 A CN 200910054701A CN 101957816 A CN101957816 A CN 101957816A
- Authority
- CN
- China
- Prior art keywords
- metadata
- page
- template
- webpage
- token
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 21
- 230000014509 gene expression Effects 0.000 claims abstract description 46
- 238000009795 derivation Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 15
- 239000003550 marker Substances 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 230000008676 import Effects 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 4
- 238000013075 data extraction Methods 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000000034 method Methods 0.000 description 21
- 230000008569 process Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 8
- 230000008878 coupling Effects 0.000 description 5
- 238000010168 coupling process Methods 0.000 description 5
- 238000005859 coupling reaction Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 206010003830 Automatism Diseases 0.000 description 2
- 241000270322 Lepidosauria Species 0.000 description 2
- 241000272525 Anas platyrhynchos Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000019788 craving Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000014347 soups Nutrition 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Abstract
Description
Claims (9)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910054701 CN101957816B (zh) | 2009-07-13 | 2009-07-13 | 基于多页面比较的网页元数据自动抽取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200910054701 CN101957816B (zh) | 2009-07-13 | 2009-07-13 | 基于多页面比较的网页元数据自动抽取方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101957816A true CN101957816A (zh) | 2011-01-26 |
CN101957816B CN101957816B (zh) | 2013-03-20 |
Family
ID=43485149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200910054701 Expired - Fee Related CN101957816B (zh) | 2009-07-13 | 2009-07-13 | 基于多页面比较的网页元数据自动抽取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101957816B (zh) |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222310A (zh) * | 2011-07-18 | 2011-10-19 | 深圳证券信息有限公司 | 证券信息发布方法和平台 |
CN102819597A (zh) * | 2012-08-13 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
CN102968466A (zh) * | 2012-11-09 | 2013-03-13 | 同济大学 | 基于网页分类的索引网络构建方法及其索引网构建器 |
CN103544176A (zh) * | 2012-07-13 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 用于生成多个页面所对应的页面结构模板的方法和设备 |
CN103870567A (zh) * | 2014-03-11 | 2014-06-18 | 浪潮集团有限公司 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
CN103914523A (zh) * | 2014-03-24 | 2014-07-09 | 小米科技有限责任公司 | 页面回退控制方法及装置 |
CN104317948A (zh) * | 2014-11-05 | 2015-01-28 | 北京中科辅龙信息技术有限公司 | 页面数据抓取方法和系统 |
CN104424334A (zh) * | 2013-09-11 | 2015-03-18 | 方正信息产业控股有限公司 | Xml文档节点的构建方法和装置 |
CN105144080A (zh) * | 2013-03-15 | 2015-12-09 | 起元技术有限责任公司 | 用于元数据管理的系统 |
CN105335516A (zh) * | 2015-11-04 | 2016-02-17 | 浪潮软件集团有限公司 | 一种通用采集系统的构建方法 |
CN105653531A (zh) * | 2014-11-12 | 2016-06-08 | 中兴通讯股份有限公司 | 数据提取方法及装置 |
CN105955984A (zh) * | 2016-04-19 | 2016-09-21 | 中国银联股份有限公司 | 基于爬虫模式的网络数据搜索方法 |
CN106716403A (zh) * | 2014-07-01 | 2017-05-24 | 埃夫里蒙多有限责任公司 | 网站入口页面的自动生成 |
US9679076B2 (en) | 2014-03-24 | 2017-06-13 | Xiaomi Inc. | Method and device for controlling page rollback |
CN107092689A (zh) * | 2017-04-24 | 2017-08-25 | 深圳市茁壮网络股份有限公司 | 元数据生成方法及系统 |
CN107992556A (zh) * | 2017-11-28 | 2018-05-04 | 福建中金在线信息科技有限公司 | 一种站点管理方法、装置、电子设备以及存储介质 |
CN108090080A (zh) * | 2016-11-22 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 用于替换解析模板的方法与系统及爬取方法 |
US10108590B2 (en) | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
CN108763279A (zh) * | 2018-04-11 | 2018-11-06 | 北京中科闻歌科技股份有限公司 | 一种网页数据分布式模板采集方法及系统 |
CN109445784A (zh) * | 2018-09-29 | 2019-03-08 | Oppo广东移动通信有限公司 | 结构数据的处理方法、装置、存储介质及电子设备 |
CN111125565A (zh) * | 2019-11-01 | 2020-05-08 | 上海掌门科技有限公司 | 一种在应用中输入信息的方法与设备 |
CN111125589A (zh) * | 2018-10-31 | 2020-05-08 | 北大方正集团有限公司 | 数据采集方法及装置、计算机可读存储介质 |
CN111460442A (zh) * | 2020-04-24 | 2020-07-28 | 怀化学院 | 一种基于互联网交叉搜索缺陷的攻击检测方法 |
CN112035722A (zh) * | 2020-08-04 | 2020-12-04 | 北京启明星辰信息安全技术有限公司 | 提取动态网页信息的方法、装置及计算机可读存储介质 |
CN116702702A (zh) * | 2023-04-14 | 2023-09-05 | 北京雅昌艺术印刷有限公司 | 一种基于xml的自动排版方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101404666A (zh) * | 2008-10-06 | 2009-04-08 | 赵洪宇 | 一种基于Web页无限层采集方法 |
CN101464905B (zh) * | 2009-01-08 | 2011-03-23 | 中国科学院计算技术研究所 | 一种网页信息抽取的系统及方法 |
-
2009
- 2009-07-13 CN CN 200910054701 patent/CN101957816B/zh not_active Expired - Fee Related
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102222310A (zh) * | 2011-07-18 | 2011-10-19 | 深圳证券信息有限公司 | 证券信息发布方法和平台 |
CN103544176A (zh) * | 2012-07-13 | 2014-01-29 | 百度在线网络技术(北京)有限公司 | 用于生成多个页面所对应的页面结构模板的方法和设备 |
CN103544176B (zh) * | 2012-07-13 | 2018-08-10 | 百度在线网络技术(北京)有限公司 | 用于生成多个页面所对应的页面结构模板的方法和设备 |
CN102819597B (zh) * | 2012-08-13 | 2015-04-22 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
CN102819597A (zh) * | 2012-08-13 | 2012-12-12 | 北京星网锐捷网络技术有限公司 | 网页分类方法及设备 |
CN102968466A (zh) * | 2012-11-09 | 2013-03-13 | 同济大学 | 基于网页分类的索引网络构建方法及其索引网构建器 |
CN102968466B (zh) * | 2012-11-09 | 2016-05-18 | 同济大学 | 基于网页分类的索引网络构建方法及其索引网构建器 |
CN105144080A (zh) * | 2013-03-15 | 2015-12-09 | 起元技术有限责任公司 | 用于元数据管理的系统 |
US10108591B2 (en) | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
US10108590B2 (en) | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
CN104424334A (zh) * | 2013-09-11 | 2015-03-18 | 方正信息产业控股有限公司 | Xml文档节点的构建方法和装置 |
CN103870567A (zh) * | 2014-03-11 | 2014-06-18 | 浪潮集团有限公司 | 一种云计算中垂直搜索引擎网页采集模板自动识别方法 |
CN103914523A (zh) * | 2014-03-24 | 2014-07-09 | 小米科技有限责任公司 | 页面回退控制方法及装置 |
US9679076B2 (en) | 2014-03-24 | 2017-06-13 | Xiaomi Inc. | Method and device for controlling page rollback |
CN106716403A (zh) * | 2014-07-01 | 2017-05-24 | 埃夫里蒙多有限责任公司 | 网站入口页面的自动生成 |
CN104317948A (zh) * | 2014-11-05 | 2015-01-28 | 北京中科辅龙信息技术有限公司 | 页面数据抓取方法和系统 |
CN105653531B (zh) * | 2014-11-12 | 2020-02-07 | 中兴通讯股份有限公司 | 数据提取方法及装置 |
CN105653531A (zh) * | 2014-11-12 | 2016-06-08 | 中兴通讯股份有限公司 | 数据提取方法及装置 |
CN105335516A (zh) * | 2015-11-04 | 2016-02-17 | 浪潮软件集团有限公司 | 一种通用采集系统的构建方法 |
CN105955984A (zh) * | 2016-04-19 | 2016-09-21 | 中国银联股份有限公司 | 基于爬虫模式的网络数据搜索方法 |
CN108090080A (zh) * | 2016-11-22 | 2018-05-29 | 北京京东尚科信息技术有限公司 | 用于替换解析模板的方法与系统及爬取方法 |
CN107092689A (zh) * | 2017-04-24 | 2017-08-25 | 深圳市茁壮网络股份有限公司 | 元数据生成方法及系统 |
CN107992556B (zh) * | 2017-11-28 | 2020-08-21 | 福建中金在线信息科技有限公司 | 一种站点管理方法、装置、电子设备以及存储介质 |
CN107992556A (zh) * | 2017-11-28 | 2018-05-04 | 福建中金在线信息科技有限公司 | 一种站点管理方法、装置、电子设备以及存储介质 |
CN108763279A (zh) * | 2018-04-11 | 2018-11-06 | 北京中科闻歌科技股份有限公司 | 一种网页数据分布式模板采集方法及系统 |
CN109445784A (zh) * | 2018-09-29 | 2019-03-08 | Oppo广东移动通信有限公司 | 结构数据的处理方法、装置、存储介质及电子设备 |
CN109445784B (zh) * | 2018-09-29 | 2020-08-14 | Oppo广东移动通信有限公司 | 结构数据的处理方法、装置、存储介质及电子设备 |
CN111125589A (zh) * | 2018-10-31 | 2020-05-08 | 北大方正集团有限公司 | 数据采集方法及装置、计算机可读存储介质 |
CN111125589B (zh) * | 2018-10-31 | 2023-09-05 | 新方正控股发展有限责任公司 | 数据采集方法及装置、计算机可读存储介质 |
CN111125565A (zh) * | 2019-11-01 | 2020-05-08 | 上海掌门科技有限公司 | 一种在应用中输入信息的方法与设备 |
CN111460442A (zh) * | 2020-04-24 | 2020-07-28 | 怀化学院 | 一种基于互联网交叉搜索缺陷的攻击检测方法 |
CN112035722A (zh) * | 2020-08-04 | 2020-12-04 | 北京启明星辰信息安全技术有限公司 | 提取动态网页信息的方法、装置及计算机可读存储介质 |
CN112035722B (zh) * | 2020-08-04 | 2023-10-13 | 北京启明星辰信息安全技术有限公司 | 提取动态网页信息的方法、装置及计算机可读存储介质 |
CN116702702A (zh) * | 2023-04-14 | 2023-09-05 | 北京雅昌艺术印刷有限公司 | 一种基于xml的自动排版方法及系统 |
CN116702702B (zh) * | 2023-04-14 | 2024-02-13 | 北京雅昌艺术印刷有限公司 | 一种基于xml的自动排版方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101957816B (zh) | 2013-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101957816B (zh) | 基于多页面比较的网页元数据自动抽取方法和系统 | |
CN103823824B (zh) | 一种借助互联网自动构建文本分类语料库的方法及系统 | |
CN101464905B (zh) | 一种网页信息抽取的系统及方法 | |
US6606625B1 (en) | Wrapper induction by hierarchical data analysis | |
CN103136360B (zh) | 一种互联网行为标注引擎及对应该引擎的行为标注方法 | |
US7739257B2 (en) | Search engine | |
Peters et al. | Content extraction using diverse feature sets | |
CN101908071B (zh) | 一种提高搜索引擎搜索效率的方法及其系统 | |
CN101727498A (zh) | 一种基于web结构的网页信息自动提取方法 | |
CN103559234B (zh) | RESTful Web服务的自动化语义标注系统和方法 | |
Zheng et al. | Template-independent news extraction based on visual consistency | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
Pol et al. | A survey on web content mining and extraction of structured and semistructured data | |
CN103294820B (zh) | 基于语义扩展的web页面归类方法和系统 | |
CN108733813A (zh) | 面向bbs论坛网页内容的信息提取方法、系统及介质 | |
Omari et al. | Cross-supervised synthesis of web-crawlers | |
Furche et al. | Real understanding of real estate forms | |
Arya et al. | Content extraction from news web pages using tag tree | |
Furche et al. | Turn the page: automated traversal of paginated websites | |
Chavan et al. | A methodology for extracting head contents from meaningful tables in web pages | |
Furche et al. | Amber: Automatic supervision for multi-attribute extraction | |
Chuang et al. | Tree-structured template generation for web pages | |
Lim et al. | Generalized and lightweight algorithms for automated web forum content extraction | |
Kolkur et al. | Web Data Extraction Using Tree Structure Algorithms-A Comparison | |
Mane et al. | Template extraction from heterogeneous web pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: SHANGHAI HUAYAN PROPERTY DEVELOPMENT CO., LTD. Free format text: FORMER OWNER: SHANGHAI XIEYU NETWORK TECHNOLOGY CO., LTD. Effective date: 20110810 |
|
C41 | Transfer of patent application or patent right or utility model | ||
COR | Change of bibliographic data |
Free format text: CORRECT: ADDRESS; FROM: 200434 HONGKOU, SHANGHAI TO: 200052 CHANGNING, SHANGHAI |
|
TA01 | Transfer of patent application right |
Effective date of registration: 20110810 Address after: 16, Biology Building, No. 1326,, Shanghai, West Yan'an Road Applicant after: Shanghai Huayan House Development Co., Ltd. Address before: 200434 Shanghai city Jipu road 375 Lane 34, room 103 Applicant before: Shanghai Xieyu Network Technology Co., Ltd. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee |
Owner name: SHANGHAI HUAYAN FANGMENG NETWORK TECHNOLOGY CO., L Free format text: FORMER NAME: SHANGHAI HUAYAN PROPERTY DEVELOPMENT CO., LTD. |
|
CP03 | Change of name, title or address |
Address after: 200052, Changning District, West Yan'an Road, No. 16, building 1326, Shanghai Patentee after: Shanghai Huayan real NSFocus network Polytron Technologies Inc Address before: 16, Biology Building, No. 1326,, Shanghai, West Yan'an Road Patentee before: Shanghai Huayan House Development Co., Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130320 Termination date: 20180713 |