CN102254009A - 一种网页表格数据抽取的方法 - Google Patents
一种网页表格数据抽取的方法 Download PDFInfo
- Publication number
- CN102254009A CN102254009A CN2011102004554A CN201110200455A CN102254009A CN 102254009 A CN102254009 A CN 102254009A CN 2011102004554 A CN2011102004554 A CN 2011102004554A CN 201110200455 A CN201110200455 A CN 201110200455A CN 102254009 A CN102254009 A CN 102254009A
- Authority
- CN
- China
- Prior art keywords
- node
- unique attribute
- web page
- webpage
- location condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (3)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110200455 CN102254009B (zh) | 2011-07-15 | 2011-07-15 | 一种网页表格数据抽取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110200455 CN102254009B (zh) | 2011-07-15 | 2011-07-15 | 一种网页表格数据抽取的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102254009A true CN102254009A (zh) | 2011-11-23 |
CN102254009B CN102254009B (zh) | 2013-05-01 |
Family
ID=44981273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110200455 Active CN102254009B (zh) | 2011-07-15 | 2011-07-15 | 一种网页表格数据抽取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102254009B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609545A (zh) * | 2012-03-14 | 2012-07-25 | 福建榕基软件股份有限公司 | 树型结构中快速搜索定位树结点的方法 |
CN104036026A (zh) * | 2014-06-27 | 2014-09-10 | 吴涛军 | 存储和定位结构化文档选取内容的方法与系统 |
WO2015165412A1 (en) * | 2014-04-29 | 2015-11-05 | Tencent Technology (Shenzhen) Company Limited | Method for modifying webpage and apparatus for modifying webpage |
CN105094940A (zh) * | 2015-07-23 | 2015-11-25 | 天津橙子科技有限公司 | 针对HTMLElement的CSS选择器最短路径反查算法 |
CN106202348A (zh) * | 2016-07-04 | 2016-12-07 | 中山大学 | 一种网页表格信息抽取方法 |
CN106528063A (zh) * | 2015-09-11 | 2017-03-22 | 北京国双科技有限公司 | 网页数据获取的方法及装置 |
CN106776893A (zh) * | 2016-11-30 | 2017-05-31 | 浪潮通信信息系统有限公司 | 一种数据输出方法及装置 |
CN106777281A (zh) * | 2016-12-29 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 用于提高网络爬虫稳定性、可用性的数据处理方法及装置 |
CN107390974A (zh) * | 2017-07-21 | 2017-11-24 | 北京小米移动软件有限公司 | 用于网页调试的代码查找方法、装置及存储介质 |
CN108170987A (zh) * | 2018-01-23 | 2018-06-15 | 成都希盟科技有限公司 | 基于bim技术的pbs结构自动挂接方法 |
CN109783612A (zh) * | 2018-12-29 | 2019-05-21 | 上海智臻智能网络科技股份有限公司 | 报表数据定位方法及装置、存储介质、终端 |
CN110020247A (zh) * | 2017-12-22 | 2019-07-16 | 中移(苏州)软件技术有限公司 | 一种网页关键模块提取方法及装置 |
CN110188107A (zh) * | 2019-06-05 | 2019-08-30 | 北京神州泰岳软件股份有限公司 | 一种从表格中抽取信息的方法及装置 |
CN111125483A (zh) * | 2019-12-17 | 2020-05-08 | 湖南星汉数智科技有限公司 | 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质 |
CN111401010A (zh) * | 2020-03-25 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于机器学习的表格抽取方法 |
CN112328837A (zh) * | 2020-10-28 | 2021-02-05 | 北京鸿腾智能科技有限公司 | 数据展示方法、装置、设备及存储介质 |
CN113761121A (zh) * | 2021-04-30 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种结构化数据的知识抽取方法 |
CN113778606A (zh) * | 2021-11-11 | 2021-12-10 | 苏州万店掌软件技术有限公司 | 一种页面背景设置方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126370A1 (en) * | 2006-06-30 | 2008-05-29 | Feng Wang | Method and device for displaying a tree structure list with nodes having multiple lines of text |
CN101576891A (zh) * | 2008-05-05 | 2009-11-11 | 北京瑞佳晨科技有限公司 | 一种解析网页表格对象节点的方法 |
-
2011
- 2011-07-15 CN CN 201110200455 patent/CN102254009B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126370A1 (en) * | 2006-06-30 | 2008-05-29 | Feng Wang | Method and device for displaying a tree structure list with nodes having multiple lines of text |
CN101576891A (zh) * | 2008-05-05 | 2009-11-11 | 北京瑞佳晨科技有限公司 | 一种解析网页表格对象节点的方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609545A (zh) * | 2012-03-14 | 2012-07-25 | 福建榕基软件股份有限公司 | 树型结构中快速搜索定位树结点的方法 |
WO2015165412A1 (en) * | 2014-04-29 | 2015-11-05 | Tencent Technology (Shenzhen) Company Limited | Method for modifying webpage and apparatus for modifying webpage |
CN104036026A (zh) * | 2014-06-27 | 2014-09-10 | 吴涛军 | 存储和定位结构化文档选取内容的方法与系统 |
CN105094940A (zh) * | 2015-07-23 | 2015-11-25 | 天津橙子科技有限公司 | 针对HTMLElement的CSS选择器最短路径反查算法 |
CN105094940B (zh) * | 2015-07-23 | 2018-05-25 | 天津橙子科技有限公司 | 针对HTMLElement的CSS选择器最短路径反查方法 |
CN106528063A (zh) * | 2015-09-11 | 2017-03-22 | 北京国双科技有限公司 | 网页数据获取的方法及装置 |
CN106202348A (zh) * | 2016-07-04 | 2016-12-07 | 中山大学 | 一种网页表格信息抽取方法 |
CN106776893A (zh) * | 2016-11-30 | 2017-05-31 | 浪潮通信信息系统有限公司 | 一种数据输出方法及装置 |
CN106777281A (zh) * | 2016-12-29 | 2017-05-31 | 深圳市华傲数据技术有限公司 | 用于提高网络爬虫稳定性、可用性的数据处理方法及装置 |
CN107390974A (zh) * | 2017-07-21 | 2017-11-24 | 北京小米移动软件有限公司 | 用于网页调试的代码查找方法、装置及存储介质 |
CN110020247A (zh) * | 2017-12-22 | 2019-07-16 | 中移(苏州)软件技术有限公司 | 一种网页关键模块提取方法及装置 |
CN110020247B (zh) * | 2017-12-22 | 2021-05-14 | 中移(苏州)软件技术有限公司 | 一种网页关键模块提取方法及装置 |
CN108170987B (zh) * | 2018-01-23 | 2021-01-01 | 成都希盟泰克科技发展有限公司 | 基于bim技术的pbs结构自动挂接方法 |
CN108170987A (zh) * | 2018-01-23 | 2018-06-15 | 成都希盟科技有限公司 | 基于bim技术的pbs结构自动挂接方法 |
CN109783612B (zh) * | 2018-12-29 | 2020-12-29 | 上海智臻智能网络科技股份有限公司 | 报表数据定位方法及装置、存储介质、终端 |
CN109783612A (zh) * | 2018-12-29 | 2019-05-21 | 上海智臻智能网络科技股份有限公司 | 报表数据定位方法及装置、存储介质、终端 |
CN110188107B (zh) * | 2019-06-05 | 2020-05-01 | 中科鼎富(北京)科技发展有限公司 | 一种从表格中抽取信息的方法及装置 |
CN110188107A (zh) * | 2019-06-05 | 2019-08-30 | 北京神州泰岳软件股份有限公司 | 一种从表格中抽取信息的方法及装置 |
CN111125483A (zh) * | 2019-12-17 | 2020-05-08 | 湖南星汉数智科技有限公司 | 一种网页数据抽取模板的生成方法、装置、计算机装置及计算机可读存储介质 |
CN111401010A (zh) * | 2020-03-25 | 2020-07-10 | 苏州机数芯微科技有限公司 | 一种基于机器学习的表格抽取方法 |
CN111401010B (zh) * | 2020-03-25 | 2023-07-28 | 苏州机数芯微科技有限公司 | 一种基于机器学习的表格抽取方法 |
CN112328837A (zh) * | 2020-10-28 | 2021-02-05 | 北京鸿腾智能科技有限公司 | 数据展示方法、装置、设备及存储介质 |
CN113761121A (zh) * | 2021-04-30 | 2021-12-07 | 中科天玑数据科技股份有限公司 | 一种结构化数据的知识抽取方法 |
CN113778606A (zh) * | 2021-11-11 | 2021-12-10 | 苏州万店掌软件技术有限公司 | 一种页面背景设置方法、装置、设备及存储介质 |
CN113778606B (zh) * | 2021-11-11 | 2022-02-18 | 苏州万店掌软件技术有限公司 | 一种页面背景设置方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN102254009B (zh) | 2013-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102254009B (zh) | 一种网页表格数据抽取的方法 | |
CN101025738B (zh) | 一种免模板动态网站生成方法 | |
Liu et al. | Vide: A vision-based approach for deep web data extraction | |
CN102662969B (zh) | 一种基于网页结构语义的互联网信息对象定位方法 | |
CN101984434B (zh) | 基于可扩展标记语言查询的网页数据抽取方法 | |
CN102156737B (zh) | 一种中文网页主题内容的提取方法 | |
CN101937427B (zh) | 一种基于浏览器的内容编辑及发布的系统及方法 | |
CN101520798A (zh) | 基于垂直搜索和聚焦爬虫的网页分类技术 | |
CN104598462B (zh) | 提取结构化数据的方法及装置 | |
CN109857956B (zh) | 基于标签和分块特征的新闻网页关键信息自动抽取方法 | |
CN102270206A (zh) | 一种有效网页内容的抓取方法及装置 | |
CN102831121A (zh) | 一种网页信息抽取的方法和系统 | |
CN106021392A (zh) | 一种新闻关键信息的提取方法及系统 | |
US20120304051A1 (en) | Automation Tool for XML Based Pagination Process | |
CN106446072B (zh) | 网页内容的处理方法和装置 | |
CN106960058B (zh) | 一种网页结构变更检测方法及系统 | |
CN102253979A (zh) | 基于视觉的web页面萃取方法 | |
CN103514234A (zh) | 一种页面信息提取方法和装置 | |
CN101582074B (zh) | 一种DeepWeb响应页面数据抽取方法 | |
Huynh et al. | Enabling web browsers to augment web sites' filtering and sorting functionalities | |
CN102651002A (zh) | 一种网页信息抽取方法及其系统 | |
CN102682109B (zh) | 一种专利信息解析方法和装置 | |
CN102262658B (zh) | 一种基于实体的自底向上Web数据抽取方法 | |
CN104572934B (zh) | 一种基于dom的网页关键内容抽取方法 | |
CN110119423A (zh) | 一种可配置化的数据解析方法和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: FUJIAN STARNET E-VIDEO INFORMATION SYSTEM CO., LTD Effective date: 20130523 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20130523 Address after: Cangshan District of Fuzhou City, Fujian province 350000 Jinshan Road No. 618 juyuanzhou Ruijie Science Park building 19-22 Patentee after: Fujian Star-net Communication Co., Ltd. Patentee after: Fujian Starnet e-Video Information System Co., Ltd. Address before: Cangshan District of Fuzhou City, Fujian province 350000 Jinshan Road No. 618 juyuanzhou Ruijie Science Park building 19-22 Patentee before: Fujian Star-net Communication Co., Ltd. |
|
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20171027 Address after: Cangshan District of Fuzhou City, Fujian province 350000 Jinshan Road No. 618 juyuanzhou Ruijie Science Park building 19-22 Patentee after: Fujian Star-net Communication Co., Ltd. Address before: Cangshan District of Fuzhou City, Fujian province 350000 Jinshan Road No. 618 juyuanzhou Ruijie Science Park building 19-22 Co-patentee before: Fujian Starnet e-Video Information System Co., Ltd. Patentee before: Fujian Star-net Communication Co., Ltd. |