CN109190003A - 用于确定列表页节点的方法与设备 - Google Patents
用于确定列表页节点的方法与设备 Download PDFInfo
- Publication number
- CN109190003A CN109190003A CN201810948818.4A CN201810948818A CN109190003A CN 109190003 A CN109190003 A CN 109190003A CN 201810948818 A CN201810948818 A CN 201810948818A CN 109190003 A CN109190003 A CN 109190003A
- Authority
- CN
- China
- Prior art keywords
- node
- content pages
- junior
- list page
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000009877 rendering Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 235000008331 Pinus X rigitaeda Nutrition 0.000 description 2
- 235000011613 Pinus brutia Nutrition 0.000 description 2
- 241000018646 Pinus brutia Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004064 recycling Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948818.4A CN109190003B (zh) | 2018-08-20 | 2018-08-20 | 用于确定列表页节点的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948818.4A CN109190003B (zh) | 2018-08-20 | 2018-08-20 | 用于确定列表页节点的方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190003A true CN109190003A (zh) | 2019-01-11 |
CN109190003B CN109190003B (zh) | 2021-03-02 |
Family
ID=64919025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810948818.4A Active CN109190003B (zh) | 2018-08-20 | 2018-08-20 | 用于确定列表页节点的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190003B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290626A (zh) * | 2023-11-23 | 2023-12-26 | 上海蜜度科技股份有限公司 | XPath生成方法、系统、存储介质及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067521A (zh) * | 2013-01-08 | 2013-04-24 | 中国科学院声学研究所 | 一种分布式爬虫集群中的节点和系统 |
CN103136358A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN103399931A (zh) * | 2013-08-07 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 搜索结果的提供方法、终端和系统及渲染方法 |
CN103970898A (zh) * | 2014-05-27 | 2014-08-06 | 重庆大学 | 一种基于多级规则库的信息提取方法及装置 |
CN105912613A (zh) * | 2016-04-06 | 2016-08-31 | 江苏中威科技软件系统有限公司 | 一种网站模板快速迁移的方法 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN108090104A (zh) * | 2016-11-23 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN108416073A (zh) * | 2018-06-15 | 2018-08-17 | 中国联合网络通信集团有限公司 | 一种网络爬虫方法及系统 |
-
2018
- 2018-08-20 CN CN201810948818.4A patent/CN109190003B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067521A (zh) * | 2013-01-08 | 2013-04-24 | 中国科学院声学研究所 | 一种分布式爬虫集群中的节点和系统 |
CN103136358A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN103399931A (zh) * | 2013-08-07 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 搜索结果的提供方法、终端和系统及渲染方法 |
CN103970898A (zh) * | 2014-05-27 | 2014-08-06 | 重庆大学 | 一种基于多级规则库的信息提取方法及装置 |
CN105912613A (zh) * | 2016-04-06 | 2016-08-31 | 江苏中威科技软件系统有限公司 | 一种网站模板快速迁移的方法 |
CN108090104A (zh) * | 2016-11-23 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN108416073A (zh) * | 2018-06-15 | 2018-08-17 | 中国联合网络通信集团有限公司 | 一种网络爬虫方法及系统 |
Non-Patent Citations (1)
Title |
---|
谢志妮: ""一种新的基于概念树的主题网络爬虫方法"", 《计算机与现代化》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290626A (zh) * | 2023-11-23 | 2023-12-26 | 上海蜜度科技股份有限公司 | XPath生成方法、系统、存储介质及电子设备 |
CN117290626B (zh) * | 2023-11-23 | 2024-03-15 | 上海蜜度科技股份有限公司 | XPath生成方法、系统、存储介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109190003B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104090886B (zh) | 构建用户实时画像的方法及装置 | |
US9734149B2 (en) | Clustering repetitive structure of asynchronous web application content | |
CN103279538B (zh) | 预加载访问网站中网页的服务器、浏览器客户端和方法 | |
US10346496B2 (en) | Information category obtaining method and apparatus | |
US8332379B2 (en) | System and method for identifying content sensitive authorities from very large scale networks | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
CN102171689A (zh) | 响应于搜索查询提供针对讨论话题的帖子 | |
CN108304410A (zh) | 一种异常访问页面的检测方法、装置及数据分析方法 | |
US10073918B2 (en) | Classifying URLs | |
CN108415941A (zh) | 一种网页爬虫方法、装置以及电子设备 | |
US8639559B2 (en) | Brand analysis using interactions with search result items | |
CN102375847B (zh) | 形成用于生成文档模板的合并树的方法以及装置 | |
CN109743309A (zh) | 一种非法请求识别方法、装置及电子设备 | |
CN104166545B (zh) | 一种网页资源的嗅探方法以及装置 | |
CN110008393B (zh) | 一种用于获取网站信息的方法及设备 | |
CN108154024A (zh) | 一种数据检索方法、装置及电子设备 | |
CN106033444B (zh) | 文本内容的聚类方法和装置 | |
CN109190003A (zh) | 用于确定列表页节点的方法与设备 | |
CN106230988A (zh) | 一种视频文件播放处理方法及装置 | |
CN113792232B (zh) | 页面特征计算方法、装置、电子设备、介质及程序产品 | |
US20160092595A1 (en) | Systems And Methods For Processing Graphs | |
CN110110182A (zh) | 一种适用于批量爬取的数据采集方法及系统 | |
CN105447020A (zh) | 一种确定业务对象关键词的方法及装置 | |
TW201828193A (zh) | 一種用戶群體的劃分方法和裝置 | |
CN109726196B (zh) | 一种数据清洗方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Method and apparatus for determining list page node Effective date of registration: 20220824 Granted publication date: 20210302 Pledgee: China Minsheng Banking Corp Shanghai branch Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. Registration number: Y2022310000198 |
|
PC01 | Cancellation of the registration of the contract for pledge of patent right | ||
PC01 | Cancellation of the registration of the contract for pledge of patent right |
Date of cancellation: 20230901 Granted publication date: 20210302 Pledgee: China Minsheng Banking Corp Shanghai branch Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. Registration number: Y2022310000198 |
|
CP03 | Change of name, title or address | ||
CP03 | Change of name, title or address |
Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204 Patentee after: Shanghai Mido Technology Co.,Ltd. Address before: 201800 room j71, 8 / F, 1112 Hanggui Road, Anting Town, Jiading District, Shanghai Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |