CN109190003B - 用于确定列表页节点的方法与设备 - Google Patents
用于确定列表页节点的方法与设备 Download PDFInfo
- Publication number
- CN109190003B CN109190003B CN201810948818.4A CN201810948818A CN109190003B CN 109190003 B CN109190003 B CN 109190003B CN 201810948818 A CN201810948818 A CN 201810948818A CN 109190003 B CN109190003 B CN 109190003B
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- determining
- page
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000008030 elimination Effects 0.000 claims description 4
- 238000003379 elimination reaction Methods 0.000 claims description 4
- 241000270322 Lepidosauria Species 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (7)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948818.4A CN109190003B (zh) | 2018-08-20 | 2018-08-20 | 用于确定列表页节点的方法与设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810948818.4A CN109190003B (zh) | 2018-08-20 | 2018-08-20 | 用于确定列表页节点的方法与设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109190003A CN109190003A (zh) | 2019-01-11 |
CN109190003B true CN109190003B (zh) | 2021-03-02 |
Family
ID=64919025
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810948818.4A Active CN109190003B (zh) | 2018-08-20 | 2018-08-20 | 用于确定列表页节点的方法与设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109190003B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290626B (zh) * | 2023-11-23 | 2024-03-15 | 上海蜜度科技股份有限公司 | XPath生成方法、系统、存储介质及电子设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067521A (zh) * | 2013-01-08 | 2013-04-24 | 中国科学院声学研究所 | 一种分布式爬虫集群中的节点和系统 |
CN103136358A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN103399931A (zh) * | 2013-08-07 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 搜索结果的提供方法、终端和系统及渲染方法 |
CN103970898A (zh) * | 2014-05-27 | 2014-08-06 | 重庆大学 | 一种基于多级规则库的信息提取方法及装置 |
CN105912613A (zh) * | 2016-04-06 | 2016-08-31 | 江苏中威科技软件系统有限公司 | 一种网站模板快速迁移的方法 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN108090104A (zh) * | 2016-11-23 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN108416073A (zh) * | 2018-06-15 | 2018-08-17 | 中国联合网络通信集团有限公司 | 一种网络爬虫方法及系统 |
-
2018
- 2018-08-20 CN CN201810948818.4A patent/CN109190003B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103067521A (zh) * | 2013-01-08 | 2013-04-24 | 中国科学院声学研究所 | 一种分布式爬虫集群中的节点和系统 |
CN103136358A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 一种自动抽取论坛数据的方法 |
CN103177090A (zh) * | 2013-03-08 | 2013-06-26 | 亿赞普(北京)科技有限公司 | 一种基于大数据的话题检测方法及装置 |
CN103399931A (zh) * | 2013-08-07 | 2013-11-20 | 百度在线网络技术(北京)有限公司 | 搜索结果的提供方法、终端和系统及渲染方法 |
CN103970898A (zh) * | 2014-05-27 | 2014-08-06 | 重庆大学 | 一种基于多级规则库的信息提取方法及装置 |
CN105912613A (zh) * | 2016-04-06 | 2016-08-31 | 江苏中威科技软件系统有限公司 | 一种网站模板快速迁移的方法 |
CN108090104A (zh) * | 2016-11-23 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN107066569A (zh) * | 2017-04-07 | 2017-08-18 | 武汉大学 | 一种分布式网络爬虫系统及信息爬取的方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN108416073A (zh) * | 2018-06-15 | 2018-08-17 | 中国联合网络通信集团有限公司 | 一种网络爬虫方法及系统 |
Non-Patent Citations (1)
Title |
---|
"一种新的基于概念树的主题网络爬虫方法";谢志妮;《计算机与现代化》;20100415;第104-106页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109190003A (zh) | 2019-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8949242B1 (en) | Semantic document analysis | |
JP5864586B2 (ja) | 検索結果を順位付ける方法および装置 | |
US8898296B2 (en) | Detection of boilerplate content | |
CN108549569B (zh) | 一种搜索应用程序内信息的方法及设备 | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
JP2014519097A (ja) | アイテムを推薦する方法およびシステム | |
CN107885873B (zh) | 用于输出信息的方法和装置 | |
CN109359237B (zh) | 一种用于搜索寄宿程序的方法与设备 | |
US20130185429A1 (en) | Processing Store Visiting Data | |
US20130346439A1 (en) | Pushing Business Objects | |
US8639560B2 (en) | Brand analysis using interactions with search result items | |
US10073918B2 (en) | Classifying URLs | |
CN105302807A (zh) | 一种获取信息类别的方法和装置 | |
CN112231598A (zh) | 网页路径导航方法、装置、电子设备及存储介质 | |
CN110008393B (zh) | 一种用于获取网站信息的方法及设备 | |
CN111224923A (zh) | 一种仿冒网站的检测方法、装置及系统 | |
CN111368227A (zh) | 一种url处理方法以及装置 | |
CN109743309A (zh) | 一种非法请求识别方法、装置及电子设备 | |
CN109190003B (zh) | 用于确定列表页节点的方法与设备 | |
CN110110184B (zh) | 信息查询方法、系统、计算机系统及存储介质 | |
CN109213972B (zh) | 确定文档相似度的方法、装置、设备和计算机存储介质 | |
CN113792232B (zh) | 页面特征计算方法、装置、电子设备、介质及程序产品 | |
CN110895582A (zh) | 一种数据处理的方法和设备 | |
CN110555053B (zh) | 用于输出信息的方法和装置 | |
CN110059272B (zh) | 一种页面特征识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: Method and apparatus for determining list page node Effective date of registration: 20220824 Granted publication date: 20210302 Pledgee: China Minsheng Banking Corp Shanghai branch Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. Registration number: Y2022310000198 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PC01 | Cancellation of the registration of the contract for pledge of patent right |
Date of cancellation: 20230901 Granted publication date: 20210302 Pledgee: China Minsheng Banking Corp Shanghai branch Pledgor: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. Registration number: Y2022310000198 |
|
PC01 | Cancellation of the registration of the contract for pledge of patent right | ||
CP03 | Change of name, title or address |
Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204 Patentee after: Shanghai Mido Technology Co.,Ltd. Address before: 201800 room j71, 8 / F, 1112 Hanggui Road, Anting Town, Jiading District, Shanghai Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |