CN112711690A - 获取专题页面链接方法、系统和存储介质 - Google Patents
获取专题页面链接方法、系统和存储介质 Download PDFInfo
- Publication number
- CN112711690A CN112711690A CN202011584688.4A CN202011584688A CN112711690A CN 112711690 A CN112711690 A CN 112711690A CN 202011584688 A CN202011584688 A CN 202011584688A CN 112711690 A CN112711690 A CN 112711690A
- Authority
- CN
- China
- Prior art keywords
- current menu
- obtaining
- data
- thematic page
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 230000009193 crawling Effects 0.000 description 6
- 230000000699 topical effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 210000001503 joint Anatomy 0.000 description 1
- NHDHVHZZCFYRSB-UHFFFAOYSA-N pyriproxyfen Chemical compound C=1C=CC=NC=1OC(C)COC(C=C1)=CC=C1OC1=CC=CC=C1 NHDHVHZZCFYRSB-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了获取专题页面链接方法、系统和存储介质,其中,该方法包括如下步骤:获取专题页面的所有菜单和对应菜单的代码;依据任一菜单的对应代码获取当前菜单的布局数据;依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接;本发明的获取专题页面链接方法能够根据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,以接入不同类型的接口,从而面快速适应新接口以获取多类型的专题页面链接,有效提升专题页面链接的获取效率。
Description
技术领域
本发明涉及页面爬虫扫描获取链接的方案领域,尤其涉及获取专题页面链接方法、系统和存储介质。
背景技术
随着专题页面的业务形态的快速发展,专题页面的接口类型也发生了更新迭代。现有的诸如千牛卫系统等扫描系统是通过对接旧接口来获取专题页面链接的,而扫描系统的核心数据源就是如何获取投放在APP、小程序或者其他诸如唯品会旗下的APP内的专题链接。受限于现有技术,现有的扫描系统无法很好的对接新接口,现有的扫描系统需要针对每一种类型的新接口进行调整以重新匹配新接口,而由于新接口的类型会随着专题页面的业务形态的发展而不断迭代,因此,现有的扫描系统无法针对专题页面快速适应新接口以获取多类型的专题页面链接,大大限制了运营位的参数获取,制约了专题页面的进一步发展。
发明内容
本发明的目的是提供一种获取专题页面链接方法,能够根据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,以接入不同类型的接口,从而面快速适应新接口以获取多类型的专题页面链接,有效提升专题页面链接的获取效率。
本发明的又一目的是提供一种获取专题页面链接系统,能够根据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,以接入不同类型的接口,从而面快速适应新接口以获取多类型的专题页面链接,有效提升专题页面链接的获取效率。
本发明的再一目的是提供一种存储介质,能够根据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,以接入不同类型的接口,从而面快速适应新接口以获取多类型的专题页面链接,有效提升专题页面链接的获取效率。
为了实现上有目的,本发明公开了一种获取专题页面链接方法,其包括如下步骤:
S1、获取专题页面的所有菜单和对应菜单的代码;
S2、依据任一菜单的对应代码获取当前菜单的布局数据;
S3、依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接。
与现有技术相比,本发明的获取专题页面链接方法能够根据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,以接入不同类型的接口,从而面快速适应新接口以获取多类型的专题页面链接,有效提升专题页面链接的获取效率,依次完成所有菜单的专题页面链接的获取,即可得到该专题页面的全部专题页面链接。
较佳地,所述步骤(3)具体包括:
S31、分析当前菜单的布局数据的数据类型;
S32、依据当前菜单的布局数据的不同数据类型分别解析当前菜单对应的布局接口;
S33、爬取当前菜单的所有布局接口的接口数据;
S34、依据爬取到的当前菜单的所有布局接口的接口数据获取当前菜单的所有专题页面链接。
具体地,所述布局数据的类型包括ads、pcmp和mo。
较佳地,所述步骤(1)具体包括:
S11、通过调用启动接口以获取所述专题页面的所有菜单和对应菜单的代码。
具体地,所述启动接口为startup/v3接口。
较佳地,所述步骤(2)具体包括:
S21、通过调用展示接口以获取当前菜单的布局数据。
具体地,所述展示接口为layout接口。
较佳地,所述步骤(3)之后还包括:
S4、对当前菜单的所有专题页面链接依次进行合并、去重和格式转换处理。
相应地,本发明还公开了一种获取专题页面链接系统,其包括:
第一获取模块,用于获取专题页面的所有菜单和对应菜单的代码;
第二获取模块,用于依据任一菜单的对应代码获取当前菜单的布局数据;
第三获取模块,用于依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接。
相应地,本发明还公开了一种存储介质,用于存储计算机程序,所述程序被处理器执行时实现如上所述的获取专题页面链接方法。
附图说明
图1是本发明的获取专题页面链接方法的流程框图;
图2是本发明的获取专题页面链接方法中步骤(3)的流程框图;
图3是本发明的获取专题页面链接系统的结构框图。
具体实施方式
为详细说明本发明的技术内容、构造特征、所实现目的及效果,以下结合实施方式并配合附图详予说明。
请参阅图1和图2所示,本发明的获取专题页面链接方法,适于通过页面爬虫的方式获取专题页面链接,该方法包括如下步骤:
S1、获取专题页面的所有菜单和对应菜单的代码。
可以理解的是,同一专题页面包含有多个菜单,所有菜单组成该专题页面的框架信息。每个菜单可以为一个项目类别,也可以为一个活动界面,当然,菜单还可以作为其他链接入口使用,在此不对菜单的具体表现形式进行限定。
每个菜单具有一个唯一的代码,该代码能够作为当前菜单的特征码使用。即假设当前专题页面具有十个菜单,则当前专题页面具有十个代码,输入任一代码,每一个代码与其中一个菜单一一对应,以便于通过代码定位至任一菜单。
S2、依据任一菜单的对应代码获取当前菜单的布局数据。
可以理解的是,这里的布局数据包含有当前菜单内的诸如运营位、坑位、展示页面等各种各样组件及其对应链接,也包含有当前菜单的各种各样组件的对应参数。
S3、依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接。
较佳地,所述步骤(3)具体包括:
S31、分析当前菜单的布局数据的数据类型。
较佳地,布局数据的类型包括ads、pcmp和mo。上述布局数据的类型为唯品会旗下的APP的常用布局数据的类型,上述布局数据为同一类型的布局数据迭代后的产物,因此,上述布局数据的类型的框架相似,能够通过同一解析函数对上述布局数据进行解析,同一解析函数也能够对后续迭代出来的布局数据的类型进行解析。且通过多端共用的方式,通过同一解析函数对多种布局数据的类型进行解析,有效降低爬取难度。
需要说明的是,对于其他类型的APP,布局数据的类型需要根据该APP的内核对应的布局数据的类型进行选定,相应的解析函数也需要做对应调整。
S32、依据当前菜单的布局数据的不同数据类型分别解析当前菜单对应的布局接口。
由于每个布局接口会返回各种类型的运营位数据,专题页面链接会投放在这些运营位中,但是不同类型的运营位投放的形式有可能不同,因此,需要依据当前菜单的布局数据的不同数据类型分别解析当前菜单对应的布局接口。
S33、爬取当前菜单的所有布局接口的接口数据。
可以理解的是,这里所述的爬取实际上是指通过预设的数据爬取规则对当前菜单的所有布局接口进行数据爬取操作,以得到当前菜单的所有布局接口的所有接口数据,这些接口数据里面包含了需要获取的专题页面链接。
S34、依据爬取到的当前菜单的所有布局接口的接口数据获取当前菜单的所有专题页面链接。
由于菜单的接口和布局接口均属于业务接口,其解析逻辑会根据业务的变化而变化,即菜单的接口和布局接口的接口类型会随着APP的更新迭代存在随时变化的可能,因此,本发明通过依据当前菜单的布局数据的不同数据类型分别解析当前菜单对应的布局接口,以保持对新的接口类型的解析,以支持更多的运营位,从而获得更多的专题页面链接
较佳地,所述步骤(1)具体包括:
S11、通过调用启动接口以获取所述专题页面的所有菜单和对应菜单的代码。
具体地,所述启动接口为startup/v3接口。
需要说明的是,这里所说的startup/v3接口为唯品会旗下的APP通用的启动接口,对于其他类型的APP,启动接口需要根据该APP的内核进行选定。
较佳地,所述步骤(2)具体包括:
S21、通过调用展示接口以获取当前菜单的布局数据。
具体地,所述展示接口为layout接口。
需要说明的是,这里所说的layout接口为唯品会旗下的APP通用的展示接口,对于其他类型的APP,展示接口需要根据该APP的内核进行选定。
较佳地,所述步骤(3)之后还包括:
S4、对当前菜单的所有专题页面链接依次进行合并、去重和格式转换处理。
由于不同菜单之间可能会引用到同一链接,因此,为了降低最终的专题页面链接数量,需要对所有的专题页面链接进行合并然后去重处理,最后将得到的专题页面链接进行格式转换,以供后续调用。
结合图1和图2,本发明的获取专题页面链接方法能够根据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,以接入不同类型的接口,从而面快速适应新接口以获取多类型的专题页面链接,有效提升专题页面链接的获取效率,依次完成所有菜单的专题页面链接的获取,即可得到该专题页面的全部专题页面链接。
请参阅图3所示,相应地,本发明还公开了一种获取专题页面链接系统,其包括:
第一获取模块10,用于获取专题页面的所有菜单和对应菜单的代码;
第二获取模块20,用于依据任一菜单的对应代码获取当前菜单的布局数据;
第三获取模块30,用于依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接。
相应地,本发明还公开了一种存储介质,用于存储计算机程序,所述程序被处理器执行时实现如上所述的获取专题页面链接方法。
以上所揭露的仅为本发明的优选实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明申请专利范围所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种获取专题页面链接方法,其特征在于,包括如下步骤:
获取专题页面的所有菜单和对应菜单的代码;
依据任一菜单的对应代码获取当前菜单的布局数据;
依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接。
2.如权利要求1所述的获取专题页面链接方法,其特征在于,所述依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,具体包括:
分析当前菜单的布局数据的数据类型;
依据当前菜单的布局数据的不同数据类型分别解析当前菜单对应的布局接口;
爬取当前菜单的所有布局接口的接口数据;
依据爬取到的当前菜单的所有布局接口的接口数据获取当前菜单的所有专题页面链接。
3.如权利要求1所述的获取专题页面链接方法,其特征在于,所述布局数据的类型包括ads、pcmp和mo。
4.如权利要求1所述的获取专题页面链接方法,其特征在于,所述获取专题页面的所有菜单和对应菜单的代码,具体包括:
通过调用启动接口以获取所述专题页面的所有菜单和对应菜单的代码。
5.如权利要求4述的获取专题页面链接方法,其特征在于,所述启动接口为startup/v3接口。
6.利要求1所述的获取专题页面链接方法,其特征在于,所述依据任一菜单的对应代码获取当前菜单的布局数据,具体包括:
通过调用展示接口以获取当前菜单的布局数据。
7.如权利要求6述的获取专题页面链接方法,其特征在于,所述展示接口为layout接口。
8.利要求1所述的获取专题页面链接方法,其特征在于,所述依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接,之后还包括:
对当前菜单的所有专题页面链接依次进行合并、去重和格式转换处理。
9.一种获取专题页面链接系统,其特征在于,包括:
第一获取模块,用于获取专题页面的所有菜单和对应菜单的代码;
第二获取模块,用于依据任一菜单的对应代码获取当前菜单的布局数据;
第三获取模块,用于依据当前菜单的布局数据的数据类型获取当前菜单的所有专题页面链接。
10.一种存储介质,用于存储计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1~8中任一项所述的获取专题页面链接方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011584688.4A CN112711690A (zh) | 2020-12-28 | 2020-12-28 | 获取专题页面链接方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011584688.4A CN112711690A (zh) | 2020-12-28 | 2020-12-28 | 获取专题页面链接方法、系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112711690A true CN112711690A (zh) | 2021-04-27 |
Family
ID=75545965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011584688.4A Pending CN112711690A (zh) | 2020-12-28 | 2020-12-28 | 获取专题页面链接方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711690A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080098300A1 (en) * | 2006-10-24 | 2008-04-24 | Brilliant Shopper, Inc. | Method and system for extracting information from web pages |
CN101771701A (zh) * | 2010-01-04 | 2010-07-07 | 北京航空航天大学 | Web服务客户端自动化生成方法和装置 |
US20130024441A1 (en) * | 2011-07-22 | 2013-01-24 | Alibaba Group Holding Limited | Configuring web crawler to extract web page information |
CN103885957A (zh) * | 2012-12-20 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 网页信息提取方法及设备 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN107203562A (zh) * | 2016-03-18 | 2017-09-26 | 北京京东尚科信息技术有限公司 | 计算机执行的基于页面解析进行自动化检查的方法和装置 |
CN110321508A (zh) * | 2019-07-12 | 2019-10-11 | 广州华多网络科技有限公司 | 页面展示数据的处理方法、装置、存储介质及设备 |
-
2020
- 2020-12-28 CN CN202011584688.4A patent/CN112711690A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080098300A1 (en) * | 2006-10-24 | 2008-04-24 | Brilliant Shopper, Inc. | Method and system for extracting information from web pages |
CN101771701A (zh) * | 2010-01-04 | 2010-07-07 | 北京航空航天大学 | Web服务客户端自动化生成方法和装置 |
US20130024441A1 (en) * | 2011-07-22 | 2013-01-24 | Alibaba Group Holding Limited | Configuring web crawler to extract web page information |
CN103885957A (zh) * | 2012-12-20 | 2014-06-25 | 百度在线网络技术(北京)有限公司 | 网页信息提取方法及设备 |
CN105677862A (zh) * | 2016-01-08 | 2016-06-15 | 上海数道信息科技有限公司 | 一种抓取网页内容的方法及装置 |
CN107203562A (zh) * | 2016-03-18 | 2017-09-26 | 北京京东尚科信息技术有限公司 | 计算机执行的基于页面解析进行自动化检查的方法和装置 |
CN110321508A (zh) * | 2019-07-12 | 2019-10-11 | 广州华多网络科技有限公司 | 页面展示数据的处理方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107918666B (zh) | 一种区块链上的数据同步方法和系统 | |
EP3588279B1 (en) | Automated extraction of rules embedded in software application code using machine learning | |
CN107832406B (zh) | 海量日志数据的去重入库方法、装置、设备及存储介质 | |
CN111008020B (zh) | 将逻辑表达式解析为通用查询语句的方法 | |
CN110580189A (zh) | 生成前端页面的方法、装置、计算机设备以及存储介质 | |
CN111126019A (zh) | 基于模式定制的报表生成方法、装置和电子设备 | |
CN114138244A (zh) | 模型类文件自动生成方法、装置、存储介质及电子设备 | |
CN103197927B (zh) | 一种柔性工作流的实现方法及其系统 | |
CN106557307B (zh) | 业务数据的处理方法及处理系统 | |
CN114820080A (zh) | 基于人群流转的用户分群方法、系统、装置及介质 | |
CN112506939A (zh) | 一种基于Flink流式引擎的CEP规则更新方法 | |
CN115033646A (zh) | 一种基于Flink&Doris构建实时数仓系统的方法 | |
CN101727505B (zh) | 一种高效的数据处理方法及装置 | |
CN111858366B (zh) | 一种测试用例生成方法、装置、设备及存储介质 | |
CN113918532A (zh) | 画像标签聚合方法、电子设备及存储介质 | |
CN106843822B (zh) | 一种执行代码生成方法及设备 | |
CN112711690A (zh) | 获取专题页面链接方法、系统和存储介质 | |
CN104731597A (zh) | 将sql语句应用于工程软件编辑平台的方法 | |
CN115480800A (zh) | 一种业务数据加工处理方法、电子设备和介质 | |
CN114153547A (zh) | 管理页面显示方法及装置 | |
CN111782641B (zh) | 数据错误修复方法及系统 | |
CN111651531B (zh) | 数据导入方法、装置、设备及计算机存储介质 | |
CN113377368A (zh) | 项目开发方法、装置、服务器及存储介质 | |
CN112115397A (zh) | 动态页面渲染方法及渲染系统 | |
CN114064601A (zh) | 存储过程转换方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210427 |