CN109740041B - 网页爬取方法、装置、存储介质和计算机设备 - Google Patents

网页爬取方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN109740041B
CN109740041B CN201811389206.2A CN201811389206A CN109740041B CN 109740041 B CN109740041 B CN 109740041B CN 201811389206 A CN201811389206 A CN 201811389206A CN 109740041 B CN109740041 B CN 109740041B
Authority
CN
China
Prior art keywords
crawling
target
webpage
user
target webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811389206.2A
Other languages
English (en)
Other versions
CN109740041A (zh
Inventor
刘劲柏
徐佳良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Publication of CN109740041A publication Critical patent/CN109740041A/zh
Application granted granted Critical
Publication of CN109740041B publication Critical patent/CN109740041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页爬取方法、装置、存储介质和计算机设备。该网页爬取方法包括:根据获取的目标网页的网址跳转到目标网页;在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息,第一提示信息用于提示用户选择第一爬取操作;获取用户在目标网页上的行为;根据行为在操作提示窗口展示第二提示信息,第二提示信息用于提示用户选择第二爬取操作;获取用户输入的第一选择指令和第二选择指令,第一选择指令用于选择第一爬取操作,第二选择指令用于选择第二爬取操作;根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务;执行目标爬取任务,在目标网页上爬取目标信息。采用该网页爬取方法能够提高网页爬取的效率。

Description

网页爬取方法、装置、存储介质和计算机设备
【技术领域】
本发明涉及爬虫领域,尤其涉及一种网页爬取方法、装置、存储介质和计算机设备。
【背景技术】
目前用户在爬取网页时,通常都是采用编写脚本代码的方式,通过执行脚本代码来实现网页信息的爬取。这对于非开发人员的门槛较高,非开发人员需要学习一定的编程基础才可以进行网页信息的爬取,并且,经常编写爬虫脚本代码降低了网页爬取的效率。
【发明内容】
有鉴于此,本发明实施例提供了一种网页爬取方法、装置、存储介质和计算机设备,用以解决网页爬取效率低下的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种网页爬取方法,所述方法包括:
获取目标网页的网址;
根据所述目标网页的网址跳转到所述目标网页;
在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;
获取用户在所述目标网页上的行为;
根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;
获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;
根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;
执行所述目标爬取任务,在所述目标网页上爬取目标信息。
进一步地,所述在所述目标网页生成操作提示窗口,包括:
判断所述目标网页的网址与模板网页的网址是否相同;
若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;
若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。
进一步地,所述根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口,包括:
获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;
根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;
根据所述第一爬取操作生成所述操作提示窗口。
进一步地,所述行为包括行为操作和行为内容,所述根据所述行为在所述操作提示窗口展示第二提示信息,包括:
根据所述行为操作和所述行为内容,在所述操作提示窗口上提示所述第二提示信息,其中,所述行为操作是指发生所述行为时所对应的操作,所述行为内容是指发生所述行为时所对应的对象。
进一步地,所述根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,包括:
按照用户选择所述第一爬取操作和所述第二爬取操作的时间顺序设置所述第一爬取操作和所述第二爬取操作的执行顺序,确定所述目标爬取任务。
为了实现上述目的,根据本发明的一个方面,提供了一种网页爬取装置,所述装置包括:
目标网址获取模块,用于获取目标网页的网址;
目标网页跳转模块,用于根据所述目标网页的网址跳转到所述目标网页;
操作提示窗口生成模块,用于在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;
行为获取模块,用于获取用户在所述目标网页上的行为;
第二提示信息展示模块,用于根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;
选择指令获取模块,用于获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;
目标爬取任务确定模块,用于根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;
目标信息爬取模块,用于执行所述目标爬取任务,在所述目标网页上爬取目标信息。
进一步地,所述操作提示窗口生成模块,包括:
判断单元,用于判断所述目标网页的网址与模板网页的网址是否相同;
第一操作提示窗口生成单元,用于若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;
第二操作提示窗口生成单元,用于若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。
进一步地,所述第二操作提示窗口生成单元,包括:
映射表获取子单元,用于获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;
第一爬取操作确定子单元,用于根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;
操作提示窗口生成子单元,用于根据所述第一爬取操作生成所述操作提示窗口。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述的网页爬取方法。
为了实现上述目的,根据本发明的一个方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的网页爬取方法的步骤。
本发明实施例中,首先根据用户跳转到的目标网页,在目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息。通过跳转到的目标网页,自动、实时生成与用户进行信息交互的操作提示窗口,用户可以在跳转到目标网页时便查看到与目标网页相关的第一提示信息,并根据该第一提示信息选择所需的第一爬取操作,以基于该第一爬取操作生成目标爬取任务。然后获取用户在所述目标网页上的行为,根据所述行为在所述操作提示窗口展示第二提示信息。通过用户在目标网页上的行为提示用户可能选择的第二爬取操作,以根据第一爬取操作和第二爬取操作生成目标爬取任务。最后根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,执行所述目标爬取任务,在所述目标网页上爬取目标信息。本发明实施例将用户在目标网页上可能选择的第一爬取操作和第二爬取操作,根据用户跳转到的目标网页和在目标网页上所做的行为,实时、自动地通过操作提示窗口展现给用户,用户可以根据该操作提示窗口便确定目标网页的目标爬取任务,降低了用户的网页爬取门槛,显著提高了网页爬取的效率。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例中网页爬取方法的一流程图;
图2是本发明一实施例中网页爬取装置的一示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出本实施例中网页爬取方法的一流程图。该网页爬取方法可应用在系统、平台或应用程序中,用于实现网页爬取的功能,具体可应用在安装在计算机设备上的网页爬取系统中。其中,该计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。如图1所示,该网页爬取方法包括如下步骤:
S10:获取目标网页的网址。
S20:根据目标网页的网址跳转到目标网页。
S30:在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息,第一提示信息用于提示用户选择第一爬取操作。
其中,操作提示窗口是与用户进行信息交互,提醒用户选择第一爬取操作或第二爬取操作的窗口。
在一实施例中,第一提示信息在操作提示窗口生成时也同时生成并展示第一提示信息,该第一提示信息根据目标网页生成。通过跳转到的目标网页,自动、实时生成与用户进行信息交互的操作提示窗口,用户可以在跳转到目标网页时便查看到与目标网页相关的第一提示信息,并根据该第一提示信息选择所需的第一爬取操作,以基于该第一爬取操作生成目标爬取任务。
S40:获取用户在目标网页上的行为。
其中,用户在目标网页上的行为是指用户在目标网页上的具体操作行为。
在一实施例中,获取用户在目标网页上的行为,该行为具体可以是点击操作、长按操作和拖动选择操作等。
S50:根据行为在操作提示窗口展示第二提示信息,第二提示信息用于提示用户选择第二爬取操作。
可以理解地,第二提示信息是根据用户在目标网页上的行为生成并展示的,提示用户选择第二爬取操作,第二爬取操作是与行为相关的爬取操作。通过用户在目标网页上的行为提示用户可能选择的第二爬取操作,以根据第一爬取操作和第二爬取操作生成目标爬取任务。
S60:获取用户输入的第一选择指令和第二选择指令,第一选择指令用于选择第一爬取操作,第二选择指令用于选择第二爬取操作。
S70:根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务。
可以理解地,在选择好第一爬取操作和第二爬取操作后,即可确定最终用于在目标网页上进行的第一爬取操作和第二爬取操作,即确定目标爬取任务,该目标爬取任务将根据用户选择的第一爬取操作和第二爬取操作对目标网页进行信息爬取。
S80:执行目标爬取任务,在目标网页上爬取目标信息。
在本方案中,将用户在目标网页上可能选择的第一爬取操作和第二爬取操作,根据用户跳转到的目标网页和在目标网页上的行为,实时、自动地通过操作提示窗口展现给用户,用户可以根据该操作提示窗口便确定目标网页的目标爬取任务,降低了用户的网页爬取门槛,显著提高了网页爬取的效率。
进一步地,在步骤S30中,在目标网页生成操作提示窗口,具体包括:判断目标网页的网址与模板网页的网址是否相同;若相同,则调用与模板网页对应的爬虫模板,根据爬虫模板,在目标网页生成操作提示窗口;若不相同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口。
其中,模板网页是指预先定义的作为模板的网页,例如预先定义百度搜索网页、淘宝网首页和新浪首页作为模板网页。爬虫模板是根据模板网页的内容预先设置的由第一爬取操作组成的模板。
在一实施例中,当目标网页的网址与模板网页的网址相同时,则可以直接采用与模板网页对应的爬虫模板生成操作提示窗口,例如当目标网页的网址与新浪首页相同时,可以直接调用与新浪首页对应的预先设置的爬虫模板,根据该爬虫模板生成操作提示窗口,提示用户选择第一爬取操作,为生成操作提示窗口提供了一种便捷的方式,能够有效提高生成操作提示窗口的效率。当目标网页的网址与模板网页的网址不同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口,可以根据网页的内容判断用户可能需要的第一爬取操作,并根据网页的具体内容生成第一爬取操作,该第一爬取操作是与网页的内容相关的爬取操作。
进一步地,在若不相同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口的步骤中,具体包括:获取内容操作映射表,内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;根据映射关系和目标网页的内容确定第一爬取操作;根据第一爬取操作生成操作提示窗口。
其中,内容操作映射表是存储网页爬取操作和网页的内容之间的映射关系的数据表。在一实施例中,不同的目标网页的内容是不相同的,因此需要在数据库中获取内容操作映射表,根据表中记载的网页爬取操作和网页的内容之间的映射关系,根据映射关系和目标网页的内容确定第一爬取操作,并根据第一爬取操作生成操作提示窗口。例如,目标网页的内容有与页码相关的跳转链接(第1页、第2页……第10页),则将会根据内容操作映射表生成按页爬取的第一爬取操作,该按页爬取的第一爬取操作是指按页的顺序一页一页地爬取信息的操作。通过内容操作映射表查找与目标网页的内容所对应的第一爬取操作,可以快速、准确地确定目标网页对应的第一爬取操作。
进一步地,行为包括行为操作和行为内容,在步骤S50中,根据行为在操作提示窗口展示第二提示信息,具体包括:根据行为操作和行为内容,在操作提示窗口上提示第二提示信息,其中,行为操作是指发生行为时所对应的操作,行为内容是指发生行为时所对应的对象。
在一实施例中,例如用户对目标网页上的一具体内容(如标题)进行拖动选择时,行为操作是指用户鼠标拖动的操作,行为内容是指用户拖动选择时的具体内容。用户在目标网页上拖动选择一标题,则操作提示窗口会根据用户的行为,生成相对应的第二爬取操作,该第二爬取操作具体可以是指在与该标题相同的位置进行信息爬取的操作。当在按页爬取的情况下,目标网页是变化的,此时该第二爬取操作仍可以按照与该标题相同的位置在目标网页上进行信息爬取。
进一步地,在步骤S70中,根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务,具体包括:按照用户选择第一爬取操作和第二爬取操作的时间顺序设置第一爬取操作和第二爬取操作的执行顺序,确定目标爬取任务。
在一实施例中,根据用户选择第一爬取操作和第二爬取操作的时间顺序来设置执行顺序,确定目标爬取任务。按时间顺序确定目标爬取任务是其中一种可选的实施方式,采用预设的执行优先级对第一爬取操作和第二爬取操作进行定义,并根据该执行优先级等方式确定目标爬取任务也都是可行的。本发明实施例从目标网页(网页的内容)和用户在目标网页上的行为确定用于提示的第一爬取操作和第二爬取操作,用户可以通过操作提示窗口即可进行选择,并最终生成目标爬取任务。该过程无需用户通过编程实现,能够有效的降低用户进行网页爬取的门槛,显著提高网页爬取的效率。
在本方案中,首先根据用户跳转到的目标网页,在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息。通过跳转到的目标网页,自动、实时生成与用户进行信息交互的操作提示窗口,用户可以在跳转到目标网页时便查看到与目标网页相关的第一提示信息,并根据该第一提示信息选择所需的第一爬取操作,以基于该第一爬取操作生成目标爬取任务。然后获取用户在目标网页上的行为,根据行为在操作提示窗口展示第二提示信息。通过用户在目标网页上的行为提示用户可能选择的第二爬取操作,以根据第一爬取操作和第二爬取操作生成目标爬取任务。最后根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务,执行目标爬取任务,在目标网页上爬取目标信息。本发明实施例将用户在目标网页上可能选择的第一爬取操作和第二爬取操作,根据用户跳转到的目标网页和在目标网页上所做的行为,实时、自动地通过操作提示窗口展现给用户,用户可以根据该操作提示窗口便确定目标网页的目标爬取任务,降低了用户的网页爬取门槛,显著提高了网页爬取的效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明实施例提供了一种网页爬取装置,该网页爬取装置用于执行上述网页爬取方法,如图2所示,该装置包括:目标网址获取模块10、目标网页跳转模块20、操作提示窗口生成模块30、行为获取模块40、第二提示信息展示模块50、选择指令获取模块60、目标爬取任务确定模块70和目标信息爬取模块80。
目标网址获取模块10,用于获取目标网页的网址。
目标网页跳转模块20,用于根据目标网页的网址跳转到目标网页。
操作提示窗口生成模块30,用于在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息,第一提示信息用于提示用户选择第一爬取操作。
在一实施例中,第一提示信息在操作提示窗口生成时也同时生成并展示第一提示信息,该第一提示信息根据目标网页生成。通过跳转到的目标网页,自动、实时生成与用户进行信息交互的操作提示窗口,用户可以在跳转到目标网页时便查看到与目标网页相关的第一提示信息,并根据该第一提示信息选择所需的第一爬取操作,以基于该第一爬取操作生成目标爬取任务。
行为获取模块40,用于获取用户在目标网页上的行为。
在一实施例中,当用户在目标网页上有所行动时,会获取用户相应的行为。该行为具体可以是点击操作、长按操作和拖动选择操作等。
第二提示信息展示模块50,用于根据行为在操作提示窗口展示第二提示信息,第二提示信息用于提示用户选择第二爬取操作。
可以理解地,第二提示信息是根据用户在目标网页上的行为生成并展示的,提示用户选择第二爬取操作,第二爬取操作是与行为相关的爬取操作。通过用户在目标网页上的行为提示用户可能选择的第二爬取操作,以根据第一爬取操作和第二爬取操作生成目标爬取任务。
选择指令获取模块60,用于获取用户输入的第一选择指令和第二选择指令,第一选择指令用于选择第一爬取操作,第二选择指令用于选择第二爬取操作。
目标爬取任务确定模块70,用于根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务。
可以理解地,在选择好第一爬取操作和第二爬取操作后,即可确定最终用于在目标网页上进行的第一爬取操作和第二爬取操作,即确定目标爬取任务,该目标爬取任务将根据用户选择的第一爬取操作和第二爬取操作对目标网页进行信息爬取。
目标信息爬取模块80,用于执行目标爬取任务,在目标网页上爬取目标信息。
在本方案中,将用户在目标网页上可能选择的第一爬取操作和第二爬取操作,根据用户跳转到的目标网页和在目标网页上所做的行为,实时、自动地通过操作提示窗口展现给用户,用户可以根据该操作提示窗口便确定目标网页的目标爬取任务,降低了用户的网页爬取门槛,显著提高了网页爬取的效率。
可选地,操作提示窗口生成模块30包括判断单元、第一操作提示窗口生成单元和第二操作提示窗口生成单元。
判断单元,用于判断目标网页的网址与模板网页的网址是否相同。
第一操作提示窗口生成单元,用于若相同,则调用与模板网页对应的爬虫模板,根据爬虫模板,在目标网页生成操作提示窗口。
第二操作提示窗口生成单元,用于若不相同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口。
在一实施例中,当目标网页的网址与模板网页的网址相同时,则可以直接采用与模板网页对应的爬虫模板生成操作提示窗口,例如当目标网页的网址与新浪首页相同时,可以直接调用与新浪首页对应的预先设置的爬虫模板,根据该爬虫模板生成操作提示窗口,提示用户选择第一爬取操作,为生成操作提示窗口提供了一种便捷的方式,能够有效提高生成操作提示窗口的效率。当目标网页的网址与模板网页的网址不同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口,可以根据网页的内容判断用户可能需要的第一爬取操作,并根据网页的具体内容生成第一爬取操作,该第一爬取操作是与网页的内容相关的爬取操作。
可选地,第二操作提示窗口生成单元包括映射表获取子单元、第一爬取操作确定子单元和操作提示窗口生成子单元。
映射表获取子单元,用于获取内容操作映射表,内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系。
第一爬取操作确定子单元,用于根据映射关系和目标网页的内容确定第一爬取操作。
操作提示窗口生成子单元,用于根据第一爬取操作生成操作提示窗口。
在一实施例中,不同的目标网页的内容是不相同的,因此需要在数据库中获取内容操作映射表,根据表中记载的网页爬取操作和网页的内容之间的映射关系,根据映射关系和目标网页的内容确定第一爬取操作,并根据第一爬取操作生成操作提示窗口。例如,目标网页的内容有与页码相关的跳转链接(第1页、第2页……第10页),则将会根据内容操作映射表生成按页爬取的第一爬取操作,该按页爬取的第一爬取操作是指按页的顺序一页一页地爬取信息的操作。通过内容操作映射表查找与目标网页的内容所对应的第一爬取操作,可以快速、准确地确定目标网页对应的第一爬取操作。
可选地,行为包括行为操作和行为内容。
可选地,第二提示信息展示模块50还用于根据行为操作和行为内容,在操作提示窗口上提示第二提示信息,其中,行为操作是指发生行为时所对应的操作,行为内容是指发生行为时所对应的对象。
在一实施例中,例如用户对目标网页上的一具体内容(如标题)进行拖动选择的行为时,行为操作是指用户鼠标拖动的操作,行为内容是指用户拖动选择时的具体内容。用户在目标网页上拖动选择一标题,则操作提示窗口会根据用户的行为,生成相对应的第二爬取操作,该第二爬取操作具体可以是在与该标题相同的位置进行信息爬取的操作。当在按页爬取的情况下,目标网页是变化的,此时该第二爬取操作仍可以按照与该标题相同的位置在目标网页上进行信息爬取。
可选地,目标爬取任务确定模块70还用于按照用户选择第一爬取操作和第二爬取操作的时间顺序设置第一爬取操作和第二爬取操作的执行顺序,确定目标爬取任务。
在一实施例中,根据用户选择第一爬取操作和第二爬取操作的时间顺序来设置执行顺序,确定目标爬取任务。按时间顺序确定目标爬取任务是其中一种可选的实施方式,采用预设的执行优先级对第一爬取操作和第二爬取操作进行定义,并根据该执行优先级等方式确定目标爬取任务也都是可行的。本发明实施例从目标网页(网页的内容)和用户在目标网页上的行为确定用于提示的第一爬取操作和第二爬取操作,用户可以通过操作提示窗口即可进行选择,并最终生成目标爬取任务。该过程无需用户通过编程实现,能够有效的降低用户进行网页爬取的门槛,显著提高网页爬取的效率。
本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质包括计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行以下步骤:
获取目标网页的网址。
根据目标网页的网址跳转到目标网页。
在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息,第一提示信息用于提示用户选择第一爬取操作。
获取用户在目标网页上的行为。
根据行为在操作提示窗口展示第二提示信息,第二提示信息用于提示用户选择第二爬取操作。
获取用户输入的第一选择指令和第二选择指令,第一选择指令用于选择第一爬取操作,第二选择指令用于选择第二爬取操作。
根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务。
执行目标爬取任务,在目标网页上爬取目标信息。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:判断目标网页的网址与模板网页的网址是否相同;若相同,则调用与模板网页对应的爬虫模板,根据爬虫模板,在目标网页生成操作提示窗口;若不相同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:获取内容操作映射表,内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;根据映射关系和目标网页的内容确定第一爬取操作;根据第一爬取操作生成操作提示窗口。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:根据行为操作和行为内容,在操作提示窗口上提示第二提示信息,其中,行为操作是指发生行为时所对应的操作,行为内容是指发生行为时所对应的对象。
可选地,在计算机程序运行时控制计算机可读存储介质所在设备还执行以下步骤:按照用户选择第一爬取操作和第二爬取操作的时间顺序设置第一爬取操作和第二爬取操作的执行顺序,确定目标爬取任务。
本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标网页的网址。
根据目标网页的网址跳转到目标网页。
在目标网页生成操作提示窗口,并在操作提示窗口展示第一提示信息,第一提示信息用于提示用户选择第一爬取操作。
获取用户在目标网页上的行为。
根据行为在操作提示窗口展示第二提示信息,第二提示信息用于提示用户选择第二爬取操作。
获取用户输入的第一选择指令和第二选择指令,第一选择指令用于选择第一爬取操作,第二选择指令用于选择第二爬取操作。
根据用户选择的第一爬取操作和第二爬取操作确定目标爬取任务。
执行目标爬取任务,在目标网页上爬取目标信息。
可选地,处理器执行计算机程序时还实现以下步骤:判断目标网页的网址与模板网页的网址是否相同;若相同,则调用与模板网页对应的爬虫模板,根据爬虫模板,在目标网页生成操作提示窗口;若不相同,则获取目标网页的内容,根据目标网页的内容,在目标网页生成操作提示窗口。
可选地,处理器执行计算机程序时还实现以下步骤:获取内容操作映射表,内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;根据映射关系和目标网页的内容确定第一爬取操作;根据第一爬取操作生成操作提示窗口。
可选地,处理器执行计算机程序时还实现以下步骤:根据行为操作和行为内容,在操作提示窗口上提示第二提示信息,其中,行为操作是指发生行为时所对应的操作,行为内容是指发生行为时所对应的对象。
可选地,处理器执行计算机程序时还实现以下步骤:按照用户选择第一爬取操作和第二爬取操作的时间顺序设置第一爬取操作和第二爬取操作的执行顺序,确定目标爬取任务。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (8)

1.一种网页爬取方法,其特征在于,所述方法包括:
获取目标网页的网址;
根据所述目标网页的网址跳转到所述目标网页;
在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;
获取用户在所述目标网页上的行为;
根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;
获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;
根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;
执行所述目标爬取任务,在所述目标网页上爬取目标信息;
所述在所述目标网页生成操作提示窗口,包括:
判断所述目标网页的网址与模板网页的网址是否相同;
若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;
若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口,包括:
获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;
根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;
根据所述第一爬取操作生成所述操作提示窗口。
3.根据权利要求1所述的方法,其特征在于,所述行为包括行为操作和行为内容,所述根据所述行为在所述操作提示窗口展示第二提示信息,包括:
根据所述行为操作和所述行为内容,在所述操作提示窗口上提示所述第二提示信息,其中,所述行为操作是指发生所述行为时所对应的操作,所述行为内容是指发生所述行为时所对应的对象。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务,包括:
按照用户选择所述第一爬取操作和所述第二爬取操作的时间顺序设置所述第一爬取操作和所述第二爬取操作的执行顺序,确定所述目标爬取任务。
5.一种网页爬取装置,其特征在于,所述装置包括:
目标网址获取模块,用于获取目标网页的网址;
目标网页跳转模块,用于根据所述目标网页的网址跳转到所述目标网页;
操作提示窗口生成模块,用于在所述目标网页生成操作提示窗口,并在所述操作提示窗口展示第一提示信息,所述第一提示信息用于提示用户选择第一爬取操作;
行为获取模块,用于获取用户在所述目标网页上的行为;
第二提示信息展示模块,用于根据所述行为在所述操作提示窗口展示第二提示信息,所述第二提示信息用于提示用户选择第二爬取操作;
选择指令获取模块,用于获取用户输入的第一选择指令和第二选择指令,所述第一选择指令用于选择所述第一爬取操作,所述第二选择指令用于选择所述第二爬取操作;
目标爬取任务确定模块,用于根据用户选择的所述第一爬取操作和所述第二爬取操作确定目标爬取任务;
目标信息爬取模块,用于执行所述目标爬取任务,在所述目标网页上爬取目标信息;
所述操作提示窗口生成模块,包括:
判断单元,用于判断所述目标网页的网址与模板网页的网址是否相同;
第一操作提示窗口生成单元,用于若相同,则调用与所述模板网页对应的爬虫模板,根据所述爬虫模板,在所述目标网页生成所述操作提示窗口;
第二操作提示窗口生成单元,用于若不相同,则获取所述目标网页的内容,根据所述目标网页的内容,在所述目标网页生成所述操作提示窗口。
6.根据权利要求5所述的装置,其特征在于,所述第二操作提示窗口生成单元,包括:
映射表获取子单元,用于获取内容操作映射表,所述内容操作映射表存储着网页爬取操作和网页的内容之间的映射关系;
第一爬取操作确定子单元,用于根据所述映射关系和所述目标网页的内容确定所述第一爬取操作;
操作提示窗口生成子单元,用于根据所述第一爬取操作生成所述操作提示窗口。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述网页爬取方法的步骤。
8.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述网页爬取方法的步骤。
CN201811389206.2A 2018-10-29 2018-11-21 网页爬取方法、装置、存储介质和计算机设备 Active CN109740041B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018112687291 2018-10-29
CN201811268729 2018-10-29

Publications (2)

Publication Number Publication Date
CN109740041A CN109740041A (zh) 2019-05-10
CN109740041B true CN109740041B (zh) 2023-06-09

Family

ID=66356961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811389206.2A Active CN109740041B (zh) 2018-10-29 2018-11-21 网页爬取方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN109740041B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666471A (zh) * 2020-05-21 2020-09-15 平安科技(深圳)有限公司 信息采集方法、装置、计算机设备及存储介质
CN111966880A (zh) * 2020-08-17 2020-11-20 江苏百达智慧网络科技有限公司 可视化网站内容采集方法和系统
CN114461887B (zh) * 2022-04-14 2022-06-28 中电云数智科技有限公司 一种分布式互联网数据采集方法及装置
CN114780822A (zh) * 2022-06-20 2022-07-22 云账户技术(天津)有限公司 爬取应用程序数据的方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法
CN108090091A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 网页爬取方法和装置
CN108282443A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 一种爬虫行为识别方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170262545A1 (en) * 2016-03-09 2017-09-14 Le Holdings (Beijing) Co., Ltd. Method and electronic device for crawling webpage

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930059A (zh) * 2012-11-26 2013-02-13 电子科技大学 一种聚焦爬虫的设计方法
CN108090091A (zh) * 2016-11-23 2018-05-29 北京国双科技有限公司 网页爬取方法和装置
CN108282443A (zh) * 2017-01-05 2018-07-13 阿里巴巴集团控股有限公司 一种爬虫行为识别方法和装置

Also Published As

Publication number Publication date
CN109740041A (zh) 2019-05-10

Similar Documents

Publication Publication Date Title
CN109740041B (zh) 网页爬取方法、装置、存储介质和计算机设备
CN106933722B (zh) 一种网页应用监控方法、服务器和系统
CN110020292B (zh) 网页内容提取方法以及终端设备
AU2012370492B2 (en) Graphical overlay related to data mining and analytics
US20210168234A1 (en) Page control method and apparatus, and computer-readable storage medium
CN105045645B (zh) 网页加载方法、装置及系统
US9910641B2 (en) Generation of application behaviors
CN110209966B (zh) 一种网页刷新方法、网页系统及电子设备
CN102142011A (zh) 网站字体预览
US20200104353A1 (en) Personalization of content suggestions for document creation
US9038019B2 (en) Paige control for enterprise mobile applications
CN106202100B (zh) 页面的加载方法及装置
CN104346148A (zh) 获取程序性能消耗信息的方法、装置及系统
US20170235706A1 (en) Effecting multi-step operations in an application in response to direct manipulation of a selected object
US20200034374A1 (en) Customized visualization based intelligence augmentation
CN105528200A (zh) 浏览器标签页的显示方法及装置
CN107391914B (zh) 一种参数显示方法、装置及设备
CN111309413B (zh) 界面的显示方法、装置、电子设备及存储介质
US20210191742A1 (en) Help content based application page analysis
CN108920343B (zh) 一种数据处理方法和装置
CN107818000B (zh) 一种页面表格的操作方法及装置
US11550990B2 (en) Machine first approach for identifying accessibility, non-compliances, remediation techniques and fixing at run-time
CN110955473B (zh) 显示加载提示信息的方法及装置
CN111399836B (zh) 修改页面属性的方法及装置
KR20210040449A (ko) 페이지 처리 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant