CN118332217A - 数据采集方法、系统、电子设备及介质 - Google Patents

数据采集方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN118332217A
CN118332217A CN202410749687.2A CN202410749687A CN118332217A CN 118332217 A CN118332217 A CN 118332217A CN 202410749687 A CN202410749687 A CN 202410749687A CN 118332217 A CN118332217 A CN 118332217A
Authority
CN
China
Prior art keywords
identifier
identifiers
newly added
maximum
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410749687.2A
Other languages
English (en)
Inventor
李付强
王君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mido Technology Co ltd
Original Assignee
Shanghai Mido Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mido Technology Co ltd filed Critical Shanghai Mido Technology Co ltd
Priority to CN202410749687.2A priority Critical patent/CN118332217A/zh
Publication of CN118332217A publication Critical patent/CN118332217A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据采集方法、系统、电子设备及介质,所述数据采集方法包括:获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;根据所述配置参数获取新增标识符的数量;判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。此种数据采集方法能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。

Description

数据采集方法、系统、电子设备及介质
技术领域
本申请属于数据处理技术领域,涉及一种数据采集方法,特别是涉及一种数据采集方法、系统、电子设备及介质。
背景技术
随着互联网的快速发展,数据采集已经成为许多企业和研究机构获取信息的重要途径。通过采集网页文章链接数据,可以了解用户的兴趣爱好、行为习惯等信息,为企业的营销策略和产品定位提供重要参考。然而,在进行数据采集时,往往会遇到一些问题。首先,现有的技术往往采集不全面。由于网页的内容繁杂多样,现有的采集技术往往只能获取部分链接数据,无法完整地获取网页上的所有相关信息。这导致了采集结果的不准确性和不完整性,影响了后续数据分析和应用的效果。其次,现有的技术容易重复采集。由于网页链接数据的更新频率较高,很多网页文章链接会被多次采集,导致数据的冗余和浪费。而且,重复采集还会增加服务器的负担,影响采集效率和速度。
总的来说,数据采集是一个重要的技术领域,需要不断探索和创新,以满足用户对信息的需求和企业的发展需求。通过不断改进和优化采集技术,可以更好地获取和利用网页文章链接数据,为各行业的发展和进步提供有力支持。然而,现有的数据采集方法仍存在重复采集、数据丢失或遗漏等问题。
发明内容
鉴于以上所述现有技术的缺点,本申请的目的在于提供一种数据采集方法、系统、电子设备及介质,用于解决现有技术中数据采集容易造成数据丢失或遗漏以及重复采集的问题。
第一方面,本申请提供一种数据采集方法,所述数据采集方法包括:获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;根据所述配置参数获取新增标识符的数量;判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。
本申请中,根据配置参数获取新增标识符的数量,判断新增标识符的数量是否大于零,若大于零,则说明存在未进行数据收集的新增标识符区间,以此获取待抓取队列,若小于等于零,则说明不存在未收集过的数据,待休眠一段时候后重复进行数据采集操作。此种数据采集方法能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。此外,此种数据采集方法还能够自动生成标识符,分布式进行数据收集,减少人工干预,节约了资源和人力成本。
在第一方面的一种实现方式中,根据所述配置参数获取新增标识符的数量包括:获取最大成功标识符、生成标识符数量和最大标识符作为所述配置参数;根据所述配置参数中所述最大成功标识符、所述生成标识符数量和所述最大标识符进行加减运算以获取所述新增标识符的数量。
在第一方面的一种实现方式中,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:根据所述新增标识符的区间和所述基础路径链接生成文章链接;将各所述文章链接放入采集队列以获取所述待抓取队列。
在第一方面的一种实现方式中,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:根据所述最大标识符和所述新增标识符的数量更新所述最大标识符,以获取更新后的最大标识符;根据所述更新后的最大标识符作为所述配置参数以获取所述新增标识符的数量,重复进行数据采集。
在第一方面的一种实现方式中,所述数据采集方法还包括:获取所述待抓取队列中的任意一条文章链接;发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列。
在第一方面的一种实现方式中,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储包括:判断当前标识符是否大于所述最大成功标识符,若是,则更新所述最大成功标识符为当前标识符,解析所述文章链接的网页内容并存储,若否,直接解析所述文章链接的网页内容并存储。
在第一方面的一种实现方式中,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列包括:根据所述过期时间判断所述文章链接是否已经过期,若是,则丢弃所述文章链接,若否,则判断所述当前标识符是否大于所述最大成功标识符;若所述当前标识符大于所述最大成功标识符,则将所述文章链接补入所述待抓取队列,若所述当前标识符小于等于所述最大成功标识符,则判断所述文章链接是否配置有过期时间;若所述文章链接没有配置过期时间,则为所述文章链接配置过期时间,重复进行数据采集后补入所述待抓取队列。
第二方面,本申请提供一种数据采集系统,所述数据采集系统包括:参数配置模块,用于获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;参数获取模块,用于根据所述配置参数获取新增标识符的数量;数据采集模块,用于判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。
第三方面,本申请提供一种电子设备,所述电子设备包括:存储器,用于存储计算机程序;处理器,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如第一方面中任一项所述的数据采集方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的数据采集方法。
附图说明
图1A显示为本申请所述的数据采集方法的一种应用场景示意图。
图1B显示为这些实现方式中端-云交互场景的结构示意图。
图2显示为本申请实施例所述的数据采集方法的流程示意图。
图3显示为本申请实施例所述的数据采集方法的流程示意图。
图4显示为本申请实施例所述的数据采集方法的流程示意图。
图5显示为本申请实施例所述的数据采集方法的流程示意图。
图6显示为本申请实施例所述的数据采集方法的流程示意图。
图7显示为本申请实施例所述的数据采集方法的流程示意图。
图8显示为本申请实施例所述的数据采集系统的结构示意图。
图9显示为本申请实施例所述的电子设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本申请的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。本申请还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本申请的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本申请的基本构想,遂图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
随着互联网的普及和信息化的加速推进,大量的数据在各种论坛、网站、应用和设备中产生和存储,这些数据涵盖了各个领域的各种信息,如新闻、社交媒体、电子商务、金融等。信息爆炸带来了数据的多样性和海量化,也为数据采集提供了广阔的应用场景。数据被认为是一种宝贵的资源,可以为企业、政府和个人提供重要的决策支持和业务洞察。数据采集是数据驱动决策的前提,只有获取到足够丰富、准确和及时的数据,才能进行有效的分析和利用。数据采集主要通过以下三种方式:根据账号采集:账号量多,采集速度慢,账号量收集不全,容易漏采。根据关键词采集:关键词覆盖不全,可能有翻页限制。根据栏目采集: 栏目收集不全,不按时间排序,可能存在翻页限制。但是存在账号数量多,关键词数量多,和栏目数量多,导致轮询速度慢,严重影响采集速度的问题。
至少针对上述问题,本申请实施例提供一种数据采集方法,所述数据采集方法包括获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;根据所述配置参数获取新增标识符的数量;判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。
本申请实施例中,根据配置参数获取新增标识符的数量,判断新增标识符的数量是否大于零,若大于零,则说明存在未进行数据收集的新增标识符区间,以此获取待抓取队列,若小于等于零,则说明不存在未收集过的数据,待休眠一段时候后重复进行数据采集操作。此种数据采集方法能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。
图1A显示为本申请所述的数据采集方法的一种应用场景示意图。数据采集装置1可用于实现本申请实施例提供的数据采集方法,但本申请实施例提供的数据采集方法的应用场景并不限于图1A所示的数据采集装置1。如图1A所示,数据采集装置1包括本地处理器11和数据库12。本申请实施例提供的数据采集方法可以应用于本地处理器11。
其中,图1A中的本地处理器11可以是一台本地处理器或多台本地处理器组成的本地处理器集群或云计算中心等,具体此处均不限定。虽然图1A中仅示出了一个本地处理器11和1个数据库12,但应当理解,图1A中的示例仅用于理解本方案,具体本地处理器11和数据库12的数量均应当结合实际情况灵活确定。
在另外一些实现方式中,数据采集装置1也可以不包含数据库12,而只包含具有存储功能的本地处理器11。本申请实施例提供的数据采集方法可以应用于本地处理器11。所述具有存储功能的本地处理器11可以包括平板电脑笔记本电脑、掌上电脑、手机、个人电脑(Personal Computer,简称PC)等,此处不做限定。
在又一些其他实现方式中,本申请描述的数据采集方法可应用于端-云交互场景。图1B显示为这些实现方式中端-云交互场景的结构示意图。如图1B所示,端-云交互系统2包括终端20和云端服务器21,终端20与云端服务器21之间可进行通信,通信方式不限于有线或无线的方式。
其中,终端20可以为移动的或固定的,例如,该终端20可以是无线终端也可以是有线终端,无线终端可以是指一种具有无线收发功能的设备,可以部署室内、室外和工业车间。所述终端20可以是手机(Mobile Phone)、平板电脑(Pad)、笔记本电脑等等,在此不作限定。云端服务器21可以包括一个或多个服务器,或者包括一个或多个处理节点,或者包括运行于服务器的一个或多个虚拟机,云端服务器21还可以被称为服务器集群、管理平台、数据处理中心等等,本申请实施例不做限定。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行详细描述。
本申请以下实施例提供了数据采集方法,该方法例如可通过图1A所示的本地处理器11或图1B所示的云端服务器21来实现。图2显示为本申请实施例所述的数据采集方法的流程示意图,如图2所示,所述数据采集方法包括步骤S11至S13。
步骤S11,获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间。
可选地,所述最大成功标识符为所有请求链接中数字最大的标识符,例如,链接和链接中的最大成功标识符为272117。所述过期时间为对文章配置的数据采集时间,如果过期时间为-1,则认为文章尚未发布需要一直进行抓取。如果过期时间为1小时,则1小时候再次发送请求进行数据采集失败后就会被丢弃,本申请并不以此为限。所述基础路径链接为去除标识符后的链接,例如,链接的基础路径链接为,也即是,所述基础路径链接是不变的,标识符是不断变化的。
步骤S12,根据所述配置参数获取新增标识符的数量。
步骤S13,判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。具体地,所述新增标识符区间为[最大标识符+1,最大标识符+新增标识符的数量]。
本申请实施例中,根据配置参数获取新增标识符的数量,判断新增标识符的数量是否大于零,若大于零,则说明存在未进行数据收集的新增标识符区间,以此获取待抓取队列,若小于等于零,则说明不存在未收集过的数据,待休眠一段时候后重复进行数据采集操作。此种数据采集方法能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。
图3显示为本申请实施例所述的数据采集方法的流程示意图,如图3所示,所述步骤S12包括步骤S121至S122。
步骤S121,获取最大成功标识符、生成标识符数量和最大标识符作为所述配置参数。
步骤S122,根据所述配置参数中所述最大成功标识符、所述生成标识符数量和所述最大标识符进行加减运算以获取所述新增标识符的数量。
在一些可能的实现方式中,所述新增标识符的数量的计算公式为:
其中,为新增标识符数量,为最大成功标识符,为生成标识符数量,为最大标识符。
于本申请的一实施例中,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:根据所述新增标识符的区间和所述基础路径链接生成文章链接,将各所述文章链接放入采集队列以获取所述待抓取队列。可选地,若所述基础路径链接为,所述新增标识符区间为[272110,272117],则根据所述新增标识符的区间,将所述新增标识符区间内的标识符分别与所述基础路径链接结合生成文章链接,将各所述文章链接放入采集队列以获取所述待抓取队列。
图4显示为本申请实施例所述的数据采集方法的流程示意图,如图4所示,所述步骤S13包括步骤S131至S132。
步骤S131,根据所述最大标识符和所述新增标识符的数量更新所述最大标识符,以获取更新后的最大标识符。
步骤S132,根据所述更新后的最大标识符作为所述配置参数以获取所述新增标识符的数量,重复进行数据采集。可选地,以更新后的最大标识符作为配置参数获取所述新增标识符的数量和新增标识符的区间,利用所述新增标识符的区间和所述基础路径链接生成文章链接,重复进行数据采集。
图5显示为本申请实施例所述的数据采集方法的流程示意图,如图5所示,所述步骤S13包括步骤S133至S134。
步骤S133,获取所述待抓取队列中的任意一条文章链接。
步骤S134,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列。其中,所述请求为HTTP请求,用于获取所述文章链接指向的网页内容。
图6显示为本申请实施例所述的数据采集方法的流程示意图,如图6所示,所述步骤S134包括步骤S1341至S1342。
步骤S1341,判断当前标识符是否大于所述最大成功标识符。
步骤S1342,若是,则更新所述最大成功标识符为当前标识符,解析所述文章链接的网页内容并存储,若否,直接解析所述文章链接的网页内容并存储。
在一些可能的实现方式中,请求获取文章链接成功后,先比较当前标识符与最大成功标识符的大小,若所述当前标识符大于所述最大成功标识符,则更新所述最大成功标识符为当前标识符,并解析所述文章链接的网页内容并存储。若所述当前标识符小于等于所述最大成功标识符,则直接解析所述文章链接的网页内容并存储。
图7显示为本申请实施例所述的数据采集方法的流程示意图,如图7所示,所述步骤S134包括步骤S1343至S1346。
步骤S1343,根据所述过期时间判断所述文章链接是否已经过期。
步骤S1344,若是,则丢弃所述文章链接,若否,则判断所述当前标识符是否大于所述最大成功标识符。
步骤S1345,若所述当前标识符大于所述最大成功标识符,则将所述文章链接补入所述待抓取队列,若所述当前标识符小于等于所述最大成功标识符,则判断所述文章链接是否配置有过期时间。
步骤S1346,若所述文章链接没有配置过期时间,则为所述文章链接配置过期时间,重复进行数据采集后补入所述待抓取队列。
在一些可能的实现方式中,请求获取文章链接失败后,判断所述文章链接是否已经过期,若已经过期则认定所述文章链接无需进行采集,丢弃所述文章链接。若所述文章链接没有过去则判断当前标识符是否大于最大成功标识符,若所述当前标识符大于所述最大成功标识符,说明所述文章链接未被抓取过,补入所述待抓取队列。若所述当前标识符小于等于所述最大成功标识符,则判断所述文章链接是否配置有过期时间。若配置过过期时间,则说明所述文章链接被处理过,等待下次抓取,若所述文章链接没有配置过期时间,则为所述文章链接配置过去时间,等待下次抓取时将所述为文章链接补入所述待抓取队列。
在另一些可能的实现方式中,获取配置参数,根据所述配置参数中的最大成功标识符、生成标识符数量和最大标识符获取新增标识符的数量。根据所述新增标识符的数量判断所述新增标识符是否大于零,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。若是,则获取新增标识符区间,并根据所述新增标识符区间和基础路径链接生成文章链接,将各所述文章链接放入采集队列以获取待抓取队列。具体地,获取所述待抓取队列中的任意一条文章链接,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,判断当前标识符是否大于所述最大成功标识符,若是,则更新所述最大成功标识符为当前标识符,解析所述文章链接的网页内容并存储,若否,直接解析所述文章链接的网页内容并存储。若请求失败,根据所述过期时间判断所述文章链接是否已经过期,若是,则丢弃所述文章链接,若否,则判断所述当前标识符是否大于所述最大成功标识符。若所述当前标识符大于所述最大成功标识符,则将所述文章链接补入所述待抓取队列,若所述当前标识符小于等于所述最大成功标识符,则判断所述文章链接是否配置有过期时间。若所述文章链接没有配置过期时间,则为所述文章链接配置过期时间,重复进行数据采集后补入所述待抓取队列。
需要说明的是,以上仅为本申请实施例两种可能的实现方式,本申请并不依次为限。
图8显示为本申请实施例所述的数据采集系统的结构示意图,如图8所示,所述数据采集系统100包括参数配置模块110、参数获取模块120和数据采集模块130。
所述参数配置模块110用于获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间。
所述参数获取模块120用于根据所述配置参数获取新增标识符的数量。
所述数据采集模块130用于判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零。
需要说明的是,所述数据采集系统100包含的上述模块110至130与图2所示数据采集方法中的步骤S11至S13一一对应,此处不做赘述。
本申请实施例中,所述参数配置模块110用于获取配置参数,所述参数获取模块120用于根据所述配置参数获取新增标识符的数量,所述数据采集模块130用于判断新增标识符的数量是否大于零,若大于零,则说明存在未进行数据收集的新增标识符区间,以此获取待抓取队列,若小于等于零,则说明不存在未收集过的数据,待休眠一段时候后重复进行数据采集操作。此种数据采集系统100能够提高数据采集的效率,避免重复采集和数据丢失的问题,保证数据采集的全面性和时效性。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本申请实施例的目的。例如,在本申请各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例还提供了一种电子设备。图9显示为本申请实施例所述的电子设备900的结构示意图。如图9所示,本实施例中电子设备900包括存储器910和处理器920。
存储器910用于存储计算机程序;优选地,存储器910包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
具体地,存储器910可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)和/或高速缓存存储器。电子设备900可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。存储器910可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
处理器920与存储器910相连,用于执行存储器910存储的计算机程序,以使电子设备900执行本申请任一实施例所述的数据采集方法。
可选地,处理器920可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中电子设备900还可以包括显示器930。显示器930与存储器910和处理器920通信相连,用于显示本申请实施例所述的数据采集方法的相关图形用户界面(Graphics User Interface,简称GUI)交互界面。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序。该程序被处理器执行时实现本申请任一实施例所述的数据采集方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
上述实施例仅例示性说明本申请的原理及其功效,而非用于限制本申请。任何熟悉此技术的人士皆可在不违背本申请的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本申请所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本申请的权利要求所涵盖。

Claims (9)

1.一种数据采集方法,其特征在于,包括:
获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;
根据所述配置参数获取新增标识符的数量;
判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零;
其中,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:根据所述新增标识符的区间和所述基础路径链接生成文章链接;将各所述文章链接放入采集队列以获取所述待抓取队列。
2.根据权利要求1所述的数据采集方法,其特征在于,根据所述配置参数获取新增标识符的数量包括:
获取最大成功标识符、生成标识符数量和最大标识符作为所述配置参数;
根据所述配置参数中所述最大成功标识符、所述生成标识符数量和所述最大标识符进行加减运算以获取所述新增标识符的数量。
3.根据权利要求1所述的数据采集方法,其特征在于,根据所述新增标识符区间和所述基础路径链接获取待抓取队列包括:
根据所述最大标识符和所述新增标识符的数量更新所述最大标识符,以获取更新后的最大标识符;
根据所述更新后的最大标识符作为所述配置参数以获取所述新增标识符的数量,重复进行数据采集。
4.根据权利要求1所述的数据采集方法,其特征在于,还包括:
获取所述待抓取队列中的任意一条文章链接;
发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列。
5.根据权利要求4所述的数据采集方法,其特征在于,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求成功,则获取所述文章链接的内容并存储包括:
判断当前标识符是否大于所述最大成功标识符,若是,则更新所述最大成功标识符为当前标识符,解析所述文章链接的网页内容并存储,若否,直接解析所述文章链接的网页内容并存储。
6.根据权利要求4所述的数据采集方法,其特征在于,发送请求以获取所述文章链接的网页内容,判断是否请求成功,若请求失败,则判断是否将所述文章链接补充到所述待抓取队列包括:
根据所述过期时间判断所述文章链接是否已经过期,若是,则丢弃所述文章链接,若否,则判断当前标识符是否大于所述最大成功标识符;
若所述当前标识符大于所述最大成功标识符,则将所述文章链接补入所述待抓取队列,若所述当前标识符小于等于所述最大成功标识符,则判断所述文章链接是否配置有过期时间;
若所述文章链接没有配置过期时间,则为所述文章链接配置过期时间,重复进行数据采集后补入所述待抓取队列。
7.一种数据采集系统,其特征在于,包括:
参数配置模块,用于获取配置参数,所述配置参数包括基础路径链接、最大成功标识符、生成标识符数量、最大标识符和过期时间;
参数获取模块,用于根据所述配置参数获取新增标识符的数量;
数据采集模块,用于判断所述新增标识符的数量是否大于零,若是,则获取新增标识符区间,并根据所述新增标识符区间和所述基础路径链接获取待抓取队列,若否,则休眠后重复根据所述配置参数获取所述新增标识符的数量,并判断所述新增标识符的数量是否大于零;
其中,所述数据采集模块还用于:根据所述新增标识符的区间和所述基础路径链接生成文章链接;将各所述文章链接放入采集队列以获取所述待抓取队列。
8.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机程序;
处理器,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至6任一项所述的数据采集方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至6任一项所述的数据采集方法。
CN202410749687.2A 2024-06-12 2024-06-12 数据采集方法、系统、电子设备及介质 Pending CN118332217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410749687.2A CN118332217A (zh) 2024-06-12 2024-06-12 数据采集方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410749687.2A CN118332217A (zh) 2024-06-12 2024-06-12 数据采集方法、系统、电子设备及介质

Publications (1)

Publication Number Publication Date
CN118332217A true CN118332217A (zh) 2024-07-12

Family

ID=91780562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410749687.2A Pending CN118332217A (zh) 2024-06-12 2024-06-12 数据采集方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN118332217A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005317016A (ja) * 2005-04-27 2005-11-10 Nec Corp データ取得システム及びデータ取得方法
US20140046968A1 (en) * 2011-04-15 2014-02-13 Tencent Technology (Shenzhen) Company Limited Data acquisition method, device and system
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
CN111444411A (zh) * 2020-03-30 2020-07-24 深圳前海微众银行股份有限公司 网络数据增量采集方法、装置、设备及存储介质
WO2021101798A1 (en) * 2019-11-18 2021-05-27 Sas Institute Inc. Distributed columnar data set storage and retrieval
CN113392345A (zh) * 2021-06-08 2021-09-14 北京来看科技有限公司 一种数据采集方法、装置、终端及存储介质
CN113569181A (zh) * 2021-07-29 2021-10-29 山东亿云信息技术有限公司 一种分页数据采集方法及系统
CN114417216A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 数据采集方法、装置、电子设备及可读存储介质
CN114417200A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 网络数据的采集方法、装置及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005317016A (ja) * 2005-04-27 2005-11-10 Nec Corp データ取得システム及びデータ取得方法
US20140046968A1 (en) * 2011-04-15 2014-02-13 Tencent Technology (Shenzhen) Company Limited Data acquisition method, device and system
CN109088908A (zh) * 2018-06-06 2018-12-25 武汉酷犬数据科技有限公司 一种面向网络的分布式通用数据采集方法和系统
WO2021101798A1 (en) * 2019-11-18 2021-05-27 Sas Institute Inc. Distributed columnar data set storage and retrieval
CN111444411A (zh) * 2020-03-30 2020-07-24 深圳前海微众银行股份有限公司 网络数据增量采集方法、装置、设备及存储介质
CN113392345A (zh) * 2021-06-08 2021-09-14 北京来看科技有限公司 一种数据采集方法、装置、终端及存储介质
CN113569181A (zh) * 2021-07-29 2021-10-29 山东亿云信息技术有限公司 一种分页数据采集方法及系统
CN114417216A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 数据采集方法、装置、电子设备及可读存储介质
CN114417200A (zh) * 2022-01-04 2022-04-29 马上消费金融股份有限公司 网络数据的采集方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN107895009B (zh) 一种基于分布式的互联网数据采集方法及系统
CN107463641B (zh) 用于改进对搜索结果的访问的系统和方法
CN105447184B (zh) 信息抓取方法及装置
CN109902220B (zh) 网页信息获取方法、装置和计算机可读存储介质
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
CN110737659A (zh) 图数据存储和查询方法、装置及计算机可读存储介质
CN103763361A (zh) 一种基于用户行为推荐应用的方法、系统及推荐服务器
CN111046237B (zh) 用户行为数据处理方法、装置、电子设备及可读介质
CN109977312B (zh) 一种基于内容标签的知识库推荐系统
CN102037464A (zh) 具有最多点击的下一个对象的搜索结果
CN111898023A (zh) 一种消息推送方法、装置、可读存储介质及计算设备
Boutet et al. Hyrec: Leveraging browsers for scalable recommenders
CN111586126A (zh) 小程序预下载方法、装置、设备及存储介质
CN111125107A (zh) 数据处理方法、装置、电子设备和介质
CN107908662B (zh) 搜索系统的实现方法和实现装置
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
CN111932308A (zh) 数据推荐方法、装置和设备
US20160239533A1 (en) Identity workflow that utilizes multiple storage engines to support various lifecycles
CN110866040A (zh) 用户画像生成方法、装置和系统
CN111680799A (zh) 用于处理模型参数的方法和装置
US20110282891A1 (en) Methods And Apparatuses For Providing A Search Crowd Capability
CN108664492A (zh) 一种向用户推送内容的方法、装置、电子设备和存储介质
CN111488386B (zh) 数据查询方法和装置
US20200089712A1 (en) System and method of crawling wide area computer network for retrieving contextual information
CN111382365A (zh) 用于输出信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination