CN114417216A - 数据采集方法、装置、电子设备及可读存储介质 - Google Patents

数据采集方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114417216A
CN114417216A CN202210005367.7A CN202210005367A CN114417216A CN 114417216 A CN114417216 A CN 114417216A CN 202210005367 A CN202210005367 A CN 202210005367A CN 114417216 A CN114417216 A CN 114417216A
Authority
CN
China
Prior art keywords
link
identifier
target
page
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210005367.7A
Other languages
English (en)
Other versions
CN114417216B (zh
Inventor
罗奇帅
吴海英
王洪斌
权佳成
蒋宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Consumer Finance Co Ltd
Original Assignee
Mashang Consumer Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Consumer Finance Co Ltd filed Critical Mashang Consumer Finance Co Ltd
Priority to CN202210005367.7A priority Critical patent/CN114417216B/zh
Publication of CN114417216A publication Critical patent/CN114417216A/zh
Application granted granted Critical
Publication of CN114417216B publication Critical patent/CN114417216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种数据采集方法、装置、电子设备及可读存储介质,其中,所述数据采集方法包括:获取待采集网站的链接格式和第一标识,其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识;根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识,其中,所述第二标识是在所述第一标识的基础上按照预设规则递增得到的;根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接;采集所述目标链接对应的页面中的数据。

Description

数据采集方法、装置、电子设备及可读存储介质
技术领域
本申请属于数据采集技术领域,具体涉及一种数据采集方法、装置、电子设备及可读存储介质。
背景技术
随着网络信息技术的高速发展,网络信息数据时刻都在爆炸性地增长,如何采集实时更新的数据,是丞待解决的技术问题。
相关技术通过积累频道,不断刷新采集频道中更新的页面,从而获取到实时更新的数据。但是,频道积累采集数据的方式需要依赖很多资源,而频道数量繁多,采集所有数据需要耗费较多的资源。例如,在采集某个具有多个频道的网站的情况下,刷新所有频道将耗费较多的资源。
发明内容
本申请实施例的目的是提供一种数据采集方法、装置、电子设备及可读存储介质,能够解决相关技术在进行数据采集时耗费资源较多的问题。
第一方面,本申请实施例提供了一种数据采集方法,包括:获取待采集网站的链接格式和第一标识,其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识;根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识,其中,所述第二标识是在所述第一标识的基础上按照预设规则递增的;根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接;采集所述目标链接对应的页面中的数据。
第二方面,本申请实施例提供了一种数据采集装置,包括:获取模块,获取待采集网站的链接格式和第一标识,其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识;第一确定模块,根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识,其中,所述第二标识是在所述第一标识的基础上按照预设规则递增的;第二确定模块,根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接;采集模块,采集所述目标链接对应的页面中的数据。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,通过链接格式和目标标识可以提前构造好待采集网站可能会新增的文本的链接,通过访问链接,可以在待采集网站有新增的文本时,采集到新增的文本数据,从而可以在待采集网站的各个频道中有新增文本时,通过构造的与该文本对应的链接采集到新增的文本数据,而无需通过刷新各个频道获取各个频道新增的文本数据,减少了消耗的资源,解决了相关技术在进行数据采集时耗费资源较多的问题。
附图说明
图1是本申请实施例提供的数据采集方法的一种流程示意图;
图2是本申请实施例提供的数据采集方法的另一种流程示意图;
图3是本申请实施例提供的数据采集装置的一种结构示意图;
图4是本申请实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的数据质量分析系统及方法进行详细地说明。
图1是本申请实施例提供的数据采集方法的一种流程示意图,该方法100可以由终端设备执行。换言之,所述方法可以由安装在终端设备的软件或硬件来执行。如图1所示,该方法可以包括以下步骤。
S110:获取待采集网站的链接格式和第一标识。
其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识。
在本申请实施例中,待采集网站中的文本对应的标识是按照预设规则递增的,具体的,按照预设规则递增可以为按照自然数顺序递增,例如,1、2、3、4、5、……,顺序递增。或者,按照预设规则递增也可以为按照英文字母顺序递增,例如,a、b、c、d、e、……,或者,也可以由数字与字母组合顺序递增,例如,a1、a2、……、a100000、b1、b2、……、b100000、c1、c2、……。或者,也可以是其它约定的规律,例如,等差数列的顺序:1、3、5、7、9等,具体的规律在本申请实施例中不作限定,只要该待采集网站新增的文本是按照预定规律递增,就可以提前构建新增文本的链接。
以按照自然数顺序递增为例,假如在9:00发布到待采集网站的文本的标识是998100,下一篇文本在9:01发布到待采集网站,则该文本的标识为998101,以此类推,新增文本的标识在前一个文本的标识的基础上递增。
在具体应用中,以待采集网站为网站A为例,网站A的配置信息url_format记载了链接格式,maxid记载了目标标识,因此,通过获取url_format和maxid,可以得到链接格式和目标标识。假设,网站A的某条链接为https://aaaa.bbb.com/p/998100,则网站A的链接格式为https://aaaa.bbb.com/p/{},该链接对应的文本的标识为998100,假设标识998100为网站A中的文本对应的标识中数值最大的标识,则第一标识为998100。
在本申请实施例中,对于获取所述链接格式和第一标识的方式不做具体限定。
在本申请实施例中,文本包括网站中的文章,该文章包括但不限于:图片、视频、文字及其相互组合,特别地,该文本是指待采集网站中具有独立的链接(或者也可以称为链接地址)的元素,通过访问该文本的链接地址,可以打开对应的页面,获取该文本的详细信息。
S120:根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识。
其中,所述第二标识是在所述第一标识的基础上按照预设规则递增得到的。
以上述网站A为例,网站A的第一标识为998100,第二标识在第一标识的基础上按照预设规则递增,例如,按照自然数顺序递增,则第二标识为998101、998102、998103、998104、……。
S130:根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接。
以上述网站A为例,网站A的链接格式为https://aaaa.bbb.com/p/{},网站A的第一标识为998100,预定规律为按自然数顺序递增,则可以根据链接格式https://aaaa.bbb.com/p/{}和第一标识998100构造出新增文本的目标链接,即构造的第一个目标链接为https://aaaa.bbb.com/p/998101、第二个目标链接为https://aaaa.bbb.com/p/998102、第三个目标链接为https://aaaa.bbb.com/p/998103、……。
S140:采集所述目标链接对应的页面中的数据。
每个目标链接都对应有相应的页面,可以通过采集目标链接对应的页面中的数据,得到待采集网站中新增的文本的数据。在具体应用中,可以将构造的各个目标链接存储至相应的数据库中。例如,可以将构造的各目标链接存储至远程字典服务(RemoteDictionary Server,Redis)数据库中。具体的,可以将各目标链接存储至Redis数据库的spider_key队列中。在采集数据时,可以通过代码程序采集各个目标链接对应的页面中的数据。
本申请实施例提供的数据采集方法,通过链接格式和目标标识可以提前构造好待采集网站可能会新增的文本的链接,通过访问链接,可以在待采集网站有新增的文本时,采集到新增的文本数据,从而可以在待采集网站的各个频道中有新增文本时,通过构造的与该文本对应的链接采集到新增的文本数据,而无需通过刷新各个频道获取各个频道新增的文本数据,减少了消耗的资源,解决了相关技术在进行数据采集时耗费资源较多的问题。而且,由于确定新增的文本对应的链接比较简单,确定速度较快,相较于传统的通过刷新频道,采集频道内新增的文本的采集方式,能够提升采集的速度。另外,在频道较多、且各个频道都有新增的文本的情况下,采用刷新各个频道进行数据采集的方式,可能导致数据遗漏,而本申请提供的数据采集方法,按照待采集网站中新增文本的标识的递增规律,构建各个新增文本对应的链接,对每一个新增文本的链接进行遍历,从而可以采集到一个网站的全量数据。
在一种可能的实现方式中,所述新增文本的数量为m个,其中,m为大于1的整数。所述采集所述目标链接对应的页面中的数据,可以包括:将m个目标链接分配到n个链接队列中,每个所述链接队列中包括一个或多个所述链接,其中,每个所述链接队列对应一个采集进程,每个所述新增文本对应一个目标链接,n为小于或等于m的整数;执行n个所述采集进程,采集m个所述目标链接中各目标链接对应的页面中的数据,。由于每个所述链接队列对应一个采集进程,因此,每个所述采集进程访问一个所述链接队列中的链接。
以上述网站A的链接格式为https://aaaa.bbb.com/p/{}、第一标识为998100、预定规律为按自然数顺序递增、以及新增文本为100个为例,每个新增文本都对应有一个目标链接,第一个新增文本对应的目标链接为https://aaaa.bbb.com/p/998101,第二个新增文本对应的目标链接为https://aaaa.bbb.com/p/998102,第三个新增文本对应的目标链接为https://aaaa.bbb.com/p/998103,以此类推,第100个新增文本对应的目标链接为https://aaaa.bbb.com/p/998200。
可以将上述100个目标链接分配到10个链接队列中,每个链接队列中可以包括一个或多个链接。可选的,可以采用平均分配的方式,将100个链接平均分配到10个链接队列中,则每个链接队列中包括10个链接。每个链接可以对应一个采集进程,因此,有10个采集进程。在具体应用中,可以并发执行该10个采集进程,每个采集进程访问对应的一个链接队列中的链接,采集链接对应的页面中的数据。通过并发执行多个采集程序,采集多个链接对应的页面的数据,能够使采集数据的速度得到有效提升。
在一种可能的实现方式中,在预预设规则为按照自然数顺序递增的情况下,所述将m个目标链接分配到n个链接队列中,可以包括:获取m个第二标识分别对n取余得到的余数,每个所述目标链接对应一个所述第二标识;将余数相同的第二标识对应的目标链接分配到同一个所述链接队列中。
具体的,仍然以上述链接格式为https://aaaa.bbb.com/p/{},第一标识为998100,m为100,n为10为例,即构造的目标链接总数为100个,可以使100个目标链接队列对应的100个第二标识对10取余,将取余后的余数相同的第二标识对应的目标链接分配到同一个链接队列中,例如,构造的第一个目标链接对应的第二标识为998101,对10取余得到的余数为1,第十一个目标链接对应的第二标识为998111,对10取余得到的余数也为1,第一个目标链接对应的第二标识对10取余得到的余数与第十一个目标链接对应的第二标识对10取余得到的余数相同,因此,可以将第一个目标链接和第十一个目标链接分配到同一链接队列中,例如,将余数为1的第二标识对应的目标链接分配到第一个链接队列中,即第一个链接队列中的目标链接可以包括:https://aaaa.bbb.com/p/998101、https://aaaa.bbb.com/p/998111、https://aaaa.bbb.com/p/998121、......、https://aaaa.bbb.com/p/998191。同理,第二个链接队列中的目标链接可以为对应的第二标识对10取余后得到的余数为2的目标链接,例如,第二个链接队列中的目标链接可以包括:https://aaaa.bbb.com/p/998102、https://aaaa.bbb.com/p/998112、https://aaaa.bbb.com/p/998122、......、https://aaaa.bbb.com/p/998192。以此类推,可以得到10个链接队列。
通过上述可能的实现方式,将新增的标识相邻的文本对应的链接分配到不同的链接队列,从而可以避免采集某一个链接队列的采集进程任务比较集中的情况。
在具体应用中,上述确定的目标链接是待采集网站可能会新增的文本的链接,例如,待采集网站新增了90个文本,若确定了100个目标链接,则在采集目标链接对应的页面中的数据时,将有10个目标链接对应的页面中无文本内容,即有10个目标链接对应的页面为异常页面。如果确定的所有目标链接对应的页面都为异常页面,则说明当前时段可能为非活跃时段,为了避免无效采集,在这种情况下,可以暂停采集。
因此,在一种可能的实现方式中,所述采集m个所述目标链接中各目标链接对应的页面中的数据,可以包括:分别访问m个所述目标链接,根据所述待采集网站的异常页面判断规则,判断m个所述目标链接中各个目标链接对应的页面是否是异常页面;在m个所述目标链接对应的页面都为所述异常页面的情况下,停止采集所述待采集网站的数据。该可能实现的方式,在判断出对应采集的所有目标链接对应的页面都为异常页面的情况下,即在该轮采集数据的进程中,待采集网站没有新增文本的情况下,确定当前时段为非活跃时段,可以停止采集待采集网站的数据,以避免无效采集带来的资源浪费。
进一步的,所述在停止采集所述待采集网站的数据之后,所述方法还可以包括:在等待预设时间后,再次访问m个所述目标链接,采集m个所述目标链接对应的页面中的数据。在等待预设时间后,待采集网站可能新增了文本,因此可以再次访问该m个链接,采集该m个链接对应的页面中的数据,从而保证数据采集的完整。
其中,预设时间可以根据实际应用确定,并且,在不同时段,所述预设时间可以不相同。例如,在8:00-17:00,所述预设时间可以为10分钟,在17:00-22:00,所述预设时间可以为1分钟,在22:00-8:00,所述预设时间可以为20分钟。在一个可能的实现方式中,还可以根据历史数据确定各个时段对应的预设时间,例如,根据历史数据确定在19:00-21:00为待采集网站的活跃时间段,每分钟都有新增文本,则可以将该时间段对应的预设时间设为1分钟,而在24:00-6:00为待采集网站的休眠时间段,整个时间段只有零星的几个新增文本,则可以将该时间段对应的预设时间设为2小时。
在一种可能的实现方式中,所述根据所述待采集网站的异常页面判断规则,判断m个所述目标链接对应的页面是否是异常页面,可以包括:根据所述异常页面判断规则生成正则表达式;对m个所述目标链接中各个目标链接对应的页面进行正则表达式匹配;在匹配成功的情况下,确定所述目标链接对应的页面是所述异常页面,在匹配未成功的情况下,确定所述目标链接对应的页面不是所述异常页面。
在具体应用中,除了通过上述正则表达式匹配法确定目标链接对应的页面是否为异常页面外,还可以采用其他方法作为预设判断方法,例如,对于普通的异常页面判断规则,异常页面请求状态是403或404,可以根据状态码403或404判断链接对应的页面是否是异常页面。但是,随着技术的发展,异常页面可能为用户自定义的页面,其状态码可能是200,页面内容可能是“页面消失在外太空”,此时再采用通用的根据状态码来判断链接对应的页面是否是异常页面的方式将不再适用,而上述正则表达式匹配法适用范围广,可用于各种异常页面的判断。
在一种可能的实现方式中,所述在根据所述待采集网站的异常页面判断规则,判断m个所述目标链接中各个目标链接对应的页面是否是异常页面之后,所述方法还可以包括:在存在至少一个所述目标链接对应的页面不为所述异常页面的情况下,将页面不为所述异常页面的所述目标链接对应的最大的标识作为下一轮数据采集的第一标识。该可能的实现方式对应至少一个目标链接对应的页面不为异常页面的情况,可以将不为异常页面的目标链接对应的最大的标识作为下一轮数据采集的第一标识,从而用以进行下一轮采集。若只存在一个目标链接对应的页面不为异常页面,则可以将该链接对应的标识作为下一轮采集的第一标识。该可能的实现方式,通过将当前待采集网站中的文本对应的标识中最大的标识作为下一轮采集数据的第一标识,一方面可以确保当前未被成功采集的文本能够在下一轮继续采集,保证数据采集的完整。另一方面,在进行下一轮采集时,不用再次获取待采集网站中的文本对应的最大标识,从而节省采集数据的时间。
下面以待采集网站为网站A,其链接格式为http://www.test.com/a/{},网站A中的最大标识为15,即目标标识为15为例,对本申请实施例提供的技术方案进行描述。
图2是本申请实施例提供的数据采集方法在具体应用中的一种流程示意图,如图2所示,该方法200可以包括以下步骤。
S210:启动数据采集程序。
S220:读取网站A的链接格式http://www.test.com/a/{}和网站A的第一标识15,即网站A中的文本对应的标识中数值最大的标识为15。
S230:根据网站A的链接格式和目标标识,确定标识15之后的100个第二标识对应的目标链接。
在该步骤中,根据网站A的链接格式和所述第一标识,可以确定网站A中后续可能新增的100个新增文本对应的目标链接,即分别为http://www.test.com/a/16、http://www.test.com/a/17、http://www.test.com/a/18、......、http://www.test.com/a/114、http://www.test.com/a/115。
在该步骤中,可以将上述100个目标链接存入一个链接队列或者多个链接队列,通过一个或多个采集进程进行采集。例如,可以将上述100个目标链接存入5个链接队列,该5个链接队列包括的目标链接总数为100,该100个目标链接对应的第二标识为16到115。其中,第一个链接队列中可以包括以下目标链接:http://www.test.com/a/16、http://www.test.com/a/21、http://www.test.com/a/26、http://www.test.com/a/31、......、http://www.test.com/a/111,即该链接队列中包括的链接对应的第二标识对5取余后得到的余数为1,目标链接总数为20个。第二个链接队列中可以包括以下目标链接:http://www.test.com/a/17、http://www.test.com/a/22、http://www.test.com/a/27、http://www.test.com/a/32、......、http://www.test.com/a/112,即该链接队列中包括的目标链接对应的第二标识对5取余后得到的余数为2,目标链接总数为20个。同样的,第三个链接队列中包括的目标链接对应的第二标识对5取余后得到的余数为3,目标链接总数为20个,第四个链接队中包括的目标链接对应的第二标识对5取余后得到的余数为4,目标链接总数为20个,第五个链接队中包括的目标链接对应的第二标识对5取余后得到的余数为0,目标链接总数为20个。
S240:下发采集命令。
该采集命令指示对上述一个链接队列或者多个链接队列中的各个目标链接进行采集,接收到该采集命令后,连接所述各个目标链接。
例如,如果采用上述将100个目标链接存入5个链接队列的方式,则可以通过5个采集进程,分别对各个链接队列中的目标链接进行采集。通过多个链接队列,一方面,可以加快采集的速度,另一方面,通过将对应的标识对5取余后得到的余数相同的链接存入同一个链接队列,也可以均衡各个采集进程的任务。例如,如果网站A中新增了5个文本,其对应的链接为:http://www.test.com/a/16、http://www.test.com/a/17、http://www.test.com/a/18、http://www.test.com/a/19、http://www.test.com/a/20,该5个链接分别在一个链接队列中,则5个采集进程可以分别采集一个链接对应的页面,避免了新增的5个链接在同一个链接队列,而使得同一个采集进程需要采集5个链接对应的页面的情况下。
S250:判断各目标链接对应的页面是否是异常页面,若全部目标链接对应的页面都是异常页面,执行步骤S260,若存在至少一个目标链接对应的页面不为异常页面,则执行步骤S270。
例如,可以根据正则匹配法和网站A的404规则判断各目标链接对应的页面是否为404页面,若为404页面,则判断目标链接对应的页面为异常页面。假设判断出的页面全部为404页面,则执行步骤260。
S260:停止数据采集预设时间。
停止数据采集,等待预设时间,例如60S后,使用原来的第一标识,即15继续执行步骤230。
S270:进行数据采集。
在该步骤中,数据采集结束后,将页面不为异常页面的目标链接对应的最大的标识作为下一轮数据采集的第一标识。例如,有5个链接对应的页面不为404页面,该5个链接为:http://www.test.com/a/16、http://www.test.com/a/17、http://www.test.com/a/18、http://www.test.com/a/19、http://www.test.com/a/20,则取该5个链接对应的标识中最大的标识即20为下一轮采集的目标标识,使用该目标标识执行返回执行步骤230,从而可以确保未被成功采集到的链接可以在下一轮继续被采集,保证数据采集的完整性。
需要说明的是,本申请实施例提供的一种数据采集方法,执行主体可以为数据采集装置,或者,该数据采集装置中的用于执行数据采集方法的控制模块。本申请实施例中以数据采集装置执行数据采集方法为例,说明本申请实施例提供的数据采集装置。
图3是本申请实施例提供的数据采集装置的一种结构示意图。如图3所示,该数据采集装置300包括:获取模块310、第一确定模块320、第二确定模块330和采集模块340。
获取模块310用于获取待采集网站的链接格式和第一标识,其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识;第一确定模块320根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识,其中,所述第二标识是在所述第一标识的基础上按照预设规则递增的;第二确定模块330用于根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接;采集模块340用于采集所述目标链接对应的页面中的数据。
在一种实现方式中,所述新增文本的数量为m个,其中,m为大于1的整数;所述采集模块340采集所述目标链接对应的页面中的数据,包括:将m个目标链接分配到n个链接队列中,每个所述链接队列中包括一个或多个所述链接,其中,每个所述链接队列对应一个采集进程,每个所述新增文本对应一个所述目标链接,n为小于或等于m的整数;执行所述n个采集进程,采集所述m个目标链接中各目标链接对应的页面中的数据。
在一种实现方式中,所述采集模块340将m个目标链接分配到n个链接队列中,包括:获取m个第二标识分别对n取余得到的余数,其中,每个所述目标链接对应一个所述第二标识;将余数相同的第二标识对应的目标链接分配到同一个链接队列中,得到所述n个链接队列。
在一种实现方式中,所述采集模块340采集所述m个目标链接中各目标链接对应的页面中的数据,包括:分别访问所述m个目标链接,根据所述待采集网站的异常页面判断规则,判断所述m个目标链接中各个目标链接对应的页面是否是异常页面;在所述m个目标链接对应的页面都为所述异常页面的情况下,停止采集所述待采集网站的数据。
在一种实现方式中,所述采集模块340在停止采集所述待采集网站的数据之后,还用于在等待预设时间后,再次访问所述m个目标链接,采集所述m个目标链接对应的页面中的数据。
在一种实现方式中,所述采集模块340根据所述待采集网站的异常页面判断规则,判断所述m个目标链接对应的页面是否是异常页面,包括:根据所述异常页面判断规则生成正则表达式;对所述m个目标链接中各个目标链接对应的页面进行正则表达式匹配;在匹配成功的情况下,确定所述链接对应的页面是所述异常页面,在匹配未成功的情况下,确定所述链接对应的页面不是所述异常页面。
在一种实现方式中,所述采集模块340还用于在根据所述待采集网站的异常页面判断规则,判断所述m个目标链接中各个所述目标链接对应的页面是否是异常页面之后,在存在至少一个所述目标链接对应的页面不为所述异常页面的情况下,将页面不为所述异常页面的所述目标链接对应的最大的标识作为下一轮数据采集的第一标识。
本申请实施例中的网络变更装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动终端,也可以为非移动终端,本申请实施例不作具体限定。
本申请实施例中的数据采集装置300可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的数据采集装置能够实现图1和图2的方法实施例中终端实现的各个过程,并达到相同的技术效果,为避免重复,这里不再赘述。
可选的,如图4所示,本申请实施例还提供一种电子设备400,包括处理器410和存储器420,在存储器420上存储有可在所述处理器410上运行的程序或指令,例如,该电子设备400为终端时,该程序或指令被处理器410执行时实现上述数据采集方法实施例的各个过程,且能达到相同的技术效果。为避免重复,这里不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述数据采集方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述数据采集方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
进一步地,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现上述数据采集方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限,按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (10)

1.一种数据采集方法,其特征在于,包括:
获取待采集网站的链接格式和第一标识,其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识;
根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识,其中,所述第二标识是在所述第一标识的基础上按照预设规则递增得到的;
根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接;
采集所述目标链接对应的页面中的数据。
2.根据权利要求1所述的方法,其特征在于,所述新增文本的数量为m个,其中,m为大于1的整数;
所述采集所述目标链接对应的页面中的数据,包括:
将m个目标链接分配到n个链接队列中,每个所述链接队列中包括一个或多个所述目标链接,其中,每个所述链接队列对应一个采集进程,每个所述新增文本对应一个所述目标链接,n为小于或等于m的整数;
执行n个所述采集进程,采集m个所述目标链接中各目标链接对应的页面中的数据。
3.根据权利要求2所述的方法,其特征在于,所述将m个目标链接分配到n个链接队列中,包括:
获取m个第二标识分别对n取余得到的余数,其中,每个所述目标链接对应一个所述第二标识;
将余数相同的第二标识对应的目标链接分配到同一个链接队列中,得到n个所述链接队列。
4.根据权利要求2所述的方法,其特征在于,所述采集m个所述目标链接中各目标链接对应的页面中的数据,包括:
分别访问m个所述目标链接,根据所述待采集网站的异常页面判断规则,判断m个所述目标链接中各个目标链接对应的页面是否是异常页面;
在m个所述目标链接对应的页面都为所述异常页面的情况下,停止采集所述待采集网站的数据。
5.根据权利要求4所述的方法,其特征在于,所述在停止采集所述待采集网站的数据之后,所述方法还包括:
在等待预设时间后,再次访问m个所述目标链接,采集m个所述目标链接对应的页面中的数据。
6.根据权利要求4所述的方法,其特征在于,所述根据所述待采集网站的异常页面判断规则,判断m个所述目标链接中各个目标链接对应的页面是否是异常页面,包括:
根据所述异常页面判断规则生成正则表达式;
对m个所述目标链接中各个目标链接对应的页面进行正则表达式匹配;
在匹配成功的情况下,确定所述目标链接对应的页面是所述异常页面,在匹配未成功的情况下,确定所述目标链接对应的页面不是所述异常页面。
7.根据权利要求4所述的方法,其特征在于,所述在根据所述待采集网站的异常页面判断规则,判断m个所述目标链接中各个目标链接对应的页面是否是异常页面之后,所述方法还包括:
在存在至少一个所述目标链接对应的页面不为所述异常页面的情况下,将页面不为所述异常页面的所述目标链接对应的最大的标识作为下一轮数据采集的第一标识。
8.一种数据采集装置,其特征在于,包括:
获取模块,获取待采集网站的链接格式和第一标识,其中,所述第一标识为所述待采集网站中的文本对应的标识中数值最大的标识;
第一确定模块,根据所述第一标识,确定所述待采集网站中新增文本对应的第二标识,其中,所述第二标识是在所述第一标识的基础上按照预设规则递增的;
第二确定模块,根据所述链接格式和所述第二标识,确定所述新增文本对应的目标链接;
采集模块,采集所述目标链接对应的页面中的数据。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的数据采集方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的数据采集方法的步骤。
CN202210005367.7A 2022-01-04 2022-01-04 数据采集方法、装置、电子设备及可读存储介质 Active CN114417216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210005367.7A CN114417216B (zh) 2022-01-04 2022-01-04 数据采集方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210005367.7A CN114417216B (zh) 2022-01-04 2022-01-04 数据采集方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114417216A true CN114417216A (zh) 2022-04-29
CN114417216B CN114417216B (zh) 2022-11-29

Family

ID=81271904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210005367.7A Active CN114417216B (zh) 2022-01-04 2022-01-04 数据采集方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114417216B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118332217A (zh) * 2024-06-12 2024-07-12 上海蜜度科技股份有限公司 数据采集方法、系统、电子设备及介质

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046820A (zh) * 2006-03-29 2007-10-03 国际商业机器公司 在web爬取过程期间给网站排优先级的系统和方法
CN101082915A (zh) * 2006-05-29 2007-12-05 陈鹰 一种浏览器本地页面的存储和更新方法
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
US20090157898A1 (en) * 2007-12-13 2009-06-18 Google Inc. Generic Format for Efficient Transfer of Data
CN101504671A (zh) * 2009-03-05 2009-08-12 阿里巴巴集团控股有限公司 用户访问网页行为的可视化处理方法、装置及系统
CN101661471A (zh) * 2008-08-29 2010-03-03 朱世康 一种网页页面的显示方法和装置
CN102629282A (zh) * 2012-05-03 2012-08-08 湖南神州祥网科技有限公司 一种网址分类方法、装置及系统
CN102841898A (zh) * 2011-06-23 2012-12-26 张家港凯纳信息技术有限公司 网络信息监控分析系统
CN103077254A (zh) * 2013-02-06 2013-05-01 人民搜索网络股份公司 网页获取方法和装置
US20130238972A1 (en) * 2012-03-09 2013-09-12 Nathan Woodman Look-alike website scoring
CN103500213A (zh) * 2013-09-30 2014-01-08 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN103678571A (zh) * 2013-12-09 2014-03-26 中国科学院深圳先进技术研究院 应用于单台多核处理器主机的多线程网络爬虫执行方法
CN106897313A (zh) * 2015-12-21 2017-06-27 中国联合网络通信集团有限公司 一种海量用户业务偏好评估方法和装置
CN108345615A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 一种页面链接的投放和投放调整方法及系统
CN109829096A (zh) * 2019-03-15 2019-05-31 北京金山数字娱乐科技有限公司 一种数据采集方法、装置、电子设备及存储介质
CN110062025A (zh) * 2019-03-14 2019-07-26 深圳绿米联创科技有限公司 数据采集的方法、装置、服务器及存储介质
JP2020077040A (ja) * 2018-11-05 2020-05-21 Sgホールディングス株式会社 イベント搬入出web決済システム及びwebサーバ
CN113449213A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 页面跳转的方法和装置

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101046820A (zh) * 2006-03-29 2007-10-03 国际商业机器公司 在web爬取过程期间给网站排优先级的系统和方法
CN101082915A (zh) * 2006-05-29 2007-12-05 陈鹰 一种浏览器本地页面的存储和更新方法
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
US20090157898A1 (en) * 2007-12-13 2009-06-18 Google Inc. Generic Format for Efficient Transfer of Data
CN101661471A (zh) * 2008-08-29 2010-03-03 朱世康 一种网页页面的显示方法和装置
CN101504671A (zh) * 2009-03-05 2009-08-12 阿里巴巴集团控股有限公司 用户访问网页行为的可视化处理方法、装置及系统
CN102841898A (zh) * 2011-06-23 2012-12-26 张家港凯纳信息技术有限公司 网络信息监控分析系统
US20130238972A1 (en) * 2012-03-09 2013-09-12 Nathan Woodman Look-alike website scoring
CN102629282A (zh) * 2012-05-03 2012-08-08 湖南神州祥网科技有限公司 一种网址分类方法、装置及系统
CN103077254A (zh) * 2013-02-06 2013-05-01 人民搜索网络股份公司 网页获取方法和装置
CN103500213A (zh) * 2013-09-30 2014-01-08 北京搜狗科技发展有限公司 基于预读取的页面热点资源更新方法和装置
CN103678571A (zh) * 2013-12-09 2014-03-26 中国科学院深圳先进技术研究院 应用于单台多核处理器主机的多线程网络爬虫执行方法
CN106897313A (zh) * 2015-12-21 2017-06-27 中国联合网络通信集团有限公司 一种海量用户业务偏好评估方法和装置
CN108345615A (zh) * 2017-01-23 2018-07-31 阿里巴巴集团控股有限公司 一种页面链接的投放和投放调整方法及系统
JP2020077040A (ja) * 2018-11-05 2020-05-21 Sgホールディングス株式会社 イベント搬入出web決済システム及びwebサーバ
CN110062025A (zh) * 2019-03-14 2019-07-26 深圳绿米联创科技有限公司 数据采集的方法、装置、服务器及存储介质
CN109829096A (zh) * 2019-03-15 2019-05-31 北京金山数字娱乐科技有限公司 一种数据采集方法、装置、电子设备及存储介质
CN113449213A (zh) * 2020-03-27 2021-09-28 北京沃东天骏信息技术有限公司 页面跳转的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
孙冰: "基于Python的多线程网络爬虫的设计与实现", 《网络安全技术与应用》 *
金晓鸥等: "基于Rhino的JavaScript动态页面解析研究与实现", 《计算机技术与发展》 *
陆璐等: "基于客户端的恶意网页收集系统", 《计算机工程》 *
龚秋艳等: "简单高效的URL消重的方法", 《计算机应用》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118332217A (zh) * 2024-06-12 2024-07-12 上海蜜度科技股份有限公司 数据采集方法、系统、电子设备及介质
CN118332217B (zh) * 2024-06-12 2024-10-15 上海蜜度科技股份有限公司 数据采集方法、系统、电子设备及介质

Also Published As

Publication number Publication date
CN114417216B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN111966289B (zh) 基于Kafka集群的分区优化方法和系统
CN109840298B (zh) 大规模网络数据的多信息来源采集方法和系统
CN108243032B (zh) 一种服务等级信息的获取方法、装置及设备
CN111782692A (zh) 一种频率控制方法及装置
CN108664665A (zh) 数据格式转化方法、装置、设备及可读存储介质
CN114417216B (zh) 数据采集方法、装置、电子设备及可读存储介质
CN111324533A (zh) A/b测试方法、装置及电子设备
CN112084179A (zh) 一种数据处理的方法、装置、设备及存储介质
CN110688383A (zh) 数据采集方法及系统
CN117707737A (zh) 一种任务调度优化方法、装置、设备及其存储介质
KR20210000041A (ko) 로그 데이터의 실시간 분석 방법 및 그 장치
CN109150819B (zh) 一种攻击识别方法及其识别系统
CN114402313A (zh) 标签更新方法、装置、电子设备及存储介质
CN105408896A (zh) 信息管理装置和信息管理方法
CN112054926B (zh) 集群管理方法、装置、电子设备及存储介质
CN111309463B (zh) 一种任务执行时间的确定方法、确定装置及可读存储介质
CN109542609B (zh) 一种代扣还款的方法、装置、计算机设备和存储介质
CN111782479A (zh) 日志处理方法、装置、电子设备及计算机可读存储介质
CN111737026A (zh) 一种基于lookup操作的多线程消息处理方法
CN113391923B (zh) 系统资源数据分配方法和装置
CN112187700A (zh) 一种waf安全规则匹配方法、设备及存储介质
CN112887189B (zh) 会话消息的定时发送方法、装置、计算机设备及存储介质
CN114185969A (zh) 数据意见挖掘与情感分析纠偏方法与模块
CN112540842B (zh) 动态调整系统资源的方法及装置
CN113760900B (zh) 数据的实时汇总以及区间汇总的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant