CN112487269A - 一种爬虫自动化脚本的检测方法及装置 - Google Patents
一种爬虫自动化脚本的检测方法及装置 Download PDFInfo
- Publication number
- CN112487269A CN112487269A CN202011534783.3A CN202011534783A CN112487269A CN 112487269 A CN112487269 A CN 112487269A CN 202011534783 A CN202011534783 A CN 202011534783A CN 112487269 A CN112487269 A CN 112487269A
- Authority
- CN
- China
- Prior art keywords
- script
- data
- crawler
- automation
- tool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013515 script Methods 0.000 title claims abstract description 162
- 238000001514 detection method Methods 0.000 title claims description 12
- 238000012360 testing method Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000012795 verification Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 6
- 238000007639 printing Methods 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 6
- 238000012986 modification Methods 0.000 abstract description 4
- 230000004048 modification Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002567 autonomic effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
- G06F8/315—Object-oriented languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/70—Software maintenance or management
- G06F8/73—Program documentation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Library & Information Science (AREA)
- Debugging And Monitoring (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种爬虫自动化脚本的检测方法及装置,该方法包括:通过建立数据规则库构造通用化采集脚本,并对通用化采集脚本测试验证;收集目标分配的主网址,将主网址存入储存字段工具中;运用计算机程序设计语言读取所述储存字段工具中的数据,将数据嵌入到采集脚本,生成自动化脚本;测试生成的所述自动化脚本,查看自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。通过自动化爬虫生成脚本能够大幅度降低主流爬虫的采集数据压力和资源耗费,减少了采集时间,提升了准确率;生成脚本过程中不需要生成多种数据采集脚本类型,可复用性强以及和后期修改方式统一;节省了人力、财力以及克服了时效性差的弊端。
Description
技术领域
本发明属于检测领域,特别涉及一种爬虫自动化脚本的检测方法及装置。
背景技术
随着信息与数据科学的蓬勃发展,信息采集技术(爬虫,搜索引擎)、自然语言处理等技术正成为当今人工智能领域的全新应用形式和方向,其对待格式化数据的需要量级正在以较高的速度增长。获取数据的方式从渠道购买到利用信息采集技术进行抓取等方式。
信息采集技术在经历反爬,各类加密以及移动互联网等的安防反hook的技术对抗下,面临无法快速采集、精准采集、采集时进入“蜜罐”等诸多问题。故通用化信息采集技术成为采集技术发展的必然方向。一种通用化采集的方式已成为较好解决数据问题的关键所在。
采集文本信息可通过利用浏览器内核实现js前端代码的自动加载与渲染,通过完整模拟浏览器的形式突破静态反爬技术的封锁,缺点是速度较慢且市场上鲜少有能够通过极验行为验证于其他相关反爬手段的产品,不适用于搭建大规模采集。
信息采集技术可利用爬虫技术实现。爬虫技术包含范围较广,可操作性大,可针对特定网站进行特定的信息采集与反爬破解,速率较高但是面临法律法规风险。
信息采集技术可利用自动化测试工具实现。自动化测试工具同浏览器内核相似,一般基于webdriver体系,采集时模拟正常用户操作,缺点也与浏览器内核实现方式类似,即抓取速度较慢,遭遇极验行为验证时较难绕过,需要其他框架或技术配合才能进行大规模采集。
上述采集模式都可针对固定方向解决问题,缺乏一种可以自主的,可调控性与适用性强的融合性采集模板。
对于以数据尤其海量的数据作为运用技术开发的工作等来说,网络爬虫作为一种较新又快捷的数据来源技术为其解决了很大的数据压力,但是当前的主流爬虫撰写方式存在耗费人力,财力以及时效性差的弊端且无法有效针对较多网站抓取任务,并为其生成对应的采集脚本。
发明内容
针对相关技术中的上述技术问题,本发明提出一种爬虫自动化脚本的检测方法及装置,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种爬虫自动化脚本的检测方法,该方法包括:
通过建立数据规则库构造通用化采集脚本,并对所述通用化采集脚本测试验证;
收集目标分配的主网址,将所述主网址存入储存字段工具中;
运用计算机程序设计语言读取所述储存字段工具中的数据,将所述数据嵌入到测试验证后的采集脚本,生成自动化脚本,其中,所述储存字段工具中的数据包括所述主网址;
测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。
进一步的,所述运用计算机程序设计语言读取所述储存字段工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成。
进一步的,所述数据规则库为多个流程的所述数据规则库。
进一步的,所述通过测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,包括:
生成的所述自动化脚本进行人工验证所述自动化脚本的数据字段是否完整,数据格式是否正确,数据数量是否遗漏。
进一步的,所述数据规则库的构建规则,包括:正则规则模块、dom规则类集合、固定dom节点特征规则、文本特征的规则,其中,dom表示文档对象模型。
进一步的,所述dom规则类集合至少包括序列化html源码后的dom规则类集合;所述固定dom节点特征规则为基于html网页范例的固定dom节点特征规则。
进一步的,所述对所述通用化采集脚本测试验证,包括:
收集分配网址,从所述分配网址中选出目标网址;
查看所述目标网址的规律;
通过所述查看所述目标网址的规律,来完成所需采集数据的完整采集过程,基于所述所需采集数据的完整采集过程生成对应的所述通用化采集脚本文件并随机抽取10%所述目标网址进行人工测试验证。
进一步的,所述运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
通过xlrt工具包和xlrd工具包将excel工具中网址的导入到python语言编程中;
采用Python语言构造函数,通过构建的所述函数进行中文关键词匹配,嵌入收集的分配网址到已经测试完成的所述采集脚本中,生成自动化脚本模板。
进一步的,所述构造函数,包括:
定义待生成的字段;
制定嵌入自动化脚本规则;
依据嵌入自动化脚本规则,将所述待生成的字段嵌入到自动化脚本中,打印自动化脚本,若程序报错,重新修改所述程序直到运行,查看脚本数量是否正确。
另一方面,还提供了一种爬虫自动化脚本的检测装置,该装置包括:
测试验证单元,用于通过建立数据规则库构造通用化采集脚本,并对所述通用化采集脚本测试验证;
收集单元,用于收集目标分配的主网址,将所述主网址存入储存字段工具中;
生成单元,用于运用计算机程序设计语言读取所述储存字段工具中的数据,将所述数据嵌入到测试验证后的采集脚本,生成自动化脚本,其中,所述储存字段工具中的数据包括所述主网址;
检测单元,用于测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。
进一步的,所述运用计算机程序设计语言读取所述储存字段工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成。
进一步的,所述数据规则库为多个流程的所述数据规则库。
本发明通过自动化爬虫生成脚本能够大幅度降低目前主流爬虫的采集数据压力和资源耗费,其运用效力较之前的人工制作爬虫脚本而言,能够减少采集时间约50%,准确率提升约20%;该自动化爬虫生成脚本过程中只需要前期调研网址大概规律和收集网址,不需要生成多种数据采集脚本类型,可复用性强以及和后期修改方式统一;节省了人力、财力以及克服了时效性差的弊端。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据现本发明实施例的一种爬虫自动化脚本的检测方法的流程框图;
图2示出了根据现本发明实施例的一种爬虫自动化脚本的检测装置的结构示意图;
图3示出了根据现本发明实施例的生成模板应用流程框图;
图4示出了根据现本发明实施例的自动化模板生成流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种爬虫自动化脚本的检测方法,该方法包括:
步骤S1:通过建立数据规则库构造通用化采集脚本,并对所述通用化采集脚本测试验证;
例如,建立庞大的数据规则库,接着构造脚本模板。
步骤S2:收集目标分配的主网址,将所述主网址存入储存字段工具中,其中,所述储存字段工具包括excel工具、txt文件。主网址来自的地方需要看业务或者工作需要,比如公司业务需要采集某网站发布的新闻,主网址就来自于某网站的网络地址。存入excel工具中的字段,比如所需采集的网址。
在本发明的一些实施例中,先把需要的字段收集好存入excel工具中,后面通过excel工具把字段导入进python语言,python语言再将字段进入脚本。规定好的网址或者其它特殊字段的存入规定格式,收集好需要的规定字段是为了后期的脚本,脚本和模板是等同的概念。主网址存入的位置不一定非得在excel工具或txt文件里,只要存储工具储存字段的格式和excel工具里存储字段的一致,就可以作为存储工具。
步骤S3:运用计算机程序设计语言读取所述储存字段工具中的数据,将所述数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,其中,所述储存字段工具中的数据包括所述主网址;
步骤S4:测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。
例如,所需数据看业务或者工作需要,比如公司业务需要采集某网站发布的新闻,那这个网址为该网站的网络地址,这里所需数据就是该网站发布的新闻数据。要什么数据就去找它的网络地址,然后通过代码获取它,自动化脚本节省了人力和时间等,实现了多个网站同时爬取。
在本发明的一些实施例中,脚本(调研建立规则库,用代码实现,用模板图这种结构)——采集字段——excel工具、txt文件(只要能存字段的工具都可以,依据规则存储)——python语言读取数据进行嵌入模板(脚本)——最后生成大量脚本。
在本发明中,查看网址的规律体现在完成脚本模板,通过观察所需要采集的新闻网址(主网址到详情页网址),比如某网站的新闻,一个网站有很多新闻,各个具体的新闻的具体网址是不一样的,因此通过第一层主网址(网站链接口)到包含列表页的新闻地址最后到具体的新闻的链接地址,这些层通过这些网址是如何构造的以及跳到下一页这个地址又是怎么变化的,都需要记录下来写进代码规则库。
在本发明的一些实施例中,所述运用计算机程序设计语言读取所述储存字段工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成。
在本发明的一些实施例中,所述数据规则库为多个流程的所述数据规则库。
在本发明的一些实施例中,所述通过测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,包括:生成的所述自动化脚本进行人工验证所述自动化脚本的数据字段是否完整,数据格式是否正确,数据数量是否遗漏。
在本发明的一些实施例中,所述数据规则库的构建规则,包括:正则规则模块、dom规则类集合、固定dom节点特征规则、文本特征的规则,其中,dom表示文档对象模型。
在本发明的一些实施例中,所述dom规则类集合至少包括序列化html源码后的dom规则类集合;所述固定dom节点特征规则为基于html网页范例的固定dom节点特征规则。
对所述通用化采集脚本测试验证,包括:
步骤S11:收集分配网址,从所述分配网址中选出目标网址;
步骤S12:查看所述目标网址的规律;
步骤S13:通过所述查看所述目标网址的规律,来完成所需采集数据的完整采集过程,基于所述所需采集数据的完整采集过程生成对应的所述通用化采集脚本文件并随机抽取10%所述目标网址进行人工测试验证。
运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
步骤S31:通过xlrt工具包和xlrd工具包将excel工具中网址的导入到python语言编程中;
步骤S32:采用Python语言构造函数,通过构建的所述函数进行中文关键词匹配,嵌入收集的分配网址到已经测试完成的所述采集脚本中,生成自动化脚本模板。
构造函数,包括:
步骤S321:定义待生成的字段;
步骤S322:制定嵌入自动化脚本规则;
步骤S323:依据嵌入自动化脚本规则,将所述待生成的字段嵌入到自动化脚本中,打印自动化脚本,若程序报错,重新修改所述程序直到运行,查看脚本数量是否正确。例如,当程序报错时,重新修改其中的代码,毕竟代码有时缺个符号等操作问题也有运行不了。
如图2所示,另一方面,本发明提供了一种爬虫自动化脚本的检测装置,该装置包括:
测试验证单元,用于通过建立数据规则库构造通用化采集脚本,并对所述通用化采集脚本测试验证;
收集单元,用于收集目标分配的主网址,将所述主网址存入储存字段工具中,其中,所述储存字段工具包括excel工具、txt文件;
生成单元,用于运用计算机程序设计语言读取所述储存字段工具中的数据,将所述数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,其中,所述储存字段工具中的数据包括所述主网址;
检测单元,用于测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。
在本发明的一些实施例中,所述运用计算机程序设计语言读取所述储存字段工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成。
在本发明的一些实施例中,所述数据规则库为多个流程的所述数据规则库。
在本发明的一些实施例中,如图3所示,建立庞大的数据规则库构造脚本模板,规则库的构建规则为:
(1)构造正则规则模块:通过对html源码进行分块处理,通过筛选出的文本长度,标点符号等规则进行筛选处理,获取不同长度的文本并进行标注。
(2)序列化html源码后的dom规则类集合,该集合包含xpath类,qurry类,lxml类,urllib类。
(3)基于html网页范例的固定dom节点特征规则,该规则包括但不限于head,body内的标题、正文、图片、视频、发布时间、作者、来源。
(4)基于其它dom或是文本特征的规则。
规则库的处理流程:
(1)获取目标文本后进行dom节点化;同步进行正则文本匹配。
(2)将规则类分别对dom节点进行匹配,通过设定由粗到细,由长到短的规则粒度,筛选并与对应字段建立key,value关系;正则匹配进行同步匹配。
(3)比对dom规则匹配与正则规则匹配结果,返回值是由基于文本密度模型MSS比对并融合后输出的,比对原则为互补且以dom规则匹配值为确信值。融合信息为两值互补对应字段信息。
(4)规则匹配确信值是通过人工打标签的形式获取得到,并由人工调试验证。
实施流程:
(1)通过收集分配网址。
(2)查看目标网址的规律;一般体现网址的加载方式,列表页的提取方式,翻页的构造规则,详情页的提取规则。
(3)如图3为对(2)的数据完整采集过程生成模板应用流程框图,基于上面的数据完整采集过程生成对应的脚本模板文件并随机抽取10%目标网址进行人工测试验证,最后用于实施。图3中,url:代表网址,header:请求头(含请求参数,比如代理),re为正则,json文件为封装数据的文件,xpath为XML路径语言,gerapy-auto-extractor为智能解析库;gne为详情页正文的提取库,比如正文内容、发布的时间、标题等。
在本发明的一些实施例中,如图4所示,收集目标分配的主网址,采集的网址存入excel工具中,也可以存入txt文件中,但是注意采集的网址需要注意以下几个事项:
(1)中文网址名要严谨规范,其中,带关键字;
(2)英文网址需要收集全,例如,从http开始收集,网址中间符合网址规范;
(3)其它根据需求来设计所需要添加的字段,一些随着脚本变化而变化得固定字段也可以收集起来一起插入模板中。
在本发明的一些实施例中,运用python语言和excel工具进行数据自动化脚本大批量生成,通过xlrt和xlrd等工具包将网址导入excel工具中,python语言通过构造函数进行中文关键词匹配来嵌入收集的网址到已经测试好的模板中去。如图4为实现自动化脚本模板生成流程框图。
在本发明的一些实施例中,生成的自动化脚本进行人工验证其数据字段是否完整,数据格式是否正确,数据数量是否遗漏等,验证完成后,再进行保存收集的数据。
本发明通过自动化爬虫生成脚本能够大幅度降低目前主流爬虫的采集数据压力和资源耗费,其运用效力较之前的人工制作爬虫脚本而言,能够减少采集时间约50%,准确率提升约20%;该自动化爬虫生成脚本过程中只需要前期调研网址大概规律和收集网址,不需要生成多种数据采集脚本类型,可复用性强以及和后期修改方式统一;节省了人力、财力以及克服了时效性差的弊端。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (12)
1.一种爬虫自动化脚本的检测方法,其特征在于,包括:
通过建立数据规则库构造通用化采集脚本,并对所述通用化采集脚本测试验证;
收集目标分配的主网址,将所述主网址存入储存字段工具中;
运用计算机程序设计语言读取所述储存字段工具中的数据,将所述数据嵌入到测试验证后的采集脚本,生成自动化脚本,其中,所述储存字段工具中的数据包括所述主网址;
测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。
2.根据权利要求1所述的一种爬虫自动化脚本的检测方法,其特征在于,所述运用计算机程序设计语言读取所述储存字段工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成。
3.根据权利要求1所述的一种爬虫自动化脚本的检测方法,其特征在于,所述数据规则库为多个流程的所述数据规则库。
4.根据权利要求1所述的一种爬虫自动化脚本的检测方法,其特征在于,所述通过测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,包括:
生成的所述自动化脚本进行人工验证所述自动化脚本的数据字段是否完整,数据格式是否正确,数据数量是否遗漏。
5.根据权利要求1所述的一种爬虫自动化脚本的检测方法,其特征在于,所述数据规则库的构建规则,包括:正则规则模块、dom规则类集合、固定dom节点特征规则、文本特征的规则,其中,dom表示文档对象模型。
6.根据权利要求5所述的一种爬虫自动化脚本的检测方法,其特征在于,所述dom规则类集合至少包括序列化html源码后的dom规则类集合;所述固定dom节点特征规则为基于html网页范例的固定dom节点特征规则。
7.根据权利要求1所述的一种爬虫自动化脚本的检测方法,其特征在于,所述对所述通用化采集脚本测试验证,包括:
收集分配网址,从所述分配网址中选出目标网址;
查看所述目标网址的规律;
通过所述查看所述目标网址的规律,来完成所需采集数据的完整采集过程,基于所述所需采集数据的完整采集过程生成对应的所述通用化采集脚本文件并随机抽取10%所述目标网址进行人工测试验证。
8.根据权利要求1所述的一种爬虫自动化脚本的检测方法,其特征在于,所述运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
通过xlrt工具包和xlrd工具包将excel工具中网址的导入到python语言编程中;
采用Python语言构造函数,通过构建的所述函数进行中文关键词匹配,嵌入收集的分配网址到已经测试完成的所述采集脚本中,生成自动化脚本模板。
9.根据权利要求8所述的一种爬虫自动化脚本的检测方法,其特征在于,所述构造函数,包括:
定义待生成的字段;
制定嵌入自动化脚本规则;
依据嵌入自动化脚本规则,将所述待生成的字段嵌入到自动化脚本中,打印自动化脚本,若程序报错,重新修改所述程序直到运行,查看脚本数量是否正确。
10.一种爬虫自动化脚本的检测装置,其特征在于,包括:
测试验证单元,用于通过建立数据规则库构造通用化采集脚本,并对所述通用化采集脚本测试验证;
收集单元,用于收集目标分配的主网址,将所述主网址存入储存字段工具中;
生成单元,用于运用计算机程序设计语言读取所述储存字段工具中的数据,将所述数据嵌入到测试验证后的采集脚本,生成自动化脚本,其中,所述储存字段工具中的数据包括所述主网址;
检测单元,用于测试生成的所述自动化脚本,查看所述自动化脚本的所需数据字段是否满足要求,将满足要求的所需数据字段进行整理和入库。
11.根据权利要求10所述的一种爬虫自动化脚本的检测装置,其特征在于,所述运用计算机程序设计语言读取所述储存字段工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成,包括:
运用python语言读取excel工具中的数据嵌入到测试验证后的采集脚本,自动化脚本大批量生成。
12.根据权利要求10所述的一种爬虫自动化脚本的检测装置,其特征在于,所述数据规则库为多个流程的所述数据规则库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011534783.3A CN112487269B (zh) | 2020-12-22 | 2020-12-22 | 一种爬虫自动化脚本的检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011534783.3A CN112487269B (zh) | 2020-12-22 | 2020-12-22 | 一种爬虫自动化脚本的检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112487269A true CN112487269A (zh) | 2021-03-12 |
CN112487269B CN112487269B (zh) | 2023-10-24 |
Family
ID=74915489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011534783.3A Active CN112487269B (zh) | 2020-12-22 | 2020-12-22 | 一种爬虫自动化脚本的检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112487269B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060190561A1 (en) * | 2002-06-19 | 2006-08-24 | Watchfire Corporation | Method and system for obtaining script related information for website crawling |
CN101419552A (zh) * | 2008-12-03 | 2009-04-29 | 浪潮集团山东通用软件有限公司 | 一种通用业务数据采集表单的定义与生成方法 |
US20090125469A1 (en) * | 2007-11-09 | 2009-05-14 | Microsoft Coporation | Link discovery from web scripts |
US20130268357A1 (en) * | 2011-09-15 | 2013-10-10 | Stephan HEATH | Methods and/or systems for an online and/or mobile privacy and/or security encryption technologies used in cloud computing with the combination of data mining and/or encryption of user's personal data and/or location data for marketing of internet posted promotions, social messaging or offers using multiple devices, browsers, operating systems, networks, fiber optic communications, multichannel platforms |
CN104616231A (zh) * | 2013-11-04 | 2015-05-13 | 中国科学院心理研究所 | 一种基于云端的心理实验室系统和使用方法 |
CN104778124A (zh) * | 2015-04-13 | 2015-07-15 | 上海新炬网络信息技术有限公司 | 一种软件应用自动化测试方法 |
CN105243159A (zh) * | 2015-10-28 | 2016-01-13 | 福建亿榕信息技术有限公司 | 一种基于可视化脚本编辑器的分布式网络爬虫系统 |
CN106021257A (zh) * | 2015-12-31 | 2016-10-12 | 广州华多网络科技有限公司 | 一种支持在线编程的爬虫抓取数据方法、装置及系统 |
CN106897357A (zh) * | 2017-01-04 | 2017-06-27 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN109815387A (zh) * | 2018-12-29 | 2019-05-28 | 中国科学院计算技术研究所 | 一种基于脚本的网页采集服务方法和系统 |
CN110955414A (zh) * | 2019-11-29 | 2020-04-03 | 电子科技大学 | 自定义数据采集系统及方法 |
CN111078547A (zh) * | 2019-12-05 | 2020-04-28 | 紫光云(南京)数字技术有限公司 | 一种python通用app软件自动化测试框架系统 |
KR102107474B1 (ko) * | 2019-11-15 | 2020-05-28 | (주)유엠로직스 | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 |
CN111459800A (zh) * | 2020-03-04 | 2020-07-28 | 福建省农村信用社联合社 | 一种业务系统可用性验证方法、装置、设备和介质 |
CN111523074A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
WO2020204971A1 (en) * | 2019-04-05 | 2020-10-08 | Oracle International Corporation | Customizable enterprise automation test framework |
CN112084113A (zh) * | 2020-09-16 | 2020-12-15 | 上海创景信息科技有限公司 | 基于嵌入式仿真验证软件的可配置自动化测试方法及系统 |
-
2020
- 2020-12-22 CN CN202011534783.3A patent/CN112487269B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060190561A1 (en) * | 2002-06-19 | 2006-08-24 | Watchfire Corporation | Method and system for obtaining script related information for website crawling |
US20090125469A1 (en) * | 2007-11-09 | 2009-05-14 | Microsoft Coporation | Link discovery from web scripts |
CN101419552A (zh) * | 2008-12-03 | 2009-04-29 | 浪潮集团山东通用软件有限公司 | 一种通用业务数据采集表单的定义与生成方法 |
US20130268357A1 (en) * | 2011-09-15 | 2013-10-10 | Stephan HEATH | Methods and/or systems for an online and/or mobile privacy and/or security encryption technologies used in cloud computing with the combination of data mining and/or encryption of user's personal data and/or location data for marketing of internet posted promotions, social messaging or offers using multiple devices, browsers, operating systems, networks, fiber optic communications, multichannel platforms |
CN104616231A (zh) * | 2013-11-04 | 2015-05-13 | 中国科学院心理研究所 | 一种基于云端的心理实验室系统和使用方法 |
CN104778124A (zh) * | 2015-04-13 | 2015-07-15 | 上海新炬网络信息技术有限公司 | 一种软件应用自动化测试方法 |
CN105243159A (zh) * | 2015-10-28 | 2016-01-13 | 福建亿榕信息技术有限公司 | 一种基于可视化脚本编辑器的分布式网络爬虫系统 |
CN106021257A (zh) * | 2015-12-31 | 2016-10-12 | 广州华多网络科技有限公司 | 一种支持在线编程的爬虫抓取数据方法、装置及系统 |
CN106897357A (zh) * | 2017-01-04 | 2017-06-27 | 北京京拍档科技股份有限公司 | 一种用于带验证分布式智能爬取网络信息的方法 |
CN109815387A (zh) * | 2018-12-29 | 2019-05-28 | 中国科学院计算技术研究所 | 一种基于脚本的网页采集服务方法和系统 |
WO2020204971A1 (en) * | 2019-04-05 | 2020-10-08 | Oracle International Corporation | Customizable enterprise automation test framework |
KR102107474B1 (ko) * | 2019-11-15 | 2020-05-28 | (주)유엠로직스 | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 |
CN110955414A (zh) * | 2019-11-29 | 2020-04-03 | 电子科技大学 | 自定义数据采集系统及方法 |
CN111078547A (zh) * | 2019-12-05 | 2020-04-28 | 紫光云(南京)数字技术有限公司 | 一种python通用app软件自动化测试框架系统 |
CN111459800A (zh) * | 2020-03-04 | 2020-07-28 | 福建省农村信用社联合社 | 一种业务系统可用性验证方法、装置、设备和介质 |
CN111523074A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种前端渲染网站的动态页面敏感数据的采集系统 |
CN112084113A (zh) * | 2020-09-16 | 2020-12-15 | 上海创景信息科技有限公司 | 基于嵌入式仿真验证软件的可配置自动化测试方法及系统 |
Non-Patent Citations (3)
Title |
---|
杜义华, 及俊川: "通用互联网信息采集系统的设计与初步实现", 计算机应用研究, no. 01, pages 192 - 194 * |
祝宁;陈性元;张永福;: "溢出攻击的攻击元与攻击模板构建研究", 小型微型计算机系统, no. 02, pages 227 - 232 * |
高宇;杨小兵;: "基于聚焦型网络爬虫的影评获取技术", 中国计量大学学报, no. 03, pages 75 - 79 * |
Also Published As
Publication number | Publication date |
---|---|
CN112487269B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111459799B (zh) | 一种基于Github的软件缺陷检测模型建立、检测方法及系统 | |
CN110442511B (zh) | 可视化埋点测试方法及装置 | |
CN112749284B (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
CN102804147A (zh) | 执行abap源代码的代码检查的代码检查执行系统 | |
CN111522708B (zh) | 一种日志记录方法、计算机设备及存储介质 | |
CN107590236B (zh) | 一种面向建筑施工企业的大数据采集方法和系统 | |
Feng et al. | Gifdroid: Automated replay of visual bug reports for android apps | |
CN106960058A (zh) | 一种网页结构变更检测方法及系统 | |
CN111522741A (zh) | 接口测试代码生成方法、装置、电子设备及可读存储介质 | |
CN112540924A (zh) | 接口自动化测试方法、装置、设备及存储介质 | |
Paiva et al. | Test case generation based on mutations over user execution traces | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
Nie et al. | A systematic mapping study for graphical user interface testing on mobile apps | |
Karnalim et al. | Layered similarity detection for programming plagiarism and collusion on weekly assessments | |
US20210232495A1 (en) | System and method for executing a test case | |
Prazina et al. | Methods for Automatic Web Page Layout Testing and Analysis: A Review | |
CN113032279A (zh) | 一种基于语义路径搜索的Web应用测试修复方法 | |
Almeida et al. | Mutation-based web test case generation | |
CN112650688A (zh) | 自动化回归测试方法、关联设备以及计算机程序产品 | |
CN111949537A (zh) | 接口的测试方法、装置、设备和介质 | |
CN112487269B (zh) | 一种爬虫自动化脚本的检测方法及装置 | |
CN109547294A (zh) | 一种基于固件分析的联网设备型号探测方法、装置 | |
CN115186240A (zh) | 基于关联性信息的社交网络用户对齐方法、装置、介质 | |
CN114238733A (zh) | 关键信息提取方法及装置、计算机存储介质、电子设备 | |
CN113805861A (zh) | 基于机器学习的代码生成方法、代码编辑系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |