CN104750463A - 一种插件开发方法及系统 - Google Patents
一种插件开发方法及系统 Download PDFInfo
- Publication number
- CN104750463A CN104750463A CN201310729260.8A CN201310729260A CN104750463A CN 104750463 A CN104750463 A CN 104750463A CN 201310729260 A CN201310729260 A CN 201310729260A CN 104750463 A CN104750463 A CN 104750463A
- Authority
- CN
- China
- Prior art keywords
- plug
- unit
- developing
- java script
- decimation rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Transfer Between Computers (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种插件开发方法及系统,该方法包括:S1、输入URL地址并转换为DOM树;S2、得到Java脚本抽取规则并生成插件;S3、测试插件;S4、测试插件是否通过,若通过,转至S5,若否,转至S2;S5、将插件上传并存储。实施本发明的有益效果是,快速、高效、安全地开发插件。
Description
技术领域
本发明涉及插件管理领域,更具体地说,涉及一种插件开发方法及系统。
背景技术
定向采集系统是网络蜘蛛的一种,它是网络数据获取系统的核心部分。它通过对互联网上已知信息(即网络链接,URL:Universal Resource Locator)的不断抓取海量网页内容,获取其中所有主题相关内容。
对于目前较常见的网页个性化采集方法,需要根据配置的抽取规则,来提取和主题相关的内容。网页个性化采集需要维护大量的抽取规则。简单的网页,可以通过通用的抽取规则进行匹配,如正则表达式等,但是对于复杂网页,则需要额外的规则逻辑来处理,而这部分需进行代码开发。开发的代码以插件的形式存在,通过编译\打包等,动态更新到线上的采集系统中去。
Java是一种最常见的爬虫插件开发语言,在基于Java语言开发的插件维护时需要编译、打包、重启Java虚拟机等操作,工作繁琐,出错几率高。另外,插件的版本控制也比较繁琐,需要记录每个插件的版本号,在插件维护过程容易出错。
综上所述,现有的插件开发体系已经不能满足日益发展的互联网采集技术的需求,需要寻找一种高效、便捷的插件开发模式。
发明内容
本发明要解决的技术问题在于,针对现有技术对插件开发繁琐的缺陷,提供一种插件开发方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种插件开发方法,用于在插件开发平台中生成定向网页采集的插件并将该插件上传至插件管理中心,该方法包括以下步骤:
S1、在插件开发平台中输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;
S2、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
S3、对所述插件进行测试;
S4、若测试通过,转至步骤S5;若测试不通过,转至步骤S2;
S5、将所述插件上传并存储至插件管理中心。
在本发明所述的插件开发方法中,所述步骤S2还包括以下步骤:
S21、若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本;
S22、根据所述Java脚本抽取规则和登陆脚本生成插件。
在本发明所述的插件开发方法中,所述步骤S3包括以下子步骤:
S31、选择单元测试或集成测试中的一种测试方式;
S32、根据所选择的测试方式对所述插件进行测试。
在本发明所述的插件开发方法中,所述步骤S5包括以下子步骤:
S51、在所述插件开发平台中向所述插件管理中心发出上传请求;
S52、在所述插件管理中心中,对发出所述上传请求的插件开发平台进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台上传所述插件;若第一认证不通过,则所述插件开发平台返回第一认证不通过的提示信息;
S53、所述插件上传至插件管理中心后,对所述插件进行版本控制,将进行版本控制后的插件存储至插件管理中心。
在本发明所述的插件开发方法中,该方法还包括:
S6、在所述步骤S5之后,将所述插件下载至客户端中;
其中,所述步骤S6包括以下子步骤:
S61、在客户端中向插件管理中心发送所述插件的下载请求;
S62、在插件管理中心中对发出所述下载请求的客户端进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端下载所述插件;若第二认证不通过,则所述客户端返回第二认证不通过的提示信息;
S63、将进行版本控制后的插件下载至所述客户端。
本发明的另一方面,提供一种插件开发系统,该系统包括用于生成定向网页采集插件的插件开发平台和与所述插件开发平台连接的插件管理中心,所述插件开发平台包括网页分析模块、插件配置模块、插件测试模块和上传模块;
所述网页分析模块用于输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;;
所述插件配置模块用于根据URL地址所得到的网页,在自动生成Java脚本抽取规则的方法和编辑Java脚本抽取规则的方法中选择其中的一种,以得到Java脚本抽取规则;其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;所述插件配置模块还用于根据所述Java脚本抽取规则生成插件;
所述插件测试模块用于对所述插件进行测试,并判断测试是否通过;
所述上传模块用于将测试通过的插件上传至插件管理中心;
所述插件管理中心用于接收并存储所述插件。
在本发明所述的插件开发系统中,所述插件配置模块还用于若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本,根据所述Java脚本抽取规则和登陆脚本生成插件。
在本发明所述的插件开发系统中,所述插件测试模块还用于选择单元测试或集成测试中的一种测试方式,并根据所选择的测试方式对所述插件进行测试。
在本发明所述的插件开发系统中,所述上传模块还用于向所述插件管理中心发出上传请求;
所述插件管理中心包括插件认证模块、版本控制模块和存储模块;
所述插件认证模块用于对发出所述上传请求的插件开发平台进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台上传所述插件;若第一认证不通过,则所述插件开发平台返回第一认证不通过的提示信息;
所述版本控制模块用于对所述插件进行版本控制;
所述存储模块用于存储进行版本控制后的插件。
在本发明所述的插件开发系统中,该系统还包括与所述插件管理中心连接的客户端;
所述客户端用于向插件管理中心发送所述插件的下载请求并下载进行版本控制后的插件;
所述插件认证模块还用于对发出所述下载请求的客户端进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端下载所述插件;若第二认证不通过,则所述客户端返回第二认证不通过的提示信息。
实施本发明的一种插件开发方法及系统,具有以下有益效果:快速、高效、安全地开发插件。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明第一方法实施例提供的一种插件开发方法的流程图;
图2是本发明第一产品实施例提供的一种插件开发系统的方框图;
图3是本发明第二方法实施例提供的一种插件开发方法的流程图;
图4是本发明第二产品实施例提供的一种插件开发系统的方框图;
图5是本发明第三方法实施例提供的一种插件开发方法的流程图;
图6是本发明第三产品实施例提供的一种插件开发系统的方框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
图1为本发明第一方法实施例提供的一种插件开发方法的流程图,该第一方法实施例提供一种用于在插件开发平台1中生成定向网页采集的插件并将该插件上传至插件管理中心2的方法,该方法具体包括以下步骤:
S2、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
S1、在插件开发平台1中输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;DOM(Document Object Model,文档对象模型)可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构。DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示。
DOM的优势主要表现在:易用性强,使用DOM时,将把所有的XML文档信息都存于内存中,并且遍历简单,支持XPath,增强了易用性。
S2、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
本发明的抽取规则主要设计Jsoup语法和正则表达式。浏览器加载页面时,将页面解析成DOM结构,这样用户即可执行框选操作,以获取该页面元素的节点路径,Jsoup能够使用DOM或CSS选择器来查找、取出数据,将用户框选的页面元素转换为Jsoup语法,而正则表达式根据源码中的特殊标签,生成对应的表达式。用户也可以根据预设的语法,如Jsoup与正则表达式结合的方式编辑Java脚本抽取规则。
S3、对所述插件进行测试;插件测试是描述一种用来促进鉴定插件的正确性、完整性、安全性和质量的过程。
S4、若测试通过,转至步骤S5;若测试不通过,转至步骤S2;
S5、将所述插件上传并存储至插件管理中心2。设置生成定向网页采集的插件的插件开发平台1和WEB端的插件管理中心2,可以将原有分散的系统功能合并至一个系统,该系统可以专门用来开发插件,也可以扩展至管理插件存储、推送等方面。
图2为本发明第一产品实施例提供的一种插件开发系统的方框图,该系统包括用于生成定向网页采集插件的插件开发平台1和与所述插件开发平台1连接的插件管理中心2,所述插件开发平台1包括网页分析模块11、插件配置模块12、插件测试模块13和上传模块14;
所述网页分析模块11用于输入待开发的URL地址,根据URL地址所得到的网页解析为DOM树结构;网页分析模块11可以为专门的网页分析器,负责网页信息的提取:根据输入的URL界面解析成DOM树结构,并向用户提供开发界面。
所述插件配置模块12用于根据URL地址所得到的网页,在自动生成Java脚本抽取规则的方法和编辑Java脚本抽取规则的方法中选择其中的一种,以得到Java脚本抽取规则;其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;所述插件配置模块12还用于根据所述Java脚本抽取规则生成插件;插件配置模块12可以是插件配置客户端,负责Java脚本抽取规则的录入与插件的生成:可以选择插件配置模式,也可以在开发界面中直接录入抽取规则,并编写插件。
所述插件测试模块13用于对所述插件进行测试,并判断测试是否通过;插件测试模块13可以是插件测试客户端,根据插件的URL地址对插件进行测试。
所述上传模块14用于将测试通过的插件上传至插件管理中心2;
所述插件管理中心2用于接收并存储所述插件。插件管理中心2负责在WEB服务器端管理插件开发平台上传的插件,以便于其他客户端下载。
如图3所示,为本发明第二方法实施例提供的一种插件开发方法的流程图,该第二方法实施例与上述第一方法实施例的区别在于:
1)通过URL得到的网页如果需要登录操作,则录制该登录操作的过程;
2)插件测试可选择单元测试和集成测试;
3)插件服务平台2添加插件认证功能和版本控制功能。
该方法具体包括以下步骤:
S201、在插件开发平台1中输入待开发的URL地址,根据输入的URL地址将网页解析为DOM树结构;
S202、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
S203、选择单元测试或集成测试中的一种测试方式;根据所选择的测试方式对所述插件进行测试。其中,单元测试是测试单个页面,用于快速检测插件是否正常,根据输入的URL,生成对应的抽取结果,然后与实际页面比对,判断Java脚本抽取规则是否有误;集成测试是测试整个采集流程,根据用户输入的URL,模拟任务的真实环境,对采集后的结果进行统计,如每页采集的数据量、采集每个帖子消耗的平均时间、页面大小等,根据这些数据判断插件的采集性能是否达到标准。
S204、若测试通过,转至步骤S205;若测试不通过,转至步骤S202;
S205、将所述插件上传并存储至插件管理中心2。该步骤具体包括以下子步骤:
S51、在所述插件开发平台1中向所述插件管理中心2发出上传请求;
S52、在所述插件管理中心2中,对发出所述上传请求的插件开发平台1进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台1上传所述插件;若第一认证不通过,则所述插件开发平台1返回第一认证不通过的提示信息;一般情况下,采用OAuth2.0对上传请求进行认证,认证通过后允许上传,上传成功或失败,都将向插件开发平台返回对应信息。
S53、所述插件上传至插件管理中心2后,对所述插件进行版本控制,将进行版本控制后的插件存储至插件管理中心2。即认证通过后的插件会进行版本控制,写入版本信息后存储至插件管理中心的数据库。
图4为本发明第二产品实施例提供的一种插件开发系统的方框图,该系统与第一产品实施例提供的系统的区别在于在插件管理中心2中添加了插件认证模块21、版本控制模块22和存储模块23;该系统具体包括:
用于生成定向网页采集插件的插件开发平台1和与所述插件开发平台1连接的插件管理中心2,所述插件开发平台1包括网页分析模块11、插件配置模块12、插件测试模块13和上传模块14;
所述网页分析模块11用于输入待开发的URL地址,根据URL地址所得到的网页解析为DOM树结构;
所述插件配置模块12用于根据URL地址所得到的网页,在自动生成Java脚本抽取规则的方法和编辑Java脚本抽取规则的方法中选择其中的一种,以得到Java脚本抽取规则;其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;所述插件配置模块12还用于根据所述Java脚本抽取规则生成插件;所述插件配置模块12还用于若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本,根据所述Java脚本抽取规则和登陆脚本生成插件。
所述插件测试模块13用于对所述插件进行测试,并判断测试是否通过;所述插件测试模块13还用于选择单元测试或集成测试中的一种测试方式,并根据所选择的测试方式对所述插件进行测试。
所述上传模块14用于将测试通过的插件上传至插件管理中心2;所述上传模块14还用于向所述插件管理中心2发出上传请求。
所述插件管理中心2用于接收并存储所述插件,所述插件管理中心2包括插件认证模块21、版本控制模块22和存储模块23;
所述插件认证模块21用于对发出所述上传请求的插件开发平台1进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台1上传所述插件;若第一认证不通过,则所述插件开发平台1返回第一认证不通过的提示信息;插件认证模块21一般为插件服务平台,用于对用户身份进行校验,校验成功后,根据用户对应的权限提供插件上传、查询等功能,当爬虫控制节点获取到插件后,可以动态重复加载,无需重启程序。
所述版本控制模块22用于对所述插件进行版本控制;版本控制模块22一般为版本控制服务器,采用SVN(subversion)、Git(分布式版本控制系统)等对插件版本进行维护,为用户提供最新版本的插件。
所述存储模块23用于存储进行版本控制后的插件。存储模块23一般为插件管理中心2的数据库,存放了采用插件开发平台1开发的插件。
如图5所示,为本发明第三方法实施例提供的一种插件开发方法的流程图,该第三方法实施例与上述的第二方法实施例的区别在于添加了客户端3下载插件的步骤,该方法具体包括如下步骤:
S301、在插件开发平台1中输入待开发的URL地址,根据输入的URL地址将网页解析为DOM树结构;
S302、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本;根据所述Java脚本抽取规则和登陆脚本生成插件。
S303、选择单元测试或集成测试中的一种测试方式;根据所选择的测试方式对所述插件进行测试。
S304、若测试通过,转至步骤S305;若测试不通过,转至步骤S303;
S305、将所述插件上传并存储至插件管理中心2;
S306、将所述插件下载至客户端3中;
其中,所述步骤S306包括以下子步骤:
S61、在客户端3中向插件管理中心2发送所述插件的下载请求;
S62、在插件管理中心2中对发出所述下载请求的客户端3进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端3下载所述插件;若第二认证不通过,则所述客户端3返回第二认证不通过的提示信息;第二认证一般为Oauth2.0认证,认证通过后允许客户端3下载插件。
S63、将进行版本控制后的插件下载至所述客户端3。插件进行版本控制后,为客户端3提供最新版本的插件,从而使爬虫控制节点动态加载下载的插件,并立即生效。
图6为本发明第三产品实施例提供的一种插件开发系统的方框图,该第三产品实施例相对于上述第二产品实施例的区别在于添加了客户端3,该系统具体包括:
用于生成定向网页采集插件的插件开发平台1、与所述插件开发平台1连接的插件管理中心2和与所述插件管理中心2连接的客户端3;
所述插件开发平台1包括网页分析模块11、插件配置模块12、插件测试模块13和上传模块14;
所述网页分析模块11用于输入待开发的URL地址,根据URL地址所得到的网页解析为DOM树结构;
所述插件配置模块12用于根据URL地址所得到的网页,在自动生成Java脚本抽取规则的方法和编辑Java脚本抽取规则的方法中选择其中的一种,以得到Java脚本抽取规则;其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;所述插件配置模块12还用于根据所述Java脚本抽取规则生成插件;所述插件配置模块12还用于若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本,根据所述Java脚本抽取规则和登陆脚本生成插件。
所述插件测试模块13用于对所述插件进行测试,并判断测试是否通过;所述插件测试模块13还用于选择单元测试或集成测试中的一种测试方式,并根据所选择的测试方式对所述插件进行测试。
所述上传模块14用于将测试通过的插件上传至插件管理中心2;所述上传模块14还用于向所述插件管理中心2发出上传请求。
所述插件管理中心2用于接收并存储所述插件,所述插件管理中心2包括插件认证模块21、版本控制模块22和存储模块23;
所述插件认证模块21用于对发出所述上传请求的插件开发平台1进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台1上传所述插件;若第一认证不通过,则所述插件开发平台1返回第一认证不通过的提示信息;
所述版本控制模块22用于对所述插件进行版本控制;
所述存储模块23用于存储进行版本控制后的插件。
所述客户端3用于向插件管理中心2发送所述插件的下载请求并下载进行版本控制后的插件;
所述插件认证模块21还用于对发出所述下载请求的客户端3进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端3下载所述插件;若第二认证不通过,则所述客户端3返回第二认证不通过的提示信息。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种插件开发方法,用于在插件开发平台(1)中生成定向网页采集的插件并将该插件上传至插件管理中心(2),其特征在于,该方法包括以下步骤:
S1、在插件开发平台(1)中输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;
S2、根据URL地址所下载的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;根据所述Java脚本抽取规则生成插件;
其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;
S3、对所述插件进行测试;
S4、若测试通过,转至步骤S5;若测试不通过,转至步骤S2;
S5、将所述插件上传并存储至插件管理中心(2)。
2.如权利要求1所述的插件开发方法,其特征在于,所述步骤S2还包括以下步骤:
S21、若根据URL地址所得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本;
S22、根据所述Java脚本抽取规则和登陆脚本生成插件。
3.如权利要求2所述的插件开发方法,其特征在于,所述步骤S3包括以下子步骤:
S31、选择单元测试或集成测试中的一种测试方式;
S32、根据所选择的测试方式对所述插件进行测试。
4.如权利要求3所述的插件开发方法,其特征在于,所述步骤S5包括以下子步骤:
S51、在所述插件开发平台(1)中向所述插件管理中心(2)发出上传请求;
S52、在所述插件管理中心(2)中,对发出所述上传请求的插件开发平台(1)进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台(1)上传所述插件;若第一认证不通过,则所述插件开发平台(1)返回第一认证不通过的提示信息;
S53、所述插件上传至插件管理中心(2)后,对所述插件进行版本控制,将进行版本控制后的插件存储至插件管理中心(2)。
5.如权利要求4所述的插件开发方法,其特征在于,该方法还包括:
S6、在所述步骤S5之后,将所述插件下载至客户端(3)中;
其中,所述步骤S6包括以下子步骤:
S61、在客户端(3)中向插件管理中心(2)发送所述插件的下载请求;
S62、在插件管理中心(2)中对发出所述下载请求的客户端(3)进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端(3)下载所述插件;若第二认证不通过,则所述客户端(3)返回第二认证不通过的提示信息;
S63、将进行版本控制后的插件下载至所述客户端(3)。
6.一种插件开发系统,该系统包括用于生成定向网页采集插件的插件开发平台(1)和与所述插件开发平台(1)连接的插件管理中心(2),其特征在于,所述插件开发平台(1)包括网页分析模块(11)、插件配置模块(12)、插件测试模块(13)和上传模块(14);
所述网页分析模块(11)用于输入待开发的URL地址,根据输入的URL地址下载网页,并将网页解析为DOM树结构;
所述插件配置模块(12)用于根据URL地址所得到的网页,选择自动生成Java脚本抽取规则的方法或编辑Java脚本抽取规则的方法,以得到Java脚本抽取规则;其中,自动生成Java脚本抽取规则的方法为:根据在DOM树结构中框选待提取的内容对应的页面元素节点路径生成Java脚本抽取规则;编辑Java脚本抽取规则的方法为:采用Jsoup语法和正则表达式根据输入的URL地址编辑Java脚本抽取规则;所述插件配置模块(12)还用于根据所述Java脚本抽取规则生成插件;
所述插件测试模块(13)用于对所述插件进行测试,并判断测试是否通过;
所述上传模块(14)用于将测试通过的插件上传至插件管理中心(2);
所述插件管理中心(2)用于接收并存储所述插件。
7.如权利要求6所述的插件开发系统,其特征在于,所述插件配置模块(12)还用于若根据所述URL地址得到的网页需要登录操作,则录制登录网页的过程,生成登陆脚本,根据所述Java脚本抽取规则和登陆脚本生成插件。
8.如权利要求7所述的插件开发系统,其特征在于,所述插件测试模块(13)还用于选择单元测试或集成测试中的一种测试方式,并根据所选择的测试方式对所述插件进行测试。
9.如权利要求8所述的插件开发系统,其特征在于,所述上传模块(14)还用于向所述插件管理中心(2)发出上传请求;
所述插件管理中心(2)包括插件认证模块(21)、版本控制模块(22)和存储模块(23);
所述插件认证模块(21)用于对发出所述上传请求的插件开发平台(1)进行第一认证,若第一认证通过,则授权所述上传请求,允许所述插件开发平台(1)上传所述插件;若第一认证不通过,则所述插件开发平台(1)返回第一认证不通过的提示信息;
所述版本控制模块(22)用于对所述插件进行版本控制;
所述存储模块(23)用于存储进行版本控制后的插件。
10.如权利要求9所述的插件开发系统,其特征在于,该系统还包括与所述插件管理中心(2)连接的客户端(3);
所述客户端(3)用于向插件管理中心(2)发送所述插件的下载请求并下载进行版本控制后的插件;
所述插件认证模块(21)还用于对发出所述下载请求的客户端(3)进行第二认证,若第二认证通过,则授权所述下载请求,允许所述客户端(3)下载所述插件;若第二认证不通过,则所述客户端(3)返回第二认证不通过的提示信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310729260.8A CN104750463B (zh) | 2013-12-26 | 2013-12-26 | 一种插件开发方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310729260.8A CN104750463B (zh) | 2013-12-26 | 2013-12-26 | 一种插件开发方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104750463A true CN104750463A (zh) | 2015-07-01 |
CN104750463B CN104750463B (zh) | 2018-05-22 |
Family
ID=53590219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310729260.8A Active CN104750463B (zh) | 2013-12-26 | 2013-12-26 | 一种插件开发方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104750463B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765592A (zh) * | 2014-01-03 | 2015-07-08 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN106453422A (zh) * | 2016-12-08 | 2017-02-22 | 上海众人网络安全技术有限公司 | 一种基于移动终端动态认证方法及系统 |
CN106598991A (zh) * | 2015-10-19 | 2017-04-26 | 上海引跑信息科技有限公司 | 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统 |
CN106657385A (zh) * | 2017-01-12 | 2017-05-10 | 深圳云创享网络有限公司 | 插件调用、管理方法、客户端及管理服务器 |
CN108205531A (zh) * | 2016-12-16 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 数据抽取方法和数据抽取系统 |
CN110069683A (zh) * | 2017-09-18 | 2019-07-30 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN101894138A (zh) * | 2010-06-25 | 2010-11-24 | 优视科技有限公司 | 可视化页面内容订阅处理方法及系统 |
CN102486799A (zh) * | 2010-12-03 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 一种环球信息网www页面处理方法和装置 |
-
2013
- 2013-12-26 CN CN201310729260.8A patent/CN104750463B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582075A (zh) * | 2009-06-24 | 2009-11-18 | 大连海事大学 | Web信息抽取系统 |
CN101894138A (zh) * | 2010-06-25 | 2010-11-24 | 优视科技有限公司 | 可视化页面内容订阅处理方法及系统 |
CN102486799A (zh) * | 2010-12-03 | 2012-06-06 | 腾讯科技(深圳)有限公司 | 一种环球信息网www页面处理方法和装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765592A (zh) * | 2014-01-03 | 2015-07-08 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN104765592B (zh) * | 2014-01-03 | 2018-09-18 | 任子行网络技术股份有限公司 | 一种面向网页采集任务的插件管理方法及其装置 |
CN106598991A (zh) * | 2015-10-19 | 2017-04-26 | 上海引跑信息科技有限公司 | 一种使用会话方式实现与网站交互表单自动提取的网络爬虫系统 |
CN106453422A (zh) * | 2016-12-08 | 2017-02-22 | 上海众人网络安全技术有限公司 | 一种基于移动终端动态认证方法及系统 |
CN106453422B (zh) * | 2016-12-08 | 2020-09-04 | 上海众人网络安全技术有限公司 | 一种基于移动终端动态认证方法及系统 |
CN108205531A (zh) * | 2016-12-16 | 2018-06-26 | 北京京东尚科信息技术有限公司 | 数据抽取方法和数据抽取系统 |
CN108205531B (zh) * | 2016-12-16 | 2022-01-28 | 北京京东尚科信息技术有限公司 | 数据抽取方法和数据抽取系统 |
CN106657385A (zh) * | 2017-01-12 | 2017-05-10 | 深圳云创享网络有限公司 | 插件调用、管理方法、客户端及管理服务器 |
CN110069683A (zh) * | 2017-09-18 | 2019-07-30 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
CN110069683B (zh) * | 2017-09-18 | 2021-08-13 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104750463B (zh) | 2018-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542791B (zh) | 一种基于容器技术的程序大规模并发评测方法 | |
CN104750463A (zh) | 一种插件开发方法及系统 | |
CN101562618B (zh) | 一种检测网马的方法及装置 | |
CN106559438A (zh) | 一种基于目标网络平台的程序上传方法和装置 | |
US10127023B2 (en) | Computer-aided development of native mobile application code | |
CN104639653A (zh) | 基于云架构的自适应方法及系统 | |
CN104572043A (zh) | 一种对客户端应用的控件进行实时埋点的方法及装置 | |
CN106131047A (zh) | 账号登录方法及相关设备、账号登录系统 | |
CN104765592B (zh) | 一种面向网页采集任务的插件管理方法及其装置 | |
CN101902756A (zh) | M2m业务平台及其工作方法 | |
CN107885658B (zh) | 测试前置实现方法、装置、终端设备及存储介质 | |
CN112231711B (zh) | 一种漏洞检测方法、装置、计算机设备及存储介质 | |
CN106843901B (zh) | 一种页面渲染和验证的方法和装置 | |
CN112153012B (zh) | 多端触点接入方法、装置及存储介质 | |
CN109783355A (zh) | 页面元素获取方法、系统、计算机设备及可读存储介质 | |
Bellucci et al. | Automatic reverse engineering of interactive dynamic web applications to support adaptation across platforms | |
CN114816499A (zh) | 一种电子资源分享方法、装置和存储介质 | |
CN108460068A (zh) | 报表导入导出的方法、装置、存储介质及终端 | |
CN107395747A (zh) | 一种基于stf平台的高扩展方法 | |
CN106371994B (zh) | 基于自然语言处理的动态移动app测试方法 | |
CN103019931B (zh) | Asn.1接口的检测处理方法和装置 | |
CN113778897A (zh) | 接口的自动测试方法、装置、设备及存储介质 | |
CN116166907B (zh) | 一种使用WebAssembly和服务页面编译技术开发Web应用的方法及装置 | |
CN101512972A (zh) | 将网络环境中的空间个性化 | |
CN111881043A (zh) | 页面测试方法、装置、存储介质和处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |