CN107239689B - 一种基于众包的验证信息的识别方法及系统 - Google Patents

一种基于众包的验证信息的识别方法及系统 Download PDF

Info

Publication number
CN107239689B
CN107239689B CN201710330805.6A CN201710330805A CN107239689B CN 107239689 B CN107239689 B CN 107239689B CN 201710330805 A CN201710330805 A CN 201710330805A CN 107239689 B CN107239689 B CN 107239689B
Authority
CN
China
Prior art keywords
task
verification code
identifying
pricing
outputs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710330805.6A
Other languages
English (en)
Other versions
CN107239689A (zh
Inventor
于文渊
贾西贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huaao Data Technology Co Ltd
Original Assignee
Shenzhen Huaao Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Huaao Data Technology Co Ltd filed Critical Shenzhen Huaao Data Technology Co Ltd
Priority to CN201710330805.6A priority Critical patent/CN107239689B/zh
Publication of CN107239689A publication Critical patent/CN107239689A/zh
Application granted granted Critical
Publication of CN107239689B publication Critical patent/CN107239689B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/36User authentication by graphic or iconic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种基于众包的验证信息的识别方法及系统,该方法包括步骤S1任务处理装置接收需求提交者上传的验证码识别的任务需求和接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;步骤S2用户装置接收验证码的网址,输出验证码访问请求;步骤S3任务处理装置接收验证码访问请求,输出验证码图片;步骤S4用户装置接收验证码图片,输出验证码识别结果;步骤S5监测装置定时监测任务处理装置接收的验证码识别结果,步骤S6验证码识别结果正确,任务处理装置接收验证码识别结果,输出给需求提交者;步骤S7验证码识别结果错误,任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。

Description

一种基于众包的验证信息的识别方法及系统
技术领域
本发明属于信息的识别技术领域,具体涉及一种基于众包的验证信息的识别系统及方法。
背景技术
网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软必应,百度等等,几乎每个大型门户网站都有自己的搜索引擎,现在的爬虫工具特别多,已知的开源爬虫框架就有几十种不等。一般来说,企业级别的网络爬虫一般是部署在集群上面,通过不同的网络线路出口,并行地从互联网上下载所需的信息。
各个网站为了保护自己的网站不被恶意攻击,都会有自己的请求和响应策略。一般来说,目标网站则根据访问频率,浏览网页速度,cookies等因素来封锁线路,同时也会根据账户登录状态,输入验证码是否正确,Flash封装,Ajax混淆,JS加密,图片验证,CSS混淆等技术来保护自己的网站。然而这样一些因素会导致爬虫不能正常爬取。其中,最主要的因素就是网络线路的封锁,很多目标网站会对在一段时间频繁请求的爬虫采取完全封锁的策略。这样便误封锁了一部分爬虫的正常爬取。
人工的监控成本也很大,不知道线路何时被封锁了,何时被解封,以至于不能迅速反应。而数据的抓取是一个长期连续的过程,如不能及时地应对目标网站的封锁策略,并立即采取应对策略,那么爬虫的抓取质量和效率则是很低的。
现有技术中网络爬虫在抓取数据时,需要填写验证码。若程序无法识别验证码,则无法抓取到数据。
发明内容
要解决的技术问题
为了解决现有技术当程序无法识别验证码时,不能抓取数据的技术问题,本发明的目的是提供一种基于众包的验证信息的识别方法及系统。
发明的技术方案
本发明的第一方面,提供一种基于众包的验证信息的识别方法,该方法包括如下步骤:
步骤S1:任务处理装置接收需求提交者上传的验证码识别的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;
步骤S2:用户装置接收验证码的网址,输出验证码访问请求;
步骤S3:任务处理装置接收验证码访问请求,输出验证码图片;
步骤S4:用户装置接收验证码图片,输出验证码识别结果;
步骤S5:监测装置定时监测任务处理装置接收的验证码识别结果,验证码识别结果正确则执行步骤S6,验证码识别结果错误则执行步骤S7;
步骤S6:任务处理装置接收验证码识别结果,输出给需求提交者;
步骤S7:任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。
本发明的第二方面,提供使用所述一种基于众包的验证信息的识别方法的基于众包的验证信息的识别系统,该系统包括与任务定价装置、监测装置连接的任务处理装置、用户装置,其中:
任务处理装置接收需求提交者上传的验证码识别具有验证码网址的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;
用户装置与任务处理装置双向连接,接收验证码的网址,输出验证码访问请求;
任务处理装置接收验证码访问请求,输出验证码图片;用户装置接收验证码图片,输出验证码识别结果;任务处理装置接收验证码识别结果,输出给需求提交者;
监测装置用于定时监测任务处理装置接收的验证码识别结果,根据验证码识别结果输出修改定价指令;
任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。
发明的有益效果:
本发明通过众包的形式识别验证码,保证程序抓取到数据,从而解决了当识别系统无法识别验证码时,不能抓取数据的问题。本发明的系统和方法提高了系统和方法的速度,本发明的发众包任务技术方案工作过程仅仅需要在秒级。本发明在确定任务执行者的过程中,需要根据供求平衡关系进行定价,根据定价结果确定任务执行者,保证本发明的系统和方法工作的时效性。
本发明的系统和方法能够独立运行,耦合度低,占用资源少,响应迅速,本发明所提供的数据都经过了众包的形式识别验证码验证,以确保提供的网络资源精准有效;响应及时。高容错性,本发明可以在网络线路出问题的时候,自动测试,直至选择出正确的线路,以保证爬虫线路的畅通;通过使用本发明提供的系统和的方法和装置,能够使爬虫数据的抓取效率大大提高,并且不需要人工干预,实现网络线路的负载均衡。
附图说明
图1为本发明一种基于众包的验证信息的识别方法流程图;
图2为本发明一种基于众包的验证信息的识别系统结构图。
具体实施方式
为使本发明的目的、技术发明和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术发明。
请参阅图1示出一种基于众包的验证信息的识别方法,该方法包括如下步骤:
步骤S1:任务处理装置接收需求提交者上传的验证码识别的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;
步骤S2:用户装置接收验证码的网址,输出验证码访问请求;
步骤S3:任务处理装置接收验证码访问请求,输出验证码图片并显示给任务执行者;
步骤S4:用户装置接收验证码图片,输出验证码识别结果;
步骤S5:监测装置定时监测任务处理装置接收的验证码识别结果,验证码识别结果正确则执行步骤S6,验证码识别结果错误则执行步骤S7;
步骤S6:任务处理装置接收验证码识别结果,输出给需求提交者;
步骤S7:任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。
优选实施例,确定所述任务执行者的过程是需要根据供求平衡关系对任务执行者进行定价,根据定价结果确定任务执行者。
优选实施例,所述任务执行者设定规则是检测当前队列中的爬虫任务量,以及当前在线的用户量、平均响应时间,根据爬虫任务量、在线用户量、平均响应时间的动态平衡关系,确定任务执行者的价格。
优选实施例,所述的任务执行者设定规则是结合当前预测价格与预测的响应情况确定任务执行者价格。
优选实施例,所述定时监测的时间间隔为秒级。如设定定时监测的时间间隔小于1秒。
请参阅图2示出一种基于众包的验证信息的识别系统,所述系统包括与任务定价装置、监测装置连接的任务处理装置、用户装置,其中:
任务处理装置接收需求提交者上传的验证码识别具有验证码网址的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;
用户装置与任务处理装置双向连接,接收验证码的网址,输出验证码访问请求;
任务处理装置接收验证码访问请求,输出验证码图片;用户装置接收验证码图片,输出验证码识别结果;任务处理装置接收验证码识别结果,输出给需求提交者;
监测装置用于定时监测任务处理装置接收的验证码识别结果,根据验证码识别结果输出修改定价指令;
任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则。
优选实施例,确定所述的任务定价装置输出的任务执行者的过程是需要根据供求平衡关系对任务执行者进行定价,根据定价结果确定任务执行者。
优选实施例,所述的任务定价装置输出的任务执行者设定规则是检测当前队列中的爬虫任务量,以及当前在线的用户量、平均响应时间,根据爬虫任务量、在线用户量、平均响应时间的动态平衡关系,确定任务执行者的价格。
优选实施例,所述的任务定价装置输出的任务执行者设定规则是结合当前预测价格与预测的响应情况确定任务执行者价格。
优选实施例,所述监测装置定时监测的时间间隔为秒级。如设定定时监测的时间间隔小于1秒。
本发明接收到验证码识别的任务需求,该任务需求中包括验证码的网址;按照设定的规则确定任务执行者,并向任务执行者发送验证码的网址;接收到任务执行者发送的验证码访问请求,将验证码图片显示给任务执行者;接收任务执行者发送的验证码识别结果并发送给需求提交者。
验证码过期在分钟级,因此,该众包任务流程需要在秒级。为了保证时效性,在确定任务执行者的过程中,需要根据供求平衡关系进行定价,根据定价结果确定任务执行者。
例如,检测当前队列中的爬虫任务量,以及当前在线的用户量,平均响应时间,根据爬虫任务量、在线用户量、平均响应时间的动态平衡关系,确定价格。
尽管上面结合附图对本发明的优选实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,并不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以作出很多形式,将以上各个实施例中不相矛盾的技术手段相互组合,构成具体实施方式部分中没有直接描述的技术方案。这些均属于本发明的保护范围之内。

Claims (6)

1.一种基于众包的验证信息的识别方法,其特征在于,该方法包括如下步骤:
步骤S1:任务处理装置接收需求提交者上传的验证码识别的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;
步骤S2:用户装置接收验证码的网址,输出验证码访问请求;
步骤S3:任务处理装置接收验证码访问请求,输出验证码图片;
步骤S4:用户装置接收验证码图片,输出验证码识别结果;
步骤S5:监测装置定时监测任务处理装置接收的验证码识别结果,验证码识别结果正确则执行步骤S6,验证码识别结果错误则执行步骤S7;
步骤S6:任务处理装置接收验证码识别结果,输出给需求提交者;
步骤S7:任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则;
确定所述任务执行者的过程是需要根据供求平衡关系对任务执行者进行定价,根据定价结果确定任务执行者;
所述任务执行者设定规则是检测当前队列中的爬虫任务量,以及当前在线的用户量、平均响应时间,根据爬虫任务量、在线用户量、平均响应时间的动态平衡关系,确定任务执行者的价格。
2.根据权利要求1所述的方法,其特征在于,所述的任务执行者设定规则是结合当前预测价格与预测的响应情况确定任务执行者价格。
3.根据权利要求1所述的方法,其特征在于,所述定时监测的时间间隔为秒级。
4.一种基于众包的验证信息的识别系统,其特征在于,包括与任务定价装置、监测装置连接的任务处理装置、用户装置,其中:
任务处理装置接收需求提交者上传的验证码识别具有验证码网址的任务需求,任务处理装置接收并根据任务定价装置输出的任务执行者设定规则确定任务执行者,发送验证码的网址;
用户装置与任务处理装置双向连接,接收验证码的网址,输出验证码访问请求;
任务处理装置接收验证码访问请求,输出验证码图片;用户装置接收验证码图片,输出验证码识别结果;任务处理装置接收验证码识别结果,输出给需求提交者;
监测装置用于定时监测任务处理装置接收的验证码识别结果,根据验证码识别结果输出修改定价指令;
任务定价装置接收修改定价指令,对定价进行更改并输出任务执行者设定规则;
确定所述的任务定价装置输出的任务执行者的过程是需要根据供求平衡关系对任务执行者进行定价,根据定价结果确定任务执行者;
所述的任务定价装置输出的任务执行者设定规则是检测当前队列中的爬虫任务量,以及当前在线的用户量、平均响应时间,根据爬虫任务量、在线用户量、平均响应时间的动态平衡关系,确定任务执行者的价格。
5.根据权利要求4所述的系统,其特征在于,所述的任务定价装置输出的任务执行者设定规则是结合当前预测价格与预测的响应情况确定任务执行者价格。
6.根据权利要求4所述的系统,其特征在于,所述监测装置定时监测的时间间隔为秒级。
CN201710330805.6A 2017-05-11 2017-05-11 一种基于众包的验证信息的识别方法及系统 Active CN107239689B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710330805.6A CN107239689B (zh) 2017-05-11 2017-05-11 一种基于众包的验证信息的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710330805.6A CN107239689B (zh) 2017-05-11 2017-05-11 一种基于众包的验证信息的识别方法及系统

Publications (2)

Publication Number Publication Date
CN107239689A CN107239689A (zh) 2017-10-10
CN107239689B true CN107239689B (zh) 2020-05-19

Family

ID=59985524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710330805.6A Active CN107239689B (zh) 2017-05-11 2017-05-11 一种基于众包的验证信息的识别方法及系统

Country Status (1)

Country Link
CN (1) CN107239689B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734196A (zh) * 2018-04-17 2018-11-02 平安科技(深圳)有限公司 众包平台的作业方法、装置、计算机设备和存储介质
CN110245953B (zh) * 2019-05-20 2021-11-12 深圳市轱辘车联数据技术有限公司 一种信息验证方法、信息验证装置及电子设备
CN111404938A (zh) * 2020-03-16 2020-07-10 网易(杭州)网络有限公司 一种验证码的处理方法、装置、终端及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976205A (zh) * 2016-05-04 2016-09-28 南京邮电大学 一种质量敏感的地理区域信息的众包感知方法和系统
CN106204117A (zh) * 2016-06-30 2016-12-07 河南蓝海通信技术有限公司 多任务环境下众包平台定价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976205A (zh) * 2016-05-04 2016-09-28 南京邮电大学 一种质量敏感的地理区域信息的众包感知方法和系统
CN106204117A (zh) * 2016-06-30 2016-12-07 河南蓝海通信技术有限公司 多任务环境下众包平台定价方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于众包框架的盲人图片验证码辅助系统";王羲中;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140215(第02期);16-17 *

Also Published As

Publication number Publication date
CN107239689A (zh) 2017-10-10

Similar Documents

Publication Publication Date Title
Brookman et al. Cross-device tracking: Measurement and disclosures
US10505934B2 (en) Sensitive information processing method, device and server, and security determination system
US20180191746A1 (en) System and method for detecting malicious device by using a behavior analysis
CN105100032A (zh) 一种防止资源盗取的方法及装置
US10599820B2 (en) Control flow flattening for code obfuscation where the next block calculation needs run-time information
CN107239689B (zh) 一种基于众包的验证信息的识别方法及系统
CN105446750B (zh) WebApp启动运行、生成镜像文件的方法和装置
US20160156653A1 (en) Method and Device for Identifying User Behavior
CN109639751B (zh) 区块链节点监控方法、装置、系统及计算机存储介质
CN102737019A (zh) 机器行为确定方法、网页浏览器及网页服务器
WO2021120975A1 (zh) 一种监控方法及装置
CN106792165A (zh) 一种资源动态调整方法及装置
CN110474903B (zh) 可信数据获取方法、装置及区块链节点
CN103368957A (zh) 对网页访问行为进行处理的方法及系统、客户端、服务器
US9450980B2 (en) Automatic malignant code collecting system
CN102004781A (zh) 一种获取网站测试数据的方法及系统
US20130014260A1 (en) Apparatus, system, and method for preventing infection by malicious code
CN103701779A (zh) 一种二次访问网站的方法、装置及防火墙设备
CN105681478A (zh) 通过对网络资源调度提高网络爬虫抓取效率的方法和装置
CN104462242B (zh) 网页回流量统计方法及装置
CN105468981A (zh) 基于漏洞识别技术的插件安全扫描装置及扫描方法
US20130185763A1 (en) Distributed processing system, distributed processing method and computer-readable recording medium
CN105188059A (zh) 一种基于Portal服务器异常的认证方法及无线接入点
CN105227532A (zh) 一种恶意行为的阻断方法及装置
EP3136278B1 (en) Dynamically loaded code analysis device, dynamically loaded code analysis method, and dynamically loaded code analysis program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder

Address after: 518000 2203/2204, Building 1, Huide Building, Beizhan Community, Minzhi Street, Longhua District, Shenzhen, Guangdong

Patentee after: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

Address before: 518000 units J and K, 12 / F, block B, building 7, Baoneng Science Park, Qinghu Industrial Zone, Qingxiang Road, Longhua New District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN AUDAQUE DATA TECHNOLOGY Ltd.

CP02 Change in the address of a patent holder