CN113806713A - 一种通过接码平台和selenium突破点选验证码的方法及系统 - Google Patents
一种通过接码平台和selenium突破点选验证码的方法及系统 Download PDFInfo
- Publication number
- CN113806713A CN113806713A CN202111035365.4A CN202111035365A CN113806713A CN 113806713 A CN113806713 A CN 113806713A CN 202111035365 A CN202111035365 A CN 202111035365A CN 113806713 A CN113806713 A CN 113806713A
- Authority
- CN
- China
- Prior art keywords
- code
- selenium
- verification
- picture
- verification code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 83
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 title claims abstract description 61
- 229910052711 selenium Inorganic materials 0.000 title claims abstract description 61
- 239000011669 selenium Substances 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000005516 engineering process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/36—User authentication by graphic or iconic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2133—Verifying human interaction, e.g., Captcha
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开一种通过接码平台和selenium突破点选验证码的方法及系统,涉及数据保护技术领域,具体实现包括:步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;步骤S2、根据S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;步骤S3、将S2中的截图发送给第三方接码平台,并接收返回结果;步骤S4、解析S3的返回结果,并按顺序将结果坐标进行格式化;步骤S5、根据S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;步骤S6、根据S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。本发明可以提高爬虫采集数据的能力和效力,拓宽数据来源。
Description
技术领域
本发明涉及数据保护技术领域,具体的说是一种通过接码平台和selenium突破点选验证码的方法及系统。
背景技术
在互联网科技深度发展下,大数据技术成为一门具备独特魅力的新的科学。
伴随着大数据技术的蓬勃发展,数据呈现爆发式的增长。大数据其数据的丰富性和多样性以及数据的延续性使其成为一种重要的生产资料和生产力。通过对庞大规模的数据进行处理和分析,能够有效的提升决策水平,并且能够更加有效的整合资源。
大数据技术的前提是数据规模大,数据种类丰富,这就给数据的收集和存储带来更大的挑战。爬虫技术是一种重要的数据来源,但也面临着众多的困难。这其中比较常见的就是纷繁复杂的验证码。通过使用验证码来防止爬虫是一种常见的反爬虫方式。
基于此,设计研发一种通过接码平台和selenium突破点选验证码的方法及系统,以提高爬虫采集数据的能力和效力,拓宽数据来源。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种通过接码平台和selenium突破点选验证码的方法及系统,以提高爬虫采集数据的能力和效力,拓宽数据来源。
首先,本发明提供一种通过接码平台和selenium突破点选验证码的方法,解决上述技术问题采用的技术方案如下:
一种通过接码平台和selenium突破点选验证码的方法,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。
具体的,所涉及方法的具体实现过程包括:
步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;
步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;
步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;
步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;
步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;
步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。
更具体的,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。
更具体的,所涉及方法的具体实现过程中,可以点选任意个位置的验证码图片。
其次,本发明提供一种通过接码平台和selenium突破点选验证码的系统,解决上述技术问题采用的技术方案如下:
一种通过接码平台和selenium突破点选验证码的系统,其实现基于selenium和第三方接码平台;
使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。
具体的,基于selenium和第三方接码平台,所涉及系统的具体实现过程为:
步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;
步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;
步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;
步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;
步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;
步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。
更具体的,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。
具体的,所涉及系统的具体实现过程中,可以点选任意个位置的验证码图片。
本发明的一种通过接码平台和selenium突破点选验证码的方法及系统,与现有技术相比具有的有益效果是:
本发明使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码,以提高爬虫采集数据的能力和效力,拓宽数据来源。
附图说明
附图1是本发明的实现流程图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
本实施例提出一种通过接码平台和selenium突破点选验证码的方法,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。
结合附图1,本实施例的一种通过接码平台和selenium突破点选验证码的方法,具体实现过程包括:
步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;
步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;
步骤S3、将步骤S2中的截图序列化为base64,随后发送给第三方接码平台,并接收返回结果;
步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;
步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;
步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。
本实施例的具体实现过程中,可以点选任意个位置的验证码图片。
实施例二:
结合附图1,本实施例提出一种通过接码平台和selenium突破点选验证码的系统,其实现基于selenium和第三方接码平台;
使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。
本实施例的一种通过接码平台和selenium突破点选验证码的系统,基于selenium和第三方接码平台,具体实现过程包括:
步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;
步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;
步骤S3、将步骤S2中的截图序列化为base64,随后发送给第三方接码平台,并接收返回结果;
步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;
步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;
步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。
本实施例的具体实现过程中,可以点选任意个位置的验证码图片。
综上可知,采用本发明的一种通过接码平台和selenium突破点选验证码的方法及系统,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码,以提高爬虫采集数据的能力和效力,拓宽数据来源。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (8)
1.一种通过接码平台和selenium突破点选验证码的方法,其特征在于,使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。
2.根据权利要求1所述的一种通过接码平台和selenium突破点选验证码的方法,其特征在于,所述方法的具体实现过程包括:
步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;
步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;
步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;
步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;
步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;
步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。
3.根据权利要求2所述的一种通过接码平台和selenium突破点选验证码的方法,其特征在于,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。
4.根据权利要求2所述的一种通过接码平台和selenium突破点选验证码的方法,其特征在于,所述方法的具体实现过程中,可以点选任意个位置的验证码图片。
5.一种通过接码平台和selenium突破点选验证码的系统,其特征在于,其实现基于selenium和第三方接码平台;
使用selenium驱动浏览器,将点选验证码图片发送到第三方接码平台,获得点选位置坐标,继而驱动selenium根据返回坐标突破点选验证码。
6.根据权利要求5所述的一种通过接码平台和selenium突破点选验证码的系统,其特征在于,基于selenium和第三方接码平台,所述系统的具体实现过程为:
步骤S1、分析和定位点选验证图片在浏览器网页源码的xpath路径;
步骤S2、根据步骤S1的xpath路径,使用selenium对存在点选验证码的页面指定的验证码图片进行截图;
步骤S3、将步骤S2中的截图发送给第三方接码平台,并接收返回结果;
步骤S4、解析步骤S3的返回结果,并按顺序将结果坐标进行格式化;
步骤S5、根据步骤S1的xpath路径,selenium控制浏览器将鼠标定位到验证码图片上;
步骤S6、根据步骤S4中的坐标按顺序,selenium依次点击图片验证码的相应位置完成验证。
7.根据权利要求6所述的一种通过接码平台和selenium突破点选验证码的系统,其特征在于,执行步骤S3时,将步骤S2中的截图首先序列化为base64,随后发送给第三方接码平台。
8.根据权利要求6所述的一种通过接码平台和selenium突破点选验证码的系统,其特征在于,所述系统的具体实现过程中,可以点选任意个位置的验证码图片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035365.4A CN113806713A (zh) | 2021-09-01 | 2021-09-01 | 一种通过接码平台和selenium突破点选验证码的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111035365.4A CN113806713A (zh) | 2021-09-01 | 2021-09-01 | 一种通过接码平台和selenium突破点选验证码的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113806713A true CN113806713A (zh) | 2021-12-17 |
Family
ID=78894709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111035365.4A Pending CN113806713A (zh) | 2021-09-01 | 2021-09-01 | 一种通过接码平台和selenium突破点选验证码的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806713A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062468A (zh) * | 2017-12-25 | 2018-05-22 | 南京烽火软件科技有限公司 | 一种基于图片验证码识别的网络爬虫方法 |
CN109543086A (zh) * | 2018-11-23 | 2019-03-29 | 北京信息科技大学 | 一种面向多数据源的网络数据采集与展示方法 |
CN110888810A (zh) * | 2019-11-19 | 2020-03-17 | 广东润联信息技术有限公司 | 自动识别并标注的方法、装置、计算机设备及存储介质 |
CN111338938A (zh) * | 2020-02-20 | 2020-06-26 | 平安科技(深圳)有限公司 | 一种基于动态路径的滑块验证方法及装置 |
CN111401484A (zh) * | 2020-06-03 | 2020-07-10 | 四川新网银行股份有限公司 | 一种基于目标检测方法的验证码识别方法及系统 |
CN111428228A (zh) * | 2020-02-28 | 2020-07-17 | 平安科技(深圳)有限公司 | 极验滑动验证码的破解方法、装置、设备及存储介质 |
CN111865977A (zh) * | 2020-07-20 | 2020-10-30 | 北京丁牛科技有限公司 | 一种信息处理方法及系统 |
-
2021
- 2021-09-01 CN CN202111035365.4A patent/CN113806713A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062468A (zh) * | 2017-12-25 | 2018-05-22 | 南京烽火软件科技有限公司 | 一种基于图片验证码识别的网络爬虫方法 |
CN109543086A (zh) * | 2018-11-23 | 2019-03-29 | 北京信息科技大学 | 一种面向多数据源的网络数据采集与展示方法 |
CN110888810A (zh) * | 2019-11-19 | 2020-03-17 | 广东润联信息技术有限公司 | 自动识别并标注的方法、装置、计算机设备及存储介质 |
CN111338938A (zh) * | 2020-02-20 | 2020-06-26 | 平安科技(深圳)有限公司 | 一种基于动态路径的滑块验证方法及装置 |
CN111428228A (zh) * | 2020-02-28 | 2020-07-17 | 平安科技(深圳)有限公司 | 极验滑动验证码的破解方法、装置、设备及存储介质 |
CN111401484A (zh) * | 2020-06-03 | 2020-07-10 | 四川新网银行股份有限公司 | 一种基于目标检测方法的验证码识别方法及系统 |
CN111865977A (zh) * | 2020-07-20 | 2020-10-30 | 北京丁牛科技有限公司 | 一种信息处理方法及系统 |
Non-Patent Citations (1)
Title |
---|
田田: ""Python3网络爬虫开发实战!点触点选验证码的识别!", pages 1 - 8, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/76360381> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543086B (zh) | 一种面向多数据源的网络数据采集与展示方法 | |
CN103777967B (zh) | 页面返回方法、页面生成方法和装置 | |
CN101957844B (zh) | 一种在线应用系统及其实现方法 | |
US20230106266A1 (en) | Indexing Access Limited Native Applications | |
CN103353899B (zh) | 一种综合信息精准搜索方法 | |
CN103793298A (zh) | 实现Android手机信息读取的方法 | |
CN1808439A (zh) | 网页加入可搜索的深标签及浏览器插件和脚本结合的方法 | |
US20130073536A1 (en) | Indexing of urls with fragments | |
CN103533097A (zh) | 一种网络爬虫下载解析方法及装置 | |
CN106295353A (zh) | 一种引擎漏洞检测的方法以及检测装置 | |
CN106649567A (zh) | 一种基于浏览器内核的网络爬虫系统 | |
CN100337231C (zh) | 结构化文档处理器和结构化文档处理方法 | |
CN103608802A (zh) | 取回的文件和源文件之间的选择映射 | |
CN105550165A (zh) | 可将网页文章导入网页文本编辑器的插件及方法 | |
CN102446214B (zh) | 工程勘察内业数据处理方法及装置 | |
Gheorghe et al. | Modern techniques of web scraping for data scientists | |
CN1949780A (zh) | 网络留言系统及留言过滤方法 | |
CN114816499A (zh) | 一种电子资源分享方法、装置和存储介质 | |
CN104978430A (zh) | 一种数据处理方法及装置 | |
CN113051514A (zh) | 元素的定位方法、装置、电子设备及存储介质 | |
CN104765823A (zh) | 一种网站数据采集的方法及装置 | |
CN102541282A (zh) | 利用图标移动对已完成词汇再编辑的方法、装置及系统 | |
US10198408B1 (en) | System and method for converting and importing web site content | |
CN113806713A (zh) | 一种通过接码平台和selenium突破点选验证码的方法及系统 | |
CN103942230A (zh) | 一种用于进行语音网页导航的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211217 |