CN114172749A - 一种试卷下载方法、装置、设备以及存储介质 - Google Patents
一种试卷下载方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN114172749A CN114172749A CN202210131304.6A CN202210131304A CN114172749A CN 114172749 A CN114172749 A CN 114172749A CN 202210131304 A CN202210131304 A CN 202210131304A CN 114172749 A CN114172749 A CN 114172749A
- Authority
- CN
- China
- Prior art keywords
- test
- cookie
- information
- test paper
- downloading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012360 testing method Methods 0.000 title claims abstract description 318
- 238000000034 method Methods 0.000 title claims abstract description 82
- 235000014510 cooky Nutrition 0.000 claims abstract description 165
- 238000012795 verification Methods 0.000 claims abstract description 131
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 description 39
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 229910052711 selenium Inorganic materials 0.000 description 2
- 239000011669 selenium Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/08—Network architectures or network communication protocols for network security for authentication of entities
- H04L63/0807—Network architectures or network communication protocols for network security for authentication of entities using tickets, e.g. Kerberos
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种试卷下载方法、装置、设备以及存储介质,涉及计算机技术领域,尤其涉及大数据、智能搜索等领域。具体实现方案为:获取预先储存在电子设备本地的数据cookie,cookie是通过模拟登录而获取并保存的;向试卷提供方发送携带cookie的验证请求;接收针对验证请求的验证信息;基于验证信息下载试卷,cookie用于保持登录状态,验证信息用于试卷提供方进行验证。本公开实现了试卷的自动下载。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及大数据、智能搜索等领域。
背景技术
随着科学技术的发展,互联网信息、人工智能、大数据的普及等,线上教育的需求越来越大,而线上教育离不开试题资源库。
发明内容
本公开提供了一种试卷下载方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种试卷下载方法,包括:
获取预先储存在电子设备本地的数据cookie,所述cookie是通过登录而获取并保存的;
向试卷提供方发送携带所述cookie的验证请求;
接收针对所述验证请求的验证信息;
基于所述验证信息下载试卷,所述cookie用于保持登录状态,所述验证信息用于试卷提供方进行验证。
根据本公开的第二方面,提供了一种试卷下载装置,包括:
第一获取模块,用于获取预先储存在电子设备本地的数据cookie,所述cookie是通过登录而获取并保存的;
发送模块,用于向试卷提供方发送携带所述cookie的验证请求;
接收模块,用于接收针对所述验证请求的验证信息;
下载模块,用于基于所述验证信息下载试卷,其中,所述cookie用于保持登录状态,所述验证信息用于试卷提供方进行验证。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。
根据本公开的第五方面,一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面所述的方法。
本公开通过获取预先储存在电子设备本地的数据cookie,并向试卷提供方发送携带cookie的验证请求;接收针对所述验证请求的验证信息;基于验证信息下载试卷,可以实现试卷的自动下载。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的试卷下载方法的流程图;
图2是应用本公开实施例提供的试卷下载方法的流程图;
图3是本公开实施例提供的试卷下载装置的一种结构示意图;
图4是本公开实施例提供的试卷下载装置的另一种结构示意图;
图5是本公开实施例提供的试卷下载装置的又一种结构示意图;
图6是用来实现本公开实施例的试卷下载方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
线上教育离不开一个庞大的、优质的试题资源库,建设试题资源库收集大量的试卷。建设试题资源库如果靠人力手动上传或者编写效率极低,获取优质站点的优质试题及答案解析需要VIP账户,在站点防爬虫各种策略下,查看到的试题答案及解析是图片且带水印,后期处理成本极高且准确率无法保证。相关技术中可以通过组装试卷并下载为word文档获取试题详细内容。但是,人工下载下存在难点问题:一个VIP账号只能在一端登录,同一时间仅支持一端进行试卷下载。
本公开实施例针对该问题,通过模拟登陆获取到cookie,在试卷下载过程中直接获取cookie进行下载,实现自动下载,解决了一个VIP账号只能在一端登录,同一时间仅支持一端进行试卷下载的,可以避免多人无法共用即同时登录VIP账号的情况,利用cookie可以实现试卷的并行下载,如多人并行地利用cookie进行试卷下载。
本公开实施例提供的试卷下载方法可以包括电子设备,如电脑、手机等终端设备,等等。
本公开实施例提供了一种试卷下载方法,可以包括:
获取预先储存在电子设备本地的数据cookie,cookie是通过登录而获取并保存的;
向试卷提供方发送携带cookie的验证请求;
接收针对验证请求的验证信息;
基于验证信息下载试卷,其中,cookie用于保持登录状态,验证信息用于试卷提供方进行验证。
本公开实施例中,通过获取预先储存在访问者本地终端上的数据cookie,cookie用于保持登录状态,并向试卷提供方发送携带cookie的验证请求;接收针对验证请求的验证信息;即基于cookie确定验证信息,然后,基于验证信息下载试卷,其中,验证信息用于试卷提供方进行验证,如此可以实现试卷的自动下载,避免了人工操作,释放了人力,且相比较于人工下载的过程中,一个VIP账号只能在一端登录,同一时间仅支持一端进行试卷下载,本公开实施例中预先登录以获取到cookie并将cookie保存下来,如此在试卷下载过程中可以支持多端同时下载,即可以避免多人无法共用即同时登录VIP账号的情况,利用cookie可以实现试卷的并行下载,如多人并行地利用cookie进行试卷下载,能够节省购买VIP账号的成本,即降低试卷下载的成本。
另外,利用人工下载的方式每次需要先手动添加一道试题、滑动验证码图片、点击下载,效率极低,即通过章节链接获取每页的试题信息,然后人工一道一道点击试题来加入试卷,再手动滑动验证码图片后下载,整体工作比较繁琐浪费人力且效率极低。
本公开实施例提供的试卷下载方式,相比较于人工一道一道点击试题来加入试卷再手动滑动验证码图片后下载试卷的方式,能够提高下载效率。
还有,模拟登录的方式能够避免人工登录的繁琐,降低人工操作成本且能够提高整个下载过程的效率。
图1是本公开实施例提供的试卷下载方法的流程图。参照图1,本公开实施例提供的试卷下载方法可以包括:
S101,获取预先储存在电子设备本地的数据cookie。
cookie是通过模拟登录而获取并保存的。
电子设备本地也可以理解为访问者本地终端。
cookie用于辨别访问者身份。
网站平台需要登录会员(Very Important,VIP)账号才能下载试卷,本公开实施例中使用cookie(储存在访问者本地终端上的数据)保持登录状态,例如在请求接口的时候带上cookie。
可以先登录网站获取cookie,并将cookie保存下来,如此,在试卷下载过程中如从网站下载试卷的过程中,电子设备可以从内存或缓存中获取cookie。
可以通过模拟登陆获取cookie,并保存cookie。
例如,针对账号(如VIP账号)登录采用selenium(浏览器自动化测试框架)+PhantomJS(可编程的无头浏览器)模拟浏览器登录获取cookie。其中,selenium+PhantomJS模拟浏览器登录获取cookie是网站访问过程中的已有内容,本公开实施例中参照已有内容即可,本公开实施例不对此进行赘述。
模拟登录的方式能够避免人工登录的繁琐,降低人工操作成本且能够提高整个下载过程的效率。
一种可实现方式中,可以将获取到的cookie保存到文件,如此在下载试卷过程中再从文件中获取cookie,并基于cookie保持登陆状态以实现对试卷下载。
另一种可实现方式中,可以将cookie保存在电子设备的内存或缓存中,在下载试卷过程中再从内存或缓存中获取cookie,并基于cookie保持登陆状态以实现对试卷下载。
将cookie保存在文件可以理解为是保存到硬盘中,如此将cookie写入文件的过程会需要进行输入/输出(Input/Output,I/O)操作,而从文件中获取cookie也需要I/O操作,且一般情况下,cookie隔一段时间会失效,如此则需要再次执行将保存到文件文件、从文件中获取cookie的过程,可以看出相关技术中从文件中获取cookie会造成频繁的I/O操作,频繁的I/O操作一方面会导致对效率的影响,另一方面,还会导致成本的增加。相比较于将cookie保存到文件中,从文件中读取cookie的方式,将cookie保存在电子设备的内存或缓存中,从内存或缓存中获取cookie则无需频繁的I/O操作,如此能够进一步提高下载效率,还能够降低成本。
可以将获取到的cookie保存在内存或缓存的远程字典服务(Remote DictionaryServer,redis)数据库,在试卷下载过程中可以直接从redis中获取cookie。如果请求失败,则可以再次模拟登录获取cookie并写入redis中。
相比较于从文件中读取cookie的方式,从redis中获取cookie则无需频繁的I/O操作,如此能够进一步提高下载效率,还能够降低成本。
通过模拟登陆获取cookie,并将cookie保存在内存或缓存,且试卷下载中从内存或缓存获取cookie,解决了人工登录的繁琐同时避免了I/O读写,能够提升下载过程的运行效率。
直接从保存在内存或缓存中获取cookie,利用cookie保持登录状态,则使得不需要每次下载时均需要登录VIP账号,且可以避免多人无法共用即同时登录VIP账号的情况,利用cookie可以实现试卷的并行下载,如多人并行地利用cookie进行试卷下载,能够节省购买VIP账号的成本,即降低试卷下载的成本。
S102,向试卷提供方发送携带cookie的验证请求。
S103,接收针对验证请求的验证信息。
总的来讲,可以基于cookie确定验证信息。
验证信息用于试卷提供方进行验证。
验证提供方可以是网站等,如验证信息用于提供试卷下载的网站进行验证以在验证成功时允许试卷下载。
cookie可以用于保持登录状态,而只有在登录状态才允许下载试卷。另外,在试卷下载的过程中一般会包括验证过程,即保证试卷提供方验证成功后才允许电子设备进行试卷下载。
一种可实现方式中,电子设备可以向试卷提供方如提供试卷下载的网站,发送携带cookie的验证请求,试卷提供方在接收到该验证请求时,向第三方平台发送验证信息,如验证码,第三方平台可以将该验证信息提供给访问者,如展示给访问者,则访问者可以将该验证信息输入电子设备,如此电子设备可以接收到访问者输入的验证信息。
另一种可实现方式中,S102可以包括:
发送携带cookie的验证请求;接收针对验证请求的验证请求信息,并确定针对验证请求信息的验证信息。
响应于请求成功,试卷提供方在接收到该验证请求时,直接向电子设备返回验证请求信息,电子设备确定针对验证请求信息的验证信息。
具体地,基于cookie获取验证请求信息,确定针对验证请求信息的验证信息。例如,电子设备可以向试卷提供方如提供试卷下载的网站,发送携带cookie的验证请求,试卷提供方在接收到该验证请求时,直接向电子设备返回验证请求信息,电子设备确定针对验证请求信息的验证信息。验证码请求信息可以是包括验证码的图片,如验证码图片中包括验证码如数字、字母和/或汉字等,可以提取验证码图片中的验证码如数字、字母和/或汉字等,验证码即可以理解为针对验证请求信息的验证信息。
响应于请求失败,如试卷提供方向电子设备返回包含“请求失败”的反馈信息,则电子设备重新通过模拟登陆获取cookie,并将cookie保存,如保存在内存或缓存。
通过请求是否失败的方式决定是否需要重新模拟登陆获取cookie并写入redis,相比较于比较相关技术中依据失效时间比较cookie是否失效的方式,效率更高。
S104,基于验证信息下载试卷。
可以发送携带该验证信息的下载请求,网站接收到该验证信息,可以基于该验证信息进行验证,当验证成功后,如接收到的该验证信息与下发的验证信息相同时,则允许电子设备下载试卷,如此,电子设备可以进行试卷的下载。
基于验证信息下载试卷,可以先判断cookie是否有效,响应于cookie有效,则进行试卷下载;响应于cookie无效,则如上述通过模拟登录的方式获取cookie并将获取到的cookie保存至内存或缓存中,从内存或缓存获取cookie。其中,判断cookie是否有效可以包括在发送的请求如上述下载请求中携带该cookie,或者发送包括该cookie的请求,若请求成功,则表示该cookie有效,若请求失败,则表示该cookie无效。
本公开实施例中采用自动获取VIP账号cookie,遍历章节试题并加入试卷,在试卷下载过程中利用图片像素识别获取验证码滑动位置并提交验证,实现获取试题释放人力、自动下载试卷,提高下载效率。
相比较于每次请求前读取文件获取cookie,获取cookie中没有失效时间,无法判断是否有效,每次请求文件获取增大了I/O操作,并发请求时增大服务器负载,本公开实施例中可以通过模拟登录获取cookie并将cookie保存在内存或缓存中,如此在试卷下载过程中,从内存会缓存中获取cookie,可以避免频繁的I/O操作。且可以多个线程并行地从试题队列中获取试题关键信息并将试题写入试卷,能够降低负载。以及,避免了使用第三方平台工具准确率、稳定性、接口耗时不能保证,而且内部平台适用存在安全风险的问题。另外,无需每次请求均付费,只需要将cookie保存下来,在试卷下载过程中直接利用cookie,无需每次请求都需要登录而付费,能够降低成本,且能够避免使用第三方平台的方式OCR识别准确率比较低,本公开实施例通过像素识别得到验证码滑动位置,可以提高验证的准确率。
一种可选的实施例中,还可以包括:
从试题队列中获取试题关键信息;
基于试题关键信息获取试题关键信息对应的试题,并将试题添加至试卷。
可以并行地从试题队列中获取试题关键信息,基于试题关键信息获取试题关键信息对应的试题,并将试题添加至试卷。如可以通过多个线程消费试题队列中的试题关键信息,并基于试题关键信息获取试题关键信息对应的试题,并将试题添加至试卷。
通过试题队列可以实现并行地将试题添加至试卷,将试题添加至试卷可以理解为将试题组装成试卷的过程,该过程是试卷下载过程中的重要步骤,实现并行地组装试卷进一步可以提高试卷下载的效率。
一种可实现方式中,将试题组装成试卷后,电子设备可以点击针对该试卷的触发按钮,如“下载”按钮,点击该按钮后,电子设备可以向试卷提供方如网站发送获取验证码图片的请求,即执行基于cookie确定验证信息的步骤,然后执行基于验证信息进行试卷下载。简单理解即触发后续的下载过程。
一种可选的实施例中,还可以包括:遍历网站站点中各个试题,得到各个试题的试题关键信息;将各个试题的试题关键信息保存至试题队列。
可以通过网络爬虫等方式抓取网站站点中各个站点的试题关键信息,其中,试题关键信息用于唯一标识试题,可以包括试题ID(标识)、试题标题,等等。
一种可实现方式中,通过网络爬虫等方式抓取整个网站站点中的章节树,利用章节树遍历每一页的试题,获取各个试题的试题关键信息。
如此,能够保证试题覆盖全面以及试题的唯一性,其中,唯一性可以理解为保证试题的不重复,避免对相同试题进行重复操作对效率和资源等的消耗。
获取到试题的试题关键信息后,可以保存该试题关键信息。
一种可实现方式中,将试题关键信息写入数据库,同时将试题ID作为唯一索引保证试题的唯一性,然后新建一个redis队列,可以通过一个生产进程从数据库读取数据写入试题队列,可以通过多个获取试题并加入试卷的进程来消费试题队列,具体可以理解为通过多个消费进程并行地获取试题并加入试卷的进程,如此可以在满足并发的情况下保证试题唯一。
另外,将试题关键信息写入数据库,同时将试题ID作为唯一索引保证试题的唯一性,然后新建一个redis队列,读取数据库获取试题关键信息写入队列,该redis队列即为试题队列。可以通过一个生产进程从数据库读取数据写入试题队列,如此可以实现获取试题与对试卷下载的异步性,避免试题的获取过程对试卷下载的速率等造成影响。
相比较于人工下载时无法全面覆盖试题数量,而且不能保证多人下载的试卷中试题不重复,效率还极其低的问题,本公开实施例解决了试题覆盖面以及不可重复的问题,同时,能够释放人力,提升试题采集效率,提供了一种更高效的试卷自动下载方式。
在试卷下载的过程中,可以通过滑动验证码的方式实现验证过程。一种可选的实施例中,S103可以包括:
接收针对验证请求的验证码图片;对验证码图片进行像素识别,得到验证码滑动位置信息,并将验证码滑动位置信息作为验证信息。
电子设备向试卷提供方发送携带cookie的验证请求,试卷提供方返回针对验证请求的验证码图片,电子设备对验证码图片进行像素识别,得到验证码滑动位置信息,并将验证码滑动位置信息作为验证信息。
可以请求验证码接口获取验证码图片。
一种可实现方式中,可以先判断cookie是否有效,响应于cookie有效,则获取验证码图片;对验证码图片进行像素识别,得到验证码滑动位置信息。响应于cookie无效,则如上述通过模拟登录的方式获取cookie并将获取到的cookie保存至内存或缓存中,从内存或缓存获取cookie。
其中,判断cookie是否有效可以包括在发送的请求如验证请求(获取验证码图片的请求)中携带该cookie,或者发送包括该cookie的请求,若请求成功,则表示该cookie有效,若请求失败,则表示该cookie无效。
对验证码图片进行像素识别,得到验证码滑动位置信息,可以基于验证码图片中每个像素的颜色索引值,确定验证码图片对应的验证码滑动位置信息。
具体地,可以将获取到的验证码图片保存为一种预定格式,其中,预定格式可以是任意图片格式,本发明实施例中不对该预定格式作限制,遍历该图片的各个像素的颜色索引值,根据颜色索引值的规律找到验证码滑动位置,如查找出验证码图片中颜色索引值变化的位置,并将该位置确定为验证码滑动位置,该位置的位置信息如坐标即验证码滑动位置的验证码滑动位置。
通过像素识别得到验证码滑动位置并基于该验证码滑动码位置进行试卷下载,可以理解为基于图像处理进行试卷下载的方式,能够进一步提高下载效率。同时,避免使用第三方平台工具准确率、稳定性、接口耗时不能保证,而且内部平台适用存在安全风险的问题。
一种可选的实施例中,可以发送携带cookie的验证请求,验证请求用于获取验证码图片。
响应于针对验证请求的请求失败,重新通过模拟登陆获取cookie,并将cookie保存在内存或缓存,其中,验证请求是携带cookie的请求,验证请求用于获取验证码图片。
响应于请求成功,试卷提供方向电子设备返回验证码图片,则电子设备可以获取到该验证码图片。
响应于请求失败,如试卷提供方向电子设备返回包含“请求失败”的反馈信息,则电子设备重新通过模拟登陆获取cookie,并将cookie保存在内存或缓存。
S104可以包括:发送包含验证信息和cookie的下载请求;响应于针对下载请求请求成功,下载试卷。
响应于针对下载请求请求失败,电子设备重新通过模拟登陆获取cookie,并将cookie保存在内存或缓存。
通过验证请求以获取验证码图片,并通过下载请求触发试卷的下载,且在请求失败时,重新通过模拟登陆获取cookie,并将cookie保存在内存或缓存。通过请求是否失败的方式决定是否需要重新模拟登陆获取cookie并写入redis,相比较于比较相关技术中依据失效时间比较cookie是否失效的方式,效率更高。
图2是应用本公开实施例提供的试卷下载方法的流程图。参见图2,本公开实施例提供的试卷下载方法的可以如下步骤:
(1)生成试题队列
遍历章节树的统一资源定位(uniform resource locator,url)地址,翻页抓取试题信息。
具体地,通过网络爬虫等方式抓取整个网站站点中的章节树,利用章节树遍历每一页的试题,获取各个试题的试题关键信息。即通过网络爬虫等方式抓取网站站点中各个站点的试题关键信息。
其中,试题关键信息用于唯一标识试题,可以包括试题ID(标识)、试题标题,等等。
可以将试题关键信息写入数据库,同时将试题ID作为唯一索引保证试题的唯一性,然后新建一个redis队列,读取数据库获取试题关键信息写入队列,该redis队列即为试题队列。可以通过一个生产进程从数据库读取数据写入试题队列。可以通过一个生产进程从数据库读取数据写入试题队列,如此可以实现获取试题与对试卷下载的异步性,避免试题的获取过程对试卷下载的速率等造成影响。
如此,在试卷下载过程中可以依据试题关键信息获取试题,并将试题添加至试卷。
(2)试卷下载
通过模拟登录获取cookie,然后,写入redis存储该cookie。
从试题队列中获取试题信息。可以通过多个获取试题并加入试卷的进程来消费试题队列,具体可以理解为通过多个消费进程并行地获取试题并加入试卷的进程,如此可以在满足并发的情况下保证试题唯一。
请求验证码图片获取验证码图片。
在获取验证码图片的过程中从redis中获取cookie,如果cookie未失效,则对该验证码图片进行像素识别,返回验证码滑动位置;如果cookie失效,则重新通过模拟登录获取cookie,并将重新获取的cookie存储至redis。
得到验证码滑动位置后,请求验证码提交接口,进行验证。
在验证过程中从redis中获取cookie,如果cookie未失效,则对该验证码图片进行像素识别,返回验证码滑动位置;如果cookie失效,则重新通过模拟登录获取cookie,并将重新获取的cookie存储至redis。
请求试卷下载接口进行试卷下载。
在试卷下载过程中从redis中获取cookie,如果cookie未失效,则对该验证码图片进行像素识别,返回验证码滑动位置;如果cookie失效,则重新通过模拟登录获取cookie,并将重新获取的cookie存储至redis。
本公开实施例预先遍历试题,将试题的试题关键信息如ID保存至试题队列;通过模拟登陆获取cookie,并将cookie保存到内存或缓存如redis中,如此,可以多个线程从内存或缓存获取cookie,在从试题队列中获取试题信息写入试卷的过程中,获取验证码图片后在cookie有效的基础上进行像素识别,得到验证码滑动位置,并基于该验证码滑动位置完成试卷下载。
本公开实施例实现了自动化试卷下载,提高下载效率。相比相关技术中人工每天下载试卷500+,包含试题5w+,提升至每天下载试卷1w+,包含试题100w+,释放了更多的人力成本,且能够持续进行满足快速补充试题资源的需求;另外,每个VIP账号只能在一端登录,多人之间无法共用(如利用有效的cookie触发试卷下载过程中的请求,如验证请求、下载请求等),通过cookie的方式节省了购买账号的成本,一种情况下能够节省成本5w/月。
预先遍历试题并保存试题关键信息如试题ID,该过程可以去除冗余,如对相同的试题关键信息仅保存一次,保证试题唯一性。将通过模拟登陆获取到的cookie保存到内存、缓存,如redis中,相比较于保存在硬盘如文件中,避免了频繁的I/O操作。
还有,通过请求是否失败的方式决定是否需要重新模拟登陆获取cookie并写入redis,相比较于相关技术中通过失效时间确定cookie是否时效的方式,效率更高。另外,通过像素识别得到验证码滑动位置并基于该验证码滑动码位置进行试卷下载,能够进一步提高下载效率。
图3是本公开实施例提供的试卷下载装置的结构示意图。参见图3,本公开实施例提供的试卷下载装置,可以包括:
第一获取模块301,用于获取预先储存在电子设备本地的数据cookie,cookie是通过登录而获取并保存的;
发送模块302,用于向试卷提供方发送携带cookie的验证请求;
接收模块303,用于接收试卷提供方返回的针对验证请求的验证信息;
下载模块304,用于基于验证信息下载试卷,其中,cookie用于保持登录状态,验证信息用于试卷提供方进行验证。
可选的,接收模块303,具体用于:接收试卷提供方返回的针对验证请求的验证码图片;对验证码图片进行像素识别,得到验证码滑动位置信息,并将验证码滑动位置信息作为验证信息。
可选的,如图4所示,该装置还包括:
第二获取模块401,用于从试题队列中获取试题关键信息;基于试题关键信息获取试题关键信息对应的试题;
添加模块402,用于将试题添加至试卷。
可选的,如图5所示,该装置还包括:
遍历模块501,用于遍历网站站点中各个试题,得到各个试题的试题关键信息;
保存模块502,用于将各个试题的试题关键信息保存至试题队列。
可选的,下载模块304,具体用于:发送包含验证信息和cookie的下载请求;响应于针对下载请求请求成功,下载试卷。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如试卷下载方法。例如,在一些实施例中,试卷下载方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的试卷下载方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行试卷下载方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种试卷下载方法,包括:
获取预先储存在电子设备本地的数据cookie,所述cookie是通过模拟登录而获取并保存的;
向试卷提供方发送携带所述cookie的验证请求;
接收针对所述验证请求的验证信息;
基于所述验证信息下载试卷,所述cookie用于保持登录状态,所述验证信息用于试卷提供方进行验证。
2.根据权利要求1所述的方法,其中,所述接收针对所述验证请求的验证信息,包括:
接收针对所述验证请求的验证码图片;
对所述验证码图片进行像素识别,得到验证码滑动位置信息,并将所述验证码滑动位置信息作为所述验证信息。
3.根据权利要求1所述的方法,所述方法还包括:
从试题队列中获取试题关键信息;
基于所述试题关键信息获取试题关键信息对应的试题,并将所述试题添加至试卷。
4.根据权利要求3所述的方法,所述方法还包括:
遍历网站站点中各个试题,得到各个试题的试题关键信息;
将各个试题的试题关键信息保存至所述试题队列。
5.根据权利要求1至4任一项所述的方法,其中,所述基于所述验证信息下载试卷,包括:
发送包含所述验证信息和所述cookie的下载请求;
响应于针对所述下载请求请求成功,下载所述试卷。
6.一种试卷下载装置,包括:
第一获取模块,用于获取预先储存在电子设备本地的数据cookie,所述cookie是通过模拟登录而获取并保存的;
发送模块,用于向试卷提供方发送携带所述cookie的验证请求;
接收模块,用于接收针对所述验证请求的验证信息;
下载模块,用于基于所述验证信息下载试卷,其中,所述cookie用于保持登录状态,所述验证信息用于试卷提供方进行验证。
7.根据权利要求6所述的装置,其中,所述接收模块,具体用于:接收针对所述验证请求的验证码图片;对所述验证码图片进行像素识别,得到验证码滑动位置信息,并将所述验证码滑动位置信息作为所述验证信息。
8.根据权利要求6所述的装置,所述装置还包括:
第二获取模块,用于从试题队列中获取试题关键信息;基于所述试题关键信息获取试题关键信息对应的试题;
添加模块,用于将所述试题添加至试卷。
9.根据权利要求8所述的装置,所述装置还包括:
遍历模块,用于遍历网站站点中各个试题,得到各个试题的试题关键信息;
保存模块,用于将各个试题的试题关键信息保存至所述试题队列。
10.根据权利要求6至9任一项所述的装置,所述下载模块,具体用于:发送包含所述验证信息和所述cookie的下载请求;响应于针对所述下载请求请求成功,下载所述试卷。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210131304.6A CN114172749B (zh) | 2022-02-14 | 2022-02-14 | 一种试卷下载方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210131304.6A CN114172749B (zh) | 2022-02-14 | 2022-02-14 | 一种试卷下载方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114172749A true CN114172749A (zh) | 2022-03-11 |
CN114172749B CN114172749B (zh) | 2022-05-17 |
Family
ID=80489924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210131304.6A Active CN114172749B (zh) | 2022-02-14 | 2022-02-14 | 一种试卷下载方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114172749B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407446A (zh) * | 2016-09-29 | 2017-02-15 | 中科易研(北京)科技股份公司 | 一种网络调查问卷构建方法及其装置 |
CN109783546A (zh) * | 2019-01-25 | 2019-05-21 | 同方知网(北京)技术有限公司 | 一种知识竞赛系统及方法 |
CN110689285A (zh) * | 2019-10-16 | 2020-01-14 | 北京字节跳动网络技术有限公司 | 测试方法、装置、电子设备及计算机可读存储介质 |
CN111797297A (zh) * | 2020-09-09 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 页面数据处理方法、装置、计算机设备及存储介质 |
CN111859072A (zh) * | 2020-07-22 | 2020-10-30 | 广州兆和电力技术有限公司 | 一种面向内网的表单自动申报及成绩查询方法和系统 |
CN112560431A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 |
CN113538188A (zh) * | 2021-07-27 | 2021-10-22 | 北京世纪好未来教育科技有限公司 | 试卷生成方法、装置、电子设备及计算机可读存储介质 |
CN113836377A (zh) * | 2021-08-24 | 2021-12-24 | 北京百度网讯科技有限公司 | 信息关联方法、装置、电子设备及存储介质 |
CN113918609A (zh) * | 2021-10-12 | 2022-01-11 | 平安国际智慧城市科技股份有限公司 | 试卷创建方法、装置、计算机设备和存储介质 |
-
2022
- 2022-02-14 CN CN202210131304.6A patent/CN114172749B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407446A (zh) * | 2016-09-29 | 2017-02-15 | 中科易研(北京)科技股份公司 | 一种网络调查问卷构建方法及其装置 |
CN109783546A (zh) * | 2019-01-25 | 2019-05-21 | 同方知网(北京)技术有限公司 | 一种知识竞赛系统及方法 |
CN110689285A (zh) * | 2019-10-16 | 2020-01-14 | 北京字节跳动网络技术有限公司 | 测试方法、装置、电子设备及计算机可读存储介质 |
CN111859072A (zh) * | 2020-07-22 | 2020-10-30 | 广州兆和电力技术有限公司 | 一种面向内网的表单自动申报及成绩查询方法和系统 |
CN111797297A (zh) * | 2020-09-09 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 页面数据处理方法、装置、计算机设备及存储介质 |
CN112560431A (zh) * | 2020-12-25 | 2021-03-26 | 北京百度网讯科技有限公司 | 用于生成试题辅导信息的方法、装置、设备、存储介质以及计算机程序产品 |
CN113538188A (zh) * | 2021-07-27 | 2021-10-22 | 北京世纪好未来教育科技有限公司 | 试卷生成方法、装置、电子设备及计算机可读存储介质 |
CN113836377A (zh) * | 2021-08-24 | 2021-12-24 | 北京百度网讯科技有限公司 | 信息关联方法、装置、电子设备及存储介质 |
CN113918609A (zh) * | 2021-10-12 | 2022-01-11 | 平安国际智慧城市科技股份有限公司 | 试卷创建方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114172749B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3859533A2 (en) | Method and apparatus for testing map service, electronic device, storage medium and computer program product | |
US20150058407A1 (en) | Systems, methods, and apparatuses for implementing the simultaneous display of multiple browser client cursors at each browser client common to a shared browsing session | |
CN113076104A (zh) | 页面生成方法、装置、设备及存储介质 | |
CN109408763B (zh) | 一种对不同模板的简历进行管理的方法及系统 | |
CN112699040B (zh) | 压力测试方法、装置、设备及计算机可读存储介质 | |
CN111753169B (zh) | 一种基于互联网的数据采集系统 | |
US20150302089A1 (en) | Recovery of Information from Commercial Web Portals | |
WO2014107489A2 (en) | System and method for crowdsourcing map production | |
US11663071B2 (en) | Instinctive slither application assessment engine | |
CN113962597A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
US11250080B2 (en) | Method, apparatus, storage medium and electronic device for establishing question and answer system | |
US11716275B1 (en) | Assistant for automatic generation of server load test scripts | |
CN110555145A (zh) | 一种基于浏览器的网页内容采集系统及其采集方法 | |
CN115268964A (zh) | 一种数据回注方法、系统、电子设备及可读存储介质 | |
CN104270443A (zh) | 一种能够动态解析Web应用的云计算系统及方法 | |
CN111026945B (zh) | 多平台爬虫调度方法、装置和存储介质 | |
US11810022B2 (en) | Contact center call volume prediction | |
CN114172749B (zh) | 一种试卷下载方法、装置、设备以及存储介质 | |
CN112434067A (zh) | 国际运价的缓存数据处理方法、系统、设备及介质 | |
CN115758011A (zh) | 数据转存方法、数据展示方法、装置、设备及存储介质 | |
CN113378346A (zh) | 模型仿真的方法和装置 | |
CN112148762A (zh) | 一种实时数据流的统计方法和装置 | |
CN114491210A (zh) | 一种基于网络爬虫的数据获取方法和装置 | |
CN115130041A (zh) | 网页质量评估方法、神经网络的训练方法、装置和设备 | |
CN114693116A (zh) | 代码评审有效性的检测方法及装置、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |