CN111753846A - 一种基于rpa和ai的网站验证方法、装置、设备及存储介质 - Google Patents

一种基于rpa和ai的网站验证方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111753846A
CN111753846A CN202010616060.1A CN202010616060A CN111753846A CN 111753846 A CN111753846 A CN 111753846A CN 202010616060 A CN202010616060 A CN 202010616060A CN 111753846 A CN111753846 A CN 111753846A
Authority
CN
China
Prior art keywords
target
verification code
website
picture
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010616060.1A
Other languages
English (en)
Inventor
胡一川
汪冠春
褚瑞
李玮
刘金艳
唐祥光
胡景超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Original Assignee
Beijing Benying Network Technology Co Ltd
Beijing Laiye Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Benying Network Technology Co Ltd, Beijing Laiye Network Technology Co Ltd filed Critical Beijing Benying Network Technology Co Ltd
Priority to CN202010616060.1A priority Critical patent/CN111753846A/zh
Publication of CN111753846A publication Critical patent/CN111753846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本说明书公开一种基于RPA和AI的网站验证方法、装置、设备及存储介质,其中所述方法包括S1、获取目标网站的验证码图片;S2、将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的;S3、将所述目标字符填入所述目标网站的验证码框中以完成验证。所述目标验证码识别模型,通过RPA将多个预测的字符输入目标网站,确定验证码图片所对应的正确字符,根据获得的正确标注训练得到,能够快速训练出目标网站的验证码识别模型,且无须人工标注,节省大量人工成本。

Description

一种基于RPA和AI的网站验证方法、装置、设备及存储介质
技术领域
本发明涉及计算机科学领域,具体而言,涉及一种基于RPA和AI的网站验证方法、装置、设备及存储介质。
背景技术
RPA,Robotic Process Automation通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
RPA的具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI(Artificial Intelligence)技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA+AI=Hand work+Head work,正在极大的改变劳动力的价值。
近年来,验证码随处可见,由于验证码生成的方式多样化,因此普遍识别验证码方法都是针对某一类验证码,进行标注,训练神经网络模型来进行识别验证码,然而这样做耗时耗力。
因此,研究一种通用的验证码识别方法,进而提高识别效率,成为亟待解决的问题。
发明内容
本说明书提供一种基于RPA和AI的网站验证方法、装置、设备及存储介质,用以克服现有技术中存在的至少一个技术问题。
根据本说明书实施例的第一方面,提供一种基于RPA和AI的网站验证方法,包括:
S1、获取目标网站的验证码图片;
S2、将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的;
S3、将所述目标字符填入所述目标网站的验证码框中以完成验证。
可选地,所述目标验证码识别模型通过以下步骤获得,包括:
S21、通过自动化流程机器人获得目标网站的验证码图片,将目标网站的验证码图片输入预先训练的基础验证码识别模型,获得基础验证码识别模型输出的对应每一验证码图片的第一预设数目个预测字符;
S22、通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符;
S23、通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型。
可选地,所述基础验证码识别模型的训练步骤,包括:
S211、根据验证码图片及所述验证码图片对应的字符生成基础训练样本集,其中,所述基础训练样本集包含多个验证码样本组,每个验证码样本组包含两类验证码样本,一类为从网站获得的验证码样本,另一类为通过提取、组合所述从网站获得的验证码样本的特征,生成的新的第二预设数目个验证码样本,每一验证码样本包含验证码图片以及该验证码图片对应的字符;
S212、通过所述基础训练样本集对基础验证码识别模型进行训练,得到所述基础验证码识别模型,所述基础验证码识别模型用来根据输入的验证码图片,按照概率分值输出第一预设数目个对应该验证码图片的预测字符。
可选地,所述通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符的步骤,包括:
S221、通过自动化流程机器人,将目标网站的当前验证码图片对应的第一预设数目个预测字符,按照概率分值降序依次输入目标网页;
S222、每输入一个预测字符后,若目标网页显示正确,则将该预测字符作为目标字符;若目标网页显示出错,则通过自动化流程机器人点击重试,输入下一预测字符,直到确定对应的目标字符,或者第一预设数目个预测字符全部输入完毕;若未确定当前验证码图片的目标字符,则通过自动化流程机器人点击刷新,进行下一验证码图片的目标字符的确定,直到遍历已知目标网站的全部验证码图片。
可选地,所述通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型的步骤,包括:
S231、根据验证码图片及对应的目标字符生成目标训练样本集,所述目标训练样本集包括多个训练样本,每一训练样本包含一个验证码图片及对应的目标字符;
S232、通过所述目标训练样本集对基础验证码识别模型进行训练,得到目标验证码识别模型,所述目标验证码识别模型用来根据输入的验证码图片,输出对应的目标字符。
根据本说明书实施例的第二方面,提供一种基于RPA和AI的网站验证装置,包括获取模块、识别模块、验证模块,其中:
所述获取模块,被配置为获取目标网站的验证码图片;
所述识别模块,被配置为将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的;
所述验证模块,被配置为将所述目标字符填入所述目标网站的验证码框中以完成验证。
可选地,所述识别模块包括预测单元、打标单元、训练单元,其中:
所述预测单元,被配置为通过自动化流程机器人获得目标网站的验证码图片,将目标网站的验证码图片输入预先训练的基础验证码识别模型,获得基础验证码识别模型输出的对应每一验证码图片的第一预设数目个预测字符;
所述打标单元,被配置为通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符;
所述训练单元,被配置为通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型。
可选地,所述打标单元包括字符输入子单元和字符确定子单元,其中:
所述字符输入子单元,被配置为通过自动化流程机器人,将目标网站的当前验证码图片对应的第一预设数目个预测字符,按照概率分值降序依次输入目标网页;
所述字符确定子单元,被配置为每输入一个预测字符后,若目标网页显示正确,则将该预测字符作为目标字符;若目标网页显示出错,则通过自动化流程机器人点击重试,输入下一预测字符,直到确定对应的目标字符,或者第一预设数目个预测字符全部输入完毕;若未确定当前验证码图片的目标字符,则通过自动化流程机器人点击刷新,进行下一验证码图片的目标字符的确定,直到遍历已知目标网站的全部验证码图片。
根据本说明书实施例的第三方面,提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述基于RPA和AI的网站验证方法的步骤。
根据本说明书实施例的第四方面,提供一种计算机存储介质,其存储有计算机指令,该指令被处理器执行时实现所述基于RPA和AI的网站验证方法的步骤。
本说明书实施例的有益效果如下:
本说明书,提供一种基于RPA和AI的网站验证方法、装置、设备及存储介质,所述网站验证方法,通过将目标网站的验证码图片输入验证码识别模型中,根据模型输出的字符通过网站验证。其中,验证码识别模型的训练过程结合RPA及AI,在初步训练的基础模型的训练结果上,通过RPA将多个预测的字符输入目标网站,确定目标网站中验证码图片对应的正确字符,通过验证码图片和获得的正确的字符,对基础模型进行训练,快速训练出目标网站的验证码识别模型,且训练数据的获取无须人工标注,节省大量人工成本。
本说明书实施例的创新点包括:
1、本实施例中,提供一种基于RPA和AI的网站验证方法,通过将目标网站的验证码图片输入验证码识别模型中,根据模型输出的字符通过网站验证。其中,验证码识别模型的训练过程结合RPA及AI,在初步训练的基础模型的训练结果上,通过RPA将多个预测的字符输入目标网站,确定目标网站中验证码图片对应的正确字符,通过验证码图片和获得的正确的字符,对基础模型进行训练,快速训练出目标网站的验证码识别模型,且训练数据的获取无须人工标注,节省大量人工成本,是本说明书实施例的创新点之一。
2、本实施例中,验证码识别模型的训练过程,基于RPA和目标网页,自动获取验证码图片对应的正确字符,从而利用验证码图片和正确字符优化基础模型,相比于现有技术,以通过RPA将多个预测字符输入目标网站获取正确对应字符的方式,代替了人工标注的方式,节省了大量的人力成本,且得到的识别模型对于目标网站具有良好的识别准确性,是本说明书实施例的创新点之一。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例提供的一种基于RPA和AI的网站验证方法的场景示意图;
图2为本说明书实施例提供的一种基于RPA和AI的网站验证方法的流程示意图;
图3为本说明书实施例提供的一种基于RPA和AI的网站验证方法中的验证码识别模型生成步骤的流程示意图;
图4为本说明书实施例提供的一种基于RPA和AI的网站验证装置的结构示意图;
图5为本说明书实施例提供的一种基于RPA和AI的网站验证装置的识别模块的结构示意图;
图6为本说明书实施例提供的一种基于RPA和AI的网站验证装置的打标单元的结构示意图;
图7为本说明书实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本说明书实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
验证码的使用可以防止恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上用验证码是现在很多网站通行的方式,可以由计算机生成并评判,一般只有人类才能解答。由于验证码生成的方式多样化,因此普遍识别验证码方法都是针对某一类验证码,进行标注,训练神经网络模型来进行识别验证码,然而这样做耗时耗力。
本说明书实施例公开了一种基于RPA和AI的网站验证方法、装置、设备及存储介质,以下分别进行详细说明。
实施例一
图1为本说明书实施例提供的一种基于RPA和AI的网站验证方法的场景示意图。如图1所示,首先模拟多个网站验证码自动生成大量验证码,收集多个网站的验证码信息,并结合验证码的生成方式,随机生成大量的验证码,并将生成的大量验证码输入到神经网络中去学习,由于训练样本数据很多,可以给出一个验证码识别的初始结果,得到基础模型。
将要训练的网站中的验证码利用RPA图片下载后输入到基本模型中,并将预测结果通过RPA输入到网站中,经过重试,重新输入等方法,进而判断基础模型给出的多个预测的识别字符是否正确,直到确定图片对应的正确标签。
通过正确的验证码标签来对模型进行进一步的训练,应用迁移学习的方法,在基础模型的基础上进行训练以优化模型,只要少量数据,便可以完成对目标网站验证码的识别模型的训练,并达到一个较理想的训练效果。
实施例二
图2为本说明书实施例提供的一种基于RPA和AI的网站验证方法的流程示意图。如图2所示,提供一种基于RPA和AI的网站验证方法,包括:
110、获取目标网站的验证码图片。
120、将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的。
可选地,所述目标验证码识别模型通过以下步骤获得。
图3为本说明书实施例提供的一种基于RPA和AI的网站验证方法中的验证码识别模型生成步骤的流程示意图。如图3所示,获得目标验证码识别模型的步骤,包括:
210、通过自动化流程机器人获得目标网站的验证码图片,将目标网站的验证码图片输入预先训练的基础验证码识别模型,获得基础验证码识别模型输出的对应每一验证码图片的第一预设数目个预测字符。
在一个具体实施例中,对每一验证码图片,基础模型输出五组预测字符,预测字符按照模型输出时的正确概率的由大到小顺序输出,依次对每组预测字符进行检验,直到找到验证码图片对应的正确字符。
可选地,所述基础验证码识别模型的由以下步骤获得,包括:根据验证码图片及所述验证码图片对应的字符生成基础训练样本集,其中,所述基础训练样本集包含多个验证码样本组,每个验证码样本组包含两类验证码样本,一类为从网站获得的验证码样本,另一类为通过提取、组合所述从网站获得的验证码样本的特征,生成的新的第二预设数目个验证码样本,每一验证码样本包含验证码图片以及该验证码图片对应的字符;通过所述基础训练样本集对基础验证码识别模型进行训练,得到所述基础验证码识别模型,所述基础验证码识别模型用来根据输入的验证码图片,按照概率分值输出第一预设数目个对应该验证码图片的预测字符。
基础验证码识别模型是根据收集的多个网站的验证码信息,并结合验证码的生成方式,随机生成大量的验证码,并将生成的大量验证码输入到神经网络中去学习得到的,由于训练样本数据很多,基础验证码识别模型可以根据输入的验证码图片,给出一个识别验证码字符的初始结果。
220、通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符。
通过RPA将预测字符输入目标网站,并进行不断试错,直到找到网站验证码图片的正确目标字符,将该图片与该字符关联起来,进行打标,则获得了正确标注的数据,以此作为优化基础模型的训练数据。
在一个具体实施例中,所述通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符的步骤,包括:
222、通过自动化流程机器人,将目标网站的当前验证码图片对应的第一预设数目个预测字符,按照概率分值降序依次输入目标网页。
通过自动化流程机器人(RPA)获得目标网站当前待识别的验证码图片,并将该待识别的验证码图片输入所述基础验证码识别模型中,获得该模型输出的第一预设数目个预测字符,通过自动化流程机器人(RPA)将预测字符按照概率分值降序依次输入目标网页,从而根据网站的验证反馈,确定当前待识别的验证码图片对应的正确字符。
224、每输入一个预测字符后,若目标网页显示正确,则将该预测字符作为目标字符;若目标网页显示出错,则通过自动化流程机器人点击重试,输入下一预测字符,直到确定对应的目标字符,或者第一预设数目个预测字符全部输入完毕;若未确定当前验证码图片的目标字符,则通过自动化流程机器人点击刷新,进行下一验证码图片的目标字符的确定,直到遍历已知目标网站的全部验证码图片。
通过RPA将基础模型预测的结果输入网站进行试错加以验证,从而确定图片对应的正确字符,以此避免了手工标注带来的大量成本。
230、通过打标后的验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型。
根据打标后的验证码图片训练基础模型,在图片及正确字符标注下,能够快速优化基础模型,从而得到目标网站类型的验证码识别模型。
可选地,所述通过打标后的验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型的步骤,包括:
232、根据打标后的验证码图片及对应的目标字符生成目标训练样本集,所述目标训练样本集包括多个训练样本,每一训练样本包含一个验证码图片及对应的目标字符;
234、通过所述目标训练样本集对基础验证码识别模型进行训练,得到目标验证码识别模型,所述目标验证码识别模型用来根据输入的验证码图片,输出对应的目标字符。
对基础验证码识别模型进行优化训练,快速训练出目标网站的验证码识别模型,无须人工参与标注,自动获取正确的标注,节省大量人工成本。
130、将所述目标字符填入所述目标网站的验证码框中以完成验证。
本实施例中,提供一种基于RPA和AI的网站验证方法,其中网站验证码的识别模型,在经过大量验证码训练得到的基础模型的上,利用RPA获得目标网站的验证码图片以及正确字符,将正确字符与验证码图片打标,通过打标后的图片优化基础模型,快速训练出适于目标网站的验证码识别模型,基于RPA和AI,节省大量的人工标注成本,并获得识别性能良好的模型。
实施例三
图4为本说明书实施例提供的一种基于RPA和AI的网站验证装置的结构示意图。如图4所示,一种基于RPA和AI的网站验证装置400,包括获取模块410、识别模块420、验证模块430,其中:
所述获取模块410,被配置为获取目标网站的验证码图片。
所述识别模块420,被配置为将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的。
所述验证模块430,被配置为将所述目标字符填入所述目标网站的验证码框中以完成验证。
可选地,所述识别模块包括预测单元、打标单元、训练单元。
图5为本说明书实施例提供的一种基于RPA和AI的网站验证装置的识别模块420的结构示意图。如图6所示,所述识别模块420包括预测单元422、打标单元424、训练单元426,其中:
所述预测单元422,被配置为通过自动化流程机器人获得目标网站的验证码图片,将目标网站的验证码图片输入预先训练的基础验证码识别模型,获得基础验证码识别模型输出的对应每一验证码图片的第一预设数目个预测字符。
所述打标单元424,被配置为通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符。
可选地,所述打标单元包括字符输入子单元和字符确定子单元。
图6为本说明书实施例提供的一种基于RPA和AI的网站验证装置的打标单元的结构示意图。如图6所示,打标单元424包括字符输入子单元4242和字符确定子单元4244,其中:
所述字符输入子单元4242,被配置为通过自动化流程机器人,将目标网站的当前验证码图片对应的第一预设数目个预测字符,按照概率分值降序依次输入目标网页。
所述字符确定子单元4244,被配置为每输入一个预测字符后,若目标网页显示正确,则将该预测字符作为目标字符;若目标网页显示出错,则通过自动化流程机器人点击重试,输入下一预测字符,直到确定对应的目标字符,或者第一预设数目个预测字符全部输入完毕;若未确定当前验证码图片的目标字符,则通过自动化流程机器人点击刷新,进行下一验证码图片的目标字符的确定,直到遍历已知目标网站的全部验证码图片。
所述训练单元426,被配置为通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型。
本实施例中,提供一种基于AI的验证码图片识别装置400,能够实现基于AI的验证码图片识别方法的功能,对应的实施步骤和效果可参照方法部分。
实施例四
图7为本说明书实施例提供的一种计算设备的结构示意图。如图7所示,一种计算设备700,包括存储器710、处理器720及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的基于RPA和AI的网站验证方法的步骤。
一种计算机存储介质,其存储有计算机指令,该指令被处理器执行时实现所述的基于RPA和AI的网站验证方法的步骤。
综上所述,提供一种基于RPA和AI的网站验证方法、装置、设备及存储介质,通过将目标网站的验证码图片输入验证码识别模型中,根据模型输出的字符通过网站验证。该验证码识别模型在基础模型上进行优化训练得到,根据基础模型的预测输出,通过RPA将预测输出输入目标网站来获得正确识别的字符,将验证码图片与正确字符作为训练数据以优化基础模型,得到验证码识别模型,节省了大量人工标注训练数据的成本,通过RPA和目标网站完成数据标注。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。

Claims (10)

1.一种基于RPA和AI的网站验证方法,其特征在于,包括:
S1、获取目标网站的验证码图片;
S2、将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的;
S3、将所述目标字符填入所述目标网站的验证码框中以完成验证。
2.根据权利要求1所述的方法,其特征在于,所述目标验证码识别模型通过以下步骤获得,包括:
S21、通过自动化流程机器人获得目标网站的验证码图片,将目标网站的验证码图片输入预先训练的基础验证码识别模型,获得基础验证码识别模型输出的对应每一验证码图片的第一预设数目个预测字符;
S22、通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符;
S23、通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型。
3.根据权利要求2所述的方法,其特征在于,所述基础验证码识别模型的训练步骤,包括:
S211、根据验证码图片及所述验证码图片对应的字符生成基础训练样本集,其中,所述基础训练样本集包含多个验证码样本组,每个验证码样本组包含两类验证码样本,一类为从网站获得的验证码样本,另一类为通过提取、组合所述从网站获得的验证码样本的特征,生成的新的第二预设数目个验证码样本,每一验证码样本包含验证码图片以及该验证码图片对应的字符;
S212、通过所述基础训练样本集对基础验证码识别模型进行训练,得到所述基础验证码识别模型,所述基础验证码识别模型用来根据输入的验证码图片,按照概率分值输出第一预设数目个对应该验证码图片的预测字符。
4.根据权利要求2所述的方法,其特征在于,所述通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符的步骤,包括:
S221、通过自动化流程机器人,将目标网站的当前验证码图片对应的第一预设数目个预测字符,按照概率分值降序依次输入目标网页;
S222、每输入一个预测字符后,若目标网页显示正确,则将该预测字符作为目标字符;若目标网页显示出错,则通过自动化流程机器人点击重试,输入下一预测字符,直到确定对应的目标字符,或者第一预设数目个预测字符全部输入完毕;若未确定当前验证码图片的目标字符,则通过自动化流程机器人点击刷新,进行下一验证码图片的目标字符的确定,直到遍历已知目标网站的全部验证码图片。
5.根据权利要求2所述的方法,其特征在于,所述通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型的步骤,包括:
S231、根据验证码图片及对应的目标字符生成目标训练样本集,所述目标训练样本集包括多个训练样本,每一训练样本包含一个验证码图片及对应的目标字符;
S232、通过所述目标训练样本集对基础验证码识别模型进行训练,得到目标验证码识别模型,所述目标验证码识别模型用来根据输入的验证码图片,输出对应的目标字符。
6.一种基于RPA和AI的网站验证装置,其特征在于,包括获取模块、识别模块、验证模块,其中:
所述获取模块,被配置为获取目标网站的验证码图片;
所述识别模块,被配置为将所述验证码图片输入目标验证码识别模型中,获得所述目标验证码识别模型输出的对应该验证码图片的目标字符,其中,所述目标验证码识别模型是利用验证码图片及通过RPA从网站获得图片对应的目标字符对机器学习模型进行训练得到的;
所述验证模块,被配置为将所述目标字符填入所述目标网站的验证码框中以完成验证。
7.根据权利要求6所述的装置,其特征在于,所述识别模块包括预测单元、打标单元、训练单元,其中:
所述预测单元,被配置为通过自动化流程机器人获得目标网站的验证码图片,将目标网站的验证码图片输入预先训练的基础验证码识别模型,获得基础验证码识别模型输出的对应每一验证码图片的第一预设数目个预测字符;
所述打标单元,被配置为通过自动化流程机器人将对应验证码图片的预测字符输入目标网页,确定验证码图片的目标字符;
所述训练单元,被配置为通过验证码图片及对应的目标字符对所述基础验证码识别模型进行训练,获得对应目标网站的目标验证码识别模型。
8.根据权利要求7所述的装置,其特征在于,所述打标单元包括字符输入子单元和字符确定子单元,其中:
所述字符输入子单元,被配置为通过自动化流程机器人,将目标网站的当前验证码图片对应的第一预设数目个预测字符,按照概率分值降序依次输入目标网页;
所述字符确定子单元,被配置为每输入一个预测字符后,若目标网页显示正确,则将该预测字符作为目标字符;若目标网页显示出错,则通过自动化流程机器人点击重试,输入下一预测字符,直到确定对应的目标字符,或者第一预设数目个预测字符全部输入完毕;若未确定当前验证码图片的目标字符,则通过自动化流程机器人点击刷新,进行下一验证码图片的目标字符的确定,直到遍历已知目标网站的全部验证码图片。
9.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现权利要求1-5任一项所述的方法的步骤。
10.一种计算机存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1-5任一项所述的方法的步骤。
CN202010616060.1A 2020-06-30 2020-06-30 一种基于rpa和ai的网站验证方法、装置、设备及存储介质 Pending CN111753846A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010616060.1A CN111753846A (zh) 2020-06-30 2020-06-30 一种基于rpa和ai的网站验证方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010616060.1A CN111753846A (zh) 2020-06-30 2020-06-30 一种基于rpa和ai的网站验证方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111753846A true CN111753846A (zh) 2020-10-09

Family

ID=72678289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010616060.1A Pending CN111753846A (zh) 2020-06-30 2020-06-30 一种基于rpa和ai的网站验证方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111753846A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232198A (zh) * 2020-10-15 2021-01-15 北京来也网络科技有限公司 基于rpa及ai的表格内容提取方法、装置、设备及介质
CN112667778A (zh) * 2020-12-30 2021-04-16 北京来也网络科技有限公司 结合rpa和ai的信息录入方法、装置、设备及存储介质
CN113779540A (zh) * 2021-08-17 2021-12-10 广东融合通信股份有限公司 一种基于rpa的企业公示信息数据采集方法
CN114499984A (zh) * 2021-12-29 2022-05-13 北京来也网络科技有限公司 基于ai和rpa的身份认证方法、装置、设备和介质
CN115909019A (zh) * 2022-10-26 2023-04-04 吉林省吉林祥云信息技术有限公司 一种验证码图像识别的多模型节点场景中的调度方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993169A (zh) * 2019-04-11 2019-07-09 山东浪潮云信息技术有限公司 一种基于端到端的字符型验证码识别方法
CN110009057A (zh) * 2019-04-16 2019-07-12 四川大学 一种基于深度学习的图形验证码识别方法
CN110909807A (zh) * 2019-11-26 2020-03-24 深圳市信联征信有限公司 基于深度学习的网络验证码识别方法、装置及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109993169A (zh) * 2019-04-11 2019-07-09 山东浪潮云信息技术有限公司 一种基于端到端的字符型验证码识别方法
CN110009057A (zh) * 2019-04-16 2019-07-12 四川大学 一种基于深度学习的图形验证码识别方法
CN110909807A (zh) * 2019-11-26 2020-03-24 深圳市信联征信有限公司 基于深度学习的网络验证码识别方法、装置及计算机设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232198A (zh) * 2020-10-15 2021-01-15 北京来也网络科技有限公司 基于rpa及ai的表格内容提取方法、装置、设备及介质
CN112667778A (zh) * 2020-12-30 2021-04-16 北京来也网络科技有限公司 结合rpa和ai的信息录入方法、装置、设备及存储介质
CN113779540A (zh) * 2021-08-17 2021-12-10 广东融合通信股份有限公司 一种基于rpa的企业公示信息数据采集方法
CN114499984A (zh) * 2021-12-29 2022-05-13 北京来也网络科技有限公司 基于ai和rpa的身份认证方法、装置、设备和介质
CN114499984B (zh) * 2021-12-29 2024-03-29 北京来也网络科技有限公司 基于ai和rpa的身份认证方法、装置、设备和介质
CN115909019A (zh) * 2022-10-26 2023-04-04 吉林省吉林祥云信息技术有限公司 一种验证码图像识别的多模型节点场景中的调度方法
CN115909019B (zh) * 2022-10-26 2024-02-09 吉林省吉林祥云信息技术有限公司 一种验证码图像识别的多模型节点场景中的调度方法

Similar Documents

Publication Publication Date Title
CN111753846A (zh) 一种基于rpa和ai的网站验证方法、装置、设备及存储介质
Reddy et al. Unbounded human learning: Optimal scheduling for spaced repetition
CN109035085A (zh) 一种在线课程助教方法及计算机设备
CN112596731B (zh) 一种融合智能教育的编程教学系统及方法
Cohen et al. A simulation‐based approach in support of project management training for systems engineers
CN112767320A (zh) 图像检测方法、装置、电子设备及存储介质
CN111126610B (zh) 题目分析方法、装置、电子设备和存储介质
CN110866209A (zh) 在线教育数据推送方法、系统和计算机设备
CN109698798A (zh) 一种应用的识别方法、装置、服务器和存储介质
CN111814443A (zh) 结合rpa和ai的表格生成方法及装置、计算设备、存储介质
Rabiha et al. Image processing model based E-Learning for students authentication
CN114971425B (zh) 数据库信息监控方法、装置、设备及存储介质
CN116596073A (zh) 基于推理路径的自然语言推理方法、装置及设备
CN116228361A (zh) 基于特征匹配的课程推荐方法、装置、设备和存储介质
CN108520438A (zh) 行为类型确定方法及装置
CN111414609B (zh) 一种对象验证方法和装置
CN113886140A (zh) 基于可信性验证的人工智能模型输出数据判断系统
Cazares et al. A Training Web Platform to Improve Cognitive Skills for Phishing Attacks Detection
CN112465227A (zh) 一种授课资料获取方法及装置
CN113094404A (zh) 一种大数据采集多核参数自适应分时记忆驱动方法及系统
CN112446360A (zh) 目标行为检测方法、装置及电子设备
CN111382750A (zh) 图形验证码识别方法及装置
KR102412381B1 (ko) 풀이 경험이 없는 추가된 문제 컨텐츠에 대한 예측된 정답 확률을 기초로, 문제를 평가하는 학습 컨텐츠 평가 장치, 시스템 및 그것의 동작 방법
CN111325387A (zh) 可解释法律自动判决预测方法及装置
CN117557426B (zh) 基于智能题库的作业数据反馈方法及学习评估系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination