CN111274957A - 网页页面验证码识别方法、装置、终端和计算机存储介质 - Google Patents
网页页面验证码识别方法、装置、终端和计算机存储介质 Download PDFInfo
- Publication number
- CN111274957A CN111274957A CN202010064884.2A CN202010064884A CN111274957A CN 111274957 A CN111274957 A CN 111274957A CN 202010064884 A CN202010064884 A CN 202010064884A CN 111274957 A CN111274957 A CN 111274957A
- Authority
- CN
- China
- Prior art keywords
- image
- verification code
- webpage
- character
- identifying
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012795 verification Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000005520 cutting process Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 28
- 238000013145 classification model Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 10
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了一种网页页面验证码识别方法、装置、终端和计算机存储介质,该方法包括:获取目标网页截屏图像并从中获取含验证码的待识别图像;对待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像;将多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取验证码。相对于现有使用的OCR软件Tesseract而言,本发明的技术方案通过对网页进行截图及定位验证码以获取验证码图像,并进一步对验证码图像进行预处理等,不仅提供了图像自动采集功能,还可提高识别率等,进而利于网页自动化测试及RPA技术等的实现。
Description
技术领域
本发明涉及验证码识别技术领域,尤其涉及一种网页页面验证码识别方法、装置、终端和计算机存储介质。
背景技术
对于网页页面上的验证码,通常采用的是光学字符识别(OCR)技术,其主要是通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字。其中,当前使用较多的开源OCR软件是Tesseract,该软件提供不同语言的字符识别,但同样存在一些缺陷而无法满足用户需求。
例如,Tesseract不仅不提供图像采集功能,且不提供图像的前置预处理,故对于一些未经处理的图像文字进行直接识别,其识别准确率很低;对于网页中的验证码,由于验证码图片中存在边框、干扰色,甚至会出现字体扭曲等,利用OCR技术容易导致识别准确率将进一步降低。此外,对于一些仅由字母、数字等组合的验证码,可完全不需要使用Tesseract等软件来识别,成本高且处理过程复杂等。
发明内容
有鉴于此,本发明实施例提出一种网页页面验证码识别方法、装置、终端和计算机存储介质。
本发明的一实施例提出一种网页页面验证码识别方法,包括:
获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像;
对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像;
将所述多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取所述验证码。
进一步地,在上述的网页页面验证码识别方法中,所述“获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像”包括:
根据网页地址进入目标网页并对目标网页进行页面截图,以获取对应的截屏图像;
基于HTML定位方式从所述目标网页中定位验证码元素,以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值;
根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。
进一步地,在上述的网页页面验证码识别方法中,所述“对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像”包括:
对所述待识别图像进行二值化处理以获取二值化图像,然后基于孤立点判断规则对所述二值化图像进行去噪处理;
按照预设字符图像尺寸对去噪后的图像进行单字符切割,以获取组成所述验证码的多个单字符图像。
进一步地,在上述的网页页面验证码识别方法中,所述“基于孤立点判断规则对所述二值化图像进行去噪处理”包括:
将所述二值化图像中为黑色的像素点作为待处理像素点,并计算每个待处理像素点的周围像素点的灰度值;
若所述灰度值为白色的个数大于预设阈值,则判断所述待处理像素点为噪点,然后将所述噪点设置为白色。
进一步地,在上述的网页页面验证码识别方法中,所述已训练好的字符识别模型的构建,包括:
获取预设数量的已标注字符图像样本,并将所有已标注字符图像样本划分成训练集和测试集;
利用所述训练集对预设分类模型进行字符识别训练,以得到训练分类模型;
利用所述测试集对所述训练分类模型进行识别准确率验证,若所述识别准确率未满足预设条件,则重复所述字符识别训练步骤,直到所述训练后的分类模型满足预设条件,则停止训练。
进一步地,在上述的网页页面验证码识别方法中,所述预设分类模型为KNN模型。
本发明的另一实施方式提出一种网页页面验证码识别装置,包括:
验证码图像采集模块,用于获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像;
单字符图像获取模块,用于对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像;
验证码识别模块,用于将所述多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取所述验证码。
进一步地,在上述的网页页面验证码识别装置中,所述验证码图像采集模块包括网页截屏子模块、验证码定位子模块和验证码图像抓取子模块;
所述网页截屏子模块用于根据网页地址进入目标网页并对目标网页进行页面截图,以获取对应的截屏图像;
所述验证码定位子模块用于基于HTML定位方式从所述目标网页中定位验证码元素,以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值;
所述验证码图像抓取子模块用于根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。
本发明的又一个实施方式提供一种终端,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施上述的网页页面验证码识别方法。
本发明的再一个实施方式提供一种计算机存储介质,其存储有计算机程序,在所述计算机程序被执行时,实施上述的网页页面验证码识别方法。
本发明实施例的网页页面验证码识别方法通过对网页进行截图及定位验证码以获取验证码图像并进一步对验证码图像进行预处理等,相对于现有使用的OCR软件Tesseract而言,实现简单,不仅提供了图像自动采集功能,还可提高识别率等,进而有利于网页自动化测试及机器人流程自动化(RPA)技术等的实现。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本发明实施例的网页页面验证码识别方法的第一流程示意图;
图2示出了本发明实施例的网页页面验证码识别方法的第二流程示意图;
图3示出了本发明实施例的网页页面验证码识别方法的验证码定位示意图;
图4示出了本发明实施例的网页页面验证码识别方法的第三流程示意图;
图5示出了本发明实施例的网页页面验证码识别方法的模型训练流程示意图;
图6示出了本发明实施例的网页页面验证码识别装置的第一结构示意图;
图7示出了本发明实施例的网页页面验证码识别装置的第二结构示意图。
主要元器件符号说明:
1-网页页面验证码识别装置;10-验证码图像采集模块;20-单字符图像获取模块;30-验证码识别模块;110-网页截屏子模块;120-验证码定位子模块;130-验证码图像抓取子模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
请参照图1,本实施例提出一种网页页面验证码识别方法,可应用于网页自动化测试、RPA多系统业务操作流程自动化等,以实现对网页或网页图片中的验证码的自动识别。下面对该网页页面验证码识别方法进行详细说明。
步骤S10,获取目标网页截屏图像,并根据验证码在网页中的相对位置从中获取含验证码的待识别图像。
上述步骤S10主要为验证码图像采集过程。通过对网页进行截图及对网页中验证码的定位可从中获取得到待识别的验证码图像。
在一种实施例中,如图2所示,该步骤S10主要包括以下子步骤:
子步骤S110,根据网页地址进入目标网页并对目标网页进行页面截图,以获取对应的截屏图像。
子步骤S120,基于HTML定位方式从所述目标网页中定位验证码元素,以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值。
子步骤S130,根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。
示范性地,对于上述子步骤S110,可利用Selenium等工具根据目标网页的网页地址打开目标网页并进行全屏页面截图,以得到对应的目标网页截屏图像。在上述子步骤S120中,可基于HTML网页的相对定位或流式定位等方式在该目标网页页面中定位验证码元素,从而获取验证码元素在该页面的相对坐标位置以及该验证码元素的尺寸等。
此外,上述的目标网页也可以是HTML形式的网页图片,而该验证码可为该网页图片中需要识别的由数字、字母等组合的字符串等,如填写的身体证号码、签署日期等等。
以一网页页面截图为例,如图3所示,通过在整个目标网页页面的左上点建立原点O及坐标系,并从网页源码中可知该验证码元素的左顶点在该整个目标网页页面的相对坐标位置为(x,y),以及该验证码元素的长和宽分别为(w,h)。于是,根据该相对坐标位置和长宽值可从该截图中抓取出含验证码的待识别图片。
步骤S20,对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像。
示范性地,上述的图像预处理主要用于提高识别率,可包括但不限于进行二值化处理、降噪、字体倾斜校正等处理。以降噪为例,经过降噪处理后,在进行字符切割时可大大降低噪声的干扰,进而提高识别率等。
在一种实施例中,如图4所示,该步骤S20主要包括:
子步骤S210,对所述待识别图像进行二值化处理以获取二值化图像,然后基于孤立点判断规则对所述二值化图像进行去噪处理。
由于获取的待识别图像通常为具有彩色文本或背景的RGB图像,为识别出该图像中的验证码字符,先对其进行灰度处理后再二值化处理,从而得到仅有黑和白两种效果的图片。所述的二值化,就是让该待识别图像中各像素点的灰度值通过0(对应黑色)和255(对应白色)这两个值来表示。
进一步地,对二值化处理后的图片进行去噪处理。优选地,将采用孤立点判断规则来识别出孤立的噪声点,当然,也可以采用其他去噪方式,在此并不作限定。
其中,该孤立点判断规则主要包括:将所述二值化图像中为黑色的像素点作为待处理像素点,并计算每个待处理像素点的周围像素点的灰度值;若所述灰度值为白色的个数大于预设阈值,则判断所述待处理像素点为噪点,然后将所述噪点设置为白色。
通常地,若一像素点为验证码或干扰噪声,则其灰度值为0,即黑色。本实施例中,将对黑色的像素点进行判断,若该黑色像素点为噪点,则其周围的像素点,如邻近的4个像素或8个像素,大多数或全部将为白色。例如,可判断这些周围像素点的灰度值为0或为255的个数,若是全部或大多数为白色,则可判断该待处理像素点为噪点;反之,则不判定为噪点。于是,可将判定为噪点的该像素点设置为白色,以达到去噪处理。
子步骤S220,按照预设字符图像尺寸对去噪后的图像进行单字符切割,以获取组成所述验证码的多个单字符图像。
为方便字符模型识别出具体的字符,还需要通过对验证码进行字符切割以得到若干个单字符图像。示范性地,可根据字符样式、重叠度等多种方式的组合来提取出每一单个字符,从而最大度保证得到完整的单字符图像,并将提取出来的这些单字符图像设置为相同尺寸,实现归一化处理。
步骤S30,将所述多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取所述验证码。
于是,在得到若干后单字符图像后,将其依次输入到字符识别模型进行字符识别,从而得到由各字符得到的验证码。
其中,上述已训练好的字符识别模型通过预先训练得到。在一种实施例中,如图5所示,该已训练好的字符识别模型的训练过程主要包括以下子步骤:
子步骤S310,获取预设数量的已标注字符图像样本,并将所有已标注字符图像样本划分成训练集和测试集。
示范性地,可采用上述步骤S10来采集一定数量的验证码图像,例如,从一页面截屏图片中抓取了一验证码图片并保存后,通过刷新页面并重复上述步骤S110-S130,以获得其他的验证码图片。接着,对这些大量的验证码图像进行步骤S20中的图像预处理及单字符切割处理,最后通过人工标注得到上述的已标注字符图像样本。对于该已标注字符图像样本可按照预比例划分为用于模型训练及模型验证的样本集合。
优选地,对于上述的已标注字符图像样本,可按照指定格式进行文件名存储,方便对识别字符的唯一查找及读取等。示范性地,该指定格式可为:<原始验证码>_<字符在原始验证码中的位置>_<字符内容>_<时间戳>.png。例如,若原始验证码为“1LLE”,对于单字符“1”,可存储其文件名为1LLE_1_1_1559179585996.png。其中,最后一项为产生该验证码的时间戳。考虑到训练集和测试集的数量可能较大,而利用时间戳可保证各张验证码图片名字的唯一性,可避免存储时文件名冲突等。
子步骤S320,利用所述训练集对预设分类模型进行字符识别训练,以得到训练分类模型。
本实施例中,优选地,该预设分类模型采用为KNN模型。对于KNN算法,其基本思想是:计算待评估点与其他已标注点的距离,取出距离该待评估点最近的K个点;统计K个点的分类比例,得到比例最大的分类,判定该评估点即为该分类。
对于上述子步骤S320,由于训练集中的已标注字符图像样本的大小是特定的,读取后得到特定大小的一维数组作为特征值,并可从文件名中获取其分类类别。仍以上述的1LLE_1_1_1559179585996.png为例,其类别为字符“1”,特征值为一维矩阵,矩阵元素值的范围为0~255,矩阵大小即为切割后的该单字符图片的大小。于是,KNN模型根据输入的一维矩阵特征值及对应的分类类别进行学习,从而得到学习后的KNN模型。
可以理解,上述的预设分类模型也可以采用如K-means算法等其他分类模型,在此并不作限定。
子步骤S330,利用所述测试集对所述训练分类模型进行识别准确率验证,若所述识别准确率未满足预设条件,则重复所述字符识别训练步骤,直到所述训练后的分类模型满足预设条件,则停止训练。
在上述子步骤S310中,基于上述得到的学习后的模型,利用测试集输入到该模型中进行字符类别判定,并判断该模型的字符识别正确率是否满足预设条件。例如,若该正确率低于一预设准确率阈值,则需要重复上述的模型训练及验证步骤,直到该正确率达到该预设准确率阈值。最后,将已训练好的分类模型部署到实际的生产环境中,以用于实际的网页验证码的自动识别。
本实施例的网页页面验证码识别方法通过对网页进行截图及基于HTML定位方法来定位验证码的相对位置以获得验证码图像,可解决使用现有的OCR软件Tesseract不能实现图像自动采集功能;并通过对验证码图像进行噪点去除等预处理,可提高字符的识别准确率。此外,通过采用如KNN算法等进行机器学习,能够根据目标网站的验证码进行针对性的字符分类处理和识别,从而有效提高验证码识别准确率等。另外,采用本实施例的方法实现简单且不用依赖如Tesseract等第三方OCR软件的使用,有利于企业内部的网页自动化测试及RPA多系统业务操作流程自动化等的实现,还可降低自动化测试成本等等。
实施例2
请参照图6,基于上述实施例1的网页页面验证码识别方法,本实施例提出一种网页页面验证码识别装置1,该装置包括:
验证码图像采集模块10,用于获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像;
单字符图像获取模块20,用于对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像;
验证码识别模块30,用于将所述多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取所述验证码。
示范性地,如图7所示,所述验证码图像采集模块10包括依次连接的网页截屏子模块110、验证码定位子模块120和验证码图像抓取子模块130。
所述网页截屏子模块110用于根据网页地址进入目标网页并对目标网页进行页面截图,以获取对应的截屏图像;验证码定位子模块120用于从所述目标网页中定位验证码元素,以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值;验证码图像抓取子模块130用于根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。
可以理解,本实施例的网页页面验证码识别装置1中的各模块对应于上述实施例1的方法,上述实施例1的可选项同样适用于本实施例,故在此不再详述。
本发明还提供了一种终端,如计算机等,该终端包括存储器和处理器,存储器存储有计算机程序,处理器通过运行所述计算机程序,从而使终端执行上述网页页面验证码识别方法或上述网页页面验证码识别装置1中的各个模块的功能。
存储器可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供了一种计算机可读存储介质,用于储存上述终端中使用的所述计算机程序。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种网页页面验证码识别方法,其特征在于,包括:
获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像;
对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像;
将所述多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取所述验证码。
2.根据权利要求1所述的网页页面验证码识别方法,其特征在于,所述“获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像”包括:
根据网页地址进入目标网页并对目标网页进行页面截图,以获取对应的截屏图像;
基于HTML定位方式从所述目标网页中定位验证码元素,以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值;
根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。
3.根据权利要求1所述的网页页面验证码识别方法,其特征在于,所述“对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像”包括:
对所述待识别图像进行二值化处理以获取二值化图像,然后基于孤立点判断规则对所述二值化图像进行去噪处理;
按照预设字符图像尺寸对去噪后的图像进行单字符切割,以获取组成所述验证码的多个单字符图像。
4.根据权利要求3所述的网页页面验证码识别方法,其特征在于,所述“基于孤立点判断规则对所述二值化图像进行去噪处理”包括:
将所述二值化图像中为黑色的像素点作为待处理像素点,并计算每个待处理像素点的周围像素点的灰度值;
若所述灰度值为白色的个数大于预设阈值,则判断所述待处理像素点为噪点,然后将所述噪点设置为白色。
5.根据权利要求4所述的网页页面验证码识别方法,其特征在于,所述已训练好的字符识别模型的构建,包括:
获取预设数量的已标注字符图像样本,并将所有已标注字符图像样本划分成训练集和测试集;
利用所述训练集对预设分类模型进行字符识别训练,以得到训练分类模型;
利用所述测试集对所述训练分类模型进行识别准确率验证,若所述识别准确率未满足预设条件,则重复所述字符识别训练步骤,直到所述训练后的分类模型满足预设条件,则停止训练。
6.根据权利要求5所述的网页页面验证码识别方法,其特征在于,所述预设分类模型为KNN模型。
7.一种网页页面验证码识别装置,其特征在于,包括:
验证码图像采集模块,用于获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像;
单字符图像获取模块,用于对所述待识别图像进行图像预处理并按照单字符切割,得到多个单字符图像;
验证码识别模块,用于将所述多个单字符图像输入至已训练好的字符识别模型中,输出对应的识别字符以获取所述验证码。
8.根据权利要求7所述的网页页面验证码识别装置,其特征在于,所述验证码图像采集模块包括网页截屏子模块、验证码定位子模块和验证码图像抓取子模块;
所述网页截屏子模块用于根据网页地址进入目标网页并对目标网页进行页面截图,以获取对应的截屏图像;
所述验证码定位子模块用于基于HTML定位方式从所述目标网页中定位验证码元素,以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值;
所述验证码图像抓取子模块用于根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。
9.一种终端,其特征在于,所述终端包括处理器和存储器,所述存储器存储有计算机程序,所述处理器用于执行所述计算机程序以实施权利要求1-6中任一项所述的网页页面验证码识别方法。
10.一种计算机存储介质,其特征在于,其存储有计算机程序,在所述计算机程序被执行时,实施根据权利要求1-6中任一项所述的网页页面验证码识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064884.2A CN111274957A (zh) | 2020-01-20 | 2020-01-20 | 网页页面验证码识别方法、装置、终端和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010064884.2A CN111274957A (zh) | 2020-01-20 | 2020-01-20 | 网页页面验证码识别方法、装置、终端和计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111274957A true CN111274957A (zh) | 2020-06-12 |
Family
ID=71002110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010064884.2A Pending CN111274957A (zh) | 2020-01-20 | 2020-01-20 | 网页页面验证码识别方法、装置、终端和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274957A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966432A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 验证码处理方法、装置、电子设备以及存储介质 |
CN112686266A (zh) * | 2021-01-11 | 2021-04-20 | 安徽希施玛数据科技有限公司 | 一种验证码识别方法及装置 |
CN113066223A (zh) * | 2021-04-22 | 2021-07-02 | 中国工商银行股份有限公司 | 发票自动验证方法及装置 |
WO2021159802A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 图形验证码识别方法、装置、计算机设备及存储介质 |
CN113360881A (zh) * | 2021-07-22 | 2021-09-07 | 大象慧云信息科技(江苏)有限公司 | 基于深度学习的验证码识别方法、系统、电子设备、介质 |
CN113568794A (zh) * | 2021-07-29 | 2021-10-29 | 中国银行股份有限公司 | 前端自动化测试方法及装置 |
CN113657361A (zh) * | 2021-07-23 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 页面异常检测方法、装置及电子设备 |
CN113704128A (zh) * | 2021-09-03 | 2021-11-26 | 四川虹美智能科技有限公司 | 接口的自动化测试方法和装置 |
CN115037471A (zh) * | 2022-03-21 | 2022-09-09 | 远光软件股份有限公司 | 作业资质的查验方法、装置及存储介质 |
CN115712887A (zh) * | 2023-01-09 | 2023-02-24 | 成方金融科技有限公司 | 图片验证码识别方法、装置、电子设备及存储介质 |
CN115909351A (zh) * | 2023-02-08 | 2023-04-04 | 江苏金恒信息科技股份有限公司 | 一种基于深度学习的容器编号识别方法及装置 |
CN118503571A (zh) * | 2024-07-17 | 2024-08-16 | 天翼视联科技有限公司 | 一种页面变化的识别方法、装置、电子装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021376A (zh) * | 2014-06-05 | 2014-09-03 | 北京乐动卓越科技有限公司 | 验证码识别方法和装置 |
CN107292311A (zh) * | 2017-08-10 | 2017-10-24 | 河南科技大学 | 一种基于神经网络的字符粘连验证码的识别方法 |
CN107360137A (zh) * | 2017-06-15 | 2017-11-17 | 深圳市牛鼎丰科技有限公司 | 用于验证码识别的神经网络模型的构建方法和装置 |
CN108171229A (zh) * | 2017-12-27 | 2018-06-15 | 广州多益网络股份有限公司 | 一种空心粘连验证码的识别方法及系统 |
CN108563559A (zh) * | 2018-03-12 | 2018-09-21 | 平安普惠企业管理有限公司 | 一种验证码的测试方法、装置、终端设备及存储介质 |
CN109919160A (zh) * | 2019-03-04 | 2019-06-21 | 深圳先进技术研究院 | 验证码识别方法、装置、终端及存储介质 |
-
2020
- 2020-01-20 CN CN202010064884.2A patent/CN111274957A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021376A (zh) * | 2014-06-05 | 2014-09-03 | 北京乐动卓越科技有限公司 | 验证码识别方法和装置 |
CN107360137A (zh) * | 2017-06-15 | 2017-11-17 | 深圳市牛鼎丰科技有限公司 | 用于验证码识别的神经网络模型的构建方法和装置 |
CN107292311A (zh) * | 2017-08-10 | 2017-10-24 | 河南科技大学 | 一种基于神经网络的字符粘连验证码的识别方法 |
CN108171229A (zh) * | 2017-12-27 | 2018-06-15 | 广州多益网络股份有限公司 | 一种空心粘连验证码的识别方法及系统 |
CN108563559A (zh) * | 2018-03-12 | 2018-09-21 | 平安普惠企业管理有限公司 | 一种验证码的测试方法、装置、终端设备及存储介质 |
CN109919160A (zh) * | 2019-03-04 | 2019-06-21 | 深圳先进技术研究院 | 验证码识别方法、装置、终端及存储介质 |
Non-Patent Citations (1)
Title |
---|
白培瑞;王金博;丁国梅;: "一种通用的基于图像分割的验证码识别方法" * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111966432A (zh) * | 2020-06-30 | 2020-11-20 | 北京百度网讯科技有限公司 | 验证码处理方法、装置、电子设备以及存储介质 |
CN111966432B (zh) * | 2020-06-30 | 2023-07-28 | 北京百度网讯科技有限公司 | 验证码处理方法、装置、电子设备以及存储介质 |
WO2021159802A1 (zh) * | 2020-09-04 | 2021-08-19 | 平安科技(深圳)有限公司 | 图形验证码识别方法、装置、计算机设备及存储介质 |
CN112686266A (zh) * | 2021-01-11 | 2021-04-20 | 安徽希施玛数据科技有限公司 | 一种验证码识别方法及装置 |
CN113066223A (zh) * | 2021-04-22 | 2021-07-02 | 中国工商银行股份有限公司 | 发票自动验证方法及装置 |
CN113360881A (zh) * | 2021-07-22 | 2021-09-07 | 大象慧云信息科技(江苏)有限公司 | 基于深度学习的验证码识别方法、系统、电子设备、介质 |
CN113657361A (zh) * | 2021-07-23 | 2021-11-16 | 阿里巴巴(中国)有限公司 | 页面异常检测方法、装置及电子设备 |
CN113568794A (zh) * | 2021-07-29 | 2021-10-29 | 中国银行股份有限公司 | 前端自动化测试方法及装置 |
CN113704128A (zh) * | 2021-09-03 | 2021-11-26 | 四川虹美智能科技有限公司 | 接口的自动化测试方法和装置 |
CN115037471A (zh) * | 2022-03-21 | 2022-09-09 | 远光软件股份有限公司 | 作业资质的查验方法、装置及存储介质 |
CN115037471B (zh) * | 2022-03-21 | 2024-06-21 | 远光软件股份有限公司 | 作业资质的查验方法、装置及存储介质 |
CN115712887A (zh) * | 2023-01-09 | 2023-02-24 | 成方金融科技有限公司 | 图片验证码识别方法、装置、电子设备及存储介质 |
CN115909351A (zh) * | 2023-02-08 | 2023-04-04 | 江苏金恒信息科技股份有限公司 | 一种基于深度学习的容器编号识别方法及装置 |
CN118503571A (zh) * | 2024-07-17 | 2024-08-16 | 天翼视联科技有限公司 | 一种页面变化的识别方法、装置、电子装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274957A (zh) | 网页页面验证码识别方法、装置、终端和计算机存储介质 | |
CN109726643B (zh) | 图像中表格信息的识别方法、装置、电子设备及存储介质 | |
CN110046529B (zh) | 二维码识别方法、装置及设备 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN110942074B (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
CN109784342B (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN111737478B (zh) | 文本检测方法、电子设备及计算机可读介质 | |
CN109840520A (zh) | 一种发票关键信息识别方法及系统 | |
CN112101386B (zh) | 文本检测方法、装置、计算机设备和存储介质 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN111626249B (zh) | 题目图像中几何图形的识别方法、装置和计算机存储介质 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
CN112861861B (zh) | 识别数码管文本的方法、装置及电子设备 | |
WO2017141802A1 (ja) | 画像処理装置、文字認識装置、画像処理方法及びプログラム記録媒体 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN114565927A (zh) | 表格识别方法、装置、电子设备及存储介质 | |
US20170364770A1 (en) | Determining the direction of rows of text | |
CN111199240A (zh) | 银行卡识别模型的训练方法、银行卡识别方法以及装置 | |
CN113569677A (zh) | 一种基于扫描件的纸质试验报告生成方法 | |
CN117541546A (zh) | 图像裁剪效果的确定方法和装置、存储介质及电子设备 | |
KR20160146355A (ko) | 이미지 내의 텍스트를 검출하는 방법 및 장치 | |
CN116631003A (zh) | 基于p&id图纸的设备识别方法、装置、存储介质及电子设备 | |
CN115270711A (zh) | 电子签名方法、电子签名装置、电子设备、存储介质 | |
CN117291859A (zh) | 一种页面异常检测方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200612 |
|
RJ01 | Rejection of invention patent application after publication |