CN111274957A

CN111274957A - 网页页面验证码识别方法、装置、终端和计算机存储介质

Info

Publication number: CN111274957A
Application number: CN202010064884.2A
Authority: CN
Inventors: 王杨; 王珊珊
Original assignee: Sunshine Life Insurance Co ltd
Current assignee: Sunshine Life Insurance Co ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12

Abstract

本发明实施例公开了一种网页页面验证码识别方法、装置、终端和计算机存储介质，该方法包括：获取目标网页截屏图像并从中获取含验证码的待识别图像；对待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像；将多个单字符图像输入至已训练好的字符识别模型中，输出对应的识别字符以获取验证码。相对于现有使用的OCR软件Tesseract而言，本发明的技术方案通过对网页进行截图及定位验证码以获取验证码图像，并进一步对验证码图像进行预处理等，不仅提供了图像自动采集功能，还可提高识别率等，进而利于网页自动化测试及RPA技术等的实现。

Description

网页页面验证码识别方法、装置、终端和计算机存储介质

技术领域

本发明涉及验证码识别技术领域，尤其涉及一种网页页面验证码识别方法、装置、终端和计算机存储介质。

背景技术

对于网页页面上的验证码，通常采用的是光学字符识别(OCR)技术，其主要是通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字。其中，当前使用较多的开源OCR软件是Tesseract，该软件提供不同语言的字符识别，但同样存在一些缺陷而无法满足用户需求。

例如，Tesseract不仅不提供图像采集功能，且不提供图像的前置预处理，故对于一些未经处理的图像文字进行直接识别，其识别准确率很低；对于网页中的验证码，由于验证码图片中存在边框、干扰色，甚至会出现字体扭曲等，利用OCR技术容易导致识别准确率将进一步降低。此外，对于一些仅由字母、数字等组合的验证码，可完全不需要使用Tesseract等软件来识别，成本高且处理过程复杂等。

发明内容

有鉴于此，本发明实施例提出一种网页页面验证码识别方法、装置、终端和计算机存储介质。

本发明的一实施例提出一种网页页面验证码识别方法，包括：

获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像；

对所述待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像；

将所述多个单字符图像输入至已训练好的字符识别模型中，输出对应的识别字符以获取所述验证码。

进一步地，在上述的网页页面验证码识别方法中，所述“获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像”包括：

根据网页地址进入目标网页并对目标网页进行页面截图，以获取对应的截屏图像；

基于HTML定位方式从所述目标网页中定位验证码元素，以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值；

根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。

进一步地，在上述的网页页面验证码识别方法中，所述“对所述待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像”包括：

对所述待识别图像进行二值化处理以获取二值化图像，然后基于孤立点判断规则对所述二值化图像进行去噪处理；

按照预设字符图像尺寸对去噪后的图像进行单字符切割，以获取组成所述验证码的多个单字符图像。

进一步地，在上述的网页页面验证码识别方法中，所述“基于孤立点判断规则对所述二值化图像进行去噪处理”包括：

将所述二值化图像中为黑色的像素点作为待处理像素点，并计算每个待处理像素点的周围像素点的灰度值；

若所述灰度值为白色的个数大于预设阈值，则判断所述待处理像素点为噪点，然后将所述噪点设置为白色。

进一步地，在上述的网页页面验证码识别方法中，所述已训练好的字符识别模型的构建，包括：

获取预设数量的已标注字符图像样本，并将所有已标注字符图像样本划分成训练集和测试集；

利用所述训练集对预设分类模型进行字符识别训练，以得到训练分类模型；

利用所述测试集对所述训练分类模型进行识别准确率验证，若所述识别准确率未满足预设条件，则重复所述字符识别训练步骤，直到所述训练后的分类模型满足预设条件，则停止训练。

进一步地，在上述的网页页面验证码识别方法中，所述预设分类模型为KNN模型。

本发明的另一实施方式提出一种网页页面验证码识别装置，包括：

验证码图像采集模块，用于获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像；

单字符图像获取模块，用于对所述待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像；

验证码识别模块，用于将所述多个单字符图像输入至已训练好的字符识别模型中，输出对应的识别字符以获取所述验证码。

进一步地，在上述的网页页面验证码识别装置中，所述验证码图像采集模块包括网页截屏子模块、验证码定位子模块和验证码图像抓取子模块；

所述网页截屏子模块用于根据网页地址进入目标网页并对目标网页进行页面截图，以获取对应的截屏图像；

所述验证码定位子模块用于基于HTML定位方式从所述目标网页中定位验证码元素，以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值；

所述验证码图像抓取子模块用于根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。

本发明的又一个实施方式提供一种终端，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施上述的网页页面验证码识别方法。

本发明的再一个实施方式提供一种计算机存储介质，其存储有计算机程序，在所述计算机程序被执行时，实施上述的网页页面验证码识别方法。

本发明实施例的网页页面验证码识别方法通过对网页进行截图及定位验证码以获取验证码图像并进一步对验证码图像进行预处理等，相对于现有使用的OCR软件Tesseract而言，实现简单，不仅提供了图像自动采集功能，还可提高识别率等，进而有利于网页自动化测试及机器人流程自动化(RPA)技术等的实现。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本发明实施例的网页页面验证码识别方法的第一流程示意图；

图2示出了本发明实施例的网页页面验证码识别方法的第二流程示意图；

图3示出了本发明实施例的网页页面验证码识别方法的验证码定位示意图；

图4示出了本发明实施例的网页页面验证码识别方法的第三流程示意图；

图5示出了本发明实施例的网页页面验证码识别方法的模型训练流程示意图；

图6示出了本发明实施例的网页页面验证码识别装置的第一结构示意图；

图7示出了本发明实施例的网页页面验证码识别装置的第二结构示意图。

主要元器件符号说明：

1-网页页面验证码识别装置；10-验证码图像采集模块；20-单字符图像获取模块；30-验证码识别模块；110-网页截屏子模块；120-验证码定位子模块；130-验证码图像抓取子模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

请参照图1，本实施例提出一种网页页面验证码识别方法，可应用于网页自动化测试、RPA多系统业务操作流程自动化等，以实现对网页或网页图片中的验证码的自动识别。下面对该网页页面验证码识别方法进行详细说明。

步骤S10，获取目标网页截屏图像，并根据验证码在网页中的相对位置从中获取含验证码的待识别图像。

上述步骤S10主要为验证码图像采集过程。通过对网页进行截图及对网页中验证码的定位可从中获取得到待识别的验证码图像。

在一种实施例中，如图2所示，该步骤S10主要包括以下子步骤：

子步骤S110，根据网页地址进入目标网页并对目标网页进行页面截图，以获取对应的截屏图像。

子步骤S120，基于HTML定位方式从所述目标网页中定位验证码元素，以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值。

子步骤S130，根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。

示范性地，对于上述子步骤S110，可利用Selenium等工具根据目标网页的网页地址打开目标网页并进行全屏页面截图，以得到对应的目标网页截屏图像。在上述子步骤S120中，可基于HTML网页的相对定位或流式定位等方式在该目标网页页面中定位验证码元素，从而获取验证码元素在该页面的相对坐标位置以及该验证码元素的尺寸等。

此外，上述的目标网页也可以是HTML形式的网页图片，而该验证码可为该网页图片中需要识别的由数字、字母等组合的字符串等，如填写的身体证号码、签署日期等等。

以一网页页面截图为例，如图3所示，通过在整个目标网页页面的左上点建立原点O及坐标系，并从网页源码中可知该验证码元素的左顶点在该整个目标网页页面的相对坐标位置为(x，y)，以及该验证码元素的长和宽分别为(w，h)。于是，根据该相对坐标位置和长宽值可从该截图中抓取出含验证码的待识别图片。

步骤S20，对所述待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像。

示范性地，上述的图像预处理主要用于提高识别率，可包括但不限于进行二值化处理、降噪、字体倾斜校正等处理。以降噪为例，经过降噪处理后，在进行字符切割时可大大降低噪声的干扰，进而提高识别率等。

在一种实施例中，如图4所示，该步骤S20主要包括：

子步骤S210，对所述待识别图像进行二值化处理以获取二值化图像，然后基于孤立点判断规则对所述二值化图像进行去噪处理。

由于获取的待识别图像通常为具有彩色文本或背景的RGB图像，为识别出该图像中的验证码字符，先对其进行灰度处理后再二值化处理，从而得到仅有黑和白两种效果的图片。所述的二值化，就是让该待识别图像中各像素点的灰度值通过0(对应黑色)和255(对应白色)这两个值来表示。

进一步地，对二值化处理后的图片进行去噪处理。优选地，将采用孤立点判断规则来识别出孤立的噪声点，当然，也可以采用其他去噪方式，在此并不作限定。

其中，该孤立点判断规则主要包括：将所述二值化图像中为黑色的像素点作为待处理像素点，并计算每个待处理像素点的周围像素点的灰度值；若所述灰度值为白色的个数大于预设阈值，则判断所述待处理像素点为噪点，然后将所述噪点设置为白色。

通常地，若一像素点为验证码或干扰噪声，则其灰度值为0，即黑色。本实施例中，将对黑色的像素点进行判断，若该黑色像素点为噪点，则其周围的像素点，如邻近的4个像素或8个像素，大多数或全部将为白色。例如，可判断这些周围像素点的灰度值为0或为255的个数，若是全部或大多数为白色，则可判断该待处理像素点为噪点；反之，则不判定为噪点。于是，可将判定为噪点的该像素点设置为白色，以达到去噪处理。

子步骤S220，按照预设字符图像尺寸对去噪后的图像进行单字符切割，以获取组成所述验证码的多个单字符图像。

为方便字符模型识别出具体的字符，还需要通过对验证码进行字符切割以得到若干个单字符图像。示范性地，可根据字符样式、重叠度等多种方式的组合来提取出每一单个字符，从而最大度保证得到完整的单字符图像，并将提取出来的这些单字符图像设置为相同尺寸，实现归一化处理。

步骤S30，将所述多个单字符图像输入至已训练好的字符识别模型中，输出对应的识别字符以获取所述验证码。

于是，在得到若干后单字符图像后，将其依次输入到字符识别模型进行字符识别，从而得到由各字符得到的验证码。

其中，上述已训练好的字符识别模型通过预先训练得到。在一种实施例中，如图5所示，该已训练好的字符识别模型的训练过程主要包括以下子步骤：

子步骤S310，获取预设数量的已标注字符图像样本，并将所有已标注字符图像样本划分成训练集和测试集。

示范性地，可采用上述步骤S10来采集一定数量的验证码图像，例如，从一页面截屏图片中抓取了一验证码图片并保存后，通过刷新页面并重复上述步骤S110-S130，以获得其他的验证码图片。接着，对这些大量的验证码图像进行步骤S20中的图像预处理及单字符切割处理，最后通过人工标注得到上述的已标注字符图像样本。对于该已标注字符图像样本可按照预比例划分为用于模型训练及模型验证的样本集合。

优选地，对于上述的已标注字符图像样本，可按照指定格式进行文件名存储，方便对识别字符的唯一查找及读取等。示范性地，该指定格式可为：<原始验证码>_<字符在原始验证码中的位置>_<字符内容>_<时间戳>.png。例如，若原始验证码为“1LLE”，对于单字符“1”，可存储其文件名为1LLE_1_1_1559179585996.png。其中，最后一项为产生该验证码的时间戳。考虑到训练集和测试集的数量可能较大，而利用时间戳可保证各张验证码图片名字的唯一性，可避免存储时文件名冲突等。

子步骤S320，利用所述训练集对预设分类模型进行字符识别训练，以得到训练分类模型。

本实施例中，优选地，该预设分类模型采用为KNN模型。对于KNN算法，其基本思想是：计算待评估点与其他已标注点的距离，取出距离该待评估点最近的K个点；统计K个点的分类比例，得到比例最大的分类，判定该评估点即为该分类。

对于上述子步骤S320，由于训练集中的已标注字符图像样本的大小是特定的，读取后得到特定大小的一维数组作为特征值，并可从文件名中获取其分类类别。仍以上述的1LLE_1_1_1559179585996.png为例，其类别为字符“1”，特征值为一维矩阵，矩阵元素值的范围为0～255，矩阵大小即为切割后的该单字符图片的大小。于是，KNN模型根据输入的一维矩阵特征值及对应的分类类别进行学习，从而得到学习后的KNN模型。

可以理解，上述的预设分类模型也可以采用如K-means算法等其他分类模型，在此并不作限定。

子步骤S330，利用所述测试集对所述训练分类模型进行识别准确率验证，若所述识别准确率未满足预设条件，则重复所述字符识别训练步骤，直到所述训练后的分类模型满足预设条件，则停止训练。

在上述子步骤S310中，基于上述得到的学习后的模型，利用测试集输入到该模型中进行字符类别判定，并判断该模型的字符识别正确率是否满足预设条件。例如，若该正确率低于一预设准确率阈值，则需要重复上述的模型训练及验证步骤，直到该正确率达到该预设准确率阈值。最后，将已训练好的分类模型部署到实际的生产环境中，以用于实际的网页验证码的自动识别。

本实施例的网页页面验证码识别方法通过对网页进行截图及基于HTML定位方法来定位验证码的相对位置以获得验证码图像，可解决使用现有的OCR软件Tesseract不能实现图像自动采集功能；并通过对验证码图像进行噪点去除等预处理，可提高字符的识别准确率。此外，通过采用如KNN算法等进行机器学习，能够根据目标网站的验证码进行针对性的字符分类处理和识别，从而有效提高验证码识别准确率等。另外，采用本实施例的方法实现简单且不用依赖如Tesseract等第三方OCR软件的使用，有利于企业内部的网页自动化测试及RPA多系统业务操作流程自动化等的实现，还可降低自动化测试成本等等。

实施例2

请参照图6，基于上述实施例1的网页页面验证码识别方法，本实施例提出一种网页页面验证码识别装置1，该装置包括：

验证码图像采集模块10，用于获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像；

单字符图像获取模块20，用于对所述待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像；

验证码识别模块30，用于将所述多个单字符图像输入至已训练好的字符识别模型中，输出对应的识别字符以获取所述验证码。

示范性地，如图7所示，所述验证码图像采集模块10包括依次连接的网页截屏子模块110、验证码定位子模块120和验证码图像抓取子模块130。

所述网页截屏子模块110用于根据网页地址进入目标网页并对目标网页进行页面截图，以获取对应的截屏图像；验证码定位子模块120用于从所述目标网页中定位验证码元素，以获取验证码在页面中的相对坐标位置及验证码所在图片的长宽值；验证码图像抓取子模块130用于根据所述相对坐标位置和所述长宽值从所述截屏图像中抓取含验证码的待识别图像。

可以理解，本实施例的网页页面验证码识别装置1中的各模块对应于上述实施例1的方法，上述实施例1的可选项同样适用于本实施例，故在此不再详述。

本发明还提供了一种终端，如计算机等，该终端包括存储器和处理器，存储器存储有计算机程序，处理器通过运行所述计算机程序，从而使终端执行上述网页页面验证码识别方法或上述网页页面验证码识别装置1中的各个模块的功能。

存储器可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供了一种计算机可读存储介质，用于储存上述终端中使用的所述计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种网页页面验证码识别方法，其特征在于，包括：

2.根据权利要求1所述的网页页面验证码识别方法，其特征在于，所述“获取目标网页截屏图像并根据验证码在网页中的相对位置从中获取含验证码的待识别图像”包括：

3.根据权利要求1所述的网页页面验证码识别方法，其特征在于，所述“对所述待识别图像进行图像预处理并按照单字符切割，得到多个单字符图像”包括：

4.根据权利要求3所述的网页页面验证码识别方法，其特征在于，所述“基于孤立点判断规则对所述二值化图像进行去噪处理”包括：

5.根据权利要求4所述的网页页面验证码识别方法，其特征在于，所述已训练好的字符识别模型的构建，包括：

6.根据权利要求5所述的网页页面验证码识别方法，其特征在于，所述预设分类模型为KNN模型。

7.一种网页页面验证码识别装置，其特征在于，包括：

8.根据权利要求7所述的网页页面验证码识别装置，其特征在于，所述验证码图像采集模块包括网页截屏子模块、验证码定位子模块和验证码图像抓取子模块；

9.一种终端，其特征在于，所述终端包括处理器和存储器，所述存储器存储有计算机程序，所述处理器用于执行所述计算机程序以实施权利要求1-6中任一项所述的网页页面验证码识别方法。

10.一种计算机存储介质，其特征在于，其存储有计算机程序，在所述计算机程序被执行时，实施根据权利要求1-6中任一项所述的网页页面验证码识别方法。