CN109101810A

CN109101810A - 一种基于ocr技术的文字验证码识别方法

Info

Publication number: CN109101810A
Application number: CN201810920802.2A
Authority: CN
Inventors: 郑泽忠; 张亚萌; 向浩然; 谢晨; 牟范; 王胜利; 王子航; 李江
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2018-12-28
Anticipated expiration: 2038-08-14
Also published as: CN109101810B

Abstract

该发明公开了一种基于OCR技术的文字验证码识别方法，涉及一种基于OCR技术的文字验证码识别技术，属于信息检索领域，特别是在网络爬虫领域和搜索引擎领域。针对网站常见的字符图像验证码设计的一种基于光学字符识别技术的验证码识别方法。本发明通过截取网络识别码图像，对图像进行去噪处理，处理后进行识别，可以准确高效的识别网络中常见的字符验证码，识别正确率高达92.3％，可以处理验证码中常见的字符旋转，噪声和干扰线等反爬虫手段，可以达到实时识别的效果。

Description

一种基于OCR技术的文字验证码识别方法

技术领域

本发明涉及一种基于OCR(Optical Character Recognition)技术的文字验证码识别技术，属于信息检索领域，特别是在网络爬虫领域和搜索引擎领域。

背景技术

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，网络爬虫技术在很多领域有着广泛的应用，如搜索引擎，大数据分析与挖掘，互联网金融等。网络爬虫可以并行地对网页进行抓取，高并发的爬虫会增大服务器的负载，因此很多网站都采取了各种反爬虫策略来防御恶意的网络机器人程序，例如传播垃圾邮件、论坛自动发帖及自动注册和暴力破解系统登录等。全自动区分计算机和人类的图灵测试(CAPTCHA，Completely Automated Public Turing test to tell Computers and Humans Apart)是最常见的反爬虫手段，验证码的运行是基于一个专门负责产生和评估验证码校验的程序，该程序部署在服务器端或者是客户端的一个JS脚本。目前互联网应用使用最广泛的是文本和图像验证码，即生成一串字符的图像，通过校验用户的输入来判断用户是否为机器人。验证码识别是网络爬虫的一个关键技术，其研究成果具有很高的应用价值。

发明内容

本发明的目的是针对网站常见的字符图像验证码设计的一种基于光学字符识别技术的验证码识别方法。

本发明分析常见验证码的特征，针对验证码中的中英文和数字字符，采取先分割再识别的方法，对字符验证码进行识别。本发明技术方案为一种基于OCR技术的文字验证码识别方法，该方法包括如下步骤：

步骤1：获得验证码图片；

在获得网站响应后,检索网页源代码中是否存在“captchas”关键字，如果有则在关键字周围检索图片链接，获得验证码图像地址，跳转到该地址，得到验证码图片，将图片保存到本地；

步骤2：将图片转为灰度图，去除随机噪声；根据实际情况设定随机噪声判断阈值N₁，计算像素点4邻域或者8邻域的像素平均灰度值，与图像底色的平均灰度值进行比较，若差值大于随机噪声判断阈值N₁则认为该像素点为随机噪声，将该像素点置为背景；

步骤3：对图片进行二值化操作，二值化的阈值为图片的平均灰度值，进行连通域统计，并将面积小于设定阈值N₂的连通域置为背景；

步骤4：去除干扰线，将干扰线的连通域内像素值置为背景；

步骤4.1：去除独立干扰线；

将二值化图像中的各连通域进行纵向和横向投影，若纵向和横向投影长度的比值大于设定的比值上限小于设定的比值下限这认为该连通域为干扰线，比值上限和比值下限根据实际情况确定；

步骤4.2：去除粘连干扰线；

设定滑窗大小，滑窗的高度为图像的高度，滑窗的宽度和步长根据实际情况确定；滑窗从图像左侧开始滑动，计算每次滑窗内连通域的个数和总面积，若连通域个数小于等于2，总面积小于设定面积阈值N₃，则认为该滑窗内的连通域为粘连干扰线；

步骤5：对去除干扰的连通域进行膨胀腐蚀后再进行边缘平滑处理；

步骤6：字符分割；

将步骤5得到的二值化图像中各连通域进行单独提取，认定每个连通域为一个字符；

步骤7：对得到的各字符进行偏移校正；

对各字符的旋转，计算字符每次旋转后最左边像素点和最右边像素点的距离，其中距离最小时的字符为偏移校正后的字符；

步骤8：字符识别；

对偏移校正后的字符进行归一化处理，然后采用主成分分析算法提取字符图片的主成分作为特征，然后训练SVM分类器，实现验证码字符的识别。

进一步的，所述步骤2中随机噪声判断阈值的范围为1到5，步骤3中设定的阈值N₂的范围为2到10。

进一步的，所述步骤4.1中比值上线的范围为1.3到1.5，比值下线的范围为1到1.2。

进一步的，所述步骤4.2中滑窗的宽度范围为3到5，步长范围为1到3，设定面积阈值N₃范围为5到8。

本发明可以准确高效的识别网络中常见的字符验证码，识别正确率高达92.3％，可以处理验证码中常见的字符旋转，噪声和干扰线等反爬虫手段，可以达到实时识别的效果。

附图说明

图1为本发明流程图；

图2是网络上常见的字符图像验证码；

图3为灰度化后的验证码；

图4为二值化后的验证码；

图5为去噪后的验证码图像。

具体实施方式

下面详细说明四个步骤的过程。

本发明分析常见验证码的特征，针对验证码中的中英文和数字字符，采取先分割再识别的方法，对字符验证码进行识别。本发明方法包含如下步骤：

具体实施例1

步骤1：获得验证码图片；

步骤2：将图片转为灰度图，去除随机噪声；根据实际情况设定随机噪声判断阈值3，计算像素点4邻域或者8邻域的像素平均灰度值，与图像底色的平均灰度值进行比较，若差值大于随机噪声判断阈值则认为该像素点为噪声，将该像素点置为背景；

步骤3：对图片进行二值化操作，二值化的阈值为图片的平均灰度值，进行连通域统计，并将面积小于设定阈值5的连通域置为背景；

步骤4：去除干扰线，将干扰线的连通域内像素值置为背景；

步骤4.1：去除独立干扰线；

将二值化图像中的各连通域进行纵向和横向投影，若纵向和横向投影长度的比值大于设定的比值上限1.3小于设定的比值下限1则认为该连通域为干扰线；

步骤4.2：去除粘连干扰线；

设定滑窗大小，滑窗的高度为图像的高度，滑窗的宽度为3和步长根据实际情况设定为2；滑窗从图像左侧开始滑动，计算每次滑窗内连通域的个数和面积总和，若连通域个数小于等于2，面积小于设定阈值5，则认为该滑窗内的连通域为粘连干扰线；

步骤6：字符分割；

步骤7：对得到的各字符进行偏移校正；

步骤8：字符识别；

具体实施例2

步骤1：获得验证码图片；

步骤2：将图片转为灰度图，去除随机噪声；根据实际情况设定随机噪声判断阈值5，计算像素点4邻域或者8邻域的像素平均灰度值，与图像底色的平均灰度值进行比较，若差值大于随机噪声判断阈值则认为该像素点为噪声，将该像素点置为背景；

步骤3：对图片进行二值化操作，二值化的阈值为图片的平均灰度值，进行连通域统计，并将面积小于设定阈值9的连通域置为背景；

步骤4：去除干扰线，将干扰线的连通域内像素值置为背景；

步骤4.1：去除独立干扰线；

将二值化图像中的各连通域进行纵向和横向投影，若纵向和横向投影长度的比值大于设定的比值上限1.4小于设定的比值下限1.1则认为该连通域为干扰线；

步骤4.2：去除粘连干扰线；

设定滑窗大小，滑窗的高度为图像的高度，滑窗的宽度为5和步长根据实际情况设定为3；滑窗从图像左侧开始滑动，计算每次滑窗内连通域的个数和面积总和，若连通域个数小于等于2，面积小于设定阈值5，则认为该滑窗内的连通域为粘连干扰线；

步骤6：字符分割；

步骤7：对得到的各字符进行偏移校正；

步骤8：字符识别；

Claims

1.一种基于OCR技术的文字验证码识别方法，该方法包括如下步骤：

步骤1：获得验证码图片；

步骤4：去除干扰线，将干扰线的连通域内像素值置为背景；

步骤4.1：去除独立干扰线；

步骤4.2：去除粘连干扰线；

步骤6：字符分割；

步骤7：对得到的各字符进行偏移校正；

步骤8：字符识别；

2.如权利要求1所述的一种基于OCR技术的文字验证码识别方法，其特征在于所述步骤2中随机噪声判断阈值的范围为1到5，步骤3中设定的阈值N₂的范围为2到10。

3.如权利要求1所述的一种基于OCR技术的文字验证码识别方法，其特征在于所述步骤4.1中比值上线的范围为1.3到1.5，比值下线的范围为1到1.2。

4.如权利要求1所述的一种基于OCR技术的文字验证码识别方法，其特征在于所述步骤4.2中滑窗的宽度范围为3到5，步长范围为1到3，设定面积阈值N₃范围为5到8。