CN104951751B - 数据自动采集系统中验证码识别方法及系统 - Google Patents

数据自动采集系统中验证码识别方法及系统 Download PDF

Info

Publication number
CN104951751B
CN104951751B CN201510255462.2A CN201510255462A CN104951751B CN 104951751 B CN104951751 B CN 104951751B CN 201510255462 A CN201510255462 A CN 201510255462A CN 104951751 B CN104951751 B CN 104951751B
Authority
CN
China
Prior art keywords
independent
identifying code
bitmap
picture
dimension array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510255462.2A
Other languages
English (en)
Other versions
CN104951751A (zh
Inventor
胡朝伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Jetsum Information Technology Co ltd
Original Assignee
Wuhan Jetsum Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Jetsum Information Technology Co Ltd filed Critical Wuhan Jetsum Information Technology Co Ltd
Priority to CN201510255462.2A priority Critical patent/CN104951751B/zh
Publication of CN104951751A publication Critical patent/CN104951751A/zh
Application granted granted Critical
Publication of CN104951751B publication Critical patent/CN104951751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/05Recognition of patterns representing particular kinds of hidden objects, e.g. weapons, explosives, drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种数据自动采集系统中验证码识别方法,其包括如下步骤:S1、加载验证码图片,将验证码图片分割为4张独立的图片;S2、将4张独立的图片分别转换为二进制位图;S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。本发明还提供一种数据自动采集系统中验证码识别系统。

Description

数据自动采集系统中验证码识别方法及系统
技术领域
本发明涉及图像数据识别技术领域,特别涉及一种数据自动采集系统中验证码识别方法及系统。
背景技术
现在各种云平台建站系统中,客户往往有数据采集的需求,而目前各大网站为防止数据被采集,经常使用验证码的方式加以防范。
但是现有的数据采集方法需要大量节省人力和物力,通过人工采集数据一天大概在200条左右,效率不高;并且对于数字验证码的有效识别率不高支持的验证码文件格式种类较为单一。
发明内容
有鉴于此,本发明提供一种能够实现数据自动采集,并且数字验证码的有效识别率高,支持的验证码文件格式种类多的数据自动采集系统中验证码识别方法及系统。
一种数据自动采集系统中验证码识别方法,其包括如下步骤:
S1、加载验证码图片,将验证码图片分割为4张独立的图片;
S2、将4张独立的图片分别转换为二进制位图;
S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
一种数据自动采集系统中验证码识别系统,其包括如下单元:
图片加载单元,用于加载验证码图片,将验证码图片分割为4张独立的图片;
位图转换单元,用于将4张独立的图片分别转换为二进制位图;
数组转换单元,用于根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
对比及结果获取单元,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
有益技术效果:本发明能够大量节省人力和物力,现有的方法通过人工采集数据一天大概在200条左右,而通过自动采集系统一天可达到10万条;本发明对4位数字验证码的有效识别率可达到98%以上;并且可以支持多种验证码文件格式,比如JPG/JPEG/BMP/GIF等。
附图说明
图1是本发明实施方式提供的数据自动采集系统中验证码识别方法流程图;
图2是本发明实施方式提供的数据自动采集系统中验证码识别系统结构框图。
具体实施方式
如图1所示,一种数据自动采集系统中验证码识别方法,其包括如下步骤:
S1、加载验证码图片,将验证码图片分割为4张独立的图片。
可选地,所述步骤S1包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
S2、将4张独立的图片分别转换为二进制位图。
可选地,所述步骤S2包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组。
可选地,所述步骤S3包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
S4、将一维数组与预先建立的二维数组字库(0-9数字字库)进行对比,并根据对比结果获得格式化的图片验证码数值。
可选地,所述步骤S4包括:
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组。
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内(验证码经常是非工整格式,存在歪曲或者变形)且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字。可选地,预先设置的循环次数可以为10。
取数值最大的标识数字作为该独立位图上所展示的数字。数值越大,则代表越趋近于该标示所代表的数字。
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
有益技术效果:本发明实施例的方案能够大量节省人力和物力,现有的方法通过人工采集数据一天大概在200条左右,而通过自动采集系统一天可达到10万条;本发明对4位数字验证码的有效识别率可达到98%以上;并且可以支持多种验证码文件格式,比如JPG/JPEG/BMP/GIF等。
如图2所示,本发明实施例还提供一种数据自动采集系统中验证码识别系统,其包括如下单元:
图片加载单元10,用于加载验证码图片,将验证码图片分割为4张独立的图片。
可选地,所述图片加载单元10包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片。
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
位图转换单元20,用于将4张独立的图片分别转换为二进制位图。
可选地,所述位图转换单元20包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
数组转换单元30,用于根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组。
可选地,所述数组转换单元30包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
对比及结果获取单元40,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
可选地,所述对比及结果获取单元40包括:
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组;
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字;
取数值最大的标识数字作为该独立位图上所展示的数字;
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应超过本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (8)

1.一种数据自动采集系统中验证码识别方法,其特征在于,其包括如下步骤:
S1、加载验证码图片,将验证码图片分割为4张独立的图片;
S2、将4张独立的图片分别转换为二进制位图;
S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值;
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组;将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字;
取数值最大的标识数字作为该独立位图上所展示的数字;
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
2.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S1包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
3.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S2包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
4.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S3包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
5.一种数据自动采集系统中验证码识别系统,其特征在于,其包括如下单元:
图片加载单元,用于加载验证码图片,将验证码图片分割为4张独立的图片;
位图转换单元,用于将4张独立的图片分别转换为二进制位图;
数组转换单元,用于根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
对比及结果获取单元,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值;
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组;
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字;
取数值最大的标识数字作为该独立位图上所展示的数字;
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
6.如权利要求5所述的数据自动采集系统中验证码识别系统,其特征在于,所述图片加载单元包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
7.如权利要求5所述的数据自动采集系统中验证码识别系统,其特征在于,所述位图转换单元包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
8.如权利要求5所述的数据自动采集系统中验证码识别系统,其特征在于,所述数组转换单元包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
CN201510255462.2A 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统 Active CN104951751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510255462.2A CN104951751B (zh) 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510255462.2A CN104951751B (zh) 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统

Publications (2)

Publication Number Publication Date
CN104951751A CN104951751A (zh) 2015-09-30
CN104951751B true CN104951751B (zh) 2018-09-25

Family

ID=54166393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510255462.2A Active CN104951751B (zh) 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统

Country Status (1)

Country Link
CN (1) CN104951751B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065341A (zh) * 2012-12-19 2013-04-24 福建天晴数码有限公司 基于黑白双色的数字图片形成验证码图片的方法
CN103336939A (zh) * 2013-06-21 2013-10-02 张家港保税区润桐电子技术研发有限公司 利用手机识别二维码的系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040075851A1 (en) * 2002-10-16 2004-04-22 Hecht David L. Method and apparatus for implementing spatial pointers and labeling via self-clocking glyph codes with absolute addressing for determination and calibration of spatial distortion and image properties

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103065341A (zh) * 2012-12-19 2013-04-24 福建天晴数码有限公司 基于黑白双色的数字图片形成验证码图片的方法
CN103336939A (zh) * 2013-06-21 2013-10-02 张家港保税区润桐电子技术研发有限公司 利用手机识别二维码的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于机器学习的网上银行验证码识别研究;张继松;《北京信息科技大学硕士学位论文》;20101231;第2.2-2.4、3.2、4.2节 *

Also Published As

Publication number Publication date
CN104951751A (zh) 2015-09-30

Similar Documents

Publication Publication Date Title
JP4557866B2 (ja) 混合コード、及び、混合コードの生成方法と装置、記録媒体
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
US20100034469A1 (en) Method of fast searching and recognition of a digital image representative of at least one graphical pattern in a bank of digital images
EP2605186B1 (en) Method and apparatus for recognizing a character based on a photographed image
CN110991310B (zh) 人像检测方法、装置、电子设备及计算机可读介质
WO2016205700A1 (en) Steganographic depth images
CN110647896B (zh) 一种基于logo图像的钓鱼页面识别方法及相关设备
CN108229232B (zh) 批量扫描二维码的方法和批量扫描二维码的装置
CN106530311B (zh) 切片图像处理方法及装置
CN109903210B (zh) 水印的去除方法、装置和服务器
CN110647895B (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN111353965B (zh) 图像修复方法、装置、终端及存储介质
US10963725B2 (en) Systems and methods for digitized document image data spillage recovery
CN106228165A (zh) 一种照片分类的方法和移动终端
CN112583900B (zh) 云计算的数据处理方法及相关产品
EP2735997B1 (en) Image processing apparatus
CN108769521A (zh) 一种拍照方法、移动终端及计算机可读存储介质
CN104951751B (zh) 数据自动采集系统中验证码识别方法及系统
CN117095275A (zh) 一种数据中心资产盘点方法、系统、装置及存储介质
CN108776959B (zh) 图像处理方法、装置及终端设备
CN111401438A (zh) 图像分拣方法、装置及系统
CN108475430B (zh) 图片质量评估方法及装置
CN108304840A (zh) 一种图像数据处理方法以及装置
CN116468615A (zh) 图像处理方法、装置、电子设备及存储介质
JP6437749B2 (ja) カラーコードの作成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231227

Address after: 430074 Donghu New Technology Development Zone, Wuhan City, Hubei Province, China, No. 9 Jiayuan Road Factory Project, Production Building 1-12 Floors (1) Factory Building No. 1001-01

Patentee after: Shuyi Technology (Beijing) Co.,Ltd. Wuhan Branch

Address before: 4th Floor, Wuhan Cyberport, No. 218 Luoyu Road, Luxiang, Wuhan City, Hubei Province, 430074

Patentee before: WUHAN JETSUM INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240621

Address after: 4th Floor, Wuhan Cyberport, No. 218 Luoyu Road, Luxiang, Wuhan City, Hubei Province, 430074

Patentee after: WUHAN JETSUM INFORMATION TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 430074 Donghu New Technology Development Zone, Wuhan City, Hubei Province, China, No. 9 Jiayuan Road Factory Project, Production Building 1-12 Floors (1) Factory Building No. 1001-01

Patentee before: Shuyi Technology (Beijing) Co.,Ltd. Wuhan Branch

Country or region before: China