CN104951751A - 数据自动采集系统中验证码识别方法及系统 - Google Patents

数据自动采集系统中验证码识别方法及系统 Download PDF

Info

Publication number
CN104951751A
CN104951751A CN201510255462.2A CN201510255462A CN104951751A CN 104951751 A CN104951751 A CN 104951751A CN 201510255462 A CN201510255462 A CN 201510255462A CN 104951751 A CN104951751 A CN 104951751A
Authority
CN
China
Prior art keywords
picture
identifying code
bitmap
data acquisition
dimension array
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510255462.2A
Other languages
English (en)
Other versions
CN104951751B (zh
Inventor
胡朝伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Jetsum Information Technology Co ltd
Original Assignee
Wuhan Jetsum Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Jetsum Information Technology Co Ltd filed Critical Wuhan Jetsum Information Technology Co Ltd
Priority to CN201510255462.2A priority Critical patent/CN104951751B/zh
Publication of CN104951751A publication Critical patent/CN104951751A/zh
Application granted granted Critical
Publication of CN104951751B publication Critical patent/CN104951751B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/95Pattern authentication; Markers therefor; Forgery detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/05Recognition of patterns representing particular kinds of hidden objects, e.g. weapons, explosives, drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种数据自动采集系统中验证码识别方法,其包括如下步骤:S1、加载验证码图片,将验证码图片分割为4张独立的图片;S2、将4张独立的图片分别转换为二进制位图;S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。本发明还提供一种数据自动采集系统中验证码识别系统。

Description

数据自动采集系统中验证码识别方法及系统
技术领域
本发明涉及图像数据识别技术领域,特别涉及一种数据自动采集系统中验证码识别方法及系统。
背景技术
现在各种云平台建站系统中,客户往往有数据采集的需求,而目前各大网站为防止数据被采集,经常使用验证码的方式加以防范。
但是现有的数据采集方法需要大量节省人力和物力,通过人工采集数据一天大概在200条左右,效率不高;并且对于数字验证码的有效识别率不高支持的验证码文件格式种类较为单一。
发明内容
有鉴于此,本发明提供一种能够实现数据自动采集,并且数字验证码的有效识别率高,支持的验证码文件格式种类多的数据自动采集系统中验证码识别方法及系统。
一种数据自动采集系统中验证码识别方法,其包括如下步骤:
S1、加载验证码图片,将验证码图片分割为4张独立的图片;
S2、将4张独立的图片分别转换为二进制位图;
S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
一种数据自动采集系统中验证码识别系统,其包括如下单元:
图片加载单元,用于加载验证码图片,将验证码图片分割为4张独立的图片;
位图转换单元,用于将4张独立的图片分别转换为二进制位图;
数组转换单元,用于根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
对比及结果获取单元,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
有益技术效果:本发明能够大量节省人力和物力,现有的方法通过人工采集数据一天大概在200条左右,而通过自动采集系统一天可达到10万条;本发明对4位数字验证码的有效识别率可达到98%以上;并且可以支持多种验证码文件格式,比如JPG/JPEG/BMP/GIF等。
附图说明
图1是本发明实施方式提供的数据自动采集系统中验证码识别方法流程图;
图2是本发明实施方式提供的数据自动采集系统中验证码识别系统结构框图。
具体实施方式
如图1所示,一种数据自动采集系统中验证码识别方法,其包括如下步骤:
S1、加载验证码图片,将验证码图片分割为4张独立的图片。
可选地,所述步骤S1包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
S2、将4张独立的图片分别转换为二进制位图。
可选地,所述步骤S2包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组。
可选地,所述步骤S3包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
S4、将一维数组与预先建立的二维数组字库(0-9数字字库)进行对比,并根据对比结果获得格式化的图片验证码数值。
可选地,所述步骤S4包括:
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组。
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内(验证码经常是非工整格式,存在歪曲或者变形)且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字。可选地,预先设置的循环次数可以为10。
取数值最大的标识数字作为该独立位图上所展示的数字。数值越大,则代表越趋近于该标示所代表的数字。
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
有益技术效果:本发明实施例的方案能够大量节省人力和物力,现有的方法通过人工采集数据一天大概在200条左右,而通过自动采集系统一天可达到10万条;本发明对4位数字验证码的有效识别率可达到98%以上;并且可以支持多种验证码文件格式,比如JPG/JPEG/BMP/GIF等。
如图2所示,本发明实施例还提供一种数据自动采集系统中验证码识别系统,其包括如下单元:
图片加载单元10,用于加载验证码图片,将验证码图片分割为4张独立的图片。
可选地,所述图片加载单元10包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片。
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
位图转换单元20,用于将4张独立的图片分别转换为二进制位图。
可选地,所述位图转换单元20包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
数组转换单元30,用于根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组。
可选地,所述数组转换单元30包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
对比及结果获取单元40,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
可选地,所述对比及结果获取单元40包括:
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组;
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字;
取数值最大的标识数字作为该独立位图上所展示的数字;
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能性一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应超过本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机储存器、内存、只读存储器、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。
可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

Claims (10)

1.一种数据自动采集系统中验证码识别方法,其特征在于,其包括如下步骤:
S1、加载验证码图片,将验证码图片分割为4张独立的图片;
S2、将4张独立的图片分别转换为二进制位图;
S3、根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
S4、将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
2.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S1包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
3.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S2包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
4.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S3包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
5.如权利要求1所述的数据自动采集系统中验证码识别方法,其特征在于,所述步骤S4包括:
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组;
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字;
取数值最大的标识数字作为该独立位图上所展示的数字;
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
6.一种数据自动采集系统中验证码识别系统,其特征在于,其包括如下单元:
图片加载单元,用于加载验证码图片,将验证码图片分割为4张独立的图片;
位图转换单元,用于将4张独立的图片分别转换为二进制位图;
数组转换单元,用于根据二进制位图中色素的区别,将二进制位图转换为0和1的一维数组;
对比及结果获取单元,用于将一维数组与预先建立的二维数组字库进行对比,并根据对比结果获得格式化的图片验证码数值。
7.如权利要求6所述的数据自动采集系统中验证码识别系统,其特征在于,所述图片加载单元包括:
加载外部传入的验证码图片或网络验证码图片地址,从而获得验证码图片;
按验证码图片中像素的X、Y坐标位置,将验证码图片分割为4张独立的图片。
8.如权利要求6所述的数据自动采集系统中验证码识别系统,其特征在于,所述位图转换单元包括:
将4张独立的图片分别转换为用二进制表示的独立位图并保存在临时存储区。
9.如权利要求6所述的数据自动采集系统中验证码识别系统,其特征在于,所述数组转换单元包括:
获得各独立位图背的景色的RGB值,以便于区分个独立位图的背景色和字体颜色;
将独立位图转换为一维数组。
10.如权利要求6所述的数据自动采集系统中验证码识别系统,其特征在于,所述对比及结果获取单元包括:
在一维数组中用0表示背景色像素,用1表示非背景色像素;读取并将独立位图信息存入临时一维数组;
将临时一维数组与预先建立的二维数组字库进行预先设置循环次数对比,若临时一维数组与预先建立的二维数组字库中位置相差在2以内且数值相等,则循环标识自增1,在完成预先设置的循环次数对比后,获得预先设置的循环次数个标识数字;
取数值最大的标识数字作为该独立位图上所展示的数字;
将4张独立位图所对应的一维数组对比完成后,将每一次获得的所展示的数字合并作为验证码。
CN201510255462.2A 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统 Active CN104951751B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510255462.2A CN104951751B (zh) 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510255462.2A CN104951751B (zh) 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统

Publications (2)

Publication Number Publication Date
CN104951751A true CN104951751A (zh) 2015-09-30
CN104951751B CN104951751B (zh) 2018-09-25

Family

ID=54166393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510255462.2A Active CN104951751B (zh) 2015-05-19 2015-05-19 数据自动采集系统中验证码识别方法及系统

Country Status (1)

Country Link
CN (1) CN104951751B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040075851A1 (en) * 2002-10-16 2004-04-22 Hecht David L. Method and apparatus for implementing spatial pointers and labeling via self-clocking glyph codes with absolute addressing for determination and calibration of spatial distortion and image properties
CN103065341A (zh) * 2012-12-19 2013-04-24 福建天晴数码有限公司 基于黑白双色的数字图片形成验证码图片的方法
CN103336939A (zh) * 2013-06-21 2013-10-02 张家港保税区润桐电子技术研发有限公司 利用手机识别二维码的系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040075851A1 (en) * 2002-10-16 2004-04-22 Hecht David L. Method and apparatus for implementing spatial pointers and labeling via self-clocking glyph codes with absolute addressing for determination and calibration of spatial distortion and image properties
CN103065341A (zh) * 2012-12-19 2013-04-24 福建天晴数码有限公司 基于黑白双色的数字图片形成验证码图片的方法
CN103336939A (zh) * 2013-06-21 2013-10-02 张家港保税区润桐电子技术研发有限公司 利用手机识别二维码的系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张继松: "基于机器学习的网上银行验证码识别研究", 《北京信息科技大学硕士学位论文》 *

Also Published As

Publication number Publication date
CN104951751B (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
US20120039529A1 (en) Producing, Capturing and Using Visual Identification Tags for Moving Objects
JP2010009606A (ja) 局所化された2次元の視覚的指紋を使用してイメージコレクション内のピクチャイメージを見つけるシステムおよび方法
CN106778996A (zh) 嵌入有视觉图像的二维码的生成系统和方法以及读取系统
CN106921804B (zh) 在终端中创建日程的方法、装置及终端设备
CN102739951A (zh) 图像处理装置及图像处理方法
CN115759148B (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
CN105740931A (zh) 多维防伪码、其制作方法及识别方法
KR102375325B1 (ko) 원거리 고밀도 시각적 마커의 검출 및 인식 방법
CN104048965A (zh) 检测可变数据印刷的系统和方法
US20130022244A1 (en) Image processing apparatus and image processing method
JP6882362B2 (ja) 身元確認書類を含む画像を識別するシステムおよび方法
CN112507923A (zh) 证件翻拍检测方法、装置、电子设备及介质
CN113642582B (zh) 电表读数识别方法、装置、电子设备和存储介质
CN115908363B (zh) 肿瘤细胞统计方法、装置、设备和存储介质
CN111489348B (zh) 一种磁性材料产品表面缺陷模拟方法及装置
CN106909869A (zh) 一种矩阵式二维码的采样网格划分方法及装置
CN109508571B (zh) 一种条空定位方法、装置、电子设备及存储介质
CN114155172A (zh) 一种图像处理方法和系统
CN112583900B (zh) 云计算的数据处理方法及相关产品
CN113140292A (zh) 图像异常区域浏览方法、装置、移动端设备及存储介质
CN109543062A (zh) 图像处理方法、系统、计算机装置及可读存储介质
CN117115840A (zh) 信息提取方法、装置、电子设备和介质
Lee et al. Segmentation with saliency map using colour and depth images
CN104951751A (zh) 数据自动采集系统中验证码识别方法及系统
CN111401438A (zh) 图像分拣方法、装置及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231227

Address after: 430074 Donghu New Technology Development Zone, Wuhan City, Hubei Province, China, No. 9 Jiayuan Road Factory Project, Production Building 1-12 Floors (1) Factory Building No. 1001-01

Patentee after: Shuyi Technology (Beijing) Co.,Ltd. Wuhan Branch

Address before: 4th Floor, Wuhan Cyberport, No. 218 Luoyu Road, Luxiang, Wuhan City, Hubei Province, 430074

Patentee before: WUHAN JETSUM INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240621

Address after: 4th Floor, Wuhan Cyberport, No. 218 Luoyu Road, Luxiang, Wuhan City, Hubei Province, 430074

Patentee after: WUHAN JETSUM INFORMATION TECHNOLOGY Co.,Ltd.

Country or region after: China

Address before: 430074 Donghu New Technology Development Zone, Wuhan City, Hubei Province, China, No. 9 Jiayuan Road Factory Project, Production Building 1-12 Floors (1) Factory Building No. 1001-01

Patentee before: Shuyi Technology (Beijing) Co.,Ltd. Wuhan Branch

Country or region before: China