CN111935106B - 一种利用改进验证码收集带标签的数据集的方法 - Google Patents

一种利用改进验证码收集带标签的数据集的方法 Download PDF

Info

Publication number
CN111935106B
CN111935106B CN202010716558.5A CN202010716558A CN111935106B CN 111935106 B CN111935106 B CN 111935106B CN 202010716558 A CN202010716558 A CN 202010716558A CN 111935106 B CN111935106 B CN 111935106B
Authority
CN
China
Prior art keywords
data set
basic data
left corner
label
rectangular label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010716558.5A
Other languages
English (en)
Other versions
CN111935106A (zh
Inventor
王淑青
张子言
刘逸凡
庆毅辉
王晨曦
兰天泽
张鹏飞
黄剑锋
王年涛
顿伟超
张子蓬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fenjin Intelligent Machine Co ltd
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN202010716558.5A priority Critical patent/CN111935106B/zh
Publication of CN111935106A publication Critical patent/CN111935106A/zh
Application granted granted Critical
Publication of CN111935106B publication Critical patent/CN111935106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/083Network architectures or network communication protocols for network security for authentication of entities using passwords
    • H04L63/0838Network architectures or network communication protocols for network security for authentication of entities using passwords using one-time-passwords

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种利用改进验证码收集带标签的数据集的方法,首先收集并标注大量的现有开源数据集未收录的对象或者是一些物体的不常见多样化的特征,并对这些图像进行位移、旋转、亮度和缩放的图像增强处理以及合并出一个多特征的数据集,其次提出一种基于上述数据集中利用矩形标注这些对象或者特征标签的新型验证码的方法,该方法判定用户输入的标签是否在可接受范围内,若正确,则保存图像和用户输入的标签作为数据集的一部分,反之验证失败,则重新测试直到成功。本发明收集的数据集的效率极高,成本低,且得到的数据集质量高。

Description

一种利用改进验证码收集带标签的数据集的方法
技术领域
本发明涉及计算机技术领域,具体涉及一种利用改进验证码收集带标签的数据集的方法。
背景技术
验证码(CAPTCHA)技术广泛应用于互联网领域,是用于判断用户是否为人类的自动化公共图灵测试,从而保护网站被人利用程序大量提交信息而导致服务器宕机;在有监督的深度学习工作中,大量的数据集以及对应的标注对训练得到的模型极其重要,然而数据集的标注工作只能由人来一一手动完成,耗时耗力成本极高,从而导致目前数据集远远无法满足神经网络训练的需求。
本申请发明人在实施本发明的过程中,发现现有技术的方法,至少存在如下技术问题:
传统的验证码以数字、字母或者汉字组成,通过扭曲变形,加入干扰线条等方式防止程序识别,不过随着机器视觉研究的发展,光学字符识别(Optical CharacterRecognition,OCR)已经可以以较高的准确率识别验证图片上的内容,使这类传统验证码形如虚设;目前新颖的验证码有分类验证码与滑动验证码,分类验证码展示给用户数张图片,部分图片拥有着相同的物体,如红绿灯、轿车、斑马线等,剩下的没有,用户需要选择有相同物体的图片方可通过测试,但这些图片的数量过少;滑动验证码要求用户将一块只能平移的拼图滑动至背景图像上和拼图形状一致的凹槽内,但目前基于计算机视觉的物体检测技术已经相对成熟,这些物体通常是目前已有数据集中存在的物体,计算机可以轻松地定位这些物体的位置,使验证码的效果失灵。
目前常用的开源图片数据集有ImageNet、CIFAR、Pascal VOC和COCO,这些数据集在其已收录的物体类别上有着大量充足的图片,这些物体是日常生活中常见的,所以对于日常生活中不常见的物体如绝缘子、口罩等,或者是物体的特征如破损、污秽等,这些数据集几乎不能对研究提供帮助,收集新数据集以及对新数据集进行标注是一件费时费力的工作。
由此可知,现有技术中的方法存在数据集生成效率低的技术问题。
发明内容
本发明提出一种利用改进验证码收集带标签的数据集的方法,用于解决或者至少部分解决现有技术中的方法存在的现有技术中的方法存在的数据集生成效率低的技术问题。通过一种以数据集标注作为验证码的验证形式的方法,不仅可以起到传统验证码的保护作用,还可以大大提高有标记数据集的数量。
为了解决上述技术问题,本发明提供了一种利用改进验证码收集带标签的数据集的方法,包括:
S1:手动收集目前开源的数据集未收录对象的图片作为第一基础数据集D1、未标注的图片作为未标注数据集DU,其中,未标注数据集包含基础数据集中的对象;
S2:对收集的基础数据集中的图片进行标注,得到第二基础数据集D2
S3:将第一基础数据集图片和第二基础数据集标签进行合并,得到第三基础数据集Dp
S4:对第三基础数据集进行数据增强处理,得到增强后的数据集D;
S5:从增强后的数据集D中随机选出预设数量的带有标签的图片作为验证图片,从未标注数据集DU中随机选出相同数量的图片作为待标注图片;
S6:输入验证图片的矩形标签,通过判断矩形标签的左上角的坐标、左下角的坐标以及和右下角的坐标是否在可接受范围,判定验证是否通过,将验证码作为是否验证通过的标识,当验证码的值为1时,表示验证通过,当验证码的值为0时,表示验证未通过;
S7:当验证码的值为0时,则返回步骤S5重新选择验证图片和待标注图片,当验证码的值为1时,则基于带有标签的图片的标签、由用户所标记的DU上的矩形标签的左上角的坐标、左下角的坐标以及右下角的坐标对待标注图片进行标注,直到未标注数据集DU的所有图片被标注。
在一种实施方式中,S2中的标注方式为:
D2=((a,b),(a+w,b),(a,b+l),(a+w,b+))
其中(a,b)为第二基础数据集D2的矩形标签的左下角的坐标,w为第二基础数据集D2的矩形标签的宽,l为第二基础数据集D2的矩形标签的长,(a+w,b)、(a,b+l)和(a+w,b+l)分别表示第二基础数据集D2的矩形标签右下角的坐标、左上角的坐标和右上角的坐标。
在一种实施方式中,S4具体包括:
S4.1:对第三基础数据集进行位移处理,得到位移处理后的数据集;
S4.2:对第三基础数据集进行旋转处理,得到旋转处理后的数据集;
S4.3:对第三基础数据集进行亮度处理,得到亮度处理后的数据集;
S4.4:对第三基础数据集进行缩放处理,得到缩放处理后的数据集;
S4.5:将位移处理后的数据集、旋转处理后的数据集、亮度处理后的数据集以及缩放处理后的数据集合并为增强后的数据集D。
在一种实施方式中,S4.1中的位移处理方式为:
DS=[((1+α)a,(1+α)b),(α(a+w),(1+α)b),((1+α)a,α(b+l)),(α(a+w),α(b+l))]
其中,DS为位移处理后的数据集,(a,b),(a+w,b),(a,b+l),(a+w,b+l)表示第三基础数据集Dp的矩形标签的坐标,a为第三基础数据集Dp的矩形标签左下角点的横坐标,b为第三基础数据集Dp的矩形标签左下角点的纵坐标,w为第三基础数据集Dp的矩形标签的宽度,l为第三基础数据集Dp的矩形标签的长度,α为常数且0<α<1,表示为平移的程度,α越小,平移程度越大。
在一种实施方式中,S4.2中的旋转处理方式为:
DF=[(2a+w-DPx),(2b+l-DPy)]
其中,DF为旋转处理后的数据集,(DPx,DPy)为第三基础数据集上任意一点的坐标,a为第三基础数据集Dp的矩形标签左下角点的横坐标,b为第三基础数据集Dp的矩形标签左下角点的纵坐标,w为第三基础数据集Dp的矩形标签的宽度,l为第三基础数据集Dp的矩形标签的长度。
在一种实施方式中,S4.3中的亮度处理方式为:
DR,G,B=((1+β)R,(1+β)G,(1+β)B)
其中,DR,G,B为亮度处理后的数据集,R、G、B分别为基础数据集图片的红、绿、蓝三种颜色通道的值,β为常数,其中-1<β<1且β≠0,当β<0时,β越小图像越灰暗,当β>0时,β越大图像越鲜艳。
在一种实施方式中,S4.4中的缩放处理方式为:
Figure BDA0002598409260000041
其中,Dz为缩放处理后的数据集,Ri、Gi、Bi为数据集图像中第i个像素的RGB值,i=1,2,...MN-1。
在一种实施方式中,S6具体包括:
由用户所标记的DU上的矩形标签的左上角(x1,y1)、左下角(x2,y2)和右下角(x3,y3)点的坐标,判断是否通过验证码测试,判断方式如下:
Figure BDA0002598409260000042
其中R′为验证码,R′=1时则通过验证码测试,R′=0时则未通过验证码测试,(a,b)、(a+w,b)、(a,b+l)和(a+w,b+l)分别表示第三基础数据集Dp的矩形标签左下角的坐标,右下角的坐标、左上角的坐标和右上角的坐标,w为第三基础数据集Dp的矩形标签的宽,l为第三基础数据集Dp的矩形标签的长,γ为常数,表示输入标签的误差,γ越大,所能接受的误差越大。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明提供了一种利用改进验证码收集带标签的数据集的方法,首先收集目前开源的数据集未收录对象的图片作为第一基础数据集D1、未标注的图片作为未标注数据集,并对第一基础数据集进行标注和增强处理,合并出一个多特征的数据集,并提出一种基于上述增强后的数据集中利用矩形标注这些对象或者特征标签的新型验证码的方法,通过判定用户输入的矩形标签是否在可接受范围内,若正确,则保存验证图片和用户输入的标签作为数据集的一部分,反之验证失败,则重新测试直到成功。本发明所收集的数据集效率极高,成本低,数据集质量高,解决了现有技术中的方法存在的数据集生成效率低的技术问题,并且采用的由用户标记出的矩形标签是否在一定可接受误差内满足设置好的矩形标签来判断是否通过测试的方法,可以解决目前验证码被机器视觉破解而导致失效的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的利用改进验证码收集带标签的数据集的方法的具体流程图;
图2是本发明实施例中部分带标签的基础数据集图片D1示意图。
图3是本发明实施例中经位移处理后的部分带标签的图片示意图。
图4是本发明实施例中经旋转处理后的部分带标签的图片示意图。
图5是本发明实施例中经亮度处理后的部分带标签的图片示意图。
图6是本发明实施例中经缩放处理后的部分带标签的图片示意图。
具体实施方式
本发明是要解决目前验证码被机器视觉破解而导致失效以及目前有标注数据集生成效率低导致类别不充分的问题,提出了一种基于验证码的辅助新数据集标注的方法。
本发明的主要构思如下:
提供一种利用改进验证码收集带标签的数据集的方法,首先收集并标注大量的现有开源数据集未收录的对象或者是一些物体的不常见多样化的特征,并对这些图像进行位移、旋转、亮度和缩放的图像增强处理以及合并出一个多特征的数据集,其次提出一种基于上述数据集中利用矩形标注这些对象或者特征标签的新型验证码的方法,该方法判定用户输入的标签是否在可接受范围内,若正确,则保存图像和用户输入的标签作为数据集的一部分,反之验证失败,则重新测试直到成功。本发明所收集的数据集效率极高,成本低,数据集质量高。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种利用改进验证码收集带标签的数据集的方法,该方法包括:
S1:手动收集目前开源的数据集未收录对象的图片作为第一基础数据集D1、未标注的图片作为未标注数据集DU,其中,未标注数据集包含基础数据集中的对象;
S2:对收集的基础数据集中的图片进行标注,得到第二基础数据集D2
S3:将第一基础数据集图片和第二基础数据集标签进行合并,得到第三基础数据集Dp
S4:对第三基础数据集进行数据增强处理,得到增强后的数据集D;
S5:从增强后的数据集D中随机选出预设数量的带有标签的图片作为验证图片,从未标注数据集DU中随机选出相同数量的图片作为待标注图片;
S6:输入验证图片的矩形标签,通过判断验证图片的矩形标签的左上角的坐标、左下角的坐标以及和右下角的坐标是否在可接受范围,判定验证是否通过,将验证码作为是否验证通过的标识,当验证码的值为1时,表示验证通过,当验证码的值为0时,表示验证未通过;
S7:当验证码的值为0时,则返回步骤S5重新选择验证图片和待标注图片,当验证码的值为1时,则基于带有标签的图片的标签、由用户所标记的DU上的矩形标签的左上角的坐标、左下角的坐标以及右下角的坐标对待标注图片进行标注,直到未标注数据集DU的所有图片被标注。
具体来说,S1中第一基础数据集、未标注数据集都是手动收集的,第一基础数据集中的对象包含已经标注的和未标注的图片,且未标注数据集中得包含D1中的对象是指,如果收集并标注标签了数张绝缘子图像作为D1,那么Du就包含其他绝缘子的图片,该绝缘子图片是没有标签的,这样做的目的是让大量使用验证码的用户来辅助给Du打上标签。
S4中的数据增强处理包括位移、旋转等,对第三基础数据集进行数据增强处理,可以增强数据集的鲁棒性以及降低后续训练过拟合的几率。
S5中随机选出的带有标签的图片的数量可以根据实际情况进行设置,例如1、2、3等等。随机选出的待标注图片的数量与带有标签的图片的数量相同。并且,增强后的数据集D带有标签的图片与未标注数据集DU中未标注的图片具有对应关系,数据集D有一张某种类型的标注图片,则未标注数据集则对应有一张该种类型的未标注图片。
请参见图1,为利用改进验证码收集带标签的数据集的方法的具体流程图。请参见图2,为第一基础数据集中部分带有标签的图片,这些图片的大小为M×N像素。
在一种实施方式中,S2中的标注方式为:
D2=((a,b),(a+w,b),(a,b+l),(a+w,b+l))
其中(a,b)为第二基础数据集D2的矩形标签的左下角的坐标,w为第二基础数据集D2的矩形标签的宽,l为第二基础数据集D2的矩形标签的长,(a+w,b)、(a,b+l)和(a+w,b+l)分别表示第二基础数据集D2的矩形标签右下角的坐标、左上角的坐标和右上角的坐标。
在一种实施方式中,S4具体包括:
S4.1:对第三基础数据集进行位移处理,得到位移处理后的数据集;
S4.2:对第三基础数据集进行旋转处理,得到旋转处理后的数据集;
S4.3:对第三基础数据集进行亮度处理,得到亮度处理后的数据集;
S4.4:对第三基础数据集进行缩放处理,得到缩放处理后的数据集;
S4.5:将位移处理后的数据集、旋转处理后的数据集、亮度处理后的数据集以及缩放处理后的数据集合并为增强后的数据集D。
在一种实施方式中,S4.1中的位移处理方式为:
DS=[((1+α)a,(1+α)b),(α(a+w),(1+α)b),((1+α)a,α(b+l)),(α(a+w),α(b+l))]
其中,Ds为位移处理后的数据集,(a,b),(a+w,b),(a,b+l),(a+w,b+l)表示第三基础数据集Dp,a为第三基础数据集Dp的矩形标签左下角点的横坐标,b为第三基础数据集Dp的矩形标签左下角点的纵坐标,w为第三基础数据集Dp的矩形标签的宽度,l为第三基础数据集Dp的矩形标签的长度,α为常数且0<α<1,表示为平移的程度,α越小,平移程度越大。
具体来说,图像平移后会导致图像另一侧的缺失,因此复制图像最靠缺失侧的像素直到铺满缺失的部分,处理方式为:
Ri1=Ri2=...=RiM
其中Ri1为图片最靠近平移侧的像素点,且1≤i≤N。
如图3所示,为本实施例方式中经位移处理后的部分带标签的图片。
在一种实施方式中,S4.2中的旋转处理方式为:
DF=[(2a+w-DPx),(2b+l-DPy)]
其中,DF为旋转处理后的数据集,(DPx,DPy)为第三基础数据集上任意一点的坐标。
具体来说,以非中心点为基准点的旋转会导致图像的缺失,处理方式同位移处理中处理缺失图像的方法。a为第三基础数据集Dp的矩形标签左下角点的横坐标,b为第三基础数据集Dp的矩形标签左下角点的纵坐标,w为第三基础数据集Dp的矩形标签的宽度,l为第三基础数据集Dp的矩形标签的长度。
如图4所示,为本实施例方式中旋转处理后的部分带标签的图片。
在一种实施方式中,S4.3中的亮度处理方式为:
DR,G,B=((1+β)R,(1+β)G,(1+β)B)
其中,DR,G,B为亮度处理后的数据集,R、G、B分别为基础数据集图片的红、绿、蓝三种颜色通道的值,β为常数,其中-1<β<1且β≠0,当β<0时,β越小图像越灰暗,当β>0时,β越大图像越鲜艳。
如图5所示,为本实施例方式中亮度处理后的部分带标签的图片。
在一种实施方式中,S4.4中的缩放处理方式为:
Figure BDA0002598409260000081
其中,Dz为缩放处理后的数据集,Ri、Gi、Bi为数据集图像中第i个像素的RGB值,i=1,2,...MN-1。
如图6所示,为本发明经缩放处理后的部分带标签的图片。
在一种实施方式中,S6具体包括:
由用户所标记的DU上的矩形标签的左上角(x1,y1)、左下角(x2,y2)和右下角(x3,y3)点的坐标,判断是否通过验证码测试,判断方式如下:
Figure BDA0002598409260000091
其中R′为验证码,R′=1时则通过验证码测试,R′=0时则未通过验证码测试,(a,b)、(a+w,b)、(a,b+l)和(a+w,b+l)分别表示第三基础数据集Dp的矩形标签左下角的坐标,右下角的坐标、左上角的坐标和右上角的坐标,w为第三基础数据集Dp的矩形标签的宽,l为第三基础数据集Dp的矩形标签的长,γ为常数,表示输入标签的误差,γ越大,所能接受的误差越大。
具体来说,一般取γ=0.2。若S6中R′=0,则需要重新执行S5和S6;若R′=1,则返回被选择的待标注图片的大小M×N、被检测物体或者特征的名称、左上角(x1,y1)、左下角(x2,y2)、右下角(x3,y3)和右上角(x3,y1),将这些数据记录为Dxml。当数据集DU的所有图片全部被标记上了Dxml,则该数据集收集并标注完毕,记为Dnew
本发明具有降低验证码被破解几率并更加容易区分人类和机器的优点,在此基础上提供了一种低成本高效率的数据集标注收集的方法,具体表现如下:
1)本发明提出了一种通过由用户标记出的矩形标签是否在一定可接受误差内满足设置好的矩形标签来判断是否通过测试的方法,解决了目前验证码被机器视觉破解而导致失效的问题。
2)本发明提出了一种利用改进验证码收集带标签的数据集的方式来由大量用户标记数据集特征的方法,增加了大量带有标签的图片,解决了目前有标注数据集类别不充分的问题。
本发明中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.一种利用改进验证码收集带标签的数据集的方法,其特征在于,包括:
S1:手动收集目前开源的数据集未收录对象的图片作为第一基础数据集
Figure 297268DEST_PATH_IMAGE002
、未标注的图片作为未标注数据集
Figure DEST_PATH_IMAGE003
,其中,未标注数据集包含基础数据集中的对象;
S2:对收集的基础数据集中的图片进行标注,得到第二基础数据集
Figure 895608DEST_PATH_IMAGE004
S3:将第一基础数据集图片和第二基础数据集标签进行合并,得到第三基础数据集
Figure DEST_PATH_IMAGE005
S4:对第三基础数据集进行数据增强处理,得到增强后的数据集D;
S5:从增强后的数据集D中随机选出预设数量的带有矩形标签的图片作为验证图片,从未标注数据集
Figure 5647DEST_PATH_IMAGE006
中随机选出相同数量的图片作为待标注图片;
S6:输入验证图片的矩形标签,通过判断矩形标签的左上角的坐标、左下角的坐标以及右下角的坐标是否在可接受范围,判定验证是否通过,将验证码作为是否验证通过的标识,当验证码的值为1时,表示验证通过,当验证码的值为0时,表示验证未通过;
S7:当验证码的值为0时,则返回步骤S5重新选择验证图片和待标注图片,当验证码的值为1时,则基于带有矩形标签的图片的标签、由用户所标记的
Figure 613214DEST_PATH_IMAGE006
上的矩形标签的左上角的坐标、左下角的坐标以及右下角的坐标对待标注图片进行标注,直到未标注数据集
Figure 554625DEST_PATH_IMAGE003
的所有图片被标注;
其中,S2中的标注方式为:
Figure 855026DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE009
为第二基础数据集
Figure 904890DEST_PATH_IMAGE010
的矩形标签的左下角的坐标,
Figure DEST_PATH_IMAGE011
为第二基础数据集
Figure 988253DEST_PATH_IMAGE010
矩形标签的宽,
Figure 784170DEST_PATH_IMAGE012
为第二基础数据集
Figure 6204DEST_PATH_IMAGE010
矩形标签的长,
Figure DEST_PATH_IMAGE013
分别表示第二基础数据集
Figure 543365DEST_PATH_IMAGE010
矩形标签右下角的坐标、左上角的坐标和右上角的坐标;
S4具体包括:
S4.1:对第三基础数据集进行位移处理,得到位移处理后的数据集;
S4.2:对第三基础数据集进行旋转处理,得到旋转处理后的数据集;
S4.3:对第三基础数据集进行亮度处理,得到亮度处理后的数据集;
S4.4:对第三基础数据集进行缩放处理,得到缩放处理后的数据集;
S4.5:将位移处理后的数据集、旋转处理后的数据集、亮度处理后的数据集以及缩放处理后的数据集合并为增强后的数据集D。
2.如权利要求1所述的收集带标签的数据集的方法,其特征在于,S4.1中的位移处理方式为:
Figure DEST_PATH_IMAGE015
其中,
Figure 442137DEST_PATH_IMAGE016
为位移处理后的数据集,
Figure DEST_PATH_IMAGE017
表示第三基础数据集
Figure 748353DEST_PATH_IMAGE018
的矩形标签的坐标,
Figure DEST_PATH_IMAGE019
为第三基础数据集
Figure 62660DEST_PATH_IMAGE018
的矩形标签左下角点的横坐标,
Figure 149434DEST_PATH_IMAGE020
为第三基础数据集
Figure 449965DEST_PATH_IMAGE018
的矩形标签左下角点的纵坐标,
Figure DEST_PATH_IMAGE021
为第三基础数据集
Figure 876267DEST_PATH_IMAGE018
的矩形标签的宽度,
Figure 158213DEST_PATH_IMAGE022
为矩第三基础数据集
Figure 483015DEST_PATH_IMAGE018
的形标签的长度,
Figure DEST_PATH_IMAGE023
为常数且
Figure 774188DEST_PATH_IMAGE024
,表示为平移的程度,
Figure DEST_PATH_IMAGE025
越小,平移程度越大。
3.如权利要求1所述的收集带标签的数据集的方法,其特征在于,S4.2中的旋转处理方式为:
Figure DEST_PATH_IMAGE027
其中,
Figure 461521DEST_PATH_IMAGE028
为旋转处理后的数据集,
Figure DEST_PATH_IMAGE029
为第三基础数据集上任意一点的坐标,
Figure 179947DEST_PATH_IMAGE030
为第三基础数据集
Figure DEST_PATH_IMAGE031
的矩形标签左下角点的横坐标,
Figure 647838DEST_PATH_IMAGE032
为第三基础数据集
Figure 555751DEST_PATH_IMAGE031
的矩形标签左下角点的纵坐标,
Figure DEST_PATH_IMAGE033
为第三基础数据集
Figure 222224DEST_PATH_IMAGE031
的矩形标签的宽度,
Figure 111552DEST_PATH_IMAGE012
为第三基础数据集
Figure 145367DEST_PATH_IMAGE031
的矩形标签的长度。
4.如权利要求1所述的收集带标签的数据集的方法,其特征在于,S4.3中的亮度处理方式为:
Figure DEST_PATH_IMAGE035
其中,
Figure 981605DEST_PATH_IMAGE036
为亮度处理后的数据集,R、G、B分别为基础数据集图片的红、绿、蓝三种颜色通道的值,
Figure DEST_PATH_IMAGE037
为常数,其中
Figure 971426DEST_PATH_IMAGE038
,当
Figure DEST_PATH_IMAGE039
时,
Figure 234918DEST_PATH_IMAGE037
越小图像越灰暗,当
Figure 270876DEST_PATH_IMAGE040
时,
Figure 458274DEST_PATH_IMAGE037
越大图像越鲜艳。
5.如权利要求1所述的收集带标签的数据集的方法,其特征在于,S4.4中的缩放处理方式为:
Figure 642217DEST_PATH_IMAGE042
其中,
Figure DEST_PATH_IMAGE043
为缩放处理后的数据集,
Figure 811031DEST_PATH_IMAGE044
Figure DEST_PATH_IMAGE045
Figure 6388DEST_PATH_IMAGE046
为数据集图像中第
Figure DEST_PATH_IMAGE047
个像素的RGB值,
Figure 731899DEST_PATH_IMAGE048
6.如权利要求1所述的收集带标签的数据集的方法,其特征在于,S6具体包括:
由用户所标记的
Figure 493051DEST_PATH_IMAGE006
上的矩形标签的左上角
Figure DEST_PATH_IMAGE049
、左下角
Figure 895082DEST_PATH_IMAGE050
和右下角
Figure DEST_PATH_IMAGE051
点的坐标,判断是否通过验证码测试,判断方式如下:
Figure DEST_PATH_IMAGE053
其中
Figure 249840DEST_PATH_IMAGE054
为验证码,
Figure 293888DEST_PATH_IMAGE054
=1时则通过验证码测试,
Figure 925858DEST_PATH_IMAGE054
=0时则未通过验证码测试,
Figure DEST_PATH_IMAGE055
分别表示第三基础数据集
Figure 436473DEST_PATH_IMAGE031
的矩形标签左下角的坐标,右下角的坐标、左上角的坐标和右上角的坐标,
Figure 668741DEST_PATH_IMAGE033
为第三基础数据集
Figure 1633DEST_PATH_IMAGE031
的矩形标签的宽,
Figure 737377DEST_PATH_IMAGE012
为第三基础数据集
Figure 763101DEST_PATH_IMAGE031
的矩形标签的长,
Figure 217085DEST_PATH_IMAGE056
为常数,表示输入标签的误差,
Figure 822510DEST_PATH_IMAGE056
越大,所能接受的误差越大。
CN202010716558.5A 2020-07-23 2020-07-23 一种利用改进验证码收集带标签的数据集的方法 Active CN111935106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010716558.5A CN111935106B (zh) 2020-07-23 2020-07-23 一种利用改进验证码收集带标签的数据集的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010716558.5A CN111935106B (zh) 2020-07-23 2020-07-23 一种利用改进验证码收集带标签的数据集的方法

Publications (2)

Publication Number Publication Date
CN111935106A CN111935106A (zh) 2020-11-13
CN111935106B true CN111935106B (zh) 2022-05-13

Family

ID=73315312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010716558.5A Active CN111935106B (zh) 2020-07-23 2020-07-23 一种利用改进验证码收集带标签的数据集的方法

Country Status (1)

Country Link
CN (1) CN111935106B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112926566B (zh) * 2021-02-26 2023-06-30 南京信息工程大学 一种基于网页验证码的图像标注方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169491A (zh) * 2011-03-25 2011-08-31 暨南大学 一种多数据集中重复记录动态检测方法
CN109063456A (zh) * 2018-08-02 2018-12-21 浙江大学 图像型验证码的安全性检测方法及系统
WO2020006964A1 (zh) * 2018-07-06 2020-01-09 北京字节跳动网络技术有限公司 图像检测方法和装置
CN111309222A (zh) * 2019-11-28 2020-06-19 苏宁金融科技(南京)有限公司 一种滑块验证码的滑块缺口定位及拖动轨迹生成方法
CN111310155A (zh) * 2019-11-28 2020-06-19 苏宁金融科技(南京)有限公司 一种用于滑块验证码自动识别的系统架构及实现方法
CN111382750A (zh) * 2020-03-05 2020-07-07 北京网众共创科技有限公司 图形验证码识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169491A (zh) * 2011-03-25 2011-08-31 暨南大学 一种多数据集中重复记录动态检测方法
WO2020006964A1 (zh) * 2018-07-06 2020-01-09 北京字节跳动网络技术有限公司 图像检测方法和装置
CN109063456A (zh) * 2018-08-02 2018-12-21 浙江大学 图像型验证码的安全性检测方法及系统
CN111309222A (zh) * 2019-11-28 2020-06-19 苏宁金融科技(南京)有限公司 一种滑块验证码的滑块缺口定位及拖动轨迹生成方法
CN111310155A (zh) * 2019-11-28 2020-06-19 苏宁金融科技(南京)有限公司 一种用于滑块验证码自动识别的系统架构及实现方法
CN111382750A (zh) * 2020-03-05 2020-07-07 北京网众共创科技有限公司 图形验证码识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Study of the Curve Fitting Algorithm for NC Machining Graphics;Xu Jishui et al.;《ICCSE》;20130428;全文 *
基于Servlet的图形验证码研究与实现;张振会等;《仪器仪表》;20091231;全文 *
基于多图层的图形验证码生成技术研究;胡征兵等;《计算机与现代化》;20110215;全文 *

Also Published As

Publication number Publication date
CN111935106A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
CN109902622B (zh) 一种用于登机牌信息验证的文字检测识别方法
CN111160352B (zh) 一种基于图像分割的工件金属表面文字识别方法及系统
CN110598686B (zh) 发票的识别方法、系统、电子设备和介质
CN106951832B (zh) 一种基于手写字符识别的验证方法及装置
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN101196994A (zh) 图片内容识别方法及识别系统
CN112418216B (zh) 一种复杂自然场景图像中的文字检测方法
CN110675940A (zh) 病理图像标注方法、装置、计算机设备及存储介质
CN108509988B (zh) 一种试卷分数自动统计方法、装置、电子设备及存储介质
CN111079641B (zh) 作答内容识别方法、相关设备及可读存储介质
TWI703508B (zh) 字元影像識別方法與系統
CN111814576A (zh) 一种基于深度学习的购物小票图片识别方法
CN111935106B (zh) 一种利用改进验证码收集带标签的数据集的方法
CN111753120A (zh) 一种搜题的方法、装置、电子设备和存储介质
JP2000285190A (ja) 帳票識別方法および帳票識別装置および記憶媒体
CN110647956A (zh) 一种联合二维码识别的发票信息提取方法
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN113344826A (zh) 图像处理方法、装置、电子设备及存储介质
CN112686243A (zh) 智能识别图片文字的方法、装置、计算机设备及存储介质
CN110717492A (zh) 基于联合特征的图纸中字符串方向校正方法
CN111046754B (zh) 一种文字识别方法、装置及计算机可读存储介质
CN111046770A (zh) 一种照片档案人物自动标注方法
CN111274863A (zh) 一种基于文本山峰概率密度的文本预测方法
CN108062548B (zh) 一种盲文方自适应定位方法及系统
CN114926829A (zh) 一种证件检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Wang Shuqing

Inventor after: Dun Weichao

Inventor after: Zhang Zipeng

Inventor after: Zhang Ziyan

Inventor after: Liu Yifan

Inventor after: Qing Yihui

Inventor after: Wang Chenxi

Inventor after: Lan Tianze

Inventor after: Zhang Pengfei

Inventor after: Huang Jianfeng

Inventor after: Wang Niantao

Inventor before: Wang Shuqing

Inventor before: Zhang Zipeng

Inventor before: Liu Yifan

Inventor before: Qing Yihui

Inventor before: Wang Chenxi

Inventor before: Lan Tianze

Inventor before: Zhang Pengfei

Inventor before: Huang Jianfeng

Inventor before: Wang Niantao

Inventor before: Dun Weichao

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230317

Address after: 430205 1st Floor and 3rd Floor of Building/Unit/1-4th Floor/No. 1, Industrial Robot Industrialization R&D and Manufacturing Base (all for their own use), No. 16, Liufangyuan Heng Road, Donghu New Technology Development Zone, Wuhan, Hubei Province

Patentee after: WUHAN FENJIN INTELLIGENT MACHINE Co.,Ltd.

Address before: 430068 No. 28 Nanli Road, Hongshan District, Wuhan City, Hubei Province

Patentee before: HUBEI University OF TECHNOLOGY