CN112926566A - 一种基于网页验证码的图像标注方法 - Google Patents
一种基于网页验证码的图像标注方法 Download PDFInfo
- Publication number
- CN112926566A CN112926566A CN202110216837.XA CN202110216837A CN112926566A CN 112926566 A CN112926566 A CN 112926566A CN 202110216837 A CN202110216837 A CN 202110216837A CN 112926566 A CN112926566 A CN 112926566A
- Authority
- CN
- China
- Prior art keywords
- image
- data set
- lower right
- right corner
- coordinates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于网页验证码的图像标注方法,该方法依托于网页验证登录,通过用户登录对数据集进行标注。该方法在仅用对图像进行少量的标注,通过该方法可获得详细的标注信息。不仅能够获得目标的大小,同时也能获得目标做图像的坐标。本发明的图像标注方法在标注坐标计算中引入权重系数ki且限制∑ki=1,可以有效抑制远离实际标注点的坐标,使得标注信息更加准确。
Description
技术领域:
本发明属于图像处理领域,具体设计一种基于网页验证码的图像标注方法。
背景技术:
当前人工智能领域往往需要特别是目标检测领域往往需要大量带有标注的数据集,当前对数据集特别是较为冷门研究方向的标注主要依赖于科研人员进行标注,这很大程度上对科研进度产生很大影响。而目前各大网站为防止机器人恶意登录而造成的网站拥堵,纷纷推出各种人机验证方法,当前主流的方式还是利用图片验证码区分登录者是否为机器人。
常见的图像标注工作往往依赖于人工标注,有些公司利用其人机交互验证码对其进行标注,减少了人工开销,但仍存在些许不足。
当前利用验证码对数据集进行标记的解决方案有Google的人机验证方法,其将待标记图像划分为9块区域,用户需标注出含有目标物的区域。这种方法虽然较为简单,但其标注误差往往会很大,同时无法有效的区分出同一图像中不同的目标。使用标记框对目标进行标记,虽然能够很好的标记出目标物的位置跟大小,但往往需要大量的重复劳动,这将极大浪费研究者的工作时间。而一个网页往往会有大量的用户进行访问和登录,相较于将图像划分为多个区域进行标注,利用方形框对目标进行标注花费的时间并不比选取含有目标物的区域这种方法多多少,但其却能准确标注出目标物的位置和大小。
发明内容:
为解决现有技术中存在问题,本发明利用用户在登录网站时需要的人机验证方法,提出一种基于网页验证码的图像标注方法,其技术方案如下:
一种基于网页验证码的图像标注方法,该方法包括:
1)获取待标注的的图像集R中每一图像中目标数,再将待标注的图像集R划分为数据集R1和数据集R2,标注出数据集R1中各图像上的目标,该标注方法为通过左上角坐标和右下角坐标构建矩形框标注图像上的目标,每一个矩形框标注一个目标;数据集R1中的每一张图像对应形成一个矩形框数组
k为数据集R1中的图像序号;
nk为数据集R1中第k张图像上目标总数;
Xli,Yli分别为从数据集R2抽取图像第i个目标的左上角横坐标和左上角纵坐标;
Xri,Yri分别为从数据集R2抽取图像第i个目标的右下角横坐标和右下角纵坐标;
3)分别计算数组所包含的每一个矩形框与相同图像在步骤1)中形成的矩形框数组中对应矩形框的交并比IOU,若IOU>0.8的数量为nk时,该用户通过人机验证,同时将该用户返回的数组C2=[Xli,Yli,Xri,Yri],i∈[1,m]记录至数据库中,并记步骤2)中从数据集R2抽取的图像的被标注次数加1;
4)当数据集R2中任意一张图像的被标注次数大于阈值T1时,对其进行如下聚类处理:
设该被标注次数大于阈值T1的图像对应的矩形框数组B=[xli,yli,xri,yri],i的取值范围是1~m;其中,xli,yli分别为该图像第i个目标的左上角横坐标和左上角纵坐标;xri,yri分别为该图像第i个目标的右下角横坐标和右下角纵坐标;i为图像中目标序号;
5)基于该图像目标数量j,则聚类数为j,随机生成j个聚类质心(μ1,μ2,…,μj),分别计算各个矩形框中心坐标bi到聚类质心μ1,μ2,…,μj的距离Pj为中心坐标bi与j个类中距离最小的那个类,即bi∈Pj,则得到各个类所含有的矩形框中心坐标;
6)重新计算各个类的聚类质心μ1,μ2,…,μj,即计算Pj各个类中矩形框中心坐标的平均值返回步骤5,直至聚类质心坐标变化率小于阈值T2时,进入步骤7)
7)聚类结束,得到Pj各个组别中所包含的矩形框;
8)分别根据每一组别中左上角和右下角坐标的分布密度,设置该组别对应的左上角和右下角坐标的权重系数,并根据权重系数ki且∑ki=1,求出该组别对应左上角和右下角坐标,作为该组别对应最终标注坐标(x,y)=ki(xi,yi);
9)通过上述方法,得到各个组别[P1,P2,…,Pn]标注框的左上角坐标和右下角坐标[XLn,YLn,XRn,YRn],同时将该图像加入到数据集R1中用于人机验证。
优选地,所述数据集R1和数据集R2中图像数目比例为1:9。
优选地,步骤1)中所述标注采用人工标注。
优选地,步骤3)所述数据集R2抽取的图像的被标注次数初值取0。
优选地,步骤4)中所述阈值T1取[100,150]中整数。
优选地,步骤6)中所述阈值T2的取值范围是0~20。
本发明相比于现有技术具有如下有益效果
本发明依托于网页验证登录,通过用户登录对数据集进行标注。相对于其他方法,本方法在仅用对图像进行少量的标注,通过本方法后即可获得详细的标注信息。不仅能够获得目标的大小,同时也能获得目标做图像的坐标。
本发明在标注坐标计算中引入权重系数ki且限制∑ki=1,可以有效抑制远离实际标注点的坐标,使得标注信息更加准确。
附图说明:
图1为本发明的整体框架图;
图2为IOU的计算示意图;
图3为用户标注矩形框B示意图。
具体实施方式:
下面结合具体实施例及对应附图对本发明作进一步说明。
实施例一
本实施例的一种基于网页验证码的图像标注方法,如图1~图3所示,该方法包括:
1)获取待标注的的图像集R中每一图像中目标数,再将待标注的图像集R按图像数目1:9的比例划分为数据集R1和数据集R2,再人工标注出数据集R1中各图像上的目标,该标注方法为通过左上角坐标和右下角坐标构建矩形框标注图像上的目标,每一个矩形框标注一个目标;数据集R1中的每一张图像对应形成一个矩形框数组l∈[1,nk];
k为数据集R1中的图像序号;
l为图像中目标序号,nk为数据集R1中第k张图像上目标总数;
Xli,Yli分别为从数据集R2抽取图像第i个目标的左上角横坐标和左上角纵坐标;
Xri,Yri分别为从数据集R2抽取图像第i个目标的右下角横坐标和右下角纵坐标;
l为从数据集R1抽取图像中目标序号,g为从数据集R1抽取图像对应的用户标注框的总数;
i为从数据集R2抽取图像中目标序号,m为从数据集R2抽取图像对应的用户标注框的总数;
3)分别计算数组所包含的每一个矩形框与相同图像在步骤1)中形成的矩形框数组中对应矩形框的交并比IOU,若IOU>0.8的数量为nk时,该用户通过人机验证,同时将该用户返回的数组C2=[Xli,Yli,Xri,Yri],i∈[1,m]记录至数据库中,并记步骤2)中从数据集R2抽取的图像的被标注次数加1;数据集R2抽取的图像的被标注次数初值取0。
4)当数据集R2中任意一张图像的被标注次数大于阈值T1时,进行标注框分类,对其进行聚类处理,阈值T1取[100,150]中整数;该聚类处理过程如下:
设该被标注次数大于阈值T1的图像对应的矩形框数组B=[xli,yli,xri,yri],i的取值范围是1~m;其中,xli,yli分别为该图像第i个目标的左上角横坐标和左上角纵坐标;xri,yri分别为该图像第i个目标的右下角横坐标和右下角纵坐标;i为图像中目标序号;
5)基于该图像目标数量j,则聚类数为j,随机生成j个聚类质心(μ1,μ2,…,μj),分别计算各个矩形框中心坐标bi到聚类质心(μ1,μ2,…,μj)的距离Pj为中心坐标bi与j个类中距离最小的那个类,即bi∈Pj,则得到各个类所含有的矩形框中心坐标;
6)重新计算各个类的聚类质心μ1,μ2,…,μj,即计算Pj各个类中矩形框中心坐标的平均值返回步骤5,直至聚类质心坐标变化率小于阈值T2时,进入步骤7);阈值T2为每次迭代后每个类前后质心的距离,T2的取值范围是0~20。
7)聚类结束,得到Pj各个组别中所包含的矩形框;
8)在实际标注中,用户标注的位置与实际位置往往符合正态分布N(μ,σ2),故分别根据每一组别中左上角和右下角坐标的分布密度,设置该组别对应的左上角和右下角坐标的权重系数,并根据权重系数ki且∑ki=1,求出该组别对应左上角和右下角坐标,作为该组别对应最终标注坐标(x,y)=ki(xi,yi);
9)通过上述方法,得到各个组别[P1,P2,…,Pn]标注框的左上角坐标和右下角坐标[XLn,YLn,XRn,YRn],同时将该图像加入到数据集R1中用于人机验证。
Claims (6)
1.一种基于网页验证码的图像标注方法,其特征在于:该方法包括:
1)获取待标注的的图像集R中每一图像中目标数,再将待标注的图像集R划分为数据集R1和数据集R2,标注出数据集R1中各图像上的目标,该标注方法为通过左上角坐标和右下角坐标构建矩形框标注图像上的目标,每一个矩形框标注一个目标;数据集R1中的每一张图像对应形成一个矩形框数组
k为数据集R1中的图像序号;
nk为数据集R1中第k张图像上目标总数;
2)从数据集R1和数据集R2中分别随机抽取一张图像作为网页验证码,对用户进行人机验证,用户通过矩形框分别标注出抽取的两张图像上的目标,之后对应返回两个多维数组以及C2=[Xli,Yli,Xri,Yri]i∈[1,m];
Xli,Yli分别为从数据集R2抽取图像第i个目标的左上角横坐标和左上角纵坐标;
Xri,Yri分别为从数据集R2抽取图像第i个目标的右下角横坐标和右下角纵坐标;
3)分别计算数组所包含的每一个矩形框与相同图像在步骤1)中形成的矩形框数组中对应矩形框的交并比IOU,若IOU>0.8的数量为nk时,该用户通过人机验证,同时将该用户返回的数组C2=[Xli,Yli,Xri,Yri],i∈[1,m]记录至数据库中,并记步骤2)中从数据集R2抽取的图像的被标注次数加1;
4)当数据集R2中任意一张图像的被标注次数大于阈值T1时,对其进行如下聚类处理:
设该被标注次数大于阈值T1的图像对应的矩形框数组B=[xli,yli,xri,yri],i的取值范围是1~m;其中,xli,yli分别为该图像第个i目标的左上角横坐标和左上角纵坐标;xri,yri分别为该图像第i个目标的右下角横坐标和右下角纵坐标;i为图像中目标序号;
5)基于该图像目标数量j,则聚类数为j,随机生成j个聚类质心(μ1,μ2,…,μj),分别计算各个矩形框中心坐标bi到聚类质心μ1,μ2,…,μj的距离Pj为中心坐标bi与j个类中距离最小的那个类,即bi∈Pj,则得到各个类所含有的矩形框中心坐标;
6)重新计算各个类的聚类质心μ1,μ2,…,μj,即计算Pj各个类中矩形框中心坐标的平均值返回步骤5,直至聚类质心坐标变化率小于阈值T2时,进入步骤7)
7)聚类结束,得到Pj各个组别中所包含的矩形框;
8)分别根据每一组别中左上角和右下角坐标的分布密度,设置该组别对应的左上角和右下角坐标的权重系数,并根据权重系数ki且∑ki=1,求出该组别对应左上角和右下角坐标,作为该组别对应最终标注坐标(x,y)=ki(xi,yi);
9)通过上述方法,得到各个组别[P1,P2,…,Pn]标注框的左上角坐标和右下角坐标[XLn,YLn,XRn,YRn],同时将该图像加入到数据集R1中用于人机验证。
2.根据权利要求1所述的基于网页验证码的图像标注方法,其特征在于:所述数据集R1和数据集R2中图像数目比例为1:9。
3.根据权利要求1所述的基于网页验证码的图像标注方法,其特征在于:步骤1)中所述标注采用人工标注。
4.根据权利要求1所述的基于网页验证码的图像标注方法,其特征在于:步骤3)所述数据集R2抽取的图像的被标注次数初值取0。
5.根据权利要求1-4任一所述的基于网页验证码的图像标注方法,其特征在于:步骤4)中所述阈值T1取[100,150]中整数。
6.根据权利要求1-4任一所述的基于网页验证码的图像标注方法,其特征在于:步骤6)中所述阈值T2的取值范围是0~20。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110216837.XA CN112926566B (zh) | 2021-02-26 | 2021-02-26 | 一种基于网页验证码的图像标注方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110216837.XA CN112926566B (zh) | 2021-02-26 | 2021-02-26 | 一种基于网页验证码的图像标注方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926566A true CN112926566A (zh) | 2021-06-08 |
CN112926566B CN112926566B (zh) | 2023-06-30 |
Family
ID=76172179
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110216837.XA Active CN112926566B (zh) | 2021-02-26 | 2021-02-26 | 一种基于网页验证码的图像标注方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926566B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573279A (zh) * | 2018-03-19 | 2018-09-25 | 精锐视觉智能科技(深圳)有限公司 | 图像标注方法及终端设备 |
CN109523557A (zh) * | 2018-10-11 | 2019-03-26 | 郑昕匀 | 一种图像语义分割标注方法、装置及存储介质 |
US20190286942A1 (en) * | 2018-03-13 | 2019-09-19 | Recogni Inc. | Deterministic labeled data generation and artificial intelligence training pipeline |
CN110348199A (zh) * | 2019-07-17 | 2019-10-18 | 上海图趣信息科技有限公司 | 基于验证码的图片标注系统、方法、存储介质及图片识别自学习系统 |
CN111461154A (zh) * | 2019-01-22 | 2020-07-28 | 北京京东尚科信息技术有限公司 | 标注数据的方法和装置 |
CN111582405A (zh) * | 2020-05-28 | 2020-08-25 | 上海依图网络科技有限公司 | 一种数据标注方法及装置 |
CN111935106A (zh) * | 2020-07-23 | 2020-11-13 | 湖北工业大学 | 一种利用改进验证码收集带标签的数据集的方法 |
CN112200017A (zh) * | 2020-09-18 | 2021-01-08 | 深圳数联天下智能科技有限公司 | 图像处理设备 |
-
2021
- 2021-02-26 CN CN202110216837.XA patent/CN112926566B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190286942A1 (en) * | 2018-03-13 | 2019-09-19 | Recogni Inc. | Deterministic labeled data generation and artificial intelligence training pipeline |
CN112166438A (zh) * | 2018-03-13 | 2021-01-01 | 雷哥尼公司 | 确定性标记数据生成和人工智能训练途径 |
CN108573279A (zh) * | 2018-03-19 | 2018-09-25 | 精锐视觉智能科技(深圳)有限公司 | 图像标注方法及终端设备 |
CN109523557A (zh) * | 2018-10-11 | 2019-03-26 | 郑昕匀 | 一种图像语义分割标注方法、装置及存储介质 |
CN111461154A (zh) * | 2019-01-22 | 2020-07-28 | 北京京东尚科信息技术有限公司 | 标注数据的方法和装置 |
CN110348199A (zh) * | 2019-07-17 | 2019-10-18 | 上海图趣信息科技有限公司 | 基于验证码的图片标注系统、方法、存储介质及图片识别自学习系统 |
CN111582405A (zh) * | 2020-05-28 | 2020-08-25 | 上海依图网络科技有限公司 | 一种数据标注方法及装置 |
CN111935106A (zh) * | 2020-07-23 | 2020-11-13 | 湖北工业大学 | 一种利用改进验证码收集带标签的数据集的方法 |
CN112200017A (zh) * | 2020-09-18 | 2021-01-08 | 深圳数联天下智能科技有限公司 | 图像处理设备 |
Non-Patent Citations (4)
Title |
---|
MD IMRAN HOSSEN 等: "An Object Detection based Solver for Google’s Image reCAPTCHA v2", 《23RD INTERNATIONAL SYMPOSIUM ON RESEARCH IN ATTACKS, INTRUSIONS AND DEFENSES》, pages 269 - 284 * |
SHINIL KWON 等: "CAPTCHA-based image annotation", 《INFORMATION PROCESSING LETTERS》, pages 27 - 31 * |
曹伟: "众包域值标注算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 2018, pages 138 - 3173 * |
郭乔进 等: "基于目标跟踪的半自动图像标注样本生成方法", 《信息化研究》, vol. 41, no. 5, pages 23 - 27 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926566B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102096819B (zh) | 利用稀疏表示与字典学习进行图像分割的方法 | |
CN102360494B (zh) | 一种多前景目标交互式图像分割方法 | |
CN109858476B (zh) | 标签的扩充方法和电子设备 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
WO2016066042A1 (zh) | 商品图片的分割方法及其装置 | |
CN106097381B (zh) | 一种基于流形判别非负矩阵分解的目标跟踪方法 | |
CN111489387B (zh) | 遥感图像建筑物面积计算方法 | |
CN112287977B (zh) | 一种基于边界框关键点距离的目标检测方法 | |
CN102122353A (zh) | 利用增量字典学习与稀疏表示进行图像分割的方法 | |
CN113837151A (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN116933052A (zh) | 一种变电站数据化在线监测系统和方法 | |
CN116229552A (zh) | 一种基于yolov7模型的面向嵌入式硬件的人脸识别方法 | |
CN111582270A (zh) | 基于高精度的桥梁区域视觉靶标特征点的识别追踪方法 | |
CN111863135B (zh) | 一种假阳性结构变异过滤方法、存储介质及计算设备 | |
CN110007764A (zh) | 一种手势骨架识别方法、装置、系统及存储介质 | |
CN112182125B (zh) | 一种商务集聚区边界识别系统 | |
CN110287970B (zh) | 一种基于cam与掩盖的弱监督物体定位方法 | |
CN110457155B (zh) | 一种样本类别标签的修正方法、装置及电子设备 | |
CN112926566A (zh) | 一种基于网页验证码的图像标注方法 | |
CN109815889A (zh) | 一种基于特征表示集的跨分辨率人脸识别方法 | |
CN116051515A (zh) | 一种大视野半导体芯片外观缺陷检测方法 | |
CN115223003A (zh) | 基于YOLOv5的入侵检测模型的训练方法和装置 | |
CN113516158A (zh) | 基于Faster R-CNN的图模型构建方法 | |
WO2021184178A1 (zh) | 标注方法和装置 | |
CN113674360A (zh) | 一种基于协变的线结构光光平面标定方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |