CN111582405B - 一种数据标注方法及装置 - Google Patents
一种数据标注方法及装置 Download PDFInfo
- Publication number
- CN111582405B CN111582405B CN202010468281.9A CN202010468281A CN111582405B CN 111582405 B CN111582405 B CN 111582405B CN 202010468281 A CN202010468281 A CN 202010468281A CN 111582405 B CN111582405 B CN 111582405B
- Authority
- CN
- China
- Prior art keywords
- data
- marked
- verification code
- result
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 32
- 238000012795 verification Methods 0.000 claims abstract description 331
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000000034 method Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005336 cracking Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/36—User authentication by graphic or iconic representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2133—Verifying human interaction, e.g., Captcha
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请涉及数据处理技术领域,尤其涉及一种数据标注方法及装置,获取至少一个已标注数据和至少一个待标注数据,其中,所述已标注数据表征有已标注答案的数据;将所述至少一个已标注数据和所述至少一个待标注数据进行组合,生成验证码题目;获得第三方应用平台发送的针对所述验证码题目的验证码输入结果,其中,所述验证码输入结果中包括分别针对所述验证码题目中所述至少一个已标注数据和所述至少一个待标注数据的输入答案;根据所述验证码输入结果,获得所述至少一个待标注数据的标注结果,这样,通过将待标注数据以验证码的形式进行标注,能够提高对待标注数据标注时的效率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据标注方法及装置。
背景技术
目前,数据标注的应用非常广泛,例如,数据标注可以应用到人脸识别、证照识别等领域中,许多人工智能(Artificial Intelligence,AI)的训练或业务应用场景会有大量数据标注的需求,现有技术中,通常是通过人工对数据进行标注,例如,相关工作人员通过标注平台,进行专门的标注任务来获得标注的数据,现有技术中的这种方法,不仅数据标注的成本较高,且数据标注的效率较低。
发明内容
本申请实施例提供一种数据标注方法及装置,以提高数据标注的效率。
本申请实施例提供的具体技术方案如下:
一种数据标注方法,包括:
获取至少一个已标注数据和至少一个待标注数据,其中,所述已标注数据表征有已标注答案的数据;
将所述至少一个已标注数据和所述至少一个待标注数据进行组合,生成验证码题目;
获得第三方应用平台发送的针对所述验证码题目的验证码输入结果,其中,所述验证码输入结果中包括分别针对所述验证码题目中所述至少一个已标注数据和所述至少一个待标注数据的输入答案;
根据所述验证码输入结果,获得所述至少一个待标注数据的标注结果。
可选的,生成验证码题目之后,进一步包括:
将生成的验证码题目发送给第三方应用平台,以使所述第三方应用平台将所述验证码题目展示给用户并接收所述用户针对所述验证码题目输入的验证码输入结果。
可选的,根据所述验证码输入结果,获得所述至少一个待标注数据的标注结果,具体包括:
分别将所述验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定所述各个已标注数据的输入答案是否正确的校验结果;
根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果;
若所述验证结果为验证通过,则将所述验证码题目中的所述至少一个待标注数据,以及所述至少一个待标注数据的输入答案,通过所述第三方应用平台发送给管理平台,以使所述管理平台根据所述至少一个待标注数据的输入答案,对所述至少一个待标注数据进行标注,获得所述至少一个待标注数据的标注结果。
可选的,根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果,具体包括:
根据所述各个已标注数据对应的权重,确定所述各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值;
将所述第一权重分值和所述总权重分值的比值,作为所述验证码输入结果的置信度;
若确定所述置信度大于或等于预设的置信度阈值,则确定所述验证码输入结果有效,验证结果为验证通过;
若确定所述置信度小于预设的置信度阈值,则确定所述验证码输入结果无效,验证结果为验证未通过。
可选的,所述至少一个待标注数据的标注结果是所述管理平台若确定接收到的所述至少一个待标注数据的输入答案的数量大于数量阈值,且其中一个输入答案在所述至少一个待标注数据的各输入答案中的出现频率大于频率阈值,则将所述至少一个待标注数据更新为已标注数据,并将所述出现频率大于频率阈值的输入答案作为所述至少一个待标注数据的已标注答案后获得的。
可选的,所述至少一个已标注数据和所述至少一个待标注数据的类型相同或不同;
并所述类型至少包括:图像、语音和文本。
一种数据标注装置,包括:
获取模块,用于获取至少一个已标注数据和至少一个待标注数据,其中,所述已标注数据表征有已标注答案的数据;
生成模块,用于将所述至少一个已标注数据和所述至少一个待标注数据进行组合,生成验证码题目;
获得模块,用于获得第三方应用平台发送的针对所述验证码题目的验证码输入结果,其中,所述验证码输入结果中包括分别针对所述验证码题目中所述至少一个已标注数据和所述至少一个待标注数据的输入答案;
处理模块,用于根据所述验证码输入结果,获得所述至少一个待标注数据的标注结果。
可选的,生成验证码题目之后,进一步包括:
发送模块,用于将生成的验证码题目发送给第三方应用平台,以使所述第三方应用平台将所述验证码题目展示给用户并接收所述用户针对所述验证码题目输入的验证码输入结果。
可选的,处理模块具体用于:
分别将所述验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定所述各个已标注数据的输入答案是否正确的校验结果;
根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果;
若所述验证结果为验证通过,则将所述验证码题目中的所述至少一个待标注数据,以及所述至少一个待标注数据的输入答案,通过所述第三方应用平台发送给管理平台,以使所述管理平台根据所述至少一个待标注数据的输入答案,对所述至少一个待标注数据进行标注,获得所述至少一个待标注数据的标注结果。
可选的,根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果时,处理模块具体用于:
根据所述各个已标注数据对应的权重,确定所述各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值;
将所述第一权重分值和所述总权重分值的比值,作为所述验证码输入结果的置信度;
若确定所述置信度大于或等于预设的置信度阈值,则确定所述验证码输入结果有效,验证结果为验证通过;
若确定所述置信度小于预设的置信度阈值,则确定所述验证码输入结果无效,验证结果为验证未通过。
可选的,所述至少一个待标注数据的标注结果是所述管理平台若确定接收到的所述至少一个待标注数据的输入答案的数量大于数量阈值,且其中一个输入答案在所述至少一个待标注数据的各输入答案中的出现频率大于频率阈值,则将所述至少一个待标注数据更新为已标注数据,并将所述出现频率大于频率阈值的输入答案作为所述至少一个待标注数据的已标注答案后获得的。
可选的,所述至少一个已标注数据和所述至少一个待标注数据的类型相同或不同;
并所述类型至少包括:图像、语音和文本。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据标注方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据标注方法的步骤。
本申请实施例中,获取至少一个已标注数据和至少一个待标注数据,将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目,获得第三方应用平台发送的针对验证码题目的验证码输入结果,其中,验证码输入结果中包括分别针对所述验证码题目中至少一个已标注数据和至少一个待标注数据的输入答案,进而根据验证码输入结果,获得至少一个待标注数据的标注结果,这样,通过将至少一个已标注数据和至少一个待标注数据组合生成验证码题目,并根据验证码题目对应的验证码输入结果,获得至少一个待标注数据的标注结果,能够将待标注数据以验证码的形式进行标注,无需通过人工对数据进行标注,提高了数据标注的效率。
附图说明
图1为本申请实施例中一种数据标注方法的流程图;
图2为本申请实施例中数据标注的交互流程图;
图3为本申请实施例中另一种数据标注方法的流程图;
图4本申请实施例中数据标注装置的结构示意图;
图5为本申请实施例中电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,数据标注的应用领域十分广泛,例如,数据标注可以应用到人脸识别、证照识别或语音识别等领域中,并且,许多人工智能(Artificial Intelligence,AI)的模型训练或相关业务应用场景会有大量数据标注的需求,需要对待标注数据一一进行标注,现有技术中,通常是通过人工对数据进行标注,例如,相关工作人员通过管理平台,对待标注数据进行专门的标注任务,进而获得已标注对应答案的已标注数据,但是,现有技术中的这种方法,由于需要人工对数据进行维护和标注,会增加数据标注的成本,且数据标注的效率较低。
本申请实施例中,获取至少一个已标注数据和至少一个待标注数据,其中,已标注数据表征有已标注答案的数据,将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目,获得第三方应用平台发送的针对验证码题目的验证码输入结果,其中,验证码输入结果中包括分别针对验证码题目中至少一个已标注数据和至少一个待标注数据的输入答案,根据验证码输入结果,获得至少一个待标注数据的标注结果,这样,通过将至少一个已标注数据和至少一个待标注数据组合生成验证码题目,进而能够获取到对应的验证码输入结果,并根据验证码输入结果获得至少一个待标注数据的标注结果,将待标注数据以验证码的形式进行标注,无需通过人工对待标注数据进行标注,就能够实现数据标注,从而提高了数据标注的效率,且降低了数据标注的成本。
基于上述实施例,参阅图1所示,为本申请实施例中一种数据标注方法的流程图,主要应用于软件即服务(Software-as-a-Service,SaaS),具体包括:
步骤100:获取至少一个已标注数据和至少一个待标注数据。
其中,已标注数据表征有已标注答案的数据。
具体地,至少一个已标注数据和至少一个待标注数据是SaaS通过访问管理平台进而获取到的。
本申请实施例中,管理平台上设置有两个数据集,会定期维护这两个数据集,其中一个数据集为已标注数据集,已标注数据集中存储有多个已标注数据,已标注数据表征有已标注答案的数据,另一个数据集为待标注数据集,待标注数据集中存储有多个待标注数据,待标注数据表征还未标注对应答案的数据。
SaaS可以按照预设周期,访问管理平台的已标注数据集和待标注数据集,从已标注数据集中获取至少一个已标注数据,并从待标注数据集中获取至少一个待标注数据。
并且,SaaS是按照一定比例随机抽取已标注数据和待标注数据的,例如,SaaS从已标注数据集中获取3个已标注数据,并从待标注数据集中获取1个待标注数据,本申请实施例中对获取已标注数据和待标注数据的数量并不进行限定。
步骤110:将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目。
本申请实施例中,将至少一个已标注数据和至少一个待标注数据按照随机方式进行组合,生成验证码题目。
其中,随机方式表征随机的排列组合方式。
由于目前,网页或移动应用通常采用图形化验证码,但是,由于图像识别技术日益发展,因此,单一的图形化验证码很容易被AI程序破解,因此,本申请实施例中对已标注数据和待标注的类型进行扩展,已标注数据和待标注数据的类型至少包括:图像、语音和文本,并且,至少一个已标注数据和至少一个待标注数据的类型相同或不同,例如,假设验证码题目由一个已标注数据a和一个待标注数据b组成,已标注数据a的类型为文本,已标注数据b的类型为语音,本申请实施例中对已标注数据和待标注数据的类型并不进行限制。
步骤120:获得第三方应用平台发送的针对验证码题目的验证码输入结果。
其中,验证码输入结果中包括分别针对验证码题目中至少一个已标注数据和至少一个待标注数据的输入答案。
本申请实施例中,生成验证码题目之后,进一步包括:
将生成的验证码题目发送给第三方应用平台,以使第三方应用平台将验证码题目展示给用户并接收用户针对验证码题目提交的验证码输入结果。
其中,第三方应用平台可以为软件开发工具包(Software Development Kit,SDK)客户端。
本申请实施例中,在生成验证码题目之后,将生成的验证码题目发送给第三方应用平台,以使第三方应用平台将按照与验证码题目中的各个已标注数据和待标注数据的类型对应的展示方式,将验证码题目展示给用户,进而用户在获知验证码题目之后,根据验证码题目,填写对应的验证码输入结果,并将验证码输入结果提交至第三方应用平台,SaaS获得第三方应用平台发送的针对验证码题目的验证码输入结果。
本申请实施例中,当第三方应用平台接收到用户提交的验证码输入结果之后,将验证码输入结果发送给SaaS,进SaaS能够获得针对验证码题目的验证码输入结果。
步骤130:根据验证码输入结果,获得至少一个待标注数据的标注结果。
在获得验证码输入结果之后,根据验证码输入结果,获得至少一个待标注数据的标注结果,具体包括:
S1:分别将验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定各个已标注数据的输入答案是否正确的校验结果。
本申请实施例中,在获得验证码输入结果之后,分别将验证码输入结果中的各个已标注数据的输入答案与对应的获取到的已标注答案进行比对,确定各个已标注数据的输入答案是正确还是错误的,并生成校验结果。
本申请实施例中,确定各个已标注数据的输入答案是否正确的校验结果,具体包括:
A1:若确定已标注数据的输入答案与对应的已标注答案一致,则确定输入答案正确。
本申请实施例中,由于在从管理平台获取至少一个已标注数据时,同时会获取到已标注数据的题目和答案,因此,将验证码输入结果中的已标注数据对应的输入答案与获取到的对应的已标注数据答案进行比对,若确定已标注数据的输入答案与已标注数据的已标注数据答案一致,则确定该已标注数据的输入答案正确。
A2:若确定已标注数据的输入答案与对应的已标注答案不一致,则确定输入答案错误。
本申请实施例中,将验证码输入结果中的已标注数据对应的输入答案与获取到的对应的已标注数据答案进行比对,若确定已标注数据的输入答案与已标注数据的已标注答案不一致,则确定该已标注数据的输入答案错误。
S2:根据各个已标注数据的校验结果和对应的权重,确定验证码输入结果的验证结果;
执行步骤S2时,具体包括:
A1:根据各个已标注数据对应的权重,确定各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值。
本申请实施例中,根据各个标注数据的权重,确定各个已标注数据的总权重分值,即,验证码题目的总权重分值。
然后,根据校验结果,统计校验结果为输入答案正确的已标注数据的各个权重分值,并将各个输入答案正确的已标注数据对应的权重分值相加,确定校验结果为输入答案正确的已标注数据的权重分值之和,即第一权重分值。
下面对验证码题目的权重分值进行示例性阐述,参阅表1所示,为本申请实施例中验证码题目的权重分值。
表1.
数据 | 权重分值 |
已标注数据a | 4 |
已标注数据b | 3 |
已标注数据c | 3 |
待标注数据d | 0 |
总权重分值 | 10 |
如上表1所示,已标注数据a的权重分值为4,已标注数据b的权重分值为3,已标注数据c的权重分值为3,待标注数据d的权重分值为0,则总权重分值为10,若用户提交的验证码输入结果中,已标注数据a的输入答案是错误的,则确定校验结果为输入答案正确的已标注数据的第一权重分值为6。
需要说明的是,待标注数据的权重分值均为0,已标注数据的权重分值可根据实际需求进行设置。
A2:将第一权重分值和总权重分值的比值,作为验证码输入结果的置信度。
本申请实施例中,根据确定出的第一权重分值和总权重分值,将第一权重分值除以总权重分值,确定第一权重分值和总权重分值的比值,并将该比值作为验证码输入结果的置信度。
例如,假设验证码输入结果中,已标注数据a和已标注数据b的输入答案为正确,已标注数据c的输入答案为错误,且验证码输入结果的总权重分值为10,则验证码输入结果的第一权重分值为7,并根据第一权重分值和总权重分值,确定第一权重分值和总权重分值的比值为0.7,并将该比值作为验证码输入结果的置信度,则验证码输入结果的置信度为0.7。
A3:若确定置信度大于或等于预设的置信度阈值,则确定验证码输入结果有效,验证结果为验证通过。
本申请实施例中,为置信度预先设置一个置信度阈值,若确定置信度大于或等于预设置信度阈值,则确定该验证码输入结果有效,验证结果为通过。
例如,假设验证码输入结果中已标注数据a和已标注数据b的输入答案为正确,已标注数据c的输入答案为错误,且验证码输入结果的总权重分值为10,预设置信度阈值为0.65,则验证码输入结果的第一权重分值为7,并根据第一权重分值和总权重分值,确定第一权重分值和总权重分值的比值为0.7,并将该比值作为验证码输入结果的置信度,则验证码输入结果的置信度为0.7,进而可以确定验证码输入结果的置信度大于预设置信度阈值,判定该验证码输入结果有效,验证码题目的验证结果为验证通过。
A4:若确定所述置信度小于预设的置信度阈值,则确定所述验证码输入结果无效,验证结果为验证未通过。
本申请实施例中,若确定验证码输入结果的置信度小于预设的置信度阈值,则确定验证码输入结果无效,且验证结果为验证未通过。
例如,假设验证码输入结果中已标注数据b和已标注数据c的输入答案为正确,已标注数据a的输入答案为错误,且验证码输入结果的总权重分值为10,预设置信度阈值为0.65,则验证码输入结果的第一权重分值为6,并根据第一权重分值和总权重分值,确定第一权重分值和总权重分值的比值为0.6,并将该比值作为验证码输入结果的置信度,则验证码输入结果的置信度为0.6,进而可以确定验证码输入结果的置信度小于预设置信度阈值,判定该验证码输入结果无效,验证码题目的验证结果为验证未通过。
S3:若验证结果为验证通过,则将验证码题目中的至少一个待标注数据,以及至少一个待标注数据的输入答案,通过第三方应用平台发送给管理平台,以使管理平台根据至少一个待标注数据的输入答案,对至少一个待标注数据进行标注,获得至少一个待标注数据的标注结果。
本申请实施例中,SaaS可以将验证结果发送给第三方应用平台,例如,若验证结果为未验证通过,则第三方应用平台获知验证结果为未验证通过后,可以不执行其后续逻辑操作,如若为验证码登录某网站场景,未验证通过则可以提示用户未登录成功,又例如,若SaaS确定验证码题目的验证结果为验证通过,则第三方应用平台获知验证结果为验证通过后,一方面可以执行其后续逻辑操作,若确定登录成功,展示登录后的网页界面,另一方面,第三方应用平台可以将验证码题目中的至少一个待标注数据、以及至少一个待标注数据的输入答案发送给管理平台,进而管理平台根据至少一个待标注数据的输入答案,对待标注数据进行标注,获得该至少一个待标注数据的标注结果。
其中,至少一个待标注数据的标注结果是管理平台若确定接收到的至少一个待标注数据的输入答案的数量大于数量阈值,且输入答案的数量大于数量阈值的待标注数据的其中一个输入答案的出现频率大于频率阈值,则将待标注数据更新为已标注数据,并将出现频率大于频率阈值的输入答案作为对应待标注数据的已标注答案后获得的。
下面采用一个具体的例子对本申请实施例中的更新待标注数据进行详细阐述,例如,假设管理平台设定的数量阈值为10,频率阈值为80%,具体分为以下三种不同的情况。
第一种情况:输入答案的数量小于数量阈值,输入答案的其中一个输入答案的出现频率大于频率阈值。
假设管理平台获得的待标注数据X的输入答案为9个,其中,答案A的出现次数为8次,答案B的出现次数为1次,此时,虽然答案A的出现频率大于频率阈值,但是由于待标注数据X的输入答案的数量小于数量阈值,因此,在这种情况下,不会将该待标注数据X更新为已标注数据。
第二种情况:输入答案的数量大于数量阈值,且输入答案的其中一个输入答案的出现频率大于频率阈值。
假设管理平台获得的待标注数据X的输入答案为10个,其中,答案A的出现次数为8次,答案B的出现次数为2次,此时,答案A的出现频率大于频率阈值,且待标注数据X的输入答案大于数量阈值,则将待标注数据X更新为已标注数据,并将答案A作为待标注数据X的已标注答案。
第三种情况:
假设管理平台获得的待标注数据X的输入答案为10个,其中,答案A的出现次数为7次,答案B的出现次数为3次,此时,待标注数据X的输入答案的数量大于数量阈值,但是答案A的出现频率小于频率阈值,答案B的出现频率小于频率阈值,在这种情况下,虽然输入答案数量满足了数量阈值,但是答案A的出现频率仅有70%,因此,在这种情况下,不会将该待标注数据X更新为已标注数据。
本申请实施例中,由于管理平台的待标注数据集中,存储有多个待标注数据,每个待标注数据中,还可能存储有多个对应的输入答案,这些输入答案可能是相同的,也可能是不同的,因此,为待标注数据的输入答案设定一个数量阈值,若管理平台确定接收到的至少一个待标注数据的输入答案的数量大于数量阈值,则将该待标注数据更新为已标注数据,并将数量大于数量阈值的输入答案作为对应待标注数据的已标注答案,将标注后的待标注数据更新为已标注数据后就可以更新到已标注数据集中,进而可以实现不断更新已标注数据集和待标注数据集。
本申请实施例中,获取至少一个已标注数据和至少一个待标注数据,并将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目,发送给第三方应用平台,进而第三方应用平台返回针对验证码题目的验证码输入结果,根据验证码输入结果,确定验证码输入结果的验证结果,若验证结果为验证通过,则将验证码题目中的至少一个待标注数据,以及至少一个待标注数据的输入答案,通过第三方应用平台发送给管理平台,以使管理平台根据至少一个待标注数据的输入答案,对至少一个待标注数据进行标注,并生成至少一个待标注数据的标注结果,并发送给SaaS,这样,通过验证码的形式实现对待标注数据的标注,能够提高数据标注的效率,还可以并降低数据标注的成本,并且,管理平台上设置的已标注数据集和待标注数据集能够实时更新。
基于上述实施例,参阅图2所示,为本申请实施例中数据标注的交互流程图,具体包括:
步骤200:SaaS从管理平台获取至少一个已标注数据和至少一个待标注数据。
本申请实施例中,SaaS按照预设周期不断访问管理平台,并从管理平台的已标注数据集中获取至少一个已标注数据,并从待标注数据集中获取至少一个待标注数据。
步骤201:SaaS将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目。
步骤202:SaaS将生成的验证码题目发送给第三方应用平台。
步骤203:第三方应用平台将验证码题目展示给用户。
步骤204:用户针对验证码题目将验证码输入结果提交至第三方应用平台。
步骤205:第三方应用平台将针对验证码题目的验证码输入结果发送给SaaS。
步骤206:SaaS分别将验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定各个已标注数据的输入答案是否正确的校验结果。
步骤207:SaaS根据各个已标注数据对应的权重,确定各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值。
步骤208:SaaS将第一权重分值和总权重分值的比值,作为验证码输入结果的置信度。
步骤209:SaaS若确定置信度大于或等于预设的置信度阈值,则确定验证码输入结果有效,验证结果为验证通过;若确定置信度小于预设的置信度阈值,则确定验证码输入结果无效,验证结果为验证未通过。
步骤210:SaaS将验证结果发送到第三方应用平台,并第三方应用平台根据SaaS返回的验证结果确定用户是否通过验证,提示用户是否通过验证。
步骤211:SaaS若确定验证结果为验证通过,则通过第三方应用平台将验证码题目中的至少一个待标注数据,以及至少一个待标注数据的输入答案,发送至管理平台。
具体地,SaaS可以将验证通过的验证结果发送给第三方应用平台,然后第三方应用平台将验证通过的验证码题目中的至少一个待标注数据和对应的输入答案,发送至管理平台。
步骤212:管理平台根据至少一个待标注数据的输入答案,对至少一个待标注数据进行标注。
具体地,管理平台若确定接收到的至少一个待标注数据的输入答案的数量大于数量阈值,则将待标注数据更新为已标注数据,并将数量大于数量阈值的输入答案作为对应待标注数据的已标注答案。
其中,上述步骤210和步骤211的执行顺序,本申请实施例中并不进行限制。
本申请实施例中,SaaS从管理平台的已标注数据集中获取至少一个已标注数据,并从待标注数据集中获取至少一个待标注数据,将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目,并将验证码题目发送给第三方应用平台,第三方应用平台接收用户根据验证码题目提交的验证码输入结果,并将验证码输入结果发送给SaaS,SaaS根据验证码输入结果生成验证码的验证结果,若验证结果为验证通过,则将验证码题目中的至少一个待标注数据,以及至少一个待标注数据的输入答案,通过第三方应用平台发送给管理平台,管理平台根据至少一个待标注数据的输入答案,对至少一个待标注数据进行标注,获得至少一个待标注数据的标注结果,这样,将数据标注的任务以验证码的形式穿插在用户验证码交互的流程中,为第三方应用平台提供验证码功能的同时,实现对待标注的数据的标注,既可以提高数据标注的效率,降低数据标注成本,还可以增强验证码的反破解能力,提高验证码的安全性,为第三方应用提供了便利。
基于上述实施例,参阅图3所示,为本申请实施例中另一种数据标注方法的流程图,具体包括:
管理平台300:用于管理已标注数据集和待标注数据集,并根据待标注数据的输入答案,对待标注数据进行标注,获得至少一个待标注数据的标注结果,并不断更新已标注数据集和待标注数据集。
其中,已标注数据集:存储有多个已标注对应答案的已标注数据。
本申请实施例中,已知数据集为Ground Truth,例如,图片分类的数据集,每张图片对应的类别信息已存储在已标注数据集中,已标注数据集用于验证用户的输入答案的置信度。
待标注数据集:存储有多个待标注数据。
本申请实施例中,待标注数据集为Raw Data,待标注数据没有对应的答案。
SaaS310:用于从管理平台获取至少一个已标注数据和至少一个待标注数据,并将至少一个已标注数据和至少一个待标注数据进行组合,生成验证码题目,将生成的验证码题目发送给第三方应用平台。
并获得第三方应用平台发送的针对验证码题目的验证码输入结果,分别将验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定各个已标注数据的输入答案是否正确的校验结果,根据各个已标注数据的校验结果和对应的权重,确定验证码输入结果的验证结果,并将验证结果发送给第三方应用平台。
第三方应用平台320:用于将接收到的验证码题目展示给用户,并接收用户针对验证码题目提交的验证码输入结果,还用于在接收到验证结果为验证通过后,将验证码题目中的待标注数据,以及待标注数据的输入答案发送给管理平台。
本申请实施例中,已标注数据集和待标注数据集中分别包括有不同类型或相同类型的已标注数据和待标注数据,这样,可以支持多种类型的验证方式,并且,结合数据标注的需求去不断更新已标注数据集和待标注数据集,可以有效降低验证码被破解的风险,并可以大大降低数据标注的成本,此外,SaaS和第三方应用平台的SDK的设计具有开放性,因此,有利于第三方应用和移动应用去快速集成和调用,扩大用户群体,提高数据标注的效率。
基于同一发明构思,本申请实施例中还提供了一种数据标注装置,该基于数据标注装置例如可以是前述实施例中的SaaS,该基于数据标注装置可以是硬件结构、软件模块、或硬件结构加软件模块。基于上述实施例,参阅图4所示,本申请实施例中数据标注装置的结构示意图,具体包括:
获取模块400,用于获取至少一个已标注数据和至少一个待标注数据,其中,所述已标注数据表征有已标注答案的数据;
生成模块410,用于将所述至少一个已标注数据和所述至少一个待标注数据进行组合,生成验证码题目;
获得模块420,用于获得第三方应用平台发送的针对所述验证码题目的验证码输入结果,其中,所述验证码输入结果中包括分别针对所述验证码题目中所述至少一个已标注数据和所述至少一个待标注数据的输入答案;
处理模块430,用于根据所述验证码输入结果,获得所述至少一个待标注数据的标注结果。
可选的,生成验证码题目之后,进一步包括:
发送模块440,用于将生成的验证码题目发送给第三方应用平台,以使所述第三方应用平台将所述验证码题目展示给用户并接收所述用户针对所述验证码题目输入的验证码输入结果。
可选的,处理模块430具体用于:
分别将所述验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定所述各个已标注数据的输入答案是否正确的校验结果;
根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果;
若所述验证结果为验证通过,则将所述验证码题目中的所述至少一个待标注数据,以及所述至少一个待标注数据的输入答案,通过所述第三方应用平台发送给管理平台,以使所述管理平台根据所述至少一个待标注数据的输入答案,对所述至少一个待标注数据进行标注,获得所述至少一个待标注数据的标注结果。
可选的,根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果时,处理模块430具体用于:
根据所述各个已标注数据对应的权重,确定所述各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值;
将所述第一权重分值和所述总权重分值的比值,作为所述验证码输入结果的置信度;
若确定所述置信度大于或等于预设的置信度阈值,则确定所述验证码输入结果有效,验证结果为验证通过;
若确定所述置信度小于预设的置信度阈值,则确定所述验证码输入结果无效,验证结果为验证未通过。
可选的,所述至少一个待标注数据的标注结果是所述管理平台若确定接收到的所述至少一个待标注数据的输入答案的数量大于数量阈值,且其中一个输入答案在所述至少一个待标注数据的各输入答案中的出现频率大于频率阈值,则将所述至少一个待标注数据更新为已标注数据,并将所述出现频率大于频率阈值的输入答案作为所述至少一个待标注数据的已标注答案后获得的。
可选的,所述至少一个已标注数据和所述至少一个待标注数据的类型相同或不同;
并所述类型至少包括:图像、语音和文本。
基于上述实施例,参阅图5所示为本申请实施例中电子设备的结构示意图。
本申请实施例提供了一种电子设备,该电子设备可以包括处理器510(CenterProcessing Unit,CPU)、存储器520、输入设备530和输出设备540等,输入设备530可以包括键盘、鼠标、触摸屏等,输出设备540可以包括显示设备,如液晶显示器(Liquid CrystalDisplay,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。
存储器520可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器510提供存储器520中存储的程序指令和数据。在本申请实施例中,存储器520可以用于存储本申请实施例中任一种数据标注方法的程序。
处理器510通过调用存储器520存储的程序指令,处理器510用于按照获得的程序指令执行本申请实施例中任一种数据标注方法。
基于上述实施例,本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意方法实施例中的数据标注方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种数据标注方法,其特征在于,包括:
获取至少一个已标注数据和至少一个待标注数据,其中,所述已标注数据表征有已标注答案的数据;
将所述至少一个已标注数据和所述至少一个待标注数据进行组合,生成验证码题目;
获得第三方应用平台发送的针对所述验证码题目的验证码输入结果,其中,所述验证码输入结果中包括分别针对所述验证码题目中所述至少一个已标注数据和所述至少一个待标注数据的输入答案;
分别将所述验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定所述各个已标注数据的输入答案是否正确的校验结果;
根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果;
若所述验证结果为验证通过,则将所述验证码题目中的所述至少一个待标注数据,以及所述至少一个待标注数据的输入答案,通过所述第三方应用平台发送给管理平台,以使所述管理平台根据所述至少一个待标注数据的输入答案,对所述至少一个待标注数据进行标注,获得所述至少一个待标注数据的标注结果;
其中,根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果,具体包括:
根据所述各个已标注数据对应的权重,确定所述各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值;
将所述第一权重分值和所述总权重分值的比值,作为所述验证码输入结果的置信度;
若确定所述置信度大于或等于预设的置信度阈值,则确定所述验证码输入结果有效,验证结果为验证通过;
若确定所述置信度小于预设的置信度阈值,则确定所述验证码输入结果无效,验证结果为验证未通过。
2.如权利要求1所述的方法,其特征在于,生成验证码题目之后,进一步包括:
将生成的验证码题目发送给第三方应用平台,以使所述第三方应用平台将所述验证码题目展示给用户并接收所述用户针对所述验证码题目输入的验证码输入结果。
3.如权利要求1所述的方法,其特征在于,所述至少一个待标注数据的标注结果是所述管理平台若确定接收到的所述至少一个待标注数据的输入答案的数量大于数量阈值,且其中一个输入答案在所述至少一个待标注数据的各输入答案中的出现频率大于频率阈值,则将所述至少一个待标注数据更新为已标注数据,并将所述出现频率大于频率阈值的输入答案作为所述至少一个待标注数据的已标注答案后获得的。
4.如权利要求1-3任一项所述的方法,其特征在于,所述至少一个已标注数据和所述至少一个待标注数据的类型相同或不同;
并所述类型至少包括:图像、语音和文本。
5.一种数据标注装置,其特征在于,包括:
获取模块,用于获取至少一个已标注数据和至少一个待标注数据,其中,所述已标注数据表征有已标注答案的数据;
生成模块,用于将所述至少一个已标注数据和所述至少一个待标注数据进行组合,生成验证码题目;
获得模块,用于获得第三方应用平台发送的针对所述验证码题目的验证码输入结果,其中,所述验证码输入结果中包括分别针对所述验证码题目中所述至少一个已标注数据和所述至少一个待标注数据的输入答案;
处理模块,用于分别将所述验证码输入结果中的各个已标注数据的输入答案与对应的已标注答案进行比对,确定所述各个已标注数据的输入答案是否正确的校验结果;
根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果;
若所述验证结果为验证通过,则将所述验证码题目中的所述至少一个待标注数据,以及所述至少一个待标注数据的输入答案,通过所述第三方应用平台发送给管理平台,以使所述管理平台根据所述至少一个待标注数据的输入答案,对所述至少一个待标注数据进行标注,获得所述至少一个待标注数据的标注结果;
其中,所述处理模块还用于根据所述各个已标注数据的校验结果和对应的权重,确定所述验证码输入结果的验证结果时,处理模块具体用于:
根据所述各个已标注数据对应的权重,确定所述各个已标注数据的总权重分值,并确定校验结果为输入答案正确的已标注数据的第一权重分值;
将所述第一权重分值和所述总权重分值的比值,作为所述验证码输入结果的置信度;
若确定所述置信度大于或等于预设的置信度阈值,则确定所述验证码输入结果有效,验证结果为验证通过;
若确定所述置信度小于预设的置信度阈值,则确定所述验证码输入结果无效,验证结果为验证未通过。
6.如权利要求5所述的装置,其特征在于,生成验证码题目之后,进一步包括:
发送模块,用于将生成的验证码题目发送给第三方应用平台,以使所述第三方应用平台将所述验证码题目展示给用户并接收所述用户针对所述验证码题目输入的验证码输入结果。
7.如权利要求5所述的装置,其特征在于,所述至少一个待标注数据的标注结果是所述管理平台若确定接收到的所述至少一个待标注数据的输入答案的数量大于数量阈值,且其中一个输入答案在所述至少一个待标注数据的各输入答案中的出现频率大于频率阈值,则将所述至少一个待标注数据更新为已标注数据,并将所述出现频率大于频率阈值的输入答案作为所述至少一个待标注数据的已标注答案后获得的。
8.如权利要求5-7任一项所述的装置,其特征在于,所述至少一个已标注数据和所述至少一个待标注数据的类型相同或不同;
并所述类型至少包括:图像、语音和文本。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-4任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1-4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468281.9A CN111582405B (zh) | 2020-05-28 | 2020-05-28 | 一种数据标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010468281.9A CN111582405B (zh) | 2020-05-28 | 2020-05-28 | 一种数据标注方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111582405A CN111582405A (zh) | 2020-08-25 |
CN111582405B true CN111582405B (zh) | 2023-10-27 |
Family
ID=72125560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010468281.9A Active CN111582405B (zh) | 2020-05-28 | 2020-05-28 | 一种数据标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582405B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112836732B (zh) * | 2021-01-25 | 2024-04-19 | 深圳市声扬科技有限公司 | 数据标注的校验方法、装置、电子设备及存储介质 |
CN112926566B (zh) * | 2021-02-26 | 2023-06-30 | 南京信息工程大学 | 一种基于网页验证码的图像标注方法 |
CN113159234B (zh) * | 2021-05-24 | 2021-12-28 | 广州市吉华勘测股份有限公司 | 巡检图片的类别标注方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014187143A1 (en) * | 2013-05-23 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Verification method, apparatus, server and system |
CN109460652A (zh) * | 2018-11-09 | 2019-03-12 | 连尚(新昌)网络科技有限公司 | 用于标注图像样本的方法、设备及计算机可读介质 |
CN111143813A (zh) * | 2019-12-27 | 2020-05-12 | 网易(杭州)网络有限公司 | 一种验证问题的生成方法、验证方法及装置 |
-
2020
- 2020-05-28 CN CN202010468281.9A patent/CN111582405B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014187143A1 (en) * | 2013-05-23 | 2014-11-27 | Tencent Technology (Shenzhen) Company Limited | Verification method, apparatus, server and system |
CN109460652A (zh) * | 2018-11-09 | 2019-03-12 | 连尚(新昌)网络科技有限公司 | 用于标注图像样本的方法、设备及计算机可读介质 |
CN111143813A (zh) * | 2019-12-27 | 2020-05-12 | 网易(杭州)网络有限公司 | 一种验证问题的生成方法、验证方法及装置 |
Non-Patent Citations (1)
Title |
---|
沈映泉 ; 刘勇进 ; 蔡骏 ; 史晓东 ; .利用人类计算技术的语音语料库标注方法及其实现.智能系统学报.2009,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111582405A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582405B (zh) | 一种数据标注方法及装置 | |
JP6634515B2 (ja) | 自動質問応答システムにおける質問クラスタリング処理方法及び装置 | |
US11636314B2 (en) | Training neural networks using a clustering loss | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN111859140B (zh) | 一种知识推荐的方法、装置、推荐设备及可读存储介质 | |
US20210279622A1 (en) | Learning with limited supervision for question-answering with light-weight markov models | |
CN106095766A (zh) | 使用选择性重新讲话来校正话音识别 | |
CN112685550B (zh) | 智能问答方法、装置、服务器及计算机可读存储介质 | |
KR102187741B1 (ko) | 메타데이터 크라우드 소싱 시스템 및 방법 | |
CN112686051B (zh) | 语义识别模型训练方法、识别方法、电子设备、存储介质 | |
CN114819924A (zh) | 一种基于画像分析的企业信息推送处理方法及设备 | |
CN103631889A (zh) | 一种图像识别方法和装置 | |
CN110765348A (zh) | 一种热词的推荐方法、装置、电子设备及存储介质 | |
CN117709435B (zh) | 大语言模型的训练方法、代码生成方法、设备及存储介质 | |
CN112800177B (zh) | 基于复杂数据类型的faq知识库自动生成方法和装置 | |
Zhuang et al. | A bounded ability estimation for computerized adaptive testing | |
CN113780365A (zh) | 样本生成方法和装置 | |
CN110750633B (zh) | 用于确定问题的答案的方法及装置 | |
CN112419812A (zh) | 一种习题批改方法及装置 | |
CN116483948B (zh) | 基于云计算的SaaS运维管理方法、系统、装置及存储介质 | |
CN112434144A (zh) | 生成目标问题的方法、装置、电子设备和计算机可读介质 | |
CN117114475A (zh) | 基于多维度人才评估策略的综合能力测评系统 | |
CN116796730A (zh) | 基于人工智能的文本纠错方法、装置、设备及存储介质 | |
US20160217540A1 (en) | Determining a school rank utilizing perturbed data sets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |