CN110647712A

CN110647712A - 一种人工智能学习库的标记数据生成方法

Info

Publication number: CN110647712A
Application number: CN201910902629.8A
Authority: CN
Inventors: 廖律超; 郑雨馨; 邹复民; 潘正祥; 李升波; 杨海燕; 郭峰; 蔡祈钦; 刘洁锐; 陈必俊
Original assignee: Fujian University of Technology
Current assignee: Fujian University of Technology
Priority date: 2019-09-24
Filing date: 2019-09-24
Publication date: 2020-01-03

Abstract

本发明提供了一种人工智能学习库的标记数据生成方法，属于人工智能技术领域。一种人工智能学习库的标记数据生成方法，包括以下步骤：步骤S1、随机发给多个用户验证信息让用户标记；步骤S2、用户标记验证信息后得到多个反馈信息a，反馈信息a出现的次数k与用户个数n的比值为P(t)，即P(a)=k/n，并将得到的P(a)值从大到小排列；步骤S3、判断n与N，若n>N，则将max P(a)对应的反馈信息a标记为关键词t，否则，返回步骤S1，N为自定义阈值。将未标记的数据（图片，语音，文本等）作为网站或平台的登陆验证信息，用户在登陆网站等操作是通过输入验证信息完成数据标记。

Description

一种人工智能学习库的标记数据生成方法

技术领域

本发明涉及人工智能技术领域，具体涉及一种人工智能学习库的标记数据生成方法。

背景技术

在人工智能领域中，通常使用的学习方法是监督学习，监督学习是将大量训练数据打上标记，机器通过学习后能够捕捉到这些具有相同标注的数据的共同特征，从而可以识别机器没有见过的测试数据，这些用于训练和测试的数据都是某种或多种属性的标记数据。数据的标记是机器学习中非常重要的一环，目前标记数据主要通过数据标记从业人员为数据打上标签的方式生成，标记工作重复枯燥。

发明内容

本发明的目的是提供一种人工智能学习库的标记数据生成方法，将未标记的数据（图片，语音，文本等）作为网站或平台的登陆验证信息，用户在登陆网站等操作是通过输入验证信息完成数据标记。

本发明的上述技术目的是通过以下技术方案实现的：一种人工智能学习库的标记数据生成方法，包括以下步骤：

步骤S1、随机发给多个用户验证信息让用户标记；

步骤S2、用户标记验证信息后得到多个反馈信息a，反馈信息a出现的次数k与用户个数n的比值为P(a)，即P(a)=k/n，并将得到的P(a)值从大到小排列;

步骤S3、判断n与N，若n>N，则将max P(a)对应的反馈信息a标记为关键词t，否则，返回步骤S1，N为自定义阈值。

验证信息是用来区别用户是人还是程序的一种方法，是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中，验证信息的形式可以是给定一张图片,一段语音或一段文字，让用户进行场景或者语境描述，给出主要的关键字。所述验证信息的标记是指用户描述所述验证信息的内容，所述验证信息设有关键词t，所述验证信息中至少含有一个关键词t,所述关键词t用于判断用户描述的是否正确。N为自设定阈值，保证样本数量足够大，当超过N个人对该验证信息进行关键词描述时，选择P(a)最高的反馈信息a，将其标记为关键词t并作为验证信息的标记，P(a)表示n个候选人在对某一验证信息进行描述时，验证信息标记得到反馈信息a（a为a₁，a₂，a₃…），反馈信息a出现的次数k（k为k₁，k_2，k₃…）与用户个数n的比值为P(a)，即P(a)=k/n。

作为本发明的优选，用户在注册，登陆，支付时，发送验证信息。

作为本发明的优选，验证信息为图片，语音或文字。

作为本发明的优选，对用户进行置信度评估，所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户，验证信息是有标记的，用户在网站输入验证信息的次数达到一定阈值且用户输入验证信息的正确率达到一定阈值，用户置信度高，列为候选人。

作为本发明的优选，用户成为候选人后，发送给候选人标记的验证信息是随机的。

用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户，这些验证信息是有标记的。用户在网站做验证信息的次数需要达到一定阈值（即输入验证信息的次数足够多），用户输入验证信息的正确率需要达到一定阈值（即用户输入验证信息的正确率要高），那么该用户在对未标记的验证信息进行描述时，他的置信度就较高，可列为候选人。用户成为候选人后，给用户的验证信息可以是有标记的也可以是没有标记的。当网站给未标记的验证信息时，无论用户输入什么关键词都可以通过。网站发送给候选人的验证信息是否标记具有随机性，候选人输入的验证信息可能是标记过的也可能是没有标记过的。

作为本发明的优选，验证信息标记为关键词t时，关键词t为输入该验证信息的正确答案，对用户进行评估，若输入验证信息为关键词t，则置信度上升，若输入关键词不为t，则置信度下降。

验证信息标记以后，该关键词t就成为了输入验证信息的正确答案，对历史做过该验证信息的用户进行评估，若用户给出的关键词为t，那么用户置信度上升，若用户给出的关键词不为t，则用户置信度下降。

附图说明

图1为本发明系统流程图。

具体实施例

以下结合附图对本发明做进一步详细说明。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

如图1所示，一种人工智能学习库的标记数据生成方法，包括以下步骤：

步骤S1、随机发给多个用户验证信息让用户标记；

验证信息是用来区别用户是人还是程序的一种方法，是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中，用户在注册，登陆，支付时，发送验证信息，验证信息的形式可以是给定一张图片，一段语音或一段文字，验证信息的标记是指用户描述验证信息的内容，验证信息设有关键词t，验证信息中至少含有一个关键词t, 让用户进行场景或者语境描述，给出主要的关键词t，关键词t用于判断用户描述的是否正确。N为自设定阈值，保证样本数量足够大，当超过N个人对该验证信息进行关键词描述时，选择P(a)最高的反馈信息a，将其标记为关键词t并作为验证信息的标记，P(a)表示n个候选人在对某一验证信息进行描述时，验证信息标记得到反馈信息a（a为a₁，a₂，a₃…），反馈信息a出现的次数k（k为k₁，k_2，k₃…）与用户个数n的比值为P(a)，即P(a)=k/n。

在本发明中先对用户进行置信度评估，用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户，这些验证信息是有标记的，用户在网站做验证信息的次数需要达到一定阈值（即输入验证信息的次数足够多），用户输入验证信息的正确率需要达到一定阈值（即用户输入验证信息的正确率要高），那么该用户在对未标记的验证信息进行描述时，他的置信度就较高，可列为候选人。用户成为候选人后，当用户需要进行注册，登陆，支付时，随机发送验证信息给该用户，给用户的验证信息可以是有标记的也可以是没有标记的，若验证信息未标记，则让候选人对验证信息进行关键词描述。当网站给未标记的验证信息时，无论用户输入什么关键词都可以通过，网站的验证信息是否标记具有随机性，用户输入的验证信息可能是标记过的也可能是没有标记过的。将该验证信息发给需要输入验证信息的其他候选人，让他们对该验证信息进行标记，用户对该验证信息标记之后得到反馈信息a（a为a₁，a₂，a₃…），反馈信息a出现的次数k（k为k₁，k_2，k₃…）与用户个数n的比值为P(a)，即P(a)=k/n。当对该验证信息标记的人数大于N，N为自定义阈值，则将max P(a)对应的反馈信息a标记为关键词t，否则继续将该验证信息发给候选人进行标记，重复上述操作。验证信息标记以后，该关键词t就成为了输入验证信息的正确答案，对历史做过该验证信息的用户进行评估，若用户给出的关键词为t，那么用户置信度上升，若用户给出的关键词不为t，则用户置信度下降。

Claims

1.一种人工智能学习库的标记数据生成方法，其特征在于，包括如下步骤：

步骤S1、随机发给多个用户验证信息让用户标记；

2.根据权利要求1所述的一种人工智能学习库的标记数据生成方法，其特征在于，用户在注册，登陆，支付时，发送验证信息。

3.根据权利要求1所述的一种人工智能学习库的标记数据生成方法，其特征在于，验证信息为图片，语音或文字。

4.根据权利要求1所述的一种人工智能学习库的标记数据生成方法，其特征在于，对用户进行置信度评估，所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户，验证信息是有标记的，用户在网站输入验证信息的次数达到一定阈值，用户输入验证信息的正确率达到一定阈值，用户置信度高，列为候选人。

5.根据权利要求4所述的一种人工智能学习库的标记数据生成方法，其特征在于，用户成为候选人后，发送给候选人标记的验证信息是随机的。

6.根据权利要求1所述的一种人工智能学习库的标记数据生成方法，其特征在于，验证信息标记为关键词t时，关键词t为输入该验证信息的正确答案，对用户进行评估，若输入验证信息为关键词t，则置信度上升，若输入关键词不为t，则置信度下降。