CN109961154A - 一种人工智能学习库的标记数据生成方法 - Google Patents
一种人工智能学习库的标记数据生成方法 Download PDFInfo
- Publication number
- CN109961154A CN109961154A CN201910278344.1A CN201910278344A CN109961154A CN 109961154 A CN109961154 A CN 109961154A CN 201910278344 A CN201910278344 A CN 201910278344A CN 109961154 A CN109961154 A CN 109961154A
- Authority
- CN
- China
- Prior art keywords
- user
- information
- artificial intelligence
- verification information
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种人工智能学习库的标记数据生成方法,属于人工智能技术领域。一种人工智能学习库的标记数据生成方法,包括以下步骤:步骤S1、随机发给多个用户验证信息让用户标记;步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(t),即P(a)=k/n,并将得到的P(a)值从大到小排列;步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。将未标记的数据(图片,语音,文本等)作为网站或平台的登陆验证信息,用户在登陆网站等操作是通过输入验证信息完成数据标记。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种人工智能学习库的标记数据生成方法。
背景技术
在人工智能领域中,通常使用的学习方法是监督学习,监督学习是将大量训练数据打上标记,机器通过学习后能够捕捉到这些具有相同标注的数据的共同特征,从而可以识别机器没有见过的测试数据,这些用于训练和测试的数据都是某种或多种属性的标记数据。数据的标记是机器学习中非常重要的一环,目前标记数据主要通过数据标记从业人员为数据打上标签的方式生成,标记工作重复枯燥。
发明内容
本发明的目的是提供一种人工智能学习库的标记数据生成方法,将未标记的数据(图片,语音,文本等)作为网站或平台的登陆验证信息,用户在登陆网站等操作是通过输入验证信息完成数据标记。
本发明的上述技术目的是通过以下技术方案实现的:一种人工智能学习库的标记数据生成方法,包括以下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
验证信息是用来区别用户是人还是程序的一种方法,是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中,验证信息的形式可以是给定一张图片,一段语音或一段文字,让用户进行场景或者语境描述,给出主要的关键字。所述验证信息的标记是指用户描述所述验证信息的内容,所述验证信息设有关键词t,所述验证信息中至少含有一个关键词t,所述关键词t用于判断用户描述的是否正确。N为自设定阈值,保证样本数量足够大,当超过N个人对该验证信息进行关键词描述时,选择P(a)最高的反馈信息a,将其标记为关键词t并作为验证信息的标记,P(a)表示n个候选人在对某一验证信息进行描述时,验证信息标记得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。
作为本发明的优选,用户在注册,登陆,支付时,发送验证信息。
作为本发明的优选,验证信息为图片,语音或文字。
作为本发明的优选,对用户进行置信度评估,所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户,验证信息是有标记的,用户在网站输入验证信息的次数达到一定阈值且用户输入验证信息的正确率达到一定阈值,用户置信度高,列为候选人。
作为本发明的优选,用户成为候选人后,发送给候选人标记的验证信息是随机的。
用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户,这些验证信息是有标记的。用户在网站做验证信息的次数需要达到一定阈值(即输入验证信息的次数足够多),用户输入验证信息的正确率需要达到一定阈值(即用户输入验证信息的正确率要高),那么该用户在对未标记的验证信息进行描述时,他的置信度就较高,可列为候选人。用户成为候选人后,给用户的验证信息可以是有标记的也可以是没有标记的。当网站给未标记的验证信息时,无论用户输入什么关键词都可以通过。网站发送给候选人的验证信息是否标记具有随机性,候选人输入的验证信息可能是标记过的也可能是没有标记过的。
作为本发明的优选,验证信息标记为关键词t时,关键词t为输入该验证信息的正确答案,对用户进行评估,若输入验证信息为关键词t,则置信度上升,若输入关键词不为t,则置信度下降。
验证信息标记以后,该关键词t就成为了输入验证信息的正确答案,对历史做过该验证信息的用户进行评估,若用户给出的关键词为t,那么用户置信度上升,若用户给出的关键词不为t,则用户置信度下降。
附图说明
图1为本发明系统流程图。
具体实施例
以下结合附图对本发明做进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
如图1所示,一种人工智能学习库的标记数据生成方法,包括以下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
验证信息是用来区别用户是人还是程序的一种方法,是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中,用户在注册,登陆,支付时,发送验证信息,验证信息的形式可以是给定一张图片,一段语音或一段文字,验证信息的标记是指用户描述验证信息的内容,验证信息设有关键词t,验证信息中至少含有一个关键词t, 让用户进行场景或者语境描述,给出主要的关键词t,关键词t用于判断用户描述的是否正确。N为自设定阈值,保证样本数量足够大,当超过N个人对该验证信息进行关键词描述时,选择P(a)最高的反馈信息a,将其标记为关键词t并作为验证信息的标记,P(a)表示n个候选人在对某一验证信息进行描述时,验证信息标记得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。
在本发明中先对用户进行置信度评估,用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户,这些验证信息是有标记的,用户在网站做验证信息的次数需要达到一定阈值(即输入验证信息的次数足够多),用户输入验证信息的正确率需要达到一定阈值(即用户输入验证信息的正确率要高),那么该用户在对未标记的验证信息进行描述时,他的置信度就较高,可列为候选人。用户成为候选人后,当用户需要进行注册,登陆,支付时,随机发送验证信息给该用户,给用户的验证信息可以是有标记的也可以是没有标记的,若验证信息未标记,则让候选人对验证信息进行关键词描述。当网站给未标记的验证信息时,无论用户输入什么关键词都可以通过,网站的验证信息是否标记具有随机性,用户输入的验证信息可能是标记过的也可能是没有标记过的。将该验证信息发给需要输入验证信息的其他候选人,让他们对该验证信息进行标记,用户对该验证信息标记之后得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。当对该验证信息标记的人数大于N,N为自定义阈值,则将max P(a)对应的反馈信息a标记为关键词t,否则继续将该验证信息发给候选人进行标记,重复上述操作。验证信息标记以后,该关键词t就成为了输入验证信息的正确答案,对历史做过该验证信息的用户进行评估,若用户给出的关键词为t,那么用户置信度上升,若用户给出的关键词不为t,则用户置信度下降。
Claims (6)
1.一种人工智能学习库的标记数据生成方法,其特征在于,包括如下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
2.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,用户在注册,登陆,支付时,发送验证信息。
3.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,验证信息为图片,语音或文字。
4.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,对用户进行置信度评估,所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户,验证信息是有标记的,用户在网站输入验证信息的次数达到一定阈值,用户输入验证信息的正确率达到一定阈值,用户置信度高,列为候选人。
5.根据权利要求4所述的一种人工智能学习库的标记数据生成方法,其特征在于,用户成为候选人后,发送给候选人标记的验证信息是随机的。
6.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,验证信息标记为关键词t时,关键词t为输入该验证信息的正确答案,对用户进行评估,若输入验证信息为关键词t,则置信度上升,若输入关键词不为t,则置信度下降。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910278344.1A CN109961154A (zh) | 2019-04-09 | 2019-04-09 | 一种人工智能学习库的标记数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910278344.1A CN109961154A (zh) | 2019-04-09 | 2019-04-09 | 一种人工智能学习库的标记数据生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109961154A true CN109961154A (zh) | 2019-07-02 |
Family
ID=67025868
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910278344.1A Withdrawn CN109961154A (zh) | 2019-04-09 | 2019-04-09 | 一种人工智能学习库的标记数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109961154A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647712A (zh) * | 2019-09-24 | 2020-01-03 | 福建工程学院 | 一种人工智能学习库的标记数据生成方法 |
-
2019
- 2019-04-09 CN CN201910278344.1A patent/CN109961154A/zh not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647712A (zh) * | 2019-09-24 | 2020-01-03 | 福建工程学院 | 一种人工智能学习库的标记数据生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109510737B (zh) | 协议接口测试方法、装置、计算机设备和存储介质 | |
CN107239666B (zh) | 一种对医疗影像数据进行脱敏处理的方法及系统 | |
US20100031330A1 (en) | Methods and apparatuses for controlling access to computer systems and for annotating media files | |
CN110489415B (zh) | 一种数据更新方法及相关设备 | |
CN108959349B (zh) | 一种财务审计询证系统 | |
WO2020082673A1 (zh) | 发票检验方法、装置、计算设备和存储介质 | |
US20150213460A1 (en) | Continuing-education certificate validation | |
CN113935710A (zh) | 一种合同审核的方法、装置、电子设备及存储介质 | |
CN109800354A (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN111124421B (zh) | 区块链智能合约的异常合约数据检测方法和装置 | |
CN113705691B (zh) | 基于人工智能的图像标注校验方法、装置、设备及介质 | |
CN113837113A (zh) | 基于人工智能的文档校验方法、装置、设备及介质 | |
JP2011034497A (ja) | 筆跡照合システム、筆跡照合方法及び筆跡照合プログラム | |
CN109961154A (zh) | 一种人工智能学习库的标记数据生成方法 | |
CN114036264A (zh) | 一种基于小样本学习的电子邮件作者身份归属识别方法 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN105991288A (zh) | 声纹密码文本生成方法及系统 | |
CN111597805B (zh) | 一种基于深度学习审核短信文本链接的方法及装置 | |
JP2007272563A (ja) | 出席情報管理システム、出席情報管理方法、および出席情報管理プログラム | |
CN108171589A (zh) | 验证方法及装置 | |
CN113947066A (zh) | 基于asr的文本比对方法、装置、电子设备及存储介质 | |
CN107741932A (zh) | 用户数据融合方法及系统 | |
CN112528254A (zh) | 一种密码安全检测方法 | |
CN107656909A (zh) | 一种基于文档混合特征的文档相似度判定方法和装置 | |
US10140369B2 (en) | Computer implemented system and method for collating and presenting multi-format information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190702 |