CN110647712A - 一种人工智能学习库的标记数据生成方法 - Google Patents

一种人工智能学习库的标记数据生成方法 Download PDF

Info

Publication number
CN110647712A
CN110647712A CN201910902629.8A CN201910902629A CN110647712A CN 110647712 A CN110647712 A CN 110647712A CN 201910902629 A CN201910902629 A CN 201910902629A CN 110647712 A CN110647712 A CN 110647712A
Authority
CN
China
Prior art keywords
user
verification information
keyword
information
marking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910902629.8A
Other languages
English (en)
Inventor
廖律超
郑雨馨
邹复民
潘正祥
李升波
杨海燕
郭峰
蔡祈钦
刘洁锐
陈必俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian University of Technology
Original Assignee
Fujian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian University of Technology filed Critical Fujian University of Technology
Priority to CN201910902629.8A priority Critical patent/CN110647712A/zh
Publication of CN110647712A publication Critical patent/CN110647712A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种人工智能学习库的标记数据生成方法,属于人工智能技术领域。一种人工智能学习库的标记数据生成方法,包括以下步骤:步骤S1、随机发给多个用户验证信息让用户标记;步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(t),即P(a)=k/n,并将得到的P(a)值从大到小排列;步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。将未标记的数据(图片,语音,文本等)作为网站或平台的登陆验证信息,用户在登陆网站等操作是通过输入验证信息完成数据标记。

Description

一种人工智能学习库的标记数据生成方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种人工智能学习库的标记数据生成方法。
背景技术
在人工智能领域中,通常使用的学习方法是监督学习,监督学习是将大量训练数据打上标记,机器通过学习后能够捕捉到这些具有相同标注的数据的共同特征,从而可以识别机器没有见过的测试数据,这些用于训练和测试的数据都是某种或多种属性的标记数据。数据的标记是机器学习中非常重要的一环,目前标记数据主要通过数据标记从业人员为数据打上标签的方式生成,标记工作重复枯燥。
发明内容
本发明的目的是提供一种人工智能学习库的标记数据生成方法,将未标记的数据(图片,语音,文本等)作为网站或平台的登陆验证信息,用户在登陆网站等操作是通过输入验证信息完成数据标记。
本发明的上述技术目的是通过以下技术方案实现的:一种人工智能学习库的标记数据生成方法,包括以下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
验证信息是用来区别用户是人还是程序的一种方法,是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中,验证信息的形式可以是给定一张图片,一段语音或一段文字,让用户进行场景或者语境描述,给出主要的关键字。所述验证信息的标记是指用户描述所述验证信息的内容,所述验证信息设有关键词t,所述验证信息中至少含有一个关键词t,所述关键词t用于判断用户描述的是否正确。N为自设定阈值,保证样本数量足够大,当超过N个人对该验证信息进行关键词描述时,选择P(a)最高的反馈信息a,将其标记为关键词t并作为验证信息的标记,P(a)表示n个候选人在对某一验证信息进行描述时,验证信息标记得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。
作为本发明的优选,用户在注册,登陆,支付时,发送验证信息。
作为本发明的优选,验证信息为图片,语音或文字。
作为本发明的优选,对用户进行置信度评估,所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户,验证信息是有标记的,用户在网站输入验证信息的次数达到一定阈值且用户输入验证信息的正确率达到一定阈值,用户置信度高,列为候选人。
作为本发明的优选,用户成为候选人后,发送给候选人标记的验证信息是随机的。
用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户,这些验证信息是有标记的。用户在网站做验证信息的次数需要达到一定阈值(即输入验证信息的次数足够多),用户输入验证信息的正确率需要达到一定阈值(即用户输入验证信息的正确率要高),那么该用户在对未标记的验证信息进行描述时,他的置信度就较高,可列为候选人。用户成为候选人后,给用户的验证信息可以是有标记的也可以是没有标记的。当网站给未标记的验证信息时,无论用户输入什么关键词都可以通过。网站发送给候选人的验证信息是否标记具有随机性,候选人输入的验证信息可能是标记过的也可能是没有标记过的。
作为本发明的优选,验证信息标记为关键词t时,关键词t为输入该验证信息的正确答案,对用户进行评估,若输入验证信息为关键词t,则置信度上升,若输入关键词不为t,则置信度下降。
验证信息标记以后,该关键词t就成为了输入验证信息的正确答案,对历史做过该验证信息的用户进行评估,若用户给出的关键词为t,那么用户置信度上升,若用户给出的关键词不为t,则用户置信度下降。
附图说明
图1为本发明系统流程图。
具体实施例
以下结合附图对本发明做进一步详细说明。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
如图1所示,一种人工智能学习库的标记数据生成方法,包括以下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
验证信息是用来区别用户是人还是程序的一种方法,是用户在网站进行登陆、注册或支付等操作之前的一种安全措施。在本发明中,用户在注册,登陆,支付时,发送验证信息,验证信息的形式可以是给定一张图片,一段语音或一段文字,验证信息的标记是指用户描述验证信息的内容,验证信息设有关键词t,验证信息中至少含有一个关键词t, 让用户进行场景或者语境描述,给出主要的关键词t,关键词t用于判断用户描述的是否正确。N为自设定阈值,保证样本数量足够大,当超过N个人对该验证信息进行关键词描述时,选择P(a)最高的反馈信息a,将其标记为关键词t并作为验证信息的标记,P(a)表示n个候选人在对某一验证信息进行描述时,验证信息标记得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。
在本发明中先对用户进行置信度评估,用户置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标记的用户,这些验证信息是有标记的,用户在网站做验证信息的次数需要达到一定阈值(即输入验证信息的次数足够多),用户输入验证信息的正确率需要达到一定阈值(即用户输入验证信息的正确率要高),那么该用户在对未标记的验证信息进行描述时,他的置信度就较高,可列为候选人。用户成为候选人后,当用户需要进行注册,登陆,支付时,随机发送验证信息给该用户,给用户的验证信息可以是有标记的也可以是没有标记的,若验证信息未标记,则让候选人对验证信息进行关键词描述。当网站给未标记的验证信息时,无论用户输入什么关键词都可以通过,网站的验证信息是否标记具有随机性,用户输入的验证信息可能是标记过的也可能是没有标记过的。将该验证信息发给需要输入验证信息的其他候选人,让他们对该验证信息进行标记,用户对该验证信息标记之后得到反馈信息a(a为a1,a2,a3…),反馈信息a出现的次数k(k为k1,k2,k3…)与用户个数n的比值为P(a),即P(a)=k/n。当对该验证信息标记的人数大于N,N为自定义阈值,则将max P(a)对应的反馈信息a标记为关键词t,否则继续将该验证信息发给候选人进行标记,重复上述操作。验证信息标记以后,该关键词t就成为了输入验证信息的正确答案,对历史做过该验证信息的用户进行评估,若用户给出的关键词为t,那么用户置信度上升,若用户给出的关键词不为t,则用户置信度下降。

Claims (6)

1.一种人工智能学习库的标记数据生成方法,其特征在于,包括如下步骤:
步骤S1、随机发给多个用户验证信息让用户标记;
步骤S2、用户标记验证信息后得到多个反馈信息a,反馈信息a出现的次数k与用户个数n的比值为P(a),即P(a)=k/n,并将得到的P(a)值从大到小排列;
步骤S3、判断n与N,若n>N,则将max P(a)对应的反馈信息a标记为关键词t,否则,返回步骤S1,N为自定义阈值。
2.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,用户在注册,登陆,支付时,发送验证信息。
3.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,验证信息为图片,语音或文字。
4.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,对用户进行置信度评估,所述置信度评估是通过用户历史输入验证信息的情况来找出适合进行数据标注的用户,验证信息是有标记的,用户在网站输入验证信息的次数达到一定阈值,用户输入验证信息的正确率达到一定阈值,用户置信度高,列为候选人。
5.根据权利要求4所述的一种人工智能学习库的标记数据生成方法,其特征在于,用户成为候选人后,发送给候选人标记的验证信息是随机的。
6.根据权利要求1所述的一种人工智能学习库的标记数据生成方法,其特征在于,验证信息标记为关键词t时,关键词t为输入该验证信息的正确答案,对用户进行评估,若输入验证信息为关键词t,则置信度上升,若输入关键词不为t,则置信度下降。
CN201910902629.8A 2019-09-24 2019-09-24 一种人工智能学习库的标记数据生成方法 Pending CN110647712A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910902629.8A CN110647712A (zh) 2019-09-24 2019-09-24 一种人工智能学习库的标记数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910902629.8A CN110647712A (zh) 2019-09-24 2019-09-24 一种人工智能学习库的标记数据生成方法

Publications (1)

Publication Number Publication Date
CN110647712A true CN110647712A (zh) 2020-01-03

Family

ID=69011140

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910902629.8A Pending CN110647712A (zh) 2019-09-24 2019-09-24 一种人工智能学习库的标记数据生成方法

Country Status (1)

Country Link
CN (1) CN110647712A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032900A1 (en) * 2016-07-27 2018-02-01 International Business Machines Corporation Greedy Active Learning for Reducing Labeled Data Imbalances
CN109961154A (zh) * 2019-04-09 2019-07-02 福建工程学院 一种人工智能学习库的标记数据生成方法
CN110097870A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180032900A1 (en) * 2016-07-27 2018-02-01 International Business Machines Corporation Greedy Active Learning for Reducing Labeled Data Imbalances
CN110097870A (zh) * 2018-01-30 2019-08-06 阿里巴巴集团控股有限公司 语音处理方法、装置、设备和存储介质
CN109961154A (zh) * 2019-04-09 2019-07-02 福建工程学院 一种人工智能学习库的标记数据生成方法

Similar Documents

Publication Publication Date Title
CN108229130B (zh) 一种验证方法及装置
CN106934275B (zh) 一种基于个人信息的口令强度评测方法
CA2676395C (en) Controlling access to computer systems and for annotating media files
CN107169063B (zh) 一种基于社交信息的用户属性预测方法与系统
CN106874253A (zh) 识别敏感信息的方法及装置
CN104766001A (zh) 检测和破坏captcha自动化脚本以及防止图像刮削
CN110781460A (zh) 版权认证方法、装置、设备、系统及计算机可读存储介质
CN103164698A (zh) 指纹库生成方法及装置、待测文本指纹匹配方法及装置
CN107872323B (zh) 一种基于用户信息检测的口令安全性评估方法及系统
CN110222513B (zh) 一种线上活动的异常监测方法、装置及存储介质
CN112989414B (zh) 基于宽度学习的移动业务数据脱敏规则生成方法
Khan et al. Cyber security using arabic captcha scheme.
CN106910135A (zh) 用户推荐方法及装置
CN111079433B (zh) 一种事件抽取方法、装置及电子设备
US20210117552A1 (en) Detection of common patterns in user generated content with applications in fraud detection
CN107451247A (zh) 用户识别方法及装置
CN110647712A (zh) 一种人工智能学习库的标记数据生成方法
Kumar et al. Design and comparison of advanced color based image CAPTCHAs
CN109961154A (zh) 一种人工智能学习库的标记数据生成方法
CN113992390A (zh) 一种钓鱼网站的检测方法及装置、存储介质
CN112990147A (zh) 一种涉政图像的识别方法、装置、电子设备及存储介质
Yu et al. HoneyGAN: creating indistinguishable honeywords with improved generative adversarial networks
CN113255361B (zh) 语音内容的自动检测方法、装置、设备以及存储介质
CN116611057B (zh) 数据安全检测方法及其系统
CN117150477A (zh) 基于机器学习的代码库密码检测系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200103

RJ01 Rejection of invention patent application after publication