CN108364018A - 一种标注数据的保护方法、终端设备和系统 - Google Patents

一种标注数据的保护方法、终端设备和系统 Download PDF

Info

Publication number
CN108364018A
CN108364018A CN201810075018.6A CN201810075018A CN108364018A CN 108364018 A CN108364018 A CN 108364018A CN 201810075018 A CN201810075018 A CN 201810075018A CN 108364018 A CN108364018 A CN 108364018A
Authority
CN
China
Prior art keywords
labeled data
data
labeled
guard method
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810075018.6A
Other languages
English (en)
Inventor
张昊
孙鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology Beijing USTB
Original Assignee
University of Science and Technology Beijing USTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology Beijing USTB filed Critical University of Science and Technology Beijing USTB
Priority to CN201810075018.6A priority Critical patent/CN108364018A/zh
Publication of CN108364018A publication Critical patent/CN108364018A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种标注数据的保护方法、终端设备和系统,其中,该保护方法包括:获取用于人工智能模型训练的标注数据;对标注数据的至少部分内容进行加密,以得到可干扰模型训练的样本数据。本发明能够实现在标注数据的交易过程中,一方面满足持有数据的用户在交易对方购买该数据之前需要将数据展示给对方的需求,另一方面又满足持有数据的用户不希望自己的数据在对方购买之前被对方得到的需求。

Description

一种标注数据的保护方法、终端设备和系统
技术领域
本发明属于人工智能技术领域,涉及一种标注数据的保护方法、终端设备和系统。
背景技术
近年来人工智能技术得到了飞速发展并逐步应用到更多的行业和领域中,其中的原因是机器学习作为一个分支得到了突破性的进展。机器学习方法作为人工智能的一个分支,其具体特征在于能够通过训练数据的增加而不断提升人工智能任务的性能。也就是说,人工智能技术的发展来自于将任务建立在利用更多的数据的方法之上。例如,机器学习中的一个分支深度学习就能够通过不断使用更多的训练数据,得到了传统人工智能方法无法达到的水平,进而使得过去只能停留在实验室的技术可以在工业和民用领域得到实际应用。
因此,可以用于训练人工智能模型的数据变得越来越有价值。但是,在实现本发明的过程中,发明人发现现有技术中至少存在以下技术问题:
在一些领域,通用的数据可以轻易获得,例如通过互联网存储的各种信息,可以得到海量的数据。然而,随着人工智能应用领域的扩大,一个重要的问题逐渐凸显出来。在一些专业领域,用于训练的数据并不容易获得,而且数量非常稀少。例如,可以用于癌症诊断的数据需要一个真实的病人才能获得,一个定制化的服务需要根据定制的需求积累很多年才能使得数据量足够大。因此,标注数据无论是对于购买方还是卖方都意味着很高的价值,在标注数据的交易过程中,持有数据的用户在对方购买该数据之前需要将数据展示给对方,而持有数据的用户又不希望自己的数据在对方购买之前被对方得到,那么如何在数据交易的展示中保护数据是一个苛待解决的问题。
发明内容
(一)发明目的
本发明的目的是提供一种能够在标注数据展示过程中对标注数据进行保护的保护方法、终端设备和系统。
(二)技术方案
为解决上述问题,本发明的第一方面提供了一种标注数据的保护方法,包括:获取用于人工智能模型训练的标注数据;对标注数据的至少部分内容进行加密,以得到可干扰模型训练的样本数据。
可选地,对所述标注数据的至少部分内容进行加密包括:对所述标注数据的预分类进行调整。
可选地,对所述标注数据的至少部分内容进行加密包括:
确定所述标注数据的对抗噪声;
采用所述对抗噪声对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。
可选地,所述保护方法包括:
对所述标注数据,确定至少一个不同于其预分类的替代分类;
获取所述标注数据从所述预分类到所述替代分类的代价函数;
基于所述代价函数,采用反向传播算法计算一调整向量;
使用所述调整向量对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。
可选地,所述保护方法还包括:计算调整后标注数据在所述替代分类下的代价函数值,在所述代价函数值未达到阈值时,根据再次计算的调整向量继续对所述标注数据的至少部分内容进行调整。
可选地,所述样本数据相对于所述标注数据的调整幅度为0.01%-0.7%。
可选地,对标注数据的至少部分内容进行加密包括:
对整个标注数据包或对随机选取的一份或多份标注数据进行加密;
其中,对于选取的每份标注数据,针对整体或部分信息进行加密。
可选地,每一所述标注数据的替代分类不同。
可选地,采用随机分配方式为每一所述标注数据分配所述替代分类。
可选地,在得到可干扰所述模型训练的样本数据的步骤后,还包括:
发送所述样本数据;
当接收到确认购买消息时,发送所述标注数据;
接收所述标注数据的交易金额。
根据本发明的另一个方面,提供一种终端设备,包括:获取模块,用于获取用作人工智能模型训练的标注数据;加密模块,用于对标注数据进行加密,以得到可干扰模型训练的样本数据。
可选地,所述加密模块包括:预分类调整子模块,用于对所述标注数据的预分类进行调整。
可选地,所述加密模块包括:
对抗噪声确定子模块,用于确定所述标注数据的对抗噪声;
预分类调整子模块,用于采用所述对抗噪声对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。
可选地,所述对抗噪声确定子模块包括替代分类确定单元、替代分类确定单元和调整向量计算单元:
替代分类确定单元,用于对所述标注数据,确定至少一个不同于其预分类的替代分类;
代价函数获取单元,用于获取所述标注数据从所述预分类到所述替代分类的代价函数;
调整向量计算单元,用于基于所述代价函数,采用反向传播算法计算一调整向量;
所述预分类调整子模块,进一步用于使用所述调整向量对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。
可选地,所述对抗噪声确定子模块还包括:
代价函数值计算单元,用于计算调整后标注数据在所述替代分类下的代价函数值;
所述预分类调整子模块,进一步用于在所述代价函数值未达到阈值时,根据再次计算的调整向量继续对所述标注数据的至少部分内容进行调整。
可选地,所述样本数据相对于所述标注数据的调整幅度为0.01%-0.7%。
可选地,所述加密模块包括:加密子模块,用于对整个标注数据包或对随机选取的一份或多份标注数据进行加密,其中,对于选取的每份标注数据,针对整体或部分信息进行加密。
可选地,所述替代分类确定模块还用于,确定每一所述标注数据的替代分类均不同。
可选地,所述替代分类确定模块还用于,采用随机分配方式为每一所述标注数据分配所述替代分类。
可选地,还包括:
发送模块,用于发送所述样本数据;以及当接收到确认购买消息时,发送所述标注数据;
接收模块,用于接收所述标注数据的交易金额。
根据本发明的又一方面,提供一种标注数据的保护系统,包括前述任一种终端设备,还包括一种服务器和购买客户端;终端设备,用于发送标注数据以及样本数据至服务器;服务器,用于将接收到的样本数据转发至购买客户端,和转发确认购买消息至终端设备,以及在接收到标注数据时转发相应金额至终端设备,且将标注数据转发至购买客户端;购买客户端,用于接收样本数据和标注数据,以及发送确认购买消息至服务器。
根据本发明实施例的另一个方面,提供一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行上述任一种标注数据的保护方法。
根据本发明实施例的另一个方面,提供一种计算机程序产品,计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一种标注数据的保护方法。
(三)有益效果
本发明的上述技术方案具有如下有益的技术效果:通过对标注数据进行加密处理,得到可干扰人工智能模型训练的样本数据。在交易时,将样本数据发送至购买方,购买方在接收到样本数据时,通过肉眼几乎观察不到标注数据和样本数据的差异,不会影响购买方检验数据标注质量和标注效果,但如果样本数据被用于人工智能模型训练,则会使人工智能模型将样本数据误分类到错误类别中,而对于标注数据持有方的用户来说,在标注数据交易过程中能够避免购买方在拿到标注数据之后不付款的问题。因此,本发明能够实现在标注数据的交易过程中,一方面满足持有数据的用户在对方购买该数据之前需要将数据展示给对方的需求,另一方面满足持有数据的用户不希望自己的数据在对方购买之前被对方得到的需求,即既能够保证购买方对于标注数据的检验需求,又能够实现对用户持有的标注数据进行保护。
附图说明
图1是现有技术中一种数据交易系统的架构示意图;
图2是根据本发明一实施例的一种标注数据的保护方法的流程示意图;
图3是本发明另一实施例的一种标注数据的保护方法的流程示意图;
图4是本发明又一实施例的一种标注数据的保护方法的流程示意图;
图5是本发明又一实施例的一种标注数据的保护方法的流程示意图;
图6(a)是本发明一示例中介绍的原始图片的示意图;
图6(b)是本发明一示例中介绍的对抗噪声图片的示意图;
图6(c)是本发明一示例中介绍的增加了调整向量的原始图片的示意图;
图7是本发明又一实施例的一种标注数据的保护方法的流程示意图;
图8示例性地给出一种标注数据的保护方法的流程示意图;
图9是本发明一实施例的一种终端设备的结构示意图;
图10是本发明一实施例的一种终端设备中加密模块的结构示意图;
图11是本发明另一实施例的一种终端设备中加密模块的结构示意图;
图12是本发明一实施例的一种终端设备中对抗噪声确定单元的一种具体实施方式的结构示意图;
图13是本发明一实施例的一种终端设备中对抗噪声确定单元的另一种具体实施方式的结构示意图;
图14是本发明一实施例的一种终端设备中加密模块的结构示意图;
图15是本发明一实施例的一种终端设备的结构示意图;
图16是本发明一实施例的一种标注数据的保护系统的结构示意图;
图17是本发明一实施例的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在介绍本发明实施例之前,请允许先介绍一下下述实施例中将会用到的术语:
标注数据:指经过标注后的可以用于人工智能模型训练的数据。
标注数据的交易系统:包括服务器,以及与服务器通过网络连接的至少一个购买客户端和至少一个终端设备,其中,购买客户端是指有购买标注数据需求的客户端,终端设备是指持有标注数据并在服务器上有待卖数据申请的客户端,服务器是为购买客户端和终端设备提供标注数据交易平台。
图1是现有技术中包括一个服务器、一个购买客户端和一个终端设备的交易系统的架构图。
如图1所示,现有技术中的交易方法包括:购买客户端发送标注数据购买请求至服务器;服务器向在服务器中有待卖数据申请的终端设备转发购买请求;终端设备接收到服务器转发过来的购买请求后,将自身持有的标注数据发送至服务器,并由服务器转发至购买客户端;购买客户端接收到这些标注数据后,检查标注数据的标注效果和标注质量,如果确定购买,则向服务器付款;服务器将付款的金额转至终端设备。至此,完成整个标注数据的交易过程。
上述标注数据的交易方法能够很好地为购买客户端和终端设备提供数据交易平台,并为一些专业领域用来训练人工智能模型提供训练数据。
但是,上述标注数据的交易方法也存在若干缺陷。例如:终端设备在接收到服务器转发的购买请求后,将自身持有的标注数据发送至服务器,并由服务器转发至购买客户端之后,由于购买客户端此时已经能够得到标注数据,因此如果购买客户端不向服务器付款,那么对于终端设备来说,意味着很大的损失,而对于数据交易平台来说,也会失去持有标注数据这样的用户。
因此,如何在标注数据交易过程的展示中保护标注数据是一个苛待解决的问题。发明人通过对现有技术的缺陷进行研究,发现可以通过以下实施例的方法对标注数据进行处理,再展示给购买客户端,在这一过程中,标注数据处理的特点是购买客户端在拿到处理后标注数据时,只能查看标注数据而不能将其用于人工智能模型进行训练,因为将处理后标注数据进行人工智能模型训练时会出错。
本发明以下所有实施例仍然基于图1所示数据交易系统的架构所提出,即包括购买客户端、服务器和终端设备三者,应理解的是,本发明实施例不限于一个购买客户端和一个终端设备,可以是多个购买客户端和多个终端设备,也不限定必须由服务器来完成交易,由交易双方的设备直接交互而实现交易的方式也是本申请可选实施例之一。本发明不同于现有技术的是,本发明不直接将标注数据发送至购买客户端,而是对终端设备持有的标注数据进行加密处理,再将加密处理后的标注数据传递至购买客户端用于展示,购买客户端能够检验加密后标注数据的标注效果和标注质量,但却无法将加密处理后的标注数据用于人工智能模型训练,因为在将加密处理后的标注数据用于人工智能模型训练会导致其误分类。具体实施过程请参见如下所介绍的所有实施例,需要说明的是,在本发明以下所介绍的实施例中提到的终端设备可以是各种智能手机,也可以是平板电脑(如ipad等)和掌上电脑等移动通信设备,凡是具有处理器和显示器的电子产品均可以应用至本发明实施例。
图2是本发明一实施例的一种标注数据的保护方法的流程示意图。
如图2所示,本实施例的保护方法包括如下步骤S201-S204:
S201,获取用于人工智能模型训练的标注数据;
S202,对标注数据的至少部分内容进行加密,以得到可干扰模型训练的样本数据。
作为一种可选的实施方式,在对标注数据的至少部分内容进行加密时,可以是对标注数据包(即本次交易涉及的全部标注数据)进行加密,也可以是对标注数据包中的一份或多份标注数据进行加密得到样本数据。进一步地,在对标注数据加密时,也可以是在标注数据包中随机选取一份或多份标注数据进行加密处理。更进一步地,在对一份标注数据加密时,可以是对标注数据的全部内容进行加密,还可以是对标注数据的部分内容进行加密,例如:当标注数据为图片时,可以是对整张图片进行加密,也可以是对图片中的部分区域进行加密。又例如:在图片中叠加像素点,可以是在整个图片区域中叠加像素点,也可只对图片的部分区域叠加像素点。
加密以后得到的样本数据能够用于展示给购买客户端,且能够干扰人工智能模型训练,使其产生误分类,进一步地,在将样本数据发送至购买客户端后,购买客户端能够通过肉眼查看到样本数据,且观察到的样本数据的类别与标注数据的类别一致,但样本数据不能用于人工智能模型训练,若用于人工智能模型训练,则会出现误分类的问题。例如:标注数据为一张猫的图片,在通过本发明实施例的方法进行处理后,通过人的肉眼观察还是猫,但对于人工智能模型来说,却无法将其正确分类,即将猫分类为其他类别,比如玉米、大象或者狮子等等。
进一步地,终端设备对标注数据的至少部分内容进行加密是通过对标注数据的预分类进行调整,来获得干扰模型训练的样本数据,以使人工智能模型对其误分类,从而完成加密过程。标注数据的预分类是指其在人工智能模型下的正确分类结果,例如:标注数据为一张猫的图片,则标注数据的预分类是指猫。进一步地,对标注数据的预分类进行调整,是指将标注数据的预分类调整为其他类别,比如调整为玉米、大象或者狮子等类别。这样,调整后的类别作为人工智能模型的输出,对应的其输入就是样本数据,该样本数据能够干扰人工智能模型的训练,导致将其误分类为玉米、大象或者狮子等类别。调整的类别可以由用户来设定,然后基于设定的调整类别训练人工智能模型,达到干扰购买方人工智能模型训练的目的。其中,人工智能模型可以是神经网络。
可选的,对标注数据的至少部分内容进行加密的过程可以是预先执行,在加密好之后存储,进而在交易需要时再将其发送给交易对方。也可以是在交易过程中接收到购买需求时再进行加密。但前者相对后者来说,能够节省交易时间。
图3是本发明一实施例的一种标注数据的保护方法的流程示意图。
如图3所示,该实施例的保护方法包括如下步骤S301-S302:
S301,确定标注数据的对抗噪声;
其中,对抗噪声是指对标注数据能够形成细微干扰,但不会被人类视觉发现的噪声。
S302,采用对抗噪声对标注数据的预分类进行调整。
步骤S302的结果是得到样本数据,该样本数据可干扰人工智能模型的训练,导致将其错误分类,即分类至用户想要的目标类别下。。
作为一种可选的实施方式,在寻找对抗噪声时,可以通过设定一个噪声期望值,以及在人工智能模型中添加一个新的代价函数,和获取该代价函数关于输入的标注数据的梯度。进而对该代价函数采用梯度下降法来进行逐步优化,每一次优化都能够使得人工智能对于添加了噪声的标注数据的分类接近于目标类别,当代价函数达到了阈值(由用户来设定,例如为99%),就停止优化,此时认为寻找到了对抗噪声。进一步地,终端设备在对标注数据的预分类进行调整的过程中,包括两种情况,即标注数据可能经过第一次调整后就能够达到期望结果,但也可能需要经过一次以上的调整才能达到期望结果。这两种情况分别对应以下图4和图5所示的实施例:
图4是本发明一实施例的一种标注数据的保护方法的流程示意图。
如图4所示,该实施例的保护方法包括如下步骤S401-S404:
S401,对标注数据,确定至少一个不同于其预分类的替代分类;
其中,预分类的概念可参见上一实施例的介绍,替代分类是指用于替代标注数据的预分类的分类,例如:标注数据的预分类为猫,替代分类可以设定为玉米、大象或者狮子等等。替代分类可以是人为设定,还可以是随机或者通过一定的规则设定替代分类。
S402,获取标注数据在从预分类到替代分类的代价函数;
代价函数是用于计算人工智能模型输出值与期望值(用户想要达到的目标值)之间的误差,常用的代价函数是二次代价函数,也可以是交叉熵代价函数。在本发明实施例中代价函数表示标注数据输入人工智能模型后在替代分类下的输出值与用户想要在该替代分类下达到的期望值之间的误差。
S403,基于代价函数,采用反向传播算法计算一调整向量;
S404,使用调整向量对标注数据的预分类进行调整。
在介绍该实施例时,请允许先介绍一下反向传播算法的原理,反向传播算法的原理包括如下3个步骤:
(1)将训练集数据输入到人工智能模型的输入层,经过隐藏层,最后达到输出层并输出结果,是人工智能模型的前向传播过程;
(2)由于人工智能模型的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;
(3)在反向传播的过程中,根据误差调整各种参数(包括权重等参数)的值;不断迭代上述过程,直至收敛。
不同的是,在本发明实施例中,第(3)步中不是根据误差调整人工智能模型神经网络层的权重,而是根据误差调整输入人工智能模型的标注数据,即在反向传播过程中,是根据误差计算一调整向量,然后将该调整向量进行反向传播调整标注数据的预分类,也就是给标注数据添加一调整向量,得到可干扰人工智能模型训练的样本数据,该样本数据在输入人工智能模型后,能够使得人工智能模型对其进行误分类,并达到期望值。
下面通过举例对上述图3和图4介绍的实施例进行详细说明:
步骤1:假设标注数据为一张图片,记为图片A,以图片A识别举例来说,模型训练对其分类的识别结果通常表现为:分类X1,置信度95%;分类X2,置信度10%,……。此时为了干扰模型训练,设置一个分类识别结果的期望值,比如分类X2,置信度99%,……,即期望得到一个像素图片B(对抗噪声),使得图片A与图片B叠加后得到的图片C(样本数据)在输入人工智能模型后能够满足上述分类识别结果的期望值。
步骤2:为达到设置的期望值,需要首先使用代价函数计算将图片A的分类X2从置信度10%调整到99%的代价函数值,根据该代价函数值计算得到一调整向量V1,使用调整向量V1对图片A进行调整,得到图片A1。
步骤3:由于单次调整不一定能准确满足期望,需要看图片A1的分类识别结果,比如第一次调整后图片A2的分类结果为:分类X2,置信度55%;……,如果其能够满足期望,则认为图片A1是样本数据;如果其不满足期望,则需要返回步骤2,即再次计算代价函数值,随后再次计算得到调整向量V2,使用调整向量V2对图片A1进行再次调整,直到得到图片Ai(经过第i次调整后的图片,i≥1)的分类识别结果满足期望,此时多次调整向量的叠加即为对抗噪声B,图片Ai即为样本数据图片C。
这里,代价函数值的阈值通常为0,即分类X2的置信度达到期望的99%;当然,也可以适当放宽,接近期望即停止迭代。
对于后续其他图片,如果期望相同,则对抗噪声B可以直接使用也可以重复上述过程再次计算得到不同的对抗噪声(基于模糊理论,大概率会得到不同的对抗噪声);在直接使用对抗噪声B至其他图片时,需要看训练结果是否满足期望,如不满足则需继续调整。
图5是本发明一实施例的一种标注数据的保护方法的流程示意图。
如图5所示,该实施例的保护方法在图4所示的实施例的基础上,还包括如下步骤S501-S503:
S501,计算调整后标注数据在替代分类下的代价函数值;
S502,在代价函数值未达到阈值时,根据再次计算的调整向量继续对标注数据的预分类进行调整;
S503,在代价函数值达到阈值时,将所有次的调整向量累计得到对抗噪声。
在该实施例中,该调整后标注数据输入人工智能模型后不能满足用户的期望值,需要经过多次迭代,直至代价函数值达到阈值时,将所有次的调整向量累加得到对抗噪声,在将对抗噪声添加至标注数据之后,就能够得到干扰模型训练的样本数据。
由于代价函数是人工智能模型输出值与期望值(用户想要达到的目标值)之间的误差,而经过每一次调整后,误差都会随之减小,因此,在这种误差取最小值时,就认为当前次调整后得到的调整向量为对抗噪声,而将当前次调整后得到的调整向量添加至标注数据后,就可以得到使人工智能模型误分类的样本数据。
下面通过举例对该实施例进行详细说明,如图6所示:
假设标注数据为一张波斯猫的图片(如图6(a)所示),记为原始图片,且已知该波斯猫图片在人工智能模型下的预分类为a类,设定烤面包机为a类的替代分类,记为b类,同时设定波斯猫图片在b类下的阈值为98%,将波斯猫的图片输入至人工智能模型后,在输出结果中得到其在a类下的代价函数值为87%,在b类下的代价函数值为7%,显然,这并不符合期望值(98%),因此,需要计算一调整向量,假设计算得到的调整向量为0.007,则将调整向量与上一次调整后图片(如图6(b)所示)相乘,得到当前调整后图片,再将其输入至人工智能模型,检测调整后图片在替代分类下的代价函数是否达到阈值,如果达到阈值,则将当前调整后图片作为样本图片(如图6(c)所示),如果未达到阈值,则重新获取代价函数,并计算一调整向量,对当前调整图片继续进行调整,直至调整后图片在人工智能模型替代分类下的代价函数值达到阈值,此时,所有次调整向量的累加即为对抗噪声,使用对抗噪声对原始图片进行调整后,即可得到样本图片。通过对图6(a)和图6(c)对比可知,二者在视觉上并无差异,但是图6(c)所示的样本图片在被应用至人工智能模型训练时,会干扰其训练(导致误分类)。
作为一种优选的实施方式,调整向量可以设定为一个不易被人察觉的微量值,以及将调整向量的元素设定为等于与输入的标注数据有关的成本函数的梯度的元素的符号。例如:使样本数据相对于标注数据的调整幅度设定为0.01%-0.7%。这样可以使得标注数据的最终更改结果(即样本数据)不会大到显而易见,从而使样本数据能够骗过人工智能模型,却在通过人眼观察时不会与标注数据差别太大,既能够保护标注数据,同时又能够满足购买客户端检查标注数据标注效果和标注质量的需求。假如调整向量是一张图片,称之为原始图片,则调整向量是对原始图片中每个像素或者部分像素进行调整,具体地,可以是对每个像素或者部分像素的颜色强度进行调整,但本发明不以此为限。
作为一种可选的实施方式,可以设定每一标注数据的替代分类不同,具体地,可以采用随机分配的方式为每一标注数据分配替代分类。例如:假设终端设备存在10份标注数据,可以是对这10份标注数据采用同一替代分类,也可以是对这10份标注数据采用10个替代分类。这样设置能够增大标注数据的加密难度,使得购买客户端破解难度增大,进一步增加标注数据的保护力度。
图7是本发明一实施例的一种标注数据的保护方法的流程图。
如图7所示,在步骤S202之后,还包括步骤S203-S204:
S203,发送样本数据;
S204,当接收到确认购买消息时,发送标注数据;
S205,接收标注数据的交易金额。在该实施例中,样本数据和标注数据可以是发送给服务器由其转发给购买客户端,也可以是直接将样本数据发送至购买客户端,同理,交易金额也可以是由购买客户端发送至服务器再将其转发至持有标注数据的用户,还可以是直接由购买客户端发送至持有标注数据的用户。
下面以包含购买客户端、终端设备和服务器的交易系统架构介绍一个完整的示例,如图8所示,包括:
S801,购买客户端向服务器发送标注数据的购买请求;
S802,服务器向在服务器上有待卖数据申请的终端设备转发购买请求;
S803,终端设备将持有的标注数据进行加密处理,得到样本数据,并上传至服务器;具体的加密处理过程可参见前述实施例;
S804,服务器将样本数据发送至购买客户端;
S805,购买客户端向服务器发送购买意向并向服务器付款;
S806,服务器向终端设备转发购买意向;
S807,终端设备将持有的标注数据发送至服务器;
S808,服务器将交易款项转至终端设备,并将标注数据转发至购买客户端。
至此,购买客户端和终端设备通过服务器完成数据交易过程,而持有标注数据的用户可以实现对标注数据的保护。
该实施例的方法与现有技术不同的是,服务器作为购买客户端与终端设备之间的交易平台,需要在接收到购买客户端发送的确认购买消息时,将其转发至有待卖数据申请的终端设备,并且在终端设备将标注数据发送过来时,将相应金额转至终端设备,然后再将标注数据转发至购买客户端。以此来避免购买客户端拿到标注数据不付款的情况,实现对标注数据的保护。进一步地,由于服务器接收到的是确认购买消息和交易款项,而服务器先仅将确认购买消息发送至持有标注数据的用户,在用户将标注数据发送至服务器之后,服务器才将交易款项转至用户,因此也避免了持有数据的用户同时拿到确认购买消息和交易款项后不发送标注数据导致购买方受到损失的情况出现,保证了标注数据交易过程的公平性,无论是对于卖方还是买方都起到了很好的保护作用,提供了一个安全的交易环境。
图9是本发明一实施例的一种终端设备的结构示意图。
如图9所示,一种终端设备,包括:
获取模块,用于获取用作人工智能模型训练的标注数据;
加密模块,用于对所述标注数据进行加密,以得到可干扰所述模型训练的样本数据。
图10是本发明一实施例的一种终端设备中加密模块的结构示意图。
如图10所示,加密模块包括:
预分类调整子模块,用于对所述标注数据的预分类进行调整。
图11是本发明一实施例的一种终端设备中加密模块的结构示意图。
如图11所示,加密模块包括:
对抗噪声确定子模块,用于确定所述标注数据的对抗噪声;
预分类调整子模块,用于采用所述对抗噪声对所述标注数据的预分类进行调整。
图12是本发明一种终端设备中预分类调整子模块或对抗噪声确定子模块的一种具体实施方式的结构示意图。
如图12所示,对抗噪声确定子模块包括替代分类确定单元、代价函数获取单元和调整向量计算单元:
替代分类确定单元,用于对所述标注数据,确定至少一个不同于其预分类的替代分类;
代价函数获取单元,用于获取所述标注数据从所述预分类到所述替代分类的代价函数;
调整向量计算单元,用于基于所述代价函数,采用反向传播算法计算一调整向量;
所述预分类调整子模块,进一步用于使用所述调整向量对所述标注数据的预分类进行调整。
图13是本发明一种终端设备中预分类调整子模块或对抗噪声确定子模块的一种具体实施方式的结构示意图。
如图13所示,对抗噪声确定子模块还包括代价函数计算单元:用于计算调整后标注数据在所述替代分类下的代价函数值;
预分类调整子模块还用于,在所述代价函数值未达到阈值时,根据再次计算的调整向量继续对所述标注数据的预分类进行调整。
进一步地,预分类调整子模块,还用于在所述代价函数值达到阈值时,将所有次的调整向量累加得到对抗噪声。
其中,样本数据相对于标注数据的调整幅度为0.01%-0.7%。
图14是本发明一实施例的一种终端设备中加密模块的结构示意图。
如图14所示,加密模块包括:
加密子模块,用于对标注数据包或随机选取一份或多份标注数据进行加密。
可选的,替代分类确定单元在确定至少一个不同于其预分类的替代分类时,是确定每一所述标注数据的替代分类均不同。
进一步地,替代分类确定单元还用于,采用随机分配方式为每一标注数据分配替代分类。
图15是本发明一实施例的一种终端设备的结构示意图。
如图15所示,该终端设备还包括:
发送模块,用于发送所述样本数据;以及当接收到确认购买消息时,发送所述标注数据;
接收模块,用于接收所述标注数据的交易金额。
需要说明的是,本发明一种终端设备是与涉及计算机程序流程的一种标注数据的保护方法一一对应的装置,由于在前已经对一种标注数据的保护方法的步骤流程进行了详细描述,在此不再对一种终端设备的实施过程进行赘述。
图16是本发明一实施例的一种标注数据的保护系统的结构示意图。
如图16所示,一种标注数据的保护系统,包括一种终端设备,还包括一种服务器和一种购买客户端;
终端设备,用于发送标注数据以及样本数据至服务器;
服务器,用于将接收到的样本数据转发至购买客户端,和转发确认购买消息至终端设备,以及在接收到标注数据时转发相应金额至终端设备,且将标注数据转发至购买客户端;
购买客户端,用于接收样本数据和标注数据,以及发送确认购买消息至服务器。
本发明实施例还提供了一种非暂态计算机可读存储介质,非暂态计算机可读存储介质存储计算机指令,计算机指令用于使计算机执行上述任一个实施例的标注数据的保护方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
如图17所示,一种执行前述方法的电子设备,包括一个或多个处理器1701以及与一个或多个处理器通信连接的存储器1702,图17中以一个处理器为例。
电子设备还可以包括:输入装置1703和输出装置1704,输入装置1703用于输入标注数据,输出装置1704用于输出样本数据。
处理器1701、存储器1702、输入装置1703和输出装置1704可以通过总线或者其他方式连接,图17中以通过总线连接为例。
存储器1702作为一种非暂态计算机可读存储介质。可用于存储非暂态软件程序、非暂态计算机可执行程序,如本发明实施例中的标注数据的保护方法对应的软件程序、指令以及模块。处理器1701通过运行存储在存储器1702中的非暂态软件程序、指令以及模块,执行标注数据的保护系统的各种功能应用以及数据处理,即实现上述方法实施例的方法步骤。
存储器1702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据标注数据的保护系统的使用所创建的数据等。此外,存储器1702可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件,闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器1702可选包括相对于处理器1701远程设置的存储器,这些远程存储器可以通过网络连接至标注数据的保护系统。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置1703可接收输入的标注数据,以及产生与标注数据的保护系统的用户设置以及功能控制有关的键信号输入。输入装置1703可以包括触摸屏、键盘等,也可以包括有线接口、无线接口等。输出装置1704可包括显示屏等显示设备。
一个或多个软件程序、指令存储在存储器1702中,当被一个或多个处理器1701执行时,执行上述任意方法实施例中的标注数据的保护方法。
在本发明实施例中,一个或多个处理器能够:执行前述任一实施方式的标注数据的保护方法。
本发明旨在保护一种标注数据的保护方法、终端设备和系统,通过对标注数据进行加密处理,得到干扰人工智能模型训练的样本数据,使其误分类,具有以下有益效果:
(1)标注数据购买方能够通过肉眼正常查看样本数据,并检验标注效果和标注质量,因为样本数据与标注数据差别很微小,通过肉眼几乎察觉不到,因此在通过肉眼查看样本数据时,是可以观察到样本数据与标注数据在预分类下的类别是一致的,对于购买方检验标注数据的标注效果和标注质量来说,不会产生影响,而购买方却无法将样本数据应用至人工智能模型去训练,因为样本数据会干扰其训练,导致误分类,这样,就能够达到保护标注数据的目的。因此,本发明能够实现在标注数据的交易过程中,一方面满足持有数据的用户在对方购买该数据之前需要将数据展示给对方的需求,另一方面又满足持有数据的用户不希望自己的数据在对方购买之前被对方得到的需求。
(2)通过为多份标注数据随机分配替代分类,使多份标注数据的替代分类不同,可以实现无规则加密,以及对标注数据的进一步保护,增大破解难度;
(3)持有标注数据的用户在使用标注数据对人工智能模型进行训练时,由于在每次迭代的过程中都是对标注数据进行调整,不是对人工智能模型的权重等参数进行调整,因此,调整后的标注数据能够干扰人工智能模型训练,使其将样本数据误分类。
(4)与现有技术不同的是,服务器作为购买客户端与终端设备之间的交易平台,需要在接收到购买客户端发送的确认购买消息时,将其转发至终端设备,并且在终端设备将标注数据发送过来时,将相应交易金额转至终端设备,然后再将标注数据转发至购买客户端。以此来避免购买客户端拿到标注数据不付款的情况,实现对标注数据的保护。
(5)由于服务器接收到的是确认购买消息和交易款项,而服务器是先将确认购买消息发送至持有标注数据的用户,在用户将标注数据发送至服务器之后,服务器才将交易款项转至用户,因此也避免了持有数据的用户在拿到确认购买消息和交易款项后不发送标注数据导致购买方受到损失的情况出现,保证了标注数据交易过程的公平性,无论是对于卖方还是买方都起到了很好的保护作用,提供了一个安全的交易环境。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (10)

1.一种标注数据的保护方法,其特征在于,包括:
获取用于人工智能模型训练的标注数据;
对所述标注数据的至少部分内容进行加密,以得到可干扰所述模型训练的样本数据。
2.根据权利要求1所述的保护方法,其特征在于,对所述标注数据的至少部分内容进行加密包括:
对所述标注数据的预分类进行调整。
3.根据权利要求1所述的保护方法,其特征在于,对所述标注数据的至少部分内容进行加密包括:
确定所述标注数据的对抗噪声;
采用所述对抗噪声对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。
4.根据权利要求2或3所述的保护方法,其特征在于,所述保护方法包括:
对所述标注数据,确定至少一个不同于其预分类的替代分类;
获取所述标注数据从所述预分类到所述替代分类的代价函数;
基于所述代价函数,采用反向传播算法计算一调整向量;
使用所述调整向量对所述标注数据的至少部分内容进行调整,以调整所述标注数据的预分类。
5.根据权利要求4所述的保护方法,其特征在于,所述保护方法还包括:
计算调整后标注数据在所述替代分类下的代价函数值,在所述代价函数值未达到阈值时,根据再次计算的调整向量继续对所述标注数据的至少部分内容进行调整。
6.根据权利要求1-5任一项所述的保护方法,其特征在于,所述样本数据相对于所述标注数据的调整幅度为0.01%-0.7%。
7.根据权利要求1或6所述的保护方法,其特征在于,对标注数据的至少部分内容进行加密包括:
对整个标注数据包或对随机选取的一份或多份标注数据进行加密;
其中,对于选取的每份标注数据,针对整体或部分信息进行加密。
8.根据权利要求4或5所述的保护方法,其特征在于,每一所述标注数据的替代分类不同。
9.根据权利要求8所述的保护方法,其特征在于,采用随机分配方式为每一所述标注数据分配所述替代分类。
10.根据权利要求1所述的保护方法,其特征在于,在得到可干扰所述模型训练的样本数据的步骤后,还包括:
发送所述样本数据;
当接收到确认购买消息时,发送所述标注数据;
接收所述标注数据的交易金额。
CN201810075018.6A 2018-01-25 2018-01-25 一种标注数据的保护方法、终端设备和系统 Pending CN108364018A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810075018.6A CN108364018A (zh) 2018-01-25 2018-01-25 一种标注数据的保护方法、终端设备和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810075018.6A CN108364018A (zh) 2018-01-25 2018-01-25 一种标注数据的保护方法、终端设备和系统

Publications (1)

Publication Number Publication Date
CN108364018A true CN108364018A (zh) 2018-08-03

Family

ID=63007098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810075018.6A Pending CN108364018A (zh) 2018-01-25 2018-01-25 一种标注数据的保护方法、终端设备和系统

Country Status (1)

Country Link
CN (1) CN108364018A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299728A (zh) * 2018-08-10 2019-02-01 深圳前海微众银行股份有限公司 联邦学习方法、系统及可读存储介质
CN110941427A (zh) * 2019-11-15 2020-03-31 珠海豹趣科技有限公司 代码生成方法及代码生成器
CN111177757A (zh) * 2019-12-27 2020-05-19 支付宝(杭州)信息技术有限公司 一种图片中隐私信息保护的处理方法及装置
WO2020125251A1 (zh) * 2018-12-17 2020-06-25 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN113111369A (zh) * 2021-04-28 2021-07-13 杭州锘崴信息科技有限公司 一种数据标注中的数据保护方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050036652A1 (en) * 2003-08-14 2005-02-17 Mustafa Kesal Watermark-based goods authentication
CN104519024A (zh) * 2013-09-29 2015-04-15 北京大学 一种数字内容分发、接收方法与系统
US20150134778A1 (en) * 2013-11-11 2015-05-14 Mitsubishi Electric Research Laboratories, Inc. Method for Determining Hidden States of Systems using Privacy-Preserving Distributed Data Analytics
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN105763518A (zh) * 2014-12-19 2016-07-13 江苏融成嘉益信息科技有限公司 一种基于b/s架构的远程数据加密方法
CN106489167A (zh) * 2014-12-22 2017-03-08 谷歌公司 数字内容的自动购买
CN106803082A (zh) * 2017-01-23 2017-06-06 重庆邮电大学 一种基于条件式生成对抗网络的在线笔迹识别方法
CN106997380A (zh) * 2017-03-21 2017-08-01 北京工业大学 基于dcgan深度网络的成像光谱图像安全检索方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050036652A1 (en) * 2003-08-14 2005-02-17 Mustafa Kesal Watermark-based goods authentication
CN104519024A (zh) * 2013-09-29 2015-04-15 北京大学 一种数字内容分发、接收方法与系统
US20150134778A1 (en) * 2013-11-11 2015-05-14 Mitsubishi Electric Research Laboratories, Inc. Method for Determining Hidden States of Systems using Privacy-Preserving Distributed Data Analytics
CN105763518A (zh) * 2014-12-19 2016-07-13 江苏融成嘉益信息科技有限公司 一种基于b/s架构的远程数据加密方法
CN106489167A (zh) * 2014-12-22 2017-03-08 谷歌公司 数字内容的自动购买
CN105404896A (zh) * 2015-11-03 2016-03-16 北京旷视科技有限公司 标注数据处理方法和标注数据处理系统
CN106803082A (zh) * 2017-01-23 2017-06-06 重庆邮电大学 一种基于条件式生成对抗网络的在线笔迹识别方法
CN106997380A (zh) * 2017-03-21 2017-08-01 北京工业大学 基于dcgan深度网络的成像光谱图像安全检索方法
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299728A (zh) * 2018-08-10 2019-02-01 深圳前海微众银行股份有限公司 联邦学习方法、系统及可读存储介质
CN109299728B (zh) * 2018-08-10 2023-06-27 深圳前海微众银行股份有限公司 基于构建梯度树模型的样本联合预测方法、系统及介质
WO2020125251A1 (zh) * 2018-12-17 2020-06-25 深圳前海微众银行股份有限公司 基于联邦学习的模型参数训练方法、装置、设备及介质
CN110941427A (zh) * 2019-11-15 2020-03-31 珠海豹趣科技有限公司 代码生成方法及代码生成器
CN110941427B (zh) * 2019-11-15 2023-10-20 珠海豹趣科技有限公司 代码生成方法及代码生成器
CN111177757A (zh) * 2019-12-27 2020-05-19 支付宝(杭州)信息技术有限公司 一种图片中隐私信息保护的处理方法及装置
CN113111369A (zh) * 2021-04-28 2021-07-13 杭州锘崴信息科技有限公司 一种数据标注中的数据保护方法及系统
CN113111369B (zh) * 2021-04-28 2022-08-12 杭州锘崴信息科技有限公司 一种数据标注中的数据保护方法及系统

Similar Documents

Publication Publication Date Title
CN108364018A (zh) 一种标注数据的保护方法、终端设备和系统
US20230123322A1 (en) Predictive Model Data Stream Prioritization
US20230176550A1 (en) Quantum, biological, computer vision, and neural network systems for industrial internet of things
US20230339108A1 (en) Machine-Learned Robot Fleet Management for Value Chain Networks
US20240144103A1 (en) Systems, methods, kits, and apparatuses for ai- driven digital twins for value chain network control towers
US20230222132A1 (en) Edge Device Query Processing of Distributed Database
US20230281533A1 (en) Demand-Responsive Raw Material Management System
US20230252383A1 (en) Robotic Fleet Resource Provisioning System
US20230114997A1 (en) Robotic Fleet Resource Provisioning
US20230078448A1 (en) Robotic Fleet Provisioning for Value Chain Networks
WO2022133330A1 (en) Robot fleet management and additive manufacturing for value chain networks
US20230102048A1 (en) Component-Inventory-Based Robot Fleet Management in Value Chain Networks
AU2022311805A1 (en) Systems and methods with integrated gaming engines and smart contracts
WO2024091687A9 (en) Systems, methods, kits, and apparatuses for managing value chain networks in system of systems
US11941796B2 (en) Evaluation system, evaluation device, evaluation method, evaluation program, and recording medium
WO2023287969A1 (en) Systems and methods with integrated gaming engines and smart contracts
CN112200382A (zh) 一种风险预测模型的训练方法和装置
Clinton Fixing American cybersecurity: Creating a strategic public-private partnership
CN113657611A (zh) 联合更新模型的方法及装置
CN108021443A (zh) 事件处理方法和装置
Jamieson et al. Developing Human-Machine Interfaces to Support Monitoring of UAV Automation
CN106600143A (zh) 股权投资筛选方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180803