CN113111369B - 一种数据标注中的数据保护方法及系统 - Google Patents
一种数据标注中的数据保护方法及系统 Download PDFInfo
- Publication number
- CN113111369B CN113111369B CN202110467376.3A CN202110467376A CN113111369B CN 113111369 B CN113111369 B CN 113111369B CN 202110467376 A CN202110467376 A CN 202110467376A CN 113111369 B CN113111369 B CN 113111369B
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- algorithm
- annotation
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 104
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000004364 calculation method Methods 0.000 claims description 88
- 238000002372 labelling Methods 0.000 claims description 60
- 238000007726 management method Methods 0.000 claims description 37
- 230000008569 process Effects 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 238000013523 data management Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 5
- 238000013499 data model Methods 0.000 abstract description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 238000012550 audit Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及一种数据标注中的数据保护方法及系统,通过设置标注管理中心来对原始数据、标注数据、检查数据等不同用户端提供的数据所对应的元数据进行存储和管理,在数据提供方的原始数据、数据标注方的标注数据均得到保护的情况下,采用隐私机密计算技术进行联合数据模型训练,进而得到改进后的模型,从而挖掘出数据价值,使得标注数据和原始数据变为资产,实现了数据的资产化。进而能够汇集更大量的数据,提供更为细分的数据类型,为提高算法的准确度,为扩展数据应用领域提供了有力的支撑。同时,通过对原始数据进行数据保护处理,最大程度地保护了原始数据的安全性和私有资产的性质,防止数据被批量非法使用,很大程度避免了数据失控的风险。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据标注中的数据保护方法及系统。
背景技术
数据标注是人工智能,大数据行业一个重要的工作内容。很多人工智能算法,需要大量的标注后的数据用来改进算法,提高准确性。传统的数据标注系统,数据标注服务是一次性的,标注成果得不到保护,标注数据提供出去后就失控。另一方面,由于获得的渠道有限,获得的数据有限,无法获得更多数据,数据的细分种类也比较有限。
现有的标注系统,不仅原始数据需要提交给数据需求方,而且标注者标注的信息也需要提交到数据需求方,数据需求方直接使用标注的原始数据,进行优化算法等工作。标注数据提供出去后就失控,任何得到标注拷贝的人都可以直接反复使用,从而无法体现标注者的劳动权益。这样标注的成果不能得到保护,标注者只能获得一次回报,标注的价值没有得到体现。此外,标注商为了能够标注数据,需要能够看到或者听见“原始数据”,这就存在泄露数据的风险。比如,数据标注方通过截图,录音录像的方式获取原始数据,非常容易导致泄露数据,特别是批量数据的泄露。
发明内容
基于现有技术的上述情况,本发明的目的在于提供一种数据标注中的数据保护方法及系统,通过设置标注管理中心来对原始数据所对应的元数据进行存储和管理,通过使用安全计算方法在安全计算模块中进行保护原始数据的计算,从而避免了现有技术中的数据失控风险。
为达到上述目的,根据本发明的一个方面,提供了一种数据标注中的数据保护方法,包括步骤:
至少一个数据提供方对其提供的原始数据进行数据保护处理,以形成用于标注的数据;
至少一个数据标注方对所述用于标注的数据进行标注,以形成标注数据,并建立原始数据和标注数据的对应关系;
将所述原始数据、标注数据对应的元数据、以及原始数据和标注数据的对应关系保存至标注管理中心的元数据库中;
根据数据需求方的数据需求和算法需求,协调各数据提供方和数据标注方提供原始数据以及标注数据以用于计算;
数据需求方从标注管理中心中选用已有算法或通过算法接入网关提交新的算法给标注管理中心;
利用所述原始数据以及标注数据在安全环境下计算得到计算结果;
将所述计算结果提供至数据需求方。
进一步的,还包括检查步骤:
数据检查方对原始数据和标注数据进行检查,对标注数据的质量进行检查,建立原始数据、标注数据和检查数据的对应关系,并将所述检查数据对应的元数据、以及所述对应关系保存至元数据库中。
进一步的,各用户端将其提供的数据保存在各自的数据库中;所述用户端包括数据提供方、数据标注方、数据检查方和数据需求方。
进一步的,所述对其提供的原始数据进行数据保护处理,包括步骤:
在原始数据中加入自然人无法识别且不影响标注操作的干扰信息和/或跟踪信息。
进一步的,所述在原始数据中加入自然人无法识别且不影响标注操作的干扰信息,包括:
针对图像和视频数据,添加人为设计的扰动,以跨越深度神经网络的决策边界,以此构成对抗样本,误导深度神经网络为基础算法模型的应用;和/或
针对声音数据,采用变声变调方法对原始数据进行处理,和/或对声音加入亚音频进行处理;和/或
针对文本数据,将文本数据转换为图像数据,再采用针对图像数据的处理方法进行处理。
进一步的,针对人脸的图像和视频数据,采用Fawkes方法对原始数据进行像素级别的修改。
进一步的,所述在原始数据中加入自然人无法识别且不影响标注操作的跟踪信息,包括:
针对声音数据,对声音加入亚音频进行处理;
针对图像和视频数据,采用频域手段增加数字盲水印。
进一步的,所述根据数据需求方的数据需求和算法需求,协调各数据提供方和数据标注方提供原始数据以及标注数据进行计算,包括步骤:
根据所述数据需求和算法需求,和元数据库中的元数据进行匹配,以检测是否能满足数据需求方的要求;若匹配不成功,则通知数据提供方和数据标注方对数据进行处理,并重新匹配;若匹配成功,则进行下一步。
进一步的,在利用所述原始数据以及标注数据计算得到计算结果之前,还包括:
若数据需求方存在需要参与计算的数据,则将所述参与计算的数据的元数据提交至所述元数据库;
对所述提交的数据进行检测和审计,通过后进行计算;
所述计算包括在安全计算环境下,采用保护隐私的计算方法进行计算。
根据本发明的另一个方面,提供了一种数据标注中的数据保护系统,包括标注管理中心、标注接入网关、以及多个用户端;其中,
所述多个用户端至少包括数据提供方、数据标注方和数据需求方;
所述数据提供方,对其提供的原始数据进行数据保护处理,以形成用于标注的数据;
所述数据标注方,对所述用于标注的数据进行标注,以形成标注数据,并建立原始数据和标注数据的对应关系;
所述标注管理中心,将所述原始数据、标注数据对应的元数据、以及原始数据和标注数据的对应关系保存至标注管理中心的元数据库中;并根据数据需求方的数据需求和的算法需求,协调各数据提供方和数据标注方提供原始数据以及标注数据以用于计算;与标注接入网关联合进行计算;
所述标注接入网关,用于链接各个用户端的数据,在标注管理中心的统一协调下,与标注管理中心联合进行计算以得到计算结果;
所述算法接入网关,供数据需求方向标注管理中心提交新的算法,并获取得到的计算结果。
进一步的,所述标注管理中心包括成员管理模块、数据管理模块、算法管理模块、业务管理模块、以及安全计算模块;其中,
所述成员管理模块,对用户端通过标注接入网关进行管理;
所述数据管理模块,用于管理保存至元数据库中的元数据,对各个网关进行定期检查,确定元数据和原始数据的一致性,对不同的来源的元数据进行处理和展示;
所述算法管理模块,提供基础通用算法供数据需求者使用,接收数据需求方提交的新算法,并将该新算法部署到各个标注接入网关;
所述业务管理模块,用于进行算法需求匹配,通过元数据匹配和算法分析检测数据需求者的数据需求是否能够被满足;
所述安全计算模块,调度协调各个标注接入网关的安全计算模块资源进行计算。
进一步的,所述标注接入网关包括数据链接模块、元数据管理模块、安全计算模块和管理模块;其中,
所述数据链接模块,代表用户端接入到该数据保护系统;
所述元数据管理模块,用于向标注管理中心提供所代表的用户端的元数据,配合标注管理中心对该标注接入网关所接入的用户端的数据进行元数据管理工作,确定元数据和原始数据的一致性;
所述安全计算模块,接收管理中心的部署的算法,用于在标注管理中心的协调下参与计算;
所述管理模块,配合标注管理中心对管理模块对本用户端的接入进行管理,配合本用户端的安全计算模块展开计算,获取并记录本地数据的使用量。
综上所述,本发明提供了一种数据标注中的数据保护方法及系统,通过设置标注管理中心来对原始数据、标注数据、检查数据等用户端提供的数据所对应的元数据进行存储和管理,在安全计算环境下,采用保护隐私的计算方法进行计算,如多方安全计算、联邦学习等,从而能够保证数据提供方的原始数据、数据标注方的标注数据均得到保护,使得标注数据和原始数据变为资产,实现了数据的资产化。进而能够汇集更大量的数据,提供更为细分的数据类型,为提高算法的准确度,应用领域提供了有力的支撑。同时,通过对原始数据进行数据保护处理,最大程度地保护了原始数据的安全性和私有资产的性质,防止数据被批量非法使用,很大程度避免了数据失控的风险。
附图说明
图1是本发明数据标注中的数据保护方法的流程图;
图2是本发明数据标注中的数据保护系统的构成框图;
图3是标注管理中心的构成框图;
图4是标注接入网关的构成框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
下面对结合附图对本发明的技术方案进行详细说明。根据本发明的一个实施例,提供了一种基于数据保护系统的数据保护方法,该方法的流程图如图1所示,包括以下步骤:
至少一个数据提供方对所提供的原始数据进行数据保护处理,以形成用于标注的数据。例如可以包括:在原始数据中加入自然人无法识别且不影响标注操作的干扰信息和/或跟踪信息。其中,干扰信息可用于抵抗深度学习,跟踪信息可用于事后发现数据泄露源。具体来说,加入干扰信息可以包括:针对图像和视频数据,可以采用生成对抗网络或进化算法等,基于黑盒模型和迁移学习等技术,通过针对性地添加少量人为设计的扰动到原始的图像输入中,跨越深度神经网络的决策边界,以此构成对抗样本,误导深度神经网络为基础算法模型的应用。此类带有微小扰动的图像,可以降低数据或视频用于深度学习训练的数据价值,而不影响数据标注的操作。所谓对抗样本,是指一些为识别任务精心打造的故意混淆和误导检测任务的样本。例如针对一个图片识别任务,对抗样本可以按照像素级别来扰动这个图片,经过扰动后的图片,人眼看不出问题,但是机器却会识别失败。根据图像和视频数据的内容选择针对性的算法,来降低图像和视频数据的数据价值,而不影响标注的操作。特别的,针对人脸的图像和视频数据,可以采用Fawkes方法对原始数据进行像素级别的修改。
针对声音数据,可以采用变声变调方法对原始数据进行处理,这种方面能够能听出变化,但是不影响理解声音内容,也可以采用亚音频处理,采用亚音频处理后的声音,自然人无法听出变化,但是不影响理解声音内容;针对文本数据,可以采用文本转换为图像,再采用图像处理方法进行处理,同样不影响标注。加入跟踪信息可以包括:针对声音数据,对声音加入亚音频进行处理;针对图像和视频数据,采用频域手段增加数字盲水印的方法。图形视频可以采用频域手段增加自然人不可见的数字盲水印,改处理也不会影响标注,对音频可以采用亚音频作为数字盲水印的跟踪手段,通过对不同标注方,检查方使用不同标记的数字盲水印作为跟踪手段,但是一旦数据发生泄露,则可以迅速定位数据泄露源头。
数据提供方可以有多家,数据提供方准备好原始数据,保存在数据提供方的原始数据库(原始数据(用于计算))中,同时把该数据对应的元数据提交给标注管理中心,保存到元数据库中。使用数据保护算法对原始数据进行数据保护处理,形成用于标注的数据。保存到数据提供方的预标注数据库(原始数据(用于标注检查))中,该预标注数据库可以由限定的数据标注方,数据检查方在限定的时间,限定的场景下访问,以完成标注检查的任务。同时因为访问的是经过保护处理的数据,即使被非法截屏录像,录音,其用于模型训练的价值也会大大降低。
至少一个数据标注方对所述用于标注的数据进行标注,以形成标注数据,并建立原始数据和标注数据的对应关系。数据标注方也可以有多家,数据标注方对数据提供方准备好的用于标注的数据进行标注,并把标注数据保存在数据标注方的标注数据库中。建立原始数据和标注数据的对应关系,同时把该标注数据对应的元数据提交至标注管理中心,保存到元数据库中。该对应关系同时保存至原始数据库、标注数据库和元数据库中。一个原始数据可以对应多个标注数据,一个标注数据也可以对应多个原始数据,例如:一个图像可以对应两个标注,一个标注了街道,一个标注了人员。又例如:一个标注可以对应白天的交通信号灯,也可以对应晚上的交通信号灯。通过原始数据和标注数据的元数据进行区分。
将所述原始数据、标注数据对应的元数据、以及原始数据和标注数据的对应关系保存至标注管理中心的元数据库中。并且,所述原始数据和用于标注的数据保存至数据提供方的原始数据库中,所述用于标注的数据保存至数据提供方的预标注数据库中。其中,元数据,又称中介数据或目录数据,是一种用于描述数据的数据,主要是描述数据属性的信息。例如,对于本实施例中的原始数据,其对应的元数据可以是图像的类型、图像的时间、图像的其他属性、图像的内容、图像内容的场景等(例如:下雨天拍摄、室内光线不足、逆光等这些细化描述图像数据的特征属性);对于标注数据,其对应的元数据可以是标注结果,如图像的人工识别内容结果,也可以是图像中内容的轮廓,也可以是该标注操作的操作人员信息;对于检查数据,其对应的元数据可以是检查结果的等级。可以通过对原始数据进行哈希,生成对应的哈希值元数据,通过在计算时候,对比该哈希值是否一致,可以保证每次参与计算的原始数据的一致性。也可以通过对标注数据进行哈希,对比该哈希值是否一致,可以用于每次参与计算的标注数据的一致性。
其中,还可以包括检查步骤:对原始数据和标注数据进行检查,建立原始数据、标注数据和检查数据的对应关系,并将所述检查数据对应的元数据、以及所述对应关系保存至元数据库中。数据检查方也可以有多家,数据检查方可以对原始数据、标注数据进行检查,并记录检查结果,建立原始数据和标注数据、检查数据的对应关系,把该检查数据对应的元数据提交给标注管理中心,保存到元数据库中,该对应关系同时保存至原始数据库、标注数据库和元数据库中。
标注管理中心定期对元数据和对应的原始数据的状态进行更新,以确保元数据对应的数据可用性。
根据数据需求方的数据的数量需求和算法需求,算法需求就是数据需求方所采用的算法对数据的要求,例如:决策树算法、朴素贝叶斯分类LR算法、深度学习算法无监督预训练网络、卷积神经网络、循环神经网络、递归神经网络等,这些算法对数据有一定的要求,如特征向量维度、图像通道数、大小、文本长度、格式类型,清晰度、是否标注人脸边界等。需要准备的数据符合该算法的要求。协调各数据提供方和数据标注方提供原始数据以及标注数据以用于计算;数据需求方从标注管理中心中选用已有算法或通过算法接入网关提交新的算法给标注管理中心;利用所述原始数据以及标注数据进行计算得到计算结果。
可以按照以下步骤进行:数据需求方准备进行算法计算并把计算需要的数据的元数据(即数据需求)提交给标注管理中心。根据所述数据需求,对元数据库中的元数据进行匹配;若匹配不成功,则通知数据提供方和数据标注方对数据进行处理,并重新匹配;若匹配成功,则进行下一步。匹配操作具体来说,就是数据需求方提出基本的数据需求,该数据需求包括数据类型、数据数量、数据的特征、数据的规格等方面的需求,并将该数据需求告知标注管理中心,标注管理中心通过查询元数据库,确认是否当前可用已有的数据满足该数据需求。例如,某数据需求方需要以下数据:1000张人脸图片,室内逆光条件下,人脸清晰度为300dpi,标注好人脸边界。将该数据需求与元数据库中的数据进行对比,确认是否有足够的数据能满足要求。
在匹配成功的情况下,分配计算所需数据的来源,分配的规则是根据数据需求方的要求定义的。若数据需求方存在需要参与计算的数据,则将所述参与计算的数据的元数据提交至所述元数据库;对所述提交的数据进行审计,审计通过后进行计算。审计就是对数据及其对应的元数据的关系进行确认,包括数量,规格等,是否符合标注管理中心的要求。由于数据需求方提供的数据要和链接到标注管理中心的已有的数据进行联合计算,就要求数据需求方的数据要和标注管理中心的已有数据的规格一致。审计可以由数据需求方自行进行或由数据检查方或其他方进行。
标注管理中心协调数据提供方、数据标注方在安全计算环境下进行计算以得到计算结果,即数据提供方以及数据标注方通过标注接入网关与标注管理中心联合进行计算。所述计算包括在安全计算环境下,采用保护隐私的计算方法进行计算,例如可以采用联邦学习进行计算,也可以采用多方安全计算技术来进行计算。本实施例中所涉及的计算可以是指识别模型的改进,通过对数据需求方的模型采用标准系统提供的数据进行模型训练,从而得到改训练后的结果,返回给数据需求方,所得到的计算结果例如可以是数据模型,或者对现有数据模型的改进,也可以是对数据需求方模型的检测等的其他结果,采用标注管理中心的数据对数据需求方已有模型进行评测,检测其在特定条件下的准确性,例如:数据需求方已有一个人脸检测模型,通过本平台专门检测其对室外逆光条件下的人脸检测准确度。
将所述计算结果提供至数据需求方。标注管理中心可以根据计算过程中各个数据使用量分配数据需求方获得的费用。数据需求方根据标准管理中心提供的算法规则或转换工具,获得自己想要格式的最终算法代码。
根据本发明的另一个实施例,提供了一种数据标注中的数据保护系统,该系统的构成框图如图2所示,包括标注管理中心、标注接入网关、数据需求方算法接入网关、以及多个用户端。
所述多个用户端将其提供的原始数据、标注数据和检查数据对应的元数据通过标注接入网关提供至标注管理中心,并在各用户端的数据库中保存各自的相关数据。用户端是受到标注管理中心的管理,提供数据并参与计算的节点。所述多个用户端可以包括:数据提供方、数据标注方、数据检查方、以及数据需求方。其中,数据提供方,用于提供原始数据,该原始数据用于参与用于得到计算结果的联合计算;并且对原始数据进行数据保护处理,以形成用于标注的数据,该数据仅提供给数据标注方进行数据标注。数据提供方包括原始数据库和预标注数据库,用于保存该原始数据和用于标注的数据。数据标注方对所述用于标注的数据进行标注,并将标注后的数据保存至本地的标注数据库中。数据检查方,对所述原始数据和标注数据进行检查,并将检查数据保存至本地的检查数据库中。数据提供方、数据标注方和数据检查方,均只需将与其相关数据对应的元数据提供至标注管理中心,从而不必将原始数据提供出来,保证了数据的安全性。数据需求方,向所述标注管理中心提出数据需求,并获取符合该所述需求的计算结果。在某些情况下,数据需求方也可能存在已有数据,而希望将已有数据用于计算,此时,也应当通过标注接入网关提供该已有数据的元数据至标注管理中心。
所述标注管理中心,通过标注接入网关接收用户端的原始数据、标注数据和检查数据分别对应的元数据,对所述元数据进行保存和管理,将元数据保存至标注管理中心的元数据库中,该元数据库还用于保存原始数据与标注数据、原始数据与标注数据、以及原始数据、标注数据与检查数据各自之间的对应关系,该对应关系同时应当保存至原始数据库、标注数据库和检查数据库中。标注管理中心还根据数据需求,协调各用户端进行计算以得到计算结果。以及定期对元数据和其对应的数据的状态进行更新,以确保元数据对应数据的可用性。标注管理中心还包括基础算法库,用于存储通用的数据模型的算法。标注管理中心的构成框图如图3所示,还包括成员管理模块、数据管理模块、算法管理模块、业务管理模块、以及安全计算模块。其中,成员管理模块,用于对作为接入方的用户端通过标注接入网关进行管理。用户端包括数据提供方、数据标注方、数据检查方、以及数据需求方。数据管理模块,用于管理保存至元数据库中的元数据,而除了数据所有者,本实施例提供的数据保护系统自身不会得到各用户端的原始数据。该管理具体可以包括如下方面:汇总各个用户端的元数据,对各个网关进行定期检查,确定元数据和原始数据的一致性;对不同的来源的元数据进行处理,例如进行语义处理,以形成一致的元数据,以便于增加样本量,以及细化数据,增加属性,细化场景;对元数据进行展示,以便潜在数据需求者进行使用;调度协同各个标注接入网关的安全计算资源进行计算。算法管理模块,用于管理基础算法,提供基础通用算法,以方便数据需求者使用接收数据需求者提交的新算法,部署算法到各个接入网关,该基础通用算法保存在基础算法库中;同时,管理数据需求方算法,能够安全可靠地使数据需求方提供的算法和本实施例中的保护系统相连接。还用于对算法进行审计,以防止偷盗数据的情况发生,在安全计算环境下对需求方的基础算法进行审计,以保证安全。业务管理模块,用于进行算法需求匹配,检测数据需求者的数据需求是否能够被满足,采用安全计算方式保密方式进行匹配,可以在不接触数据的情况下进行查询。安全计算模块,调度协调各个标注接入网关的安全计算资源进行计算。
所述标注接入网关,用于链接各个用户端的数据,在标注管理中心的统一协调下,进行计算。数据需求者算法接入网关,用于部署数据需求者的算法,该算法的目的用于使用原始数据和标注数据进行对需求者算法改进。数据需求方提出数据需求和算法需求,标注管理中心针对该需求进行匹配后,即满足所述数据需求和算法需求后,数据需求方如果有自己的数据需要进行合并计算,则配置好数据接入网关接入自己的数据;另一方面数据需求方把自己的算法模型通过算法接入网关部署到标注管理中心,准备进行计算,并在计算结束后将计算结果通过该算法接入网关取回。
图4示出了标注接入网关的构成框图,包括:数据链接模块、元数据管理模块、安全计算模块和管理模块。其中,数据链接模块,代表用户端接入到该数据保护系统,用于保护身份,认证,能力等信息提供给标注管理中心,以便后续工作的展开。元数据管理模块,用于向标注管理中心提供所代表的用户端的元数据,包括获取提供所代表的相关方的数据的元数据并提交给标注管理中心,配合标注管理中心对该标注接入网关所接入的用户端的数据进行元数据管理工作,确定元数据和原始数据的一致性。以及提供所代表的用户端的数据进行链接,以便进行计算;并检查和确定元数据与原始数据的一致性。安全计算模块,接收管理中心的部署的算法,用于在标注管理中心的协调下参与计算。管理模块,配合标注管理中心对管理模块对本用户端的接入进行管理,配合本用户端的安全计算模块展开计算获取并记录本地数据的使用量。
以下以一个具体的示例来对上述方法进行说明:
数据公司A、B、C(即数据提供方)三家有大量的不同人脸的图片数据(原始数据),存储在各自的数据库中,分别部署了标注接入网关,并各自通过各自的网关把人脸数据的元数据提交到标注管理中心。
数据公司A、B、C使用数据保护算法对数据进行数据保护处理,形成用于标注的预标注数据。具体方式可以为:
第一步:加入人眼无法直接识别,不影响人进行识别的干扰,例如采用Fawkes方法对图像和视频进行处理,采用该方法对数据进行处理只需要像素级别的修改就可以使得处理后的原始数据的利用价值大大降低。对于声音可以采用变声变调软件进行处理,人能够听懂,但是其使用价值也大大降低。
第二步:采用在频域添加数字盲水印的方法,该方法处理后无法被看见,便于查询跟踪数据泄露的渠道。对不同的标注方,检查方可以采用不同的盲水印。
可以根据需求只采用其中一个步骤或者两个步骤都采用来进行数据保护。通过采用上述数据保护算法,加入扰动后使得该扰动后的数据不能够被人识别进行标注,但是如果用于计算,深度学习,机器学习则会效果很差,容易出错;加入盲水印的跟踪信息,当数据被非法传播时候可以根据该信息查到泄露渠道。极大地增强了原始数据的安全性。
标注公司D和E(即数据标注方),分别对A、B、C三家公司的人脸数据进行标注,在图片中标注出哪些部分是人脸,并将标注数据的元数据提交到标注管理中心。
检查公司F和G(即数据检查方)对D和E公司的标注结果进行检查,形成了检查结果,并将检查数据对应的元数据提交到标注管理中心。
由于不同公司的元数据定义不一定相同,因此标注管理中心对提交的元数据进行处理,形成一致的元数据,并保存到元数据库中。
数据需求方公司H,是从事人脸识别的公司,需要大量的数据改进算法,以求得更高,或更快的准确率,向标注管理中心提出数据需求。
标注管理中心根据已有的元数据进行匹配,是否满足需求,该匹配工作在安全计算环境下进行,以保护数据需求者的潜在的商业秘密。如果目前不匹配,则根据数据需求,向相关数据提供方和数据标注方提出要求,要求各相关方补充工作,以满足数据需求;满足数据需求后,告知数据需求方。
数据需求方核对算法是否满足:首先判断已有通用常规算法是否满足,如果不满足,则使用标注管理中心提供的算法规则或转换工具,利用自己已有的想要被优化的算法,生成可以在本发明所提供的系统中运行的算法代码。数据需求公司H按照标注中心的算法规范,把原有算法,采用联邦学习形式进行等价重写,将写好的算法通过算法接入网关提交到标准管理中心。
数据需求方如果已经存在部分数据也想参与本次优化计算,则按照迁出数据的处理模式一样,向标注管理中心提交元数据(需求方参与计算数据,也是默认经过标注和/或检查过的),并利用数据需求方算法网关部署算法和代码。标注管理中心在安全计算环境下进行审计,以在保护数据需求方算法安全的情况下,保护其他数据方的数据安全。
审计通过后,协调相关方在安全计算环境下进行计算,具体是标注管理中心利用自己的安全计算模块和各个接入网关中的安全计算模块构成统一的安全计算环境,运行联邦计算算法,进而获得改进后的算法。该算法只有数据需求方能够获得。本实施例中采用联邦学习进行计算,也可以采用多方安全计算技术来进行计算。
综上所述,本发明涉及一种数据标注中的数据保护方法及系统,通过设置标注管理中心来对原始数据、标注数据、检查数据等用户端提供的数据所对应的元数据进行存储和管理,从而能够保证数据提供方的原始数据、数据标注方的标注数据均得到保护,使得标注数据和原始数据变为资产,实现了数据的资产化。进而能够汇集更大量的数据,提供更为细分的数据类型,为提高算法的准确度,应用领域提供了有力的支撑。同时,通过对原始数据进行数据保护处理,最大程度地保护了原始数据的安全性和私有资产的性质,防止数据被批量非法使用,很大程度避免了数据失控的风险。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种数据标注中的数据保护方法,其特征在于,包括步骤:
至少一个数据提供方对其提供的原始数据进行数据保护处理,包括:在原始数据中加入自然人无法识别且不影响标注操作的干扰信息和/或跟踪信息,以形成用于标注的数据;
至少一个数据标注方对所述用于标注的数据进行标注,以形成标注数据,并建立原始数据和标注数据的对应关系;
将所述原始数据、标注数据对应的元数据、以及原始数据和标注数据的对应关系保存至标注管理中心的元数据库中;
标注管理中心根据数据需求方的数据需求和算法需求,和元数据库中的元数据进行匹配,以检测是否能满足数据需求方的要求;若匹配不成功,则通知数据提供方和数据标注方对数据进行处理,并重新匹配;若匹配成功,则协调各数据提供方和数据标注方提供原始数据以及标注数据以用于计算;
数据需求方从标注管理中心中选用已有算法或通过算法接入网关提交新的算法给标注管理中心;
利用所述原始数据以及标注数据在安全环境下计算得到计算结果;
将所述计算结果提供至数据需求方。
2.根据权利要求1所述的方法,其特征在于,还包括检查步骤:
数据检查方对原始数据和标注数据进行检查,对标注数据的质量进行检查,建立原始数据、标注数据和检查数据的对应关系,并将所述检查数据对应的元数据、以及所述对应关系保存至元数据库中。
3.根据权利要求1或2所述的方法,其特征在于,各用户端将其提供的数据保存在各自的数据库中;所述用户端包括数据提供方、数据标注方、数据检查方和数据需求方。
4.根据权利要求3所述的方法,其特征在于,所述在原始数据中加入自然人无法识别且不影响标注操作的干扰信息,包括:
针对图像和视频数据,添加人为设计的扰动,以跨越深度神经网络的决策边界,以此构成对抗样本,误导深度神经网络为基础算法模型的应用;和/或
针对声音数据,采用变声变调方法对原始数据进行处理,和/或对声音加入亚音频进行处理;和/或
针对文本数据,将文本数据转换为图像数据,再采用针对图像数据的处理方法进行处理。
5.根据权利要求4所述的方法,其特征在于,针对人脸的图像和视频数据,采用Fawkes方法对原始数据进行像素级别的修改。
6.根据权利要求5所述的方法,其特征在于,所述在原始数据中加入自然人无法识别且不影响标注操作的跟踪信息,包括:
针对声音数据,对声音加入亚音频进行处理;
针对图像和视频数据,采用频域手段增加数字盲水印。
7.根据权利要求1所述的方法,其特征在于,在利用所述原始数据以及标注数据计算得到计算结果之前,还包括:
若数据需求方存在需要参与计算的数据,则将所述参与计算的数据的元数据提交至所述元数据库;
对所述提交的数据进行检测和审计,通过后进行计算;
所述计算包括在安全计算环境下,采用保护隐私的计算方法进行计算。
8.一种数据标注中的数据保护系统,其特征在于,包括标注管理中心、标注接入网关、算法接入网关、以及多个用户端;其中,
所述多个用户端至少包括数据提供方、数据标注方和数据需求方;
所述数据提供方,对其提供的原始数据进行数据保护处理,包括:在原始数据中加入自然人无法识别且不影响标注操作的干扰信息和/或跟踪信息,以形成用于标注的数据;
所述数据标注方,对所述用于标注的数据进行标注,以形成标注数据,并建立原始数据和标注数据的对应关系;
所述标注管理中心,将所述原始数据、标注数据对应的元数据、以及原始数据和标注数据的对应关系保存至标注管理中心的元数据库中;并根据数据需求方的数据需求和的算法需求,和元数据库中的元数据进行匹配,以检测是否能满足数据需求方的要求;若匹配不成功,则通知数据提供方和数据标注方对数据进行处理,并重新匹配;若匹配成功,则协调各数据提供方和数据标注方提供原始数据以及标注数据以用于计算;与标注接入网关联合进行计算;
所述标注接入网关,用于链接各个用户端的数据,在标注管理中心的统一协调下,与标注管理中心联合进行计算以得到计算结果;
所述算法接入网关,供数据需求方向标注管理中心提交新的算法,并获取得到的计算结果。
9.根据权利要求8所述的系统,其特征在于,所述标注管理中心包括成员管理模块、数据管理模块、算法管理模块、业务管理模块、以及安全计算模块;其中,
所述成员管理模块,对用户端通过标注接入网关进行管理;
所述数据管理模块,用于管理保存至元数据库中的元数据,对各个网关进行定期检查,确定元数据和原始数据的一致性,对不同的来源的元数据进行处理和展示;
所述算法管理模块,提供基础通用算法供数据需求者使用,接收数据需求方提交的新算法,并将该新算法部署到各个标注接入网关;
所述业务管理模块,用于进行算法需求匹配,通过元数据匹配和算法分析检测数据需求者的数据需求是否能够被满足;
所述安全计算模块,调度协调各个标注接入网关的安全计算模块资源进行计算。
10.根据权利要求8所述的系统,其特征在于,所述标注接入网关包括数据链接模块、元数据管理模块、安全计算模块和管理模块;其中,
所述数据链接模块,代表用户端接入到该数据保护系统;
所述元数据管理模块,用于向标注管理中心提供所代表的用户端的元数据,配合标注管理中心对该标注接入网关所接入的用户端的数据进行元数据管理工作,确定元数据和原始数据的一致性;
所述安全计算模块,接收管理中心的部署的算法,用于在标注管理中心的协调下参与计算;
所述管理模块,配合标注管理中心对管理模块对本用户端的接入进行管理,配合本用户端的安全计算模块展开计算,获取并记录本地数据的使用量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467376.3A CN113111369B (zh) | 2021-04-28 | 2021-04-28 | 一种数据标注中的数据保护方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110467376.3A CN113111369B (zh) | 2021-04-28 | 2021-04-28 | 一种数据标注中的数据保护方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113111369A CN113111369A (zh) | 2021-07-13 |
CN113111369B true CN113111369B (zh) | 2022-08-12 |
Family
ID=76721124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110467376.3A Active CN113111369B (zh) | 2021-04-28 | 2021-04-28 | 一种数据标注中的数据保护方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113111369B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114036551A (zh) * | 2021-10-22 | 2022-02-11 | 杭州趣链科技有限公司 | 隐私数据的数据处理方法、装置、计算机设备及介质 |
CN114065238B (zh) * | 2021-11-05 | 2022-08-02 | 深圳致星科技有限公司 | 数据管理方法、装置及电子设备 |
CN114936381A (zh) * | 2022-05-25 | 2022-08-23 | 深圳市迈科思腾科技有限公司 | 基于黑箱模式的数据计算处理方法、装置、电子设备及存储介质 |
CN114840605A (zh) * | 2022-05-25 | 2022-08-02 | 深圳市迈科思腾科技有限公司 | 基于区块链的黑箱计算处理方法、装置、电子设备及存储介质 |
CN117521115B (zh) * | 2024-01-04 | 2024-04-23 | 广东工业大学 | 一种数据保护方法、装置及计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364018A (zh) * | 2018-01-25 | 2018-08-03 | 北京墨丘科技有限公司 | 一种标注数据的保护方法、终端设备和系统 |
CN109376260A (zh) * | 2018-09-26 | 2019-02-22 | 四川长虹电器股份有限公司 | 一种深度学习图像标注的方法和系统 |
CN110309669A (zh) * | 2019-06-12 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 一种数据标注方法、装置及设备 |
CN111680098A (zh) * | 2020-04-21 | 2020-09-18 | 李引 | 数据采集、数据标注、ai模型训练和验证的区块链系统 |
CN111753336A (zh) * | 2019-03-29 | 2020-10-09 | 英特尔公司 | 利用隐藏内联元数据的存储器保护 |
CN111897991A (zh) * | 2020-06-19 | 2020-11-06 | 济南信通达电气科技有限公司 | 一种图像标注方法及设备 |
CN112085159A (zh) * | 2020-07-24 | 2020-12-15 | 西安电子科技大学 | 一种用户标签数据预测系统、方法、装置及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10181228B2 (en) * | 2016-02-08 | 2019-01-15 | Allstate Insurance Company | Telematics authentication |
US11675853B2 (en) * | 2018-12-28 | 2023-06-13 | Nbcuniversal Media, Llc | Systems and methods for processing metadata |
-
2021
- 2021-04-28 CN CN202110467376.3A patent/CN113111369B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108364018A (zh) * | 2018-01-25 | 2018-08-03 | 北京墨丘科技有限公司 | 一种标注数据的保护方法、终端设备和系统 |
CN109376260A (zh) * | 2018-09-26 | 2019-02-22 | 四川长虹电器股份有限公司 | 一种深度学习图像标注的方法和系统 |
CN111753336A (zh) * | 2019-03-29 | 2020-10-09 | 英特尔公司 | 利用隐藏内联元数据的存储器保护 |
CN110309669A (zh) * | 2019-06-12 | 2019-10-08 | 阿里巴巴集团控股有限公司 | 一种数据标注方法、装置及设备 |
CN111680098A (zh) * | 2020-04-21 | 2020-09-18 | 李引 | 数据采集、数据标注、ai模型训练和验证的区块链系统 |
CN111897991A (zh) * | 2020-06-19 | 2020-11-06 | 济南信通达电气科技有限公司 | 一种图像标注方法及设备 |
CN112085159A (zh) * | 2020-07-24 | 2020-12-15 | 西安电子科技大学 | 一种用户标签数据预测系统、方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
数据标注研究综述;蔡莉;《软件学报》;20200228;1-19页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113111369A (zh) | 2021-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113111369B (zh) | 一种数据标注中的数据保护方法及系统 | |
Thomson et al. | Visual mis/disinformation in journalism and public communications: Current verification practices, challenges, and future opportunities | |
US11063744B2 (en) | Document flow tracking using blockchain | |
US7130466B2 (en) | System and method for compiling images from a database and comparing the compiled images with known images | |
CN110674140B (zh) | 基于区块链的内容处理方法、装置、设备及存储介质 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
Karthika et al. | Digital video copy detection using steganography frame based fusion techniques | |
US11323245B2 (en) | Method for linking block-chain using hyper-chain, and apparatus therefor | |
CN109583228B (zh) | 一种隐私信息管理方法、装置和系统 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
US20190347243A1 (en) | System and method for collaborative sharing of information | |
CN116881850A (zh) | 基于多模态数据融合的安全预警系统 | |
KR102135075B1 (ko) | 뉴스 작성 지침 및 방송 보도 지침 기반의 인스턴트 메시지의 구문 분석을 통한 가짜 뉴스 알림 서비스 제공 방법 및 장치 | |
CN111260219A (zh) | 资产类别识别方法、装置、设备及计算机可读存储介质 | |
US20200218804A1 (en) | System and method for detecting leaked documents on a computer network | |
Trace et al. | Algorithmic futures: the intersection of algorithms and evidentiary work | |
CN110147980A (zh) | 工单处理方法及装置 | |
Nowroozi et al. | Adversarial Multimedia Forensics | |
Temmermans et al. | JPEG Fake Media: a provenance-based sustainable approach to secure and trustworthy media annotation | |
CN110879835A (zh) | 基于区块链的数据处理方法、装置、设备及可读存储介质 | |
Baig et al. | Assessing current and emerging challenges in the field of digital forensics | |
CN118332618B (zh) | 一种用于供应链业务协同的数字凭证管理方法及系统 | |
WO2017042836A1 (en) | A method and system for content creation and management | |
CN114826601B (zh) | 混合识别码及其生成方法、编译方法和系统 | |
US20230120826A1 (en) | Systems and methods for machine learning-based data matching and reconciliation of information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |