CN112487453A

CN112487453A - 一种基于中央协调方的数据安全共享方法及装置

Info

Publication number: CN112487453A
Application number: CN202011404122.9A
Authority: CN
Inventors: 马力
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2021-03-12

Abstract

本申请公开了一种基于中央协调方的数据安全共享方法及装置，其中，该方法包括：数据拥有方将数据集上传至中央协调方指定的预设储存设备；由中央协调方对上传的数据集进行抽样，得到抽样结果，向数据使用方公开抽样结果，所述抽样结果用于对所述数据集质量进行监控；数据使用方通过抽样结果，对数据集质量进行评估；数据使用方对满足需要的数据集申请使用授权；由数据使用方编写计算指令；在中央协调方指定的预设计算环境中执行所述计算指令；将计算指令的执行结果交付给数据使用方。通过本申请方案，可以实现数据所有权与使用权的分离，减轻数据交易双方信息不对称带来的风险，为数据使用权的共享和交易提供一个开放、安全、高效的平台。

Description

一种基于中央协调方的数据安全共享方法及装置

技术领域

本申请属于数据处理技术领域，尤其涉及一种基于中央协调方的数据安全共享方法及装置。

背景技术

随着大数据及AI产业的蓬勃发展，数据资源的重要价值日趋凸显。为了提升竞争实力，很多机构将大量人力和资金投入到了数据资源的建设上。由于数据资源可以零成本复制，使其只拥有一次交易获利的机会，而数据生产者并不愿意自己花费大量成本得来的数据被他人无偿使用，这一现象使得各个机构重复生产同一任务所需的数据，最终又难以实现数据的流通及聚合，造成了社会资源的浪费。数据资源流通的瓶颈限制了大数据及AI产业的发展，使得很多先进的机器学习模型无法落地。

对于数据安全共享，当前的研究热点主要集中在联邦学习领域，联邦学习通过将同一模型的训练任务分派给多个参与方，每个参与方利用自己的数据，在自己的计算资源上训练模型，并在训练过程中交换非隐私信息，最终通过模型聚合得到一个全局模型。该技术虽然实现了数据所有权和使用权的分离，但具有下述局限性：第一，合作方必须经过事先协商，且自身也要拥有数据作为合作前提，限制了个人和小微企业应用此技术的空间；第二，目前在大部分机器学习任务上，联邦学习的效果还难以达到在聚合后的数据集上直接训练的模型的效果；第三，因参与方信息不对称，若部分参与方数据质量低下，或利用虚假数据参与训练，将直接影响最终模型的效果，而每个参与方却很难对其他参与方的数据质量进行管控。

有别于联邦学习的解决方案，专利文献CN111625815A提出了一种基于可信执行环境的数据交易方法及装置，在该文献提出的方案中，首先由对收数据使用方发送的功能代码进行认证，然后接收数据拥有方基于所述认证结果发送的原始数据，在预设的可信执行环境中，调用通过认证的所述功能代码，对所述原始数据进行运算，得到数据运算结果，在数据使用方向数据拥有方支付预定款项之后，将计算结果发送给数据使用方。该方案依然存下述的局限性：第一，参与方信息不对称的问题依然存在，数据使用方无法评估数据拥有方所提供的数据质量，虽然数据拥有方可以为数据使用方提供一些样本，但样本的选择权完全由数据拥有方掌握，无法排除数据拥有方的欺诈可能；第二，功能代码的认证过程带来时间和人力成本的增加；第三，执行运算和接收运算结果之前，需要数据拥有方先进行确认，数据拥有方和数据使用方过多的交互流程同样会增加交易过程的时间和人力成本。

发明内容

有鉴于此，本专利在上述方案的基础上做出了改进，提出了一种基于中央协调方的数据安全共享方法及装置。通过中央协调方对数据集进行抽样，可以在一定程度上消除数据拥有方和数据使用方信息不对称的现象，使数据使用方对数据集的质量有所把握。通过在中央协调方指定的计算环境上执行计算指令，以及限制交付结果只能由特定的函数和方法输出，可以保证数据隐私不会泄露，实现数据所有权与使用权的分离，同时避免了对每一份上传的代码进行认证所带来的时间和人力消耗。由数据拥有方为数据设定计价方案，并由中央协调方担任交易中介，可以提升价格的透明度和交易的时效性，减少数据拥有方和数据使用方的沟通成本。

本申请的第一方面提供了一种基于中央协调方的数据安全共享方法，包括：

数据拥有方将数据集上传至所述中央协调方指定的预设储存设备；

由中央协调方对所述数据集进行抽样，得到抽样结果，向数据使用方公开所述抽样结果，所述抽样结果用于对所述数据集质量进行监控；

所述数据使用方通过所述抽样结果，对所述数据集质量进行评估；

所述数据使用方对所述数据集申请使用授权；

由所述数据使用方编写计算指令；

在所述中央协调方指定的预设计算环境中执行所述计算指令；

将所述计算指令的执行结果交付给所述数据使用方。

可选的，所述数据拥有方将数据集上传至所述中央协调方指定的预设储存设备，包括：

数据拥有方利用中央协调方提供的公钥，对所述数据集逐条进行非对称加密，将所述数据集以密文形式上传至中央协调方指定的数据储存设备。

可选的，所述数据拥有方将数据集上传至所述中央协调方指定的预设储存设备，还包括：

数据拥有方在上传数据集时为数据集指定标签字段，所述标签字段表示在使用该数据集训练统计模型时，该字段包含的内容可以作为所述模型的拟合目标；

可选的，所述由所述数据使用方编写计算指令，包括：

所述计算指令中，涉及统计模型训练时，在为所述统计模型指定拟合目标时，仅允许将所述数据拥有方为所述数据集指定的标签字段所含内容作为所述统计模型的拟合目标。

由所述数据拥有方为所述数据集设定计价方案，所述计价方案中指定了所述数据集的收费模式与价格。

可选的，所述所述数据使用方对所述数据集申请使用授权，包括：

所述数据使用方可以申请所述数据集中满足特定条件的部分数据的使用权，所述特定条件包括：样本数等于预设值、类别属于预设集合、图片数据的尺寸介于预设范围、文本数据的字符数介于预设范围、数据集任意一个字段的取值介于预设范围或属于预设集合。

可选的，所述由所述数据使用方编写计算指令，包括：

所述计算指令通过预设编程语言编写，在所述计算指令中通过调用中央协调方开发的预设扩展库来实现数据的导入、统计模型的训练、计算结果的输出。

可选的，所述由所述数据使用方编写计算指令，还包括：

数据使用方可以在本地通过预设数据调用函数调用数据集的抽样结果来对所述计算指令进行调试。

可选的，所述将所述计算指令的运算结果交付给所述数据使用方，包括：

限定只有通过所述预设扩展库中提供的预设函数、预设方法输出到磁盘的结果，才可作为最终返回给数据拥有方的结果。

本申请的第二方面提供了一种基于中央协调方的数据安全共享装置，其特征在于，包括：

数据储存单元，用于接收和储存数据使用者上传的数据集，还用于响应数据调用请求并发送请求的数据；

数据上传单元，用于将数据拥有方持有的数据集及所述数据集的元数据上传至所述数据储存单元；

数据抽样单元，用于对所述数据集进行样本量计算以及抽样，获得样本数、抽样结果；

数据展示单元，用于向数据使用方展示所述数据集的元数据、样本数和抽样结果；

指令提交单元，用于接收述数据使用方提交的计算指令；

指令执行单元，用于执行所述计算指令；

结果交付单元，用于将所述计算指令的执行结果交付给所述数据使用方。

可选的，所述数据安全共享装置，还包括：

数据授权单元，用于处理所述数据使用方提交的数据使用授权申请；

交易处理单元，用于处理和交易相关的业务，所述业务包括充值、转账、提现。

本申请的第三方面提供了一种数据共享设备，上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。

本申请的第四方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种基于中央协调方的数据共享方法的流程示意图；

图2是本申请实施例提供的一种基于中央协调方的数据共享装置的结构示意图；

图3是本申请实施例提供的数据共享设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

首先在介绍本申请之前，对本申请的背景做如下介绍：

本申请实施例提供的流程应用于基于中央协调方的数据安全共享系统，下文中将“系统”作为该数据安全共享系统的简称，该系统的具体实现形式可以是网站或客户端-服务器端程序。下文将该系统的运营者称为中央协调方，将通过该系统对外提供数据使用权的用户称为数据拥有方，将通过该系统获得数据使用授权，将授权数据应用于机器学习、数据挖掘等下游计算任务的用户称为数据使用方。中央协调方的责任是为数据拥有方和数据使用方提供一个安全、高效的数据共享与交易平台；数据拥有方基于对中央协调方的信任，将数据托管于中央协调方，并委托中央协调方代为执行数据使用权的交易，也就是说，数据拥有方只需将数据交付给中央协调方，并设定好计价方案，就不需要再介入具体交易活动，也无需与数据使用方进行交互；同样地，数据使用方基于对中央协调方的信任，通过中央协调方提供的数据集抽样结果，对数据拥有方上传的数据进行质量评估，在寻找到需要的数据后，将计算指令提交给中央协调方代为执行，在计算完成后，由中央协调方将计算结果交付给数据使用方。

为了说明本申请上述的技术方案，下面通过具体实施例来进行说明。

实施例一

下面对本申请实施例提供的一种基于中央协调方的数据安全共享方法进行描述，请参阅图1，本申请实施例中数据安全共享方法包括：

S101：数据拥有方向中央协调方管理的数据共享系统发起注册请求，中央协调方对数据拥有方的注册信息进行实名制审核，审核通过后授予数据拥有方系统账号。

其中，数据拥有方发起的注册请求包括数据拥有方预设的用户信息(例如账号、及密码等)、属性信息(例如企业、或个人)、实名信息(企业用户提供企业统一社会信用代码，个人用户提供身份证号码)、联系信息(手机号码、电子邮箱)。

S102：数据拥有方通过系统账号登录系统上传数据集及对应元数据。

需要说明的是，数据拥有方在上传数据集前，必须清楚数据集的来源和使用、传播条款，明确该数据集的使用、传播是否合法合规，明确在使用、传播该数据集时，必须履行的义务和承担的责任。在确保通过本系统传播相应的数据集完全合法合规的前提下，与中央协调方签订了担保协议之后，才可以对数据集进行上传。并且，在上传数据集时，必须说明该数据集的来源以及传播、使用该数据集时所需履行的义务和承担的责任，为中央协调方和数据使用者提供参考和监督依据。

数据拥有方在进行数据上传前，需要事先阅读中央协调方提供的使用文档，按照规定的格式对数据进行整理，方便后续的抽样、展现及调用。对于结构化数据或短文本数据，可供选用的格式有json格式、tsv格式、xlsx格式等，对于非结构化数据或长文本数据(如图片、音频、视频、文章等)，可将其中的结构化字段(如样本ID、标签)以json、tsv、xlsx等格式保存，再将非结构化字段对应文件统一存放在以字段名命名的文件夹中，以样本ID+文件后缀为每个样本文件命名。

另外，数据拥有方需要为准备上传的数据集提供元数据，元数据是关于数据集本身的信息，会对数据使用方公开，其中记录了数据集来源、抽样比例(后续抽样过程会根据该比例进行抽样)，以及每个字段的含义、数据类型、取值范围等信息，元数据可以以json格式保存并随数据集一起上传。

可选的，数据拥有方可以在元数据中指明数据集各个字段是否是否允许作为标签字段，所述标签字段表示在使用该数据集训练统计模型时，该字段包含的内容可以作为所述模型的拟合目标，通过该设定，可以防止恶意用户在训练模型时将包含数据隐私信息的字段作为拟合目标，从而利用模型记忆重构数据，造成数据隐私信息泄露。当用户不为数据集指定标签字段时，缺省设置是数据集所有字段皆可作为标签字段。

可选的，数据拥有方如果不希望免费分享自己上传的数据集，需要为上传的数据集设定计价方案。计价方案由收费模式和价格两个要素构成，可供选择的收费模式包括买断制收费、按使用量收费。数据拥有方在选择了收费模式之后，需要为所选的收费模式设定价格。在买断制收费模式下，数据使用方通过支付设定的价格可以一次性获得该数据集的永久使用权；在按使用量收费模式下，数据使用方需要预先向系统充值，系统会根据使用过程中调用的数据量乘以设定价格进行收费。按使用量收费的优点在于：数据使用方可以根据数据集使用过程中取得的效果，来决定是否继续使用该数据集，当发现数据集不能达到预期的使用效果，或仅使用其中部分数据就可以达到预期的使用效果时，可以选择不再继续使用该数据集中其余数据，以减少非必要的开支。

数据使用方下达数据集上传指令以后，数据集会被上传并保存到中央协调方指定的第一预设储存设备中。

可选的，为了保证数据上传过程的安全性，数据使用方在上传数据集之前，可以通过中央协调方提供的公钥对数据集中逐条样本进行非对称加密，将数据集以密文形式上传并保存至中央协调方管理的储存设备中。其中，所述非对称加密的具体实现方法属于密码学领域公知技术，在此不做赘述。

S103：由中央协调方对数据拥有方上传的数据集进行计数及抽样。

在数据集上传完毕后，系统会先对数据集中的样本总数进行计算，然后根据元数据中预设的抽样比例，对数据集进行抽样，得到抽样结果。

其中，抽样方法可采用简单随机抽样，在该抽样方法下，每条数据被抽取到的概率是相等的，从而保证抽样结果与数据集总体有相同的概率分布，能够较好地反映数据集总体的质量。抽样前需要指定随机数种子，以保证结果可复现。

若数据集是以加密形式上传和保存的，此时得到的抽样结果是密文，需要通过和加密数据时所用公钥匹配的预设私钥对抽样结果逐条解密，转化为明文。

S104：由中央协调方发布数据集信息，并公开数据集抽样结果。

其中数据集信息包括元数据、数据总量、上传者身份、计价方案，数据集抽样结果的公开方法有两种：一种是提供下载链接，另一种是提供程序调用接口。

S105：数据使用方通过浏览数据集信息，寻找满足需求的数据集。

通过系统交互界面，数据使用方可以搜索并浏览不同数据提供者上传的数据集，在数据集详情界面中，可以查看数据集的元数据，从而对数据集的概况有所了解，进一步地，通过查阅数据集的抽样结果，可以更详细地了解数据集的质量，判定其是否满足需求。

S106：数据使用方向中央协调方管理的数据共享系统发起注册请求，中央协调方对数据使用方的注册信息进行实名制审核，审核通过后授予数据使用方系统账号。

其中，数据使用方发起的注册请求包括数据使用方预设的用户信息(例如账号、及密码等)、属性信息(例如企业、或个人)、实名信息(企业用户提供企业统一社会信用代码，个人用户提供身份证号码)、联系信息(手机号码、电子邮箱)。

在一些应用场景中，S106可能发生在S105之前，但这并不是必须的，因为S105的实施不必以拥有系统账号并登录系统作为前提，换句话说，数据使用方不必登录系统，也可以浏览其中的数据集信息并下载抽样结果，只有当数据使用方准备申请数据集使用授权，或准备提交计算指令时，才必须申请注册系统账号并通过该账号登录系统。

S107：数据使用方针对所需数据集申请使用授权。

在应用场景一中，数据拥有方为数据集设定的计价方案为买断制，数据使用方向中央协调方申请所需数据集的使用授权，并按上述计价方案支付费用，经中央协调方审核通过后，数据使用方即获得所需数据集的使用授权。

在应用场景二中，数据拥有方为数据集设定的计价方案为按使用量收费制，数据使用方在提交数据集使用授权申请时，只需承诺在使用过程中按照预设计价方案支付费用，不用立即支付款项，经中央协调方审核通过后，数据使用方即获得所需数据集的使用授权。

可选的，数据使用方可以根据实际需要申请某个数据集中满足特定条件的部分数据的使用权，所述特定条件包括：样本数等于预设值、类别属于预设集合、图片数据的尺寸介于预设范围、文本数据的字符数介于预设范围、数据集任意一个字段的取值介于预设范围或属于预设集合。举例来说，假设通过查看数据集元数据，数据使用方找到了一个包含20个主题类别，日期跨度为2000年1月1日至2020年6月30日的新闻数据集，而数据使用方只需要其中主题类别为“财经”、“教育”、“娱乐”三个主题之一，日期跨度为2018年1月1日至2020年6月30日的数据，他可以通过编写相应查询语句，获取到数据集种满足对应条件的子集，并针对该子集申请使用授权，并享受价格折扣。

S108：数据使用方编写计算指令。

所述的计算指令是通过预设编程语言编写的代码，在所述代码中通过调用中央协调方开发的扩展库，来实现数据导入、模型训练、结果输出。

在下面的例子中，假设数据使用方已经获得了一个新闻数据集的使用授权，希望训练一个新闻分类模型，他首先在本地计算机上编写了下面的python代码：

1from data_share import get_data,word_cut,word_freq,LR

2data＝get_data(data_id＝"news20",public＝True)

3text_raw＝data["text"]

4topic＝data["topic"]

5text_cut＝word_cut(input＝text_raw)

6feature＝word_freq(input＝text_cut,vocab＝"./vocab.txt")

7model＝LR(penalty＝"l2")

8model.fit(x＝feature,y＝topic,cross_validation＝10)

9model.save(path＝"./output/model_news_classify.lr")

上述代码第一行的功能是从data_share扩展库中导入依赖的函数及类，此处的扩展库data_share是由中央协调方开发并发布的，其中包括了系统数据的调用接口(上述代码中的get_data函数)，并收录了主流的数据建模、数据处理功能。

在上述代码第二行中，get_data函数用于从第一预设储存设备获取数据并赋值给变量data，其中data_id参数用于指定要调用的数据集的编号，该编号在数据使用者获得数据集使用授权时生成，public参数为True时，表示调用的是数据集的抽样结果部分，当public参数为False时，表示调用的是数据集中获得授权的全部数据，数据使用者可以先将public参数设为True，在本地调用数据集的抽样结果部分来对代码进行调试，调试通过后，再将public参数设为False进行提交。在本地调试代码时，public若设为False，在执行时会抛出异常并中断程序。

在上述代码第三行中，data["text"]表示获取数据集的"text"字段并赋值给变量text_raw，在本示例中该字段表示新闻的文本内容，它是一个由字符串元素构成的列表，列表中的第i个元素表示数据集data中第i条数据的文本内容。

在上述代码第四行中，data["topic"]表示获取数据集的"topic"字段并赋值给变量topic，在本示例中该字段表示新闻的主题类别，它是一个由字符串元素构成的列表，列表中的第i个元素表示数据集data中第i条数据的主题类别。

在上述代码第五行中，word_cut函数用于对文本内容进行分词(文本分词技术属于自然语言处理领域公知技术范畴，在此不做赘述)，并赋值给text_cut变量，其中input参数用于指定需要进行分词的文本数据集合，本函数的输出是一个嵌套列表，其中元素[i,j]表示text_raw中的第i条数据经过分词后得到的第j个词。

在上述代码第六行中，word_freq函数用于计算文本内容的词频向量(词频向量是一种对文本数据进行特征提取的算法，属于自然语言处理领域公知技术范畴，在此不做赘述)，并赋值给feature变量，其输出是一个矩阵，矩阵中的元素[i,j]表示词典中的第j个词在text_cut中第i条数据中的词频。其中，vocab参数用于指定词典文件路径，此处指定的词典文件"vocab.txt"是由计算指令编写者提供的，文件中的每一行是一个特定的词汇，所述词典作为计算指令的依赖文件，将与计算指令同时提交至系统。

在上述代码第七行中，LR是逻辑回归(logistic regression)模型对应的类名，用于构建逻辑回归模型对象，并赋值给变量model。构建对象时penalty参数用于指定模型正则化方法，此处设为"l2"表示将模型系数的L2范数作为惩罚项。逻辑回归模型及其正则化方法属于统计学领域的公知技术范畴，在此不做赘述。

在上述代码第八行中，通过对对象model调用LR类中定义的fit方法，进行模型的训练，其中x参数用于指定模型的输入特征，y参数指定了模型需要拟合的变量，cross_validation＝10表示训练时采用10折交叉验证来选择合适的超参数。如果用户在上传数据集时为数据集指定了标签字段，则此处的y参数所接收的输入必须来自标签字段，此处我们假设数据集的"topic"属于标签字段。

在上述代码第九行中，通过对对象model调用LR类中定义的save方法，将训练好的模型保存至磁盘中指令所在目录下的output文件夹中，文件名为“model_news_classify.lr”。

数据使用方在上述代码编写完成后，首先在本地对代码进行调试。调试通过后，将代码第二行中get_data函数的参数public修改为False，将调用的数据集从公开抽样结果切换为已获得授权的所有数据，作为提交给系统的计算指令。

上述示例中的data_share扩展库是由中央协调方发布的，在一些使用场景中，该扩展库可能使用其他名称。该扩展库中包括了系统数据的调用接口(上例中的get_data函数)，并收录了主流的数据建模、数据处理功能。扩展库中所有函数、类及方法在开发完成后，需要经过评审，确保不会导致数据和隐私泄露，且不会影响执行环境正常工作。

计算指令的执行结果需要统一保存到交付文件夹下(上述示例中的"output"文件夹)，该文件夹是专门用于存放需要交付给数据使用方的计算结果的，在中央协调方指定的计算环境中，数据使用方没有权限直接在此文件夹下执行写入或修改操作，只能通过调用扩展库中涉及交付结果输出的函数或方法(例如模型保存或日志输出)，间接地向该文件夹进行写入或修改操作。该文件夹中的所有内容会作为指令执行结果交付给数据使用者。通过这种安全措施，可以确保交付结果中不会包含数据隐私信息，因为在中央协调方指定的计算环境中，扩展库是封装在预设环境中的，数据使用者无法修改其中的内容。

S109：数据使用方提交计算指令。

数据使用方在编写完计算指令后，将计算指令及依赖文件上传至系统，系统通过容器化技术，将计算指令、依赖文件同预设运行环境(由系统提供)一起构建为容器镜像，通过容器编排工具将计算指令以容器化实例的形式部署于计算集群中满足算力需求的计算节点上，其中容器化技术和容器编排技术属于云计算领域公知技术范畴，在此不做赘述。

S110：在中央协调方指定的预设计算环境中执行计算指令。

在预设的容器中，系统将通过预设的编程语言运行环境执行用户提交的计算指令。由于容器提供的隔离功能，计算指令无法对容器之外的文件系统产生影响，从而保证系统的安全性。此外，容器运行时将禁止网络上行传输功能，以保证数据隐私不会泄露。

可选的，当计算指令中的数据调用函数接收到数据后，会判断数据是明文还是密文，如果数据是密文，则在数据调用函数内部加载储存于计算节点上的私钥，利用所述私钥对数据进行解密，将其转化为明文后作为函数输出。

可选的，如果计算指令中调用的数据集是按量付费的，则数据调用函数会根据数据调用情况进行计费，系统将根据计费信息把对应的金额从数据使用方的系统虚拟账户转移至数据拥有方的系统虚拟账户，若数据使用方的系统虚拟账户余额不足，则程序执行中止，并通过系统或邮件通知数据使用者。

S111：将计算结果交付给数据使用方。

在代码执行完后，生成的计算结果会被上传到第二预设储存设备中，传输完成后，对应的容器化实例会被销毁，使占用的算力资源得到释放。数据使用者通过下载链接，将计算结果从第二预设储存设备下载到本地。

S112：数据使用方在本地加载及使用计算结果。

数据使用方可以在本地通过中央协调方提供的扩展库加载计算指令的执行结果。

在下述示例中，数据使用方通过在本地编写如下python代码，来加载S108中作为示例的计算指令输出的逻辑回归模型，并利用此模型进行预测：

1from data_share import word_cut,word_freq,LR

2model＝LR.load(path＝"./model_news_classify.lr")

3input_news＝input("请输入需要分类的新闻内容：")

4input_news_cut＝word_cut(input＝input_news)

5input_vec＝word_freq(input＝input_news,vocab＝"./vocab.txt")

6input_label＝model.predict(x＝input_vec)

上述代码第一行的功能是从data_share扩展库中导入word_cut函数、word_freq函数、LR类，通过该扩展库中提供的模型类，可以将执行计算指令时所保存的模型加载为本地python环境中的对象，并执行其中的预测方法，使模型能够在实际应用场景中执行预测任务。

上述代码第二行的功能是导入在S108的示例中训练得到逻辑回归模型“model_news_classify.lr”(假设该模型文件与代码保存在相同路径下)，并赋值给model变量。

上述代码第三行的功能是让使用者在命令行中输入一篇需要分类的新闻，并赋值给input变量。

上述代码第四行的功能是对输入的新闻进行分词，并赋值给变量input_news_cut，此处调用的函数word_cut在之前作为示例的计算指令中也出现过。

上述代码第五行的功能是将输入的新闻分词结果input_news_cut转化为词频向量，并赋值给变量input_vec，此处调用的函数word_freq在之前作为示例的计算指令中也出现过，其接收的参数vocab仍然为计算指令中所用的词典。

上述代码第六行的功能是通过加载的逻辑回归模型，对输入的新闻进行分类，并将输出的类别信息赋值给变量input_label。其接收的参数x表示模型的自变量，此处将前两步计算得到的变量input_vec作为自变量。

需要说明的是，在S108与S112所示的两个示例中，计算指令是基于python编程语言开发的，但在具体的应用场景中，计算指令还可以通过其他面向对象编程语言开发，当计算指令采用其他面向对象编程语言开发时，其实现过程与本实施例中描述的过程是一致的，同样需要加载中央协调方开发的扩展库来实现数据导入、模型训练、结果输出、模型导入、模型预测。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

综上所述，数据拥有方将数据集上传至所述中央协调方指定的数据储存设备；由所述中央协调方对所述数据集进行抽样，得到抽样结果，向数据使用方公开所述抽样结果，所述抽样结果用于对所述数据集质量进行监控；由所述数据使用方通过所述抽样结果，对所述数据集质量进行评估；由所述数据使用方向所述中央协调方获取数据使用授权；由所述数据使用方编写计算指令；在所述中央协调方指定的预设计算环境中执行所述计算指令；将所述计算指令的运算结果交付给所述数据使用方。可见，通过中央协调方对所述数据集进行抽样，可以在一定程度上消除数据拥有方和数据使用方信息不对称的现象，使数据使用方对数据集的质量有所把握。通过在中央协调方指定的计算环境上执行计算指令，以及限制交付结果只能通过预设扩展库提供的函数和方法输出，可以保证数据隐私不会泄露，实现数据所有权与使用权的分离，同时避免了对每一份上传的代码进行认证所带来的时间和人力消耗。由数据拥有方为数据设定计价方案，并由中央协调方担任交易中介，可以提升价格的透明度和交易的时效性，减少数据拥有方和数据使用方的沟通成本。

实施例二

本申请实施例二提供了一种数据共享装置，上述数据共享装置可集成于智能设备中，如图2所示，本申请实施例中的数据共享装置200包括：

数据储存单元201，用于接收和储存数据使用者上传的数据集，具体还用于响应其他单元发送的数据调用请求并发送请求的数据。

数据上传单元202，用于将数据拥有方持有的数据集及所述数据集的元数据上传至数据储存单元；

可选的，数据上传单元具体还用于为上传的数据集设定计价方案，数据拥有方如果不希望无偿分享上传的数据集，可以为上传的数据集设定计价方案，计价方案由收费模式和价格两个要素构成，可供选择的收费模式包括买断制收费、按使用量收费；

可选的，数据上传单元具体还用于向数据拥有方提供数据加密所需公钥，为了保证数据上传过程的安全性，数据使用方在上传数据集之前，可利用所述公钥对数据集中的样本逐条进行非对称加密，将数据集以密文形式上传及保存。

数据抽样单元203，用于对所述数据集进行样本量计算以及抽样，获得样本数、抽样结果；

可选的，若数据集是以密文形式上传和储存的，数据抽样单元具体还用于将抽样结果通过预设私钥解密为明文。

数据展示单元204，用于向数据使用方展示所述数据集的元数据、样本数和抽样结果。

指令提交单元205，用于接收数据使用方提交的计算指令。

指令执行单元206，用于执行数据使用方提交的计算指令；

可选的，若数据集是以密文形式上传和储存的，指令执行单元具体还用于将计算指令中调用的数据密文通过预设私钥解密为明文；

可选的，若数据集的计价方案是按使用量付费，指令执行单元具体还用于根据数据调用量进行计费，将计费信息发送给交易处理单元。

结果交付单元207，用于将所述计算指令的执行结果交付给所述数据使用方。

可选的，上述数据共享装置200还包括：

数据授权单元208，用于处理所述数据使用方提交的数据使用授权申请。

交易处理单元209，用于处理和交易相关的业务，具体又包括：

充值模块，用于处理数据使用方的充值操作，将资金从数据使用方的银行账户转移至数据使用方的系统虚拟账户；

转账模块，用于根据数据拥有方为数据集设定的计价方案，将资金在数据拥有方的系统虚拟账户和数据使用方的系统虚拟账户之间划转，其中，当数据集计价方式为买断制时，转账模块在数据使用方申请数据集使用授权时，将资金从数据使用方的系统虚拟账户划转到数据拥有方的系统虚拟账户，当数据集计价方式为按使用量收费时，转账模块根据指令执行单元提供的计费信息，将资金从数据使用方的系统虚拟账户划转到数据拥有方的系统虚拟账户；

提现模块，用于将资金从系统虚拟账户转移到银行账户，具体应用场景包括数据拥有方将出售数据使用权所得收入转移到银行账户，数据使用方将充值金额退回到银行账户。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将上述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

如图3所示，本申请还提供了一种基于可信执行环境的数据交易设备，包括：存储器301、处理器302和总线。处理器与存储器通过总线连接，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述本申请提供的基于中央协调方的数据共享方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，上述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

本申请还提供了一种计算机可读存储介质，其上存储有程序，其中，程序执行上述本申请提供的基于中央协调方的数据共享方法。上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，上述计算机程序包括计算机程序代码，上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括：能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括是电载波信号和电信信号。

以上上述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种基于中央协调方的数据安全共享方法，其特征在于：

所述数据使用方对所述数据集申请使用授权；

由所述数据使用方编写计算指令；

将所述计算指令的执行结果交付给所述数据使用方。

2.根据权利要求1所述的数据安全共享方法，其特征在于，所述数据拥有方将数据集上传至所述中央协调方指定的预设储存设备，包括：

3.根据权利要求1所述的数据安全共享方法，其特征在于：所述数据拥有方将数据集上传至所述中央协调方指定的预设储存设备，包括：

数据拥有方在上传数据集时为数据集指定标签字段，所述标签字段表示在使用该数据集训练统计模型时，该字段包含的内容可以作为所述模型的拟合目标。

4.根据权利要求3所述的数据安全共享方法，其特征在于：所述由所述数据使用方编写计算指令，包括：

5.根据权利要求1所述的数据安全共享方法，其特征在于：所述数据拥有方将数据集上传至所述中央协调方指定的预设储存设备，包括：

6.根据权利要求1所述的数据安全共享方法，其特征在于：所述所述数据使用方对所述数据集申请使用授权，包括：

7.根据权利要求1所述的数据安全共享方法，其特征在于，所述由所述数据使用方编写计算指令，其中：

8.根据权利要求1所述的数据安全共享方法，其特征在于：所述由所述数据使用方编写计算指令，包括：

9.根据权利要求7所述的数据安全共享方法，其特征在于，所述将所述计算指令的运算结果交付给所述数据使用方，包括：

10.一种基于中央协调方的数据安全共享装置，其特征在于，包括：

指令提交单元，用于接收述数据使用方提交的计算指令；

指令执行单元，用于执行所述计算指令；

11.根据权利要求10所述的装置，其特征在于，还包括：

12.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9任一项所述的方法。

13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述方法的步骤。