CN116308785A - 一种数据交易方法及装置 - Google Patents
一种数据交易方法及装置 Download PDFInfo
- Publication number
- CN116308785A CN116308785A CN202310214539.6A CN202310214539A CN116308785A CN 116308785 A CN116308785 A CN 116308785A CN 202310214539 A CN202310214539 A CN 202310214539A CN 116308785 A CN116308785 A CN 116308785A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- framework
- training
- pyu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/02—Banking, e.g. interest calculation or account maintenance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Marketing (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Storage Device Security (AREA)
Abstract
本发明涉及图像处理领域,具体提供了一种数据交易方法及装置,集成交易框架和开源隐私计算框架secretflow后实现数据隐私交易,数据结构包括标签列和特征列,所述标签列表示用户行为,所述特征列表示隐私的行为或固有特征属性;所述secretflow框架实现过程如下:S1、启动ray计算框架,设定ip,端口;S2、初始化明文计算设备PYU;S3、将所述PYU转化为SPU进行计算;S4、创建联邦表;S5、数据预处理;S6、构建HEU和SecureAggregator用于后续训练;S7、开始训练模型;S8、使用模型进行预测。与现有技术相比,本发明实现数据隐私交易,既保护用户数据安全,又使用户数据得以创造价值。
Description
技术领域
本发明涉及图像处理领域,具体提供一种数据交易方法及装置。
背景技术
随着数字经济的发展,数据要素重要性的确立和数据基础设施、数据法律法规、数据交易生态不够完善之间的矛盾日益凸显,究其原因如下:
医院、中小金融机构,基础设施不够完善,信息化还没有做好,业务还没有数据化,数据沉淀还不够多,哪怕已经有一些数据,但分布于不同的部门,存储于不同的基础架构,手工台账和Excel并存。近几年,多方面因素的共同作用下,现状已经有所改善。
基础设施具备以后,又迎来了越来越严格的合规和监管,个人隐私保护等法规的逐步健全,明文传输的明文传输个人隐私数据的商业模式渐渐的被取代。
大家都意识到数据的重要性,所以把数据看作自己最重要的资产,不愿意和其他机构分享数据。在某些金融机构内部,不同部门之间的数据并没有做到交互,隐私计算的核心,能力在于让数据可用不可见,让数据不动模型动。
希望能够让各方在数据不离开本地数据库的前提下,完成数据的交互,碰撞和建模。所以,隐私计算在数据基础设施逐渐完善,解决大家不能给的前提下,一方面保护了传输的数据的私密性,解决大家不敢给的困境,另一方面保护了数据所有机构的资产安全,打消大家不愿给的顾虑,是兼顾当下解决数字经济发展和隐私保护的最佳方案。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的数据交易方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的数据交易装置。
本发明解决其技术问题所采用的技术方案是:
一种数据交易方法,集成交易框架和开源隐私计算框架secretflow后实现数据隐私交易,数据结构包括标签列和特征列,所述标签列表示用户行为,所述特征列表示隐私的行为或固有特征属性;
所述secretflow框架实现过程如下:
S1、启动ray计算框架,设定ip,端口;
S2、初始化明文计算设备PYU;
S3、将所述PYU转化为SPU进行计算;
S4、创建联邦表;
S5、数据预处理;
S6、构建HEU和SecureAggregator用于后续训练;
S7、开始训练模型;
S8、使用模型进行预测。
进一步的,在步骤S1中,启动ray计算框架,设定ip,端口,并为worker节点设定好header节点的ip和端口。
进一步的,在步骤S2中,在启动secretflow之前需要先将ray集群启动,之后在header节点和worker节点上各自执行,为节点分别创建使用PYU。
进一步的,在步骤S3中,将所述PYU添加进SPU的节点列表,并定义加密协议参数,完成SPU构建,构建完成后,需要进行处理的数据pyobject将被PYU传入SPU进行密文计算。
进一步的,在步骤S4中,联合表是使用SPU构建的,MPC-PSI安全地获取来自各方的交集和对齐数据,需要构建MixDataFrame形式的x和y,MixDataFrame由HDataFrame或者VDataFrame列表构成。
进一步的,在步骤S5中,根据生产环境的情况调用框架工具进行处理,选择ECDH或KKRT算法进行样本对齐,之后可将求交之后的结果保存至VDataFrame,如样本中含有部分可能影响计算结果的错误值或者空白值,使用值替换和缺失值填充进行补充样本。
进一步的,在步骤S6中,构建HEU和SecureAggregator,设定参数mode和he_parameters用于后续训练;
在步骤S7中,使用secretflow优化过得sfxgboost模型,在训练之前将数据分为多个训练集和测试集,使用多个训练集进行多次训练,在测试集上进行测试直到模型收敛,获得模型;
在步骤S8中,使用模型进行预测,获取auc和准确率acc,获取到所需模型后完成交易。
一种数据交易装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种数据交易方法。
本发明的一种数据交易方法及装置和现有技术相比,具有以下突出的有益效果:
本发明实现数据隐私交易,既保护用户数据安全,又使用户数据得以创造价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种数据交易方法的框架示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种数据交易方法,数据交易部分由于跟传统交易平台无太大差异,可在获得开源交易框架的商用授权后直接改造使用,本发明在于集成交易框架和开源隐私计算框架secretflow后可实现数据隐私交易,下面将讲述使用secretflow实现隐私计算的流程。
假设有五家银行A B C D E,五家银行各自拥有一些用户敏感个人信息,且拥有他们是否购买了某种目标产品的结论,需要一个模型来判断某个将来的用户可能会购买此目标产品的概率。由于用户信息的敏感性和数据安全考虑,数据不可交流。但又需要更多的样本来完善模型的可靠度,此时就需要使用隐私计算框架来完成这个模型的构建。
假设有五家银行A B C D E,其数据结构如表所示:
标签列 | 特征1~特征10 | 特征11~特征20 | 特征21~特征30 |
BANK_A_y0 | BANK_A_x0 | BANK_B_x0 | BANK_C_x |
BANK_A_y1 | BANK_A_x1 | BANK_B_x1 | BANK_D_x |
BANK_A_y2 | BANK_A_x2 | BANK_B_x2 | BANK_E_x |
标签列表示用户行为,如例子中意味着用户购买了某种金融产品,而特征表示用户的某些隐私的行为或固有特征属性,其中BANK_A掌握着用户的特征1-10。BANK_B掌握用户特征11-20。BANK_C BANK_DBANK_E分别掌握部分用户的特征21-30。
确定好数据的结构关系后,我们使用secretflow完成此数据集的逻辑斯特回归、神经网络模型和XGB模型。
在开始之前,需要准备的环境;
如隐私计算服务器:安装python环境,secretflow框架,ray分布式计算框架。
secretflow框架具体的实现过程如下:
S1、启动ray计算框架,设定ip,端口;并为worker节点设定好header节点的ip和端口。
S2、初始化明文计算设备PYU,因为需要多个参与方进行联邦学习,在启动secretflow之前需要先将ray集群启动。之后在header节点和worker节点上各自执行下述流程,
为BANK_A到BANK_E五个节点分别创建其使用的PYU。
S3、为实现隐私计算要求,将PYU转化为SPU(Secure Processing Unit,密文计算设备)进行计算:
将上述五个PYU添加进SPU的节点列表,并定义加密协议(如ABY3协议)等参数,完成SPU构建,此过程通过secretflow框架实现,无需关心其中涉及的密码学原理。构建完成后,需要进行处理的数据pyobject将被PYU传入SPU进行密文计算。
S4、创建联邦表;
五家银行的数据纵横分割,需要一张逻辑上的表把他们统一起来进行处理,注意此表仅在逻辑上存在,其数据依然存储在五家银行各自的服务器中,仅通过SPU进行调度计算。
联邦表是一个跨多方的虚拟概念,联邦表中各方的数据存储在本地,不允许出域。除了拥有数据的一方之外,没有人可以访问数据存储。联邦表的任何操作都会由驱动调度给每个worker,执行指令会逐层传递,直到特定worker的Python Runtime。框架确保只有worker.device和Object两个概念。设备可以同时操作数据。联合表旨在从中心角度管理和操作多方数据。Federated Table的接口与pandas.DataFrame对齐,以降低多方数据操作的成本。SecretFlow框架提供Plain&Ciphertext混合编程能力。联合表是使用SPU构建的,MPC-PSI用于安全地获取来自各方的交集和对齐数据。
了解了联邦表的原理后,适用当前情况,需要构建MixDataFrame形式的x和y,MixDataFrame由HDataFrame或者VDataFrame列表构成。上图中BANK_A和BANK_B即为VDataFrame,和BANK_C BANK_D BANK_E组成的HDataFrame在组成上也是VDataFrame关系。
S5、数据预处理,此处需要根据生产环境的情况灵活调用框架工具进行处理;
如BANK_A和BANK_B数据的样本对齐,可选择提供的ECDH或KKRT算法进行,之后可将求交之后的结果保存至VDataFrame,再对由BANK_C D E的数据完成上述过程,已完成样本对齐。
如样本中含有部分可能影响计算结果的错误值或者空白值,可使用值替换和缺失值填充等方式补齐样本。
S6、构建HEU和SecureAggregator,设定mode和he_parameters等参数以用于后续训练。
S7、设定超参数,学习率等,开始训练模型。此处可使用secretflow优化过得sfxgboost模型。由于Xgb的训练基于SPU Device,双方的原始数据将会被保护。
在训练之前将数据分为多个训练集和测试集,使用多个训练集进行多次训练,在测试集上进行测试直到模型收敛,获得模型。
S8、使用模型进行预测。获取auc和准确率acc。至此,流程结束,获取到所需模型,完成交易。
基于上述方法,本实施例中的一种数据交易装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种数据交易方法。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种数据交易方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种数据交易方法,其特征在于,集成交易框架和开源隐私计算框架secretflow后实现数据隐私交易,数据结构包括标签列和特征列,所述标签列表示用户行为,所述特征列表示隐私的行为或固有特征属性;
所述secretflow框架实现过程如下:
S1、启动ray计算框架,设定ip,端口;
S2、初始化明文计算设备PYU;
S3、将所述PYU转化为SPU进行计算;
S4、创建联邦表;
S5、数据预处理;
S6、构建HEU和SecureAggregator用于后续训练;
S7、开始训练模型;
S8、使用模型进行预测。
2.根据权利要求1所述的一种数据交易方法,其特征在于,在步骤S1中,启动ray计算框架,设定ip,端口,并为worker节点设定好header节点的ip和端口。
3.根据权利要求2所述的一种数据交易方法,其特征在于,在步骤S2中,在启动secretflow之前需要先将ray集群启动,之后在header节点和worker节点上各自执行,为节点分别创建使用PYU。
4.根据权利要求3所述的一种数据交易方法,其特征在于,在步骤S3中,将所述PYU添加进SPU的节点列表,并定义加密协议参数,完成SPU构建,构建完成后,需要进行处理的数据pyobject将被PYU传入SPU进行密文计算。
5.根据权利要求4所述的一种数据交易方法,其特征在于,在步骤S4中,联合表是使用SPU构建的,MPC-PSI安全地获取来自各方的交集和对齐数据,需要构建MixDataFrame形式的x和y,MixDataFrame由HDataFrame或者VDataFrame列表构成。
6.根据权利要求5所述的一种数据交易方法,其特征在于,在步骤S5中,根据生产环境的情况调用框架工具进行处理,选择ECDH或KKRT算法进行样本对齐,之后可将求交之后的结果保存至VDataFrame,如样本中含有部分可能影响计算结果的错误值或者空白值,使用值替换和缺失值填充进行补充样本。
7.根据权利要求6所述的一种数据交易方法,其特征在于,在步骤S6中,构建HEU和SecureAggregator,设定参数mode和he_parameters用于后续训练;
在步骤S7中,使用secretflow优化过得sfxgboost模型,在训练之前将数据分为多个训练集和测试集,使用多个训练集进行多次训练,在测试集上进行测试直到模型收敛,获得模型;
在步骤S8中,使用模型进行预测,获取auc和准确率acc,获取到所需模型后完成交易。
8.一种数据交易装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310214539.6A CN116308785A (zh) | 2023-03-08 | 2023-03-08 | 一种数据交易方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310214539.6A CN116308785A (zh) | 2023-03-08 | 2023-03-08 | 一种数据交易方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116308785A true CN116308785A (zh) | 2023-06-23 |
Family
ID=86828238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310214539.6A Pending CN116308785A (zh) | 2023-03-08 | 2023-03-08 | 一种数据交易方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116308785A (zh) |
-
2023
- 2023-03-08 CN CN202310214539.6A patent/CN116308785A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230162181A1 (en) | Blockchain-based method and system for specifying the recipient of an electronic communication | |
US20230028606A1 (en) | Method and apparatus for vertical federated learning | |
CN113689003B (zh) | 一种安全的去除第三方的混合联邦学习框架及方法 | |
CN112733967A (zh) | 联邦学习的模型训练方法、装置、设备及存储介质 | |
CN111860864A (zh) | 纵向联邦建模优化方法、设备及可读存储介质 | |
EP3956846A1 (de) | Verfahren zum direkten übertragen von elektronischen münzdatensätzen zwischen endgeräten sowie bezahlsystem | |
CN111666460A (zh) | 基于隐私保护的用户画像生成方法、装置及存储介质 | |
CN114595835B (zh) | 基于联邦学习的模型训练方法及装置、设备、存储介质 | |
CN111797999A (zh) | 纵向联邦建模优化方法、装置、设备及可读存储介质 | |
CN113591097A (zh) | 业务数据处理方法、装置、电子设备及存储介质 | |
US20230419182A1 (en) | Methods and systems for imrpoving a product conversion rate based on federated learning and blockchain | |
CN111383113A (zh) | 可疑客户预测方法、装置、设备及可读存储介质 | |
CN113836809B (zh) | 基于区块链和联邦学习的跨行业数据联合建模方法及系统 | |
CN114611128B (zh) | 一种纵向联邦学习方法、装置、系统、设备及存储介质 | |
CN114971841A (zh) | 风险管理方法、风险模型训练方法、装置、设备和介质 | |
Canetti et al. | Task-structured probabilistic I/O automata | |
CN114372871A (zh) | 信用评分值的确定方法及其装置、电子设备及存储介质 | |
CN113626866A (zh) | 一种面向联邦学习的本地化差分隐私保护方法、系统、计算机设备及存储介质 | |
CN115865398A (zh) | 一种数字化业务安全原生体系的构建方法及系统 | |
CN110969524A (zh) | 基于区块链的资金业务处理方法、装置、设备及介质 | |
CN116308785A (zh) | 一种数据交易方法及装置 | |
CN116186755A (zh) | 隐私计算方法、装置、终端设备及存储介质 | |
Pankov et al. | Using Probabilistic Methods in the Analysis of Information Security of Distributed Ledger Systems | |
CN114860615A (zh) | 规则自动化测试方法、装置、电子设备及存储介质 | |
CN114065641A (zh) | 多分类梯度提升树的构建方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |