CN114996760A - 隐私计算、隐私数据及联邦学习的数据管理系统及方法 - Google Patents

隐私计算、隐私数据及联邦学习的数据管理系统及方法 Download PDF

Info

Publication number
CN114996760A
CN114996760A CN202210673705.4A CN202210673705A CN114996760A CN 114996760 A CN114996760 A CN 114996760A CN 202210673705 A CN202210673705 A CN 202210673705A CN 114996760 A CN114996760 A CN 114996760A
Authority
CN
China
Prior art keywords
data
management system
module
privacy
export
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210673705.4A
Other languages
English (en)
Inventor
高晓龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhixing Technology Co Ltd
Original Assignee
Shenzhen Zhixing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhixing Technology Co Ltd filed Critical Shenzhen Zhixing Technology Co Ltd
Priority to CN202210673705.4A priority Critical patent/CN114996760A/zh
Publication of CN114996760A publication Critical patent/CN114996760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Abstract

本申请涉及隐私计算、隐私数据及联邦学习技术领域,具体涉及一种隐私计算、隐私数据及联邦学习的数据管理系统及方法。数据管理系统包括:元信息数据库,用于存储数据元信息;数据存储库,用于存储数据;数据导入模块,配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库;和数据导出模块,配置为从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。如此提供统一的数据管理使用方式以及提高数据使用的灵活性和便捷性。

Description

隐私计算、隐私数据及联邦学习的数据管理系统及方法
技术领域
本申请涉及隐私计算、隐私数据及联邦学习技术领域,具体涉及一种隐私计算、隐私数据及联邦学习的数据管理系统及方法。
背景技术
隐私计算(Privacy Computing)指的是在保证数据提供方不泄露原始数据的前提下对数据进行分析计算的一系列技术,保证数据在流通和融合过程中“可用不可见”。隐私计算在通常意义上涵盖以保护数据隐私的同时实现计算任务为目的所使用的一系列广泛的技术。隐私计算结合计算机科学、人工智能以及云计算等技术的发展,在数据查询和机器学习中取得了重大进展,在诸多应用场景下提供了对数据的安全获取和对数据隐私的保护。常见的隐私计算技术包括如联邦学习(Federated Learning,FL)、安全多方计算(Secure Multi-Party Computation,SMPC)、秘密共享(Secret Sharing)、可信执行环境(Trusted Execution Environment,TEE)、差分隐私(Differential Privacy,DP)、同态加密(Homomorphic Encryption,HE)等。其中联邦学习指的是在确保数据不离开安全控制范围例如数据不传递到外部的前提下实现多方协同构建联邦学习模型。另一方面,随着对数据安全和隐私信息保护的日益重视以及《数据安全法》和《个人信息保护法》等相关法律法规的推出,隐私数据例如涉及个人信息或敏感信息的个人隐私数据等,在数据处理、数据通信、数据交互等各方面也面临更高的隐私保护和数据安全的要求。
在隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景,往往要面对来源广泛的数据源以及各种类型和大小的数据,并且经常面对计算密集型和大数据量的需求,因此面临数据加载慢、建模效率低、整体效率低下等挑战。为此,需要一种隐私计算、隐私数据及联邦学习的数据管理系统及方法,能够克服上述各种挑战。
发明内容
第一方面,本申请实施例提供了一种数据管理系统,用于隐私计算、隐私数据及联邦学习。所述数据管理系统包括:元信息数据库,用于存储数据元信息;数据存储库,用于存储数据;数据导入模块,配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库;和数据导出模块,配置为从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。
第一方面所描述的技术方案,能够支持数据映射方式导入、数据写入方式导入、ID数据导出、特征数据导出以及导出数据查询反馈等功能,为隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制,可以用于优化例如联邦学习数据导入、数据求交以及联邦学习建模等流程,有利于提高数据加载速度、提高建模效率以及提升整体运算效率。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据管理系统配置为通过所述数据导出模块导出ID数据到所述隐私计算框架从而进行求交操作以获得数据ID交集。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据管理系统还配置为通过所述数据导出模块以基于所述数据ID交集导出与所述数据ID交集对应的特征数据到所述隐私计算框架从而进行建模操作以建立联邦学习模型或者进行离线预测操作。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据管理系统还配置为接收数据查询要求并且通过所述数据导出模块以基于所述数据查询要求导出与所述数据查询要求对应的数据查询反馈到所述隐私计算框架从而进行在线预测操作,其中与所述数据查询要求对应的数据查询反馈包括所述数据存储库中符合所述数据查询要求的至少一个数据的特征。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述建模操作适用于离线建模场景,所述离线预测操作适用于离线预测场景,所述在线预测操作适用于在线预测场景。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据导入模块将所述输入数据通过所述数据映射方式导入所述元信息数据库,包括:所述数据导入模块从所述外部数据源获取所述输入数据的虚拟映射信息后将所述输入数据的虚拟映射信息导入所述元信息数据库。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据导出模块通过所述元信息数据库获取所述输入数据的虚拟映射信息后基于所述输入数据的虚拟映射信息从所述外部数据源获得与所述输入数据对应的所述ID数据、所述特征数据或者所述数据查询反馈。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据导入模块将所述输入数据通过所述数据写入方式导入所述数据存储库,包括:所述数据导入模块从所述外部数据源获取所述输入数据后将所述输入数据写入所述数据存储库。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据导出模块从所述数据存储库获取并导出与所述输入数据对应的ID数据、特征数据或者数据查询反馈。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述输入数据是关系型数据并且所述数据存储库以关系型数据表形式存储所述输入数据。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述元信息数据库所存储的数据元信息包括以下至少一项:名称、版本号、特征名称、标签名称、数据量、数据存储地址。
根据第一方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据管理系统还包括异步调度模块,所述异步调度模块用于协调所述数据导入模块和所述数据导出模块从而以异步执行方式完成数据导入导出任务。
第二方面,本申请实施例提供了一种数据管理方法,用于隐私计算、隐私数据及联邦学习。所述数据管理方法应用于数据管理系统,所述数据管理系统包括元信息数据库、数据存储库、数据导入模块和数据导出模块,所述数据管理方法包括:通过所述元信息数据库存储数据元信息;通过所述数据存储库存储数据;通过所述数据导入模块,选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库;和通过所述数据导出模块,从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。
第二方面所描述的技术方案,能够支持数据映射方式导入、数据写入方式导入、ID数据导出、特征数据导出以及导出数据查询反馈等功能,为隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制,可以用于优化例如联邦学习数据导入、数据求交以及联邦学习建模等流程,有利于提高数据加载速度、提高建模效率以及提升整体运算效率。
根据第二方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据管理方法还包括:通过所述数据导出模块导出ID数据到所述隐私计算框架从而进行求交操作以获得数据ID交集,以及通过所述数据导出模块以基于所述数据ID交集导出与所述数据ID交集对应的特征数据到所述隐私计算框架从而进行建模操作以建立联邦学习模型或者进行离线预测操作。
根据第二方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述数据管理方法还包括:接收数据查询要求并且通过所述数据导出模块以基于所述数据查询要求导出与所述数据查询要求对应的数据查询反馈到所述隐私计算框架从而进行在线预测操作,其中与所述数据查询要求对应的数据查询反馈包括所述数据存储库中符合所述数据查询要求的至少一个数据的特征。
根据第二方面的技术方案的一种可能的实现方式,本申请实施例还提供了,所述建模操作适用于离线建模场景,所述离线预测操作适用于离线预测场景,所述在线预测操作适用于在线预测场景。
第三方面,本申请实施例提供了一种非瞬时性计算机可读存储介质。所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现根据第二方面中任一项所述的数据管理方法。
第三方面所描述的技术方案,能够支持数据映射方式导入、数据写入方式导入、ID数据导出、特征数据导出以及导出数据查询反馈等功能,为隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制,可以用于优化例如联邦学习数据导入、数据求交以及联邦学习建模等流程,有利于提高数据加载速度、提高建模效率以及提升整体运算效率。
第四方面,本申请实施例提供了一种电子设备。所述电子设备包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现根据第二方面中任一项所述的数据管理方法。
第四方面所描述的技术方案,能够支持数据映射方式导入、数据写入方式导入、ID数据导出、特征数据导出以及导出数据查询反馈等功能,为隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制,可以用于优化例如联邦学习数据导入、数据求交以及联邦学习建模等流程,有利于提高数据加载速度、提高建模效率以及提升整体运算效率。
附图说明
为了说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1示出了本申请实施例提供的数据管理系统的框图。
图2示出了本申请实施例提供的数据管理方法的流程示意图。
图3示出了本申请实施例提供的用于图2的数据管理方法的电子设备的框图。
具体实施方式
本申请实施例为了解决现有技术中数据加载慢、建模效率低、整体效率低下等挑战,提出了一种隐私计算、隐私数据及联邦学习的数据管理系统及方法。其中,所述数据管理系统包括:元信息数据库,用于存储数据元信息;数据存储库,用于存储数据;数据导入模块,配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库;和数据导出模块,配置为从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。本申请实施例具有以下有益技术效果:提高数据加载速度、提高建模效率以及提升整体运算效率。
本申请实施例可用于以下应用场景,包括但是不限于,隐私计算、隐私数据、多方安全计算、与联邦学习有关的机器学习模型训练、数据安全、隐私保护或者应用隐私计算框架或算法的其它应用场景等。
本申请实施例可以依据具体应用环境进行调整和改进,此处不做具体限定。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的数据管理系统的框图。如图1所示,数据管理系统包括:元信息数据库110,用于存储数据元信息;数据存储库120,用于存储数据;数据导入模块130,配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库110或者通过数据写入方式导入到所述数据存储库120;和数据导出模块140,配置为从所述数据存储库120导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库110从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。图1所示的数据管理系统适用于隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景,面对来源广泛且类型大小不一致的各种数据,提供了统一且灵活的数据导入导出机制,从而可以有效支持联邦学习建模或者计算密集型任务或者大数据量场景等。具体的,元信息数据库110用于存储数据元信息。数据元信息指的是例如数据的名称、版本号、特征名称、标签名称、数据量、数据存储地址等信息。通过元信息数据库110可以实现对不同版本的数据集以及不同的需求进行针对性管理。例如,在横向建模时例如横向联邦学习应用场景,可以通过特征名称直接判断是否可以进行横向建模,也就是可以直接通过访问元信息数据库110来判断是否可以进行横向建模。再例如,在纵向建模时例如纵向联邦学习应用场景,可以通过特征名称、标签名称、数据量、数据存储地址等来了解参与建模的数据的维度和规模。数据存储库120用于存储数据,通过支持海量数据的存储操作以适用于大规模数据库场景。数据存储库120可以采用例如分布式的方式存储数据或者采用任意其他合适的存储架构。与元信息数据库110用于存储数据元信息不同的是,数据存储库120所存储的数据包括全量特征数据,也可以包括例如图像数据、视频数据或者大整数位宽数据等,因此数据存储库120所存储的数据可用于计算密集型任务或者大数据量场景等。并且,数据存储库120可以是关系型数据库或者可用于存储关系型数据,或者可以采用其它合适的数据库架构。数据导入模块130,配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库110或者通过数据写入方式导入到所述数据存储库120。其中,将输入数据通过数据映射方式映射到所述元信息数据库110意味着不将输入数据实际存储到数据管理系统,而是通过例如虚拟映射等方式将其它可操作数据源的信息保存到所述元信息数据库110,这样后续通过读取所述元信息数据库110所保存的其它可操作数据源的信息从而直接去其它可操作数据源来导出数据。例如,其它可操作数据源可以是外部数据源也就是相对于所述数据管理系统而言的外部的数据源,如另一台计算机、云服务器或者外部存储设备等。其它可操作数据源的信息可以是用于从其它可操作数据源获取数据本体的必需信息,例如指针、数据标识、存储地址等。这些信息对应的是将输入数据通过数据映射方式映射到所述元信息数据库110的操作,因此也可以理解为该输入数据的元信息,也就是说后续可以通过该输入数据的元信息从实际存储了该输入数据的外部数据源获取该输入数据。如此,通过不将输入数据实际存储而是以例如虚拟映射等方式将输入数据映射到所述元信息数据库110,充分利用了外部数据源的空间和可拓展性以及利用了元信息数据库的存储特性节省了存储空间。
请继续参阅图1,相对于将输入数据通过数据映射方式映射到所述元信息数据库110,数据导入模块130还配置为选择性地将输入数据通过数据写入方式导入到所述数据存储库120,这意味着将该输入数据实际存储到数据管理系统,例如将来自其它可操作数据源的数据真实的导入并存储到所述数据存储库120。数据导入模块130可以支持多种方式导入数据,例如通过本地文件如csv和txt等,通过远程文件如http和ftp等,通过数据库表如mysql、oracle和hive等,数据导入模块130还可以支持任何方式的关系型数据导入例如导入关系型数据表。此外,数据导入模块130还支持对本地文件和远程文件针对性地执行相应的读取和插入操作,例如对于本地文件直接按行读取后插入到数据表,而对于远程文件则先下载到本地再按行读取后插入到数据表。此外,数据导入模块130还支持对数据库表类型的文件进行针对性操作,例如对于数据库表查询全部数据后插入到数据表。如此,数据导入模块130通过选择性地以数据映射方式或者数据导入方式来导入输入数据,可以结合实际需要和偏好等灵活地选择相应的输入数据导入方式以及调用相应的元信息数据库110或者数据存储库120。例如,当面对海量数据应用场景而数据管理系统的本地存储能力如数据存储库120的物理存储空间相对不足或者说剩余的空闲存储资源相对不足时,可以选择以数据映射方式导入输入数据到元信息数据库110从而利用外部数据源的空间和可拓展性。再例如,当面对计算密集型任务例如要对同一批次的很多数据进行加密运算或解密运算时,这些同一批次的数据往往适用相同的配置参数和模型参数等,适合通过并行化运算方式来优化,也因此适合在数据存储和数据导入导出上做出优化来提升整体计算效率。例如,可以将同一批次的多个数据以相同的存储规格(例如相同大小的字段、数据块或者相同数量的硬盘簇等)连续地存储在同一个物理存储区域上,然后读取时也就可以基于初始存储地址和存储规格便利地读取一定个数的数据,这样通过连续分布和按整段读取或按固定个数读取的方式,能发挥并行化运算的优势。因此适合以数据导入方式来导入输入数据到数据存储库120并在数据存储库120中实现上述的连续分布,或者,也可能以数据映射方式导入输入数据到元信息数据库110并在实际存储了该输入数据的外部数据源中实现上述的连续分布。再例如,如果实际需要或者偏好对数据存储安全性等要求较高时,可以优先考虑以数据导入方式来导入输入数据到数据存储库120并且可以结合数据安全存储技术例如使得数据存储库120位于可信执行环境(Trusted Execution Environment,TEE)中。此外,数据导入模块130通过选择性地以数据映射方式或者数据导入方式来导入输入数据,还可以包含复合式的导入方式,也就是对一部分输入数据以数据映射方式导入并且对另一部分输入数据以数据导入方式导入。如此,结合实际需要和偏好等,例如结合对数据存储安全性的要求、应用场景下所面对的数据类型及大小、具体计算任务的特点以及结合外部数据源的特性(如是否支持存储优化和并行化计算优化、是否有TEE等),数据导入模块130可以有效支持隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景。
请继续参阅图1,数据导出模块140,配置为从所述数据存储库120导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库110从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。上面提到,数据导入模块130配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库110或者通过数据写入方式导入到所述数据存储库120(可以结合实际需要和偏好如数据存储安全性、数据类型及大小、计算任务的特点以及外部数据源的特性等),则后续当需要导出数据时,可以直接从所述数据存储库120读取实际存储的ID数据、特征数据或者数据查询反馈,或者,可以通过读取所述元信息数据库110所保存的其它可操作数据源的信息从而直接去其它可操作数据源来导出所述ID数据、所述特征数据或者所述数据查询反馈。这里,数据导出模块140导出的数据用于其它系统使用,并且针对隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景提供了三种导出接口,分别是ID数据导出接口、特征数据导出接口以及数据查询反馈导出接口。其中,ID数据导出接口一般用于数据求交,例如将数据的ID列导出为ID数据集然后将ID数据集上传到联邦系统以用于求交过程。数据的ID列可以不是唯一的,例如在同一种关系型数据列表中,个人信息的手机号、身份证号都可以指定为数据的ID,但是导出ID时只能指定其中一列并且导出的ID数据集一定是单列的。一种示例性的ID数据导出操作是通过关系型数据库例如SQL查询语句查询到ID列后写入本地文件,并将本地文件上传到联邦系统。特征数据导出接口,指的是通过交集ID来获取对应的特征数据后写到本地文件并上传到联邦系统。一种示例性的特征数据导出操作时是将交集ID导入到数据管理系统然后使用关系型数据库例如SQL语句的join功能查询到与交集ID对应的全量特征数据,并且可以指定需要导出的特征数据的名称,以及只导出所需要的特征数据集用于建模,这样可以增加数据使用的灵活性和便捷性。特征数据导出接口一般用于离线建模应用场景,例如通过导出特征数据如全量特征数据来建立联邦学习模型。数据查询反馈接口用于实时预测如在线预测场景,例如可以通过用户ID来查询单条数据的特征。
请继续参阅图1,应当理解的是,数据导入任务和数据导出任务都涉及输入输出操作,为了提高执行效率和降低时间消耗,可以通过异步执行方式例如通过异步调度框架来提高系统效率。如此,通过上述的数据管理系统的各个元件以及各自的功能,能够支持数据映射方式导入、数据写入方式导入、ID数据导出、特征数据导出以及导出数据查询反馈等功能,为隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制,可以用于优化例如联邦学习数据导入、数据求交以及联邦学习建模等流程,有利于提高数据加载速度、提高建模效率以及提升整体运算效率。
在一种可能的实施方式中,所述数据管理系统配置为通过所述数据导出模块140导出ID数据到所述隐私计算框架从而进行求交操作以获得数据ID交集。如此,实现了隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下的数据求交操作,并且可以面对来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制。在一些实施例中,所述数据管理系统还配置为通过所述数据导出模块140以基于所述数据ID交集导出与所述数据ID交集对应的特征数据到所述隐私计算框架从而进行建模操作以建立联邦学习模型或者进行离线预测操作。如此,实现了隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下的建模操作或者离线预测操作,并且可以面对来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制。在一些实施例中,所述数据管理系统还配置为接收数据查询要求并且通过所述数据导出模块140以基于所述数据查询要求导出与所述数据查询要求对应的数据查询反馈到所述隐私计算框架从而进行在线预测操作,其中与所述数据查询要求对应的数据查询反馈包括所述数据存储库中符合所述数据查询要求的至少一个数据的特征。如此,实现了隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下的数据查询操作或者在线预测操作,并且可以面对来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制。在一些实施例中,所述建模操作适用于离线建模场景,所述离线预测操作适用于离线预测场景,所述在线预测操作适用于在线预测场景。这里,数据应用场景被划分为离线建模场景、离线预测场景和在线预测场景。其中,离线建模场景一般采用数据的批量导出功能。一种示例性的离线建模场景可以从求交开始,将多个参与方各自的数据都批量导入到各自的数据管理系统,然后在建模流程中由其中一个参与方通过数据导出模块来导出ID数据并且通知另一个参与方也执行ID数据的导出操作,最后双方一起将ID数据上传到联邦学习系统用于求交任务;等求交任务结束后,双方再通过各自的数据导出模块来导出与交集ID对应的特征数据,然后上传到联邦学习系统用于建模任务。一种示例性的在线预测场景可以是等建模任务结束后或者基于已有的现成联邦学习模型,一个参与方可以通过数据导出模块的数据查询反馈接口获取与本方ID对应的特征数据进行预测,然后通知另一个参与方也通过数据导出模块的数据查询反馈接口获取与另一个参与方ID对应的特征数据进行预测并将结果返回给前一个参与方。应当理解的是,建模操作、建模场景可以理解为涵盖了一般意义下的联邦学习模型建立、模型训练以及模型构建等,还可以涵盖隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下的协同训练模型或者协同建立模型,其中离线建模场景一般适用于不要求即时反馈结果或者不要求在较短时限内反馈结果的需求,或者适用于有较大的训练数据量的需求。预测操作、预测场景可以理解为运用已经建立或者已有的模型来根据给定输入导出模型结果的场景,可以是类似神经网络模型的推理任务如回归、推荐和识别任务。其中在线预测场景一般适用于要求即时反馈结果或者要求在较短时限内反馈结构的需求,例如自动驾驶场景下的规避行为判断等。离线预测场景则适用于不要求即时反馈结果或者不要求在较短时限内反馈结果的需求。如此,通过将数据应用场景被划分为离线建模场景、离线预测场景和在线预测场景,并且对于与这些应用场景对应的建模操作、离线预测操作和在线预测操作提供了能支持这些操作的数据存储以及数据导入导出机制,有利于在不同的应用场景下进一步优化数据加载速度和整体运算效率。
在一种可能的实施方式中,所述数据导入模块130将所述输入数据通过所述数据映射方式导入所述元信息数据库110,包括:所述数据导入模块从所述外部数据源获取所述输入数据的虚拟映射信息后将所述输入数据的虚拟映射信息导入所述元信息数据库110。在一些实施例中,所述数据导出模块140通过所述元信息数据库110获取所述输入数据的虚拟映射信息后基于所述输入数据的虚拟映射信息从所述外部数据源获得与所述输入数据对应的所述ID数据、所述特征数据或者所述数据查询反馈。
在一种可能的实施方式中,所述数据导入模块130将所述输入数据通过所述数据写入方式导入所述数据存储库120,包括:所述数据导入模块130从所述外部数据源获取所述输入数据后将所述输入数据写入所述数据存储库120。在一些实施例中,所述数据导出模块140从所述数据存储库120获取并导出与所述输入数据对应的ID数据、特征数据或者数据查询反馈。在一些实施例中,所述输入数据是关系型数据并且所述数据存储库120以关系型数据表形式存储所述输入数据。
在一种可能的实施方式中,所述元信息数据库110所存储的数据元信息包括以下至少一项:名称、版本号、特征名称、标签名称、数据量、数据存储地址。
在一种可能的实施方式中,所述数据管理系统还包括异步调度模块(未示出),所述异步调度模块用于协调所述数据导入模块130和所述数据导出模块140从而以异步执行方式完成数据导入导出任务。
图2示出了本申请实施例提供的数据管理方法的流程示意图。如图2所示,数据管理方法包括以下步骤。
步骤S210:通过所述元信息数据库存储数据元信息。
步骤S220:通过所述数据存储库存储数据。
步骤S230:通过所述数据导入模块,选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库。
步骤S240:通过所述数据导出模块,从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。
其中,所述数据管理方法应用于数据管理系统,所述数据管理系统包括元信息数据库、数据存储库、数据导入模块和数据导出模块。数据导入任务和数据导出任务都涉及输入输出操作,为了提高执行效率和降低时间消耗,可以通过异步执行方式例如通过异步调度框架来提高系统效率。如此,通过上述的数据管理系统的各个元件以及各自的功能,能够支持数据映射方式导入、数据写入方式导入、ID数据导出、特征数据导出以及导出数据查询反馈等功能,为隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景下来源广泛且类型大小不一致的各种数据提供了对应的功能接口和统一且灵活的数据导入导出机制,可以用于优化例如联邦学习数据导入、数据求交以及联邦学习建模等流程,有利于提高数据加载速度、提高建模效率以及提升整体运算效率。并且,应当理解的是,图2所示的数据管理方法,可以结合实际需要和偏好等,例如结合对数据存储安全性的要求、应用场景下所面对的数据类型及大小、具体计算任务的特点以及结合外部数据源的特性(如是否支持存储优化和并行化计算优化、是否有TEE等),实现了有效支持隐私计算和联邦学习以及涉及到隐私数据处理的各种应用场景。
并且,图2所示的数据管理方法,其中的细节和各种具体实施例,可以参考图1所示的数据管理系统的相关细节、实施例和实施方式,在此不再赘述。
在一种可能的实施方式中,所述数据管理方法还包括:通过所述数据导出模块导出ID数据到所述隐私计算框架从而进行求交操作以获得数据ID交集,以及通过所述数据导出模块以基于所述数据ID交集导出与所述数据ID交集对应的特征数据到所述隐私计算框架从而进行建模操作以建立联邦学习模型或者进行离线预测操作。在一些实施例中,所述数据管理方法还包括:接收数据查询要求并且通过所述数据导出模块以基于所述数据查询要求导出与所述数据查询要求对应的数据查询反馈到所述隐私计算框架从而进行在线预测操作,其中与所述数据查询要求对应的数据查询反馈包括所述数据存储库中符合所述数据查询要求的至少一个数据的特征。在一些实施例中,所述建模操作适用于离线建模场景,所述离线预测操作适用于离线预测场景,所述在线预测操作适用于在线预测场景。如此,通过将数据应用场景被划分为离线建模场景、离线预测场景和在线预测场景,并且对于与这些应用场景对应的建模操作、离线预测操作和在线预测操作提供了能支持这些操作的数据存储以及数据导入导出机制,有利于在不同的应用场景下进一步优化数据加载速度和整体运算效率。
应当理解的是,上述方法可以通过相应的执行主体或者载体来实现。在一些示例性实施例中,一种非瞬时性计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现上述方法以及上述任意实施例、实施方式或者它们的组合。在一些示例性实施例中,一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器通过运行所述可执行指令以实现上述方法以及上述任意实施例、实施方式或者它们的组合。
图3示出了本申请实施例提供的用于图2的数据管理方法的电子设备的框图。如图3所示,电子设备包括主处理器302,内部总线304,网络接口306,主存储器308,以及辅助处理器310和辅助内存312,还有辅助处理器320和辅助内存322。其中,主处理器302与主存储器308连接,主存储器308可用于存储主处理器302可执行的计算机指令,从而可以实现图2的数据管理方法,包括其中部分或者全部步骤,也包括其中步骤的任意可能的组合或结合以及可能的替换或者变体。网络接口306用于提供网络连接以及通过网络收发数据。内部总线304用于提供在主处理器302、网络接口306、辅助处理器310以及辅助处理器320之间的内部的数据交互。其中,辅助处理器310与辅助内存312连接并一起提供辅助计算能力,而辅助处理器320与辅助内存322连接并一起提供辅助计算能力。辅助处理器310和辅助处理器320可以提供相同或者不同的辅助计算能力,包括但是不限于,针对特定计算需求进行优化的计算能力如并行处理能力或者张量计算能力,针对特定算法或者逻辑结构进行优化的计算能力例如迭代计算能力或者图计算能力等。辅助处理器310和辅助处理器320可以包括特定类型的一个或者多个处理器,如数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)等,从而可以提供定制化的功能和结构。在一些示例性实施例中,电子设备可以不包括辅助处理器,可以包括仅一个辅助处理器,还可以包括任意数量的辅助处理器且各自具有相应的定制化功能及结构,在此不做具体限定。图3中所示出的两个辅助处理器的架构仅为说明性而不应解释为限制性。另外,主处理器302可以包括单核或者多核的计算单元,用于提供本申请实施例所必需的功能和操作。另外,主处理器302和辅助处理器(如图3中的辅助处理器310和辅助处理器320)可以具有不同的架构,也就是电子设备可以是基于异构架构的系统,例如主处理器302可以是基于指令集操作体系的通用型处理器如CPU,而辅助处理器可以是适合并行化计算的图形处理器GPU或者是适合神经网络模型相关运算的专用加速器。辅助内存(例如图3所示的辅助内存312和辅助内存322)可以用于配合各自对应的辅助处理器来实现定制化功能及结构。而主存储器308用于存储必要的指令、软件、配置、数据等从而可以配合主处理器302提供本申请实施例所必需的功能和操作。在一些示例性实施例中,电子设备可以不包括辅助内存,可以包括仅一个辅助内存,还可以包括任意数量的辅助内存,在此不做具体限定。图3中所示出的两个辅助内存的架构仅为说明性而不应解释为限制性。主存储器308以及可能的辅助内存可以包括以下一个或多个特征:易失性,非易失性,动态,静态,可读/写,只读,随机访问,顺序访问,位置可寻址性,文件可寻址性和内容可寻址性,并且可以包括随机存取存储器(RAM),闪存,只读存储器(ROM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),寄存器,硬盘,可移动磁盘,可记录和/或可重写光盘(CD),数字多功能光盘(DVD),大容量存储介质设备或任何其他形式的合适存储介质。内部总线304可以包括不同总线结构中的任何一种或不同总线结构的组合,例如存储器总线或存储器控制器,外围总线,通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。应当理解的是,图3所示的电子设备,其所示的结构并不构成对有关装置或系统的具体限定,在一些示例性实施例中,电子设备可以包括比具体实施例和附图更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者具有不同的部件布置。
本申请提供的具体实施例可以用硬件,软件,固件或固态逻辑电路中的任何一种或组合来实现,并且可以结合信号处理,控制和/或专用电路来实现。本申请具体实施例提供的设备或装置可以包括一个或多个处理器(例如,微处理器,控制器,数字信号处理器(DSP),专用集成电路(ASIC),现场可编程门阵列(FPGA)等),这些处理器处理各种计算机可执行指令从而控制设备或装置的操作。本申请具体实施例提供的设备或装置可以包括将各个组件耦合在一起的系统总线或数据传输系统。系统总线可以包括不同总线结构中的任何一种或不同总线结构的组合,例如存储器总线或存储器控制器,外围总线,通用串行总线和/或利用多种总线体系结构中的任何一种的处理器或本地总线。本申请具体实施例提供的设备或装置可以是单独提供,也可以是系统的一部分,也可以是其它设备或装置的一部分。
本申请提供的具体实施例可以包括计算机可读存储介质或与计算机可读存储介质相结合,例如能够提供非暂时性数据存储的一个或多个存储设备。计算机可读存储介质/存储设备可以被配置为保存数据,程序器和/或指令,这些数据,程序器和/或指令在由本申请具体实施例提供的设备或装置的处理器执行时使这些设备或装置实现有关操作。计算机可读存储介质/存储设备可以包括以下一个或多个特征:易失性,非易失性,动态,静态,可读/写,只读,随机访问,顺序访问,位置可寻址性,文件可寻址性和内容可寻址性。在一个或多个示例性实施例中,计算机可读存储介质/存储设备可以被集成到本申请具体实施例提供的设备或装置中或属于公共系统。计算机可读存储介质/存储设备可以包括光存储设备,半导体存储设备和/或磁存储设备等等,也可以包括随机存取存储器(RAM),闪存,只读存储器(ROM),可擦可编程只读存储器(EPROM),电可擦可编程只读存储器(EEPROM),寄存器,硬盘,可移动磁盘,可记录和/或可重写光盘(CD),数字多功能光盘(DVD),大容量存储介质设备或任何其他形式的合适存储介质。
以上是本申请实施例的实施方式,应当指出,本申请具体实施例描述的方法中的步骤可以根据实际需要进行顺序调整、合并和删减。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其他实施例的相关描述。可以理解的是,本申请实施例以及附图所示的结构并不构成对有关装置或系统的具体限定。在本申请另一些实施例中,有关装置或系统可以包括比具体实施例和附图更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者具有不同的部件布置。本领域技术人员将理解,在不脱离本申请具体实施例的精神和范围的情况下,可以对具体实施例记载的方法和设备的布置,操作和细节进行各种修改或变化;在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本申请的保护范围。

Claims (18)

1.一种数据管理系统,用于隐私计算、隐私数据及联邦学习,其特征在于,所述数据管理系统包括:
元信息数据库,用于存储数据元信息;
数据存储库,用于存储数据;
数据导入模块,配置为选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库;和
数据导出模块,配置为从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。
2.根据权利要求1所述的数据管理系统,其特征在于,所述数据管理系统配置为通过所述数据导出模块导出ID数据到所述隐私计算框架从而进行求交操作以获得数据ID交集。
3.根据权利要求2所述的数据管理系统,其特征在于,所述数据管理系统还配置为通过所述数据导出模块以基于所述数据ID交集导出与所述数据ID交集对应的特征数据到所述隐私计算框架从而进行建模操作以建立联邦学习模型或者进行离线预测操作。
4.根据权利要求3所述的数据管理系统,其特征在于,所述数据管理系统还配置为接收数据查询要求并且通过所述数据导出模块以基于所述数据查询要求导出与所述数据查询要求对应的数据查询反馈到所述隐私计算框架从而进行在线预测操作,其中与所述数据查询要求对应的数据查询反馈包括所述数据存储库中符合所述数据查询要求的至少一个数据的特征。
5.根据权利要求4所述的数据管理系统,其特征在于,所述建模操作适用于离线建模场景,所述离线预测操作适用于离线预测场景,所述在线预测操作适用于在线预测场景。
6.根据权利要求1所述的数据管理系统,其特征在于,所述数据导入模块将所述输入数据通过所述数据映射方式导入所述元信息数据库,包括:所述数据导入模块从所述外部数据源获取所述输入数据的虚拟映射信息后将所述输入数据的虚拟映射信息导入所述元信息数据库。
7.根据权利要求6所述的数据管理系统,其特征在于,所述数据导出模块通过所述元信息数据库获取所述输入数据的虚拟映射信息后基于所述输入数据的虚拟映射信息从所述外部数据源获得与所述输入数据对应的所述ID数据、所述特征数据或者所述数据查询反馈。
8.根据权利要求1所述的数据管理系统,其特征在于,所述数据导入模块将所述输入数据通过所述数据写入方式导入所述数据存储库,包括:所述数据导入模块从所述外部数据源获取所述输入数据后将所述输入数据写入所述数据存储库。
9.根据权利要求8所述的数据管理系统,其特征在于,所述数据导出模块从所述数据存储库获取并导出与所述输入数据对应的ID数据、特征数据或者数据查询反馈。
10.根据权利要求8所述的数据管理系统,其特征在于,所述输入数据是关系型数据并且所述数据存储库以关系型数据表形式存储所述输入数据。
11.根据权利要求1所述的数据管理系统,其特征在于,所述元信息数据库所存储的数据元信息包括以下至少一项:名称、版本号、特征名称、标签名称、数据量、数据存储地址。
12.根据权利要求1所述的数据管理系统,其特征在于,所述数据管理系统还包括异步调度模块,所述异步调度模块用于协调所述数据导入模块和所述数据导出模块从而以异步执行方式完成数据导入导出任务。
13.一种数据管理方法,用于隐私计算、隐私数据及联邦学习,其特征在于,所述数据管理方法应用于数据管理系统,所述数据管理系统包括元信息数据库、数据存储库、数据导入模块和数据导出模块,所述数据管理方法包括:
通过所述元信息数据库存储数据元信息;
通过所述数据存储库存储数据;
通过所述数据导入模块,选择性地将输入数据通过数据映射方式映射到所述元信息数据库或者通过数据写入方式导入到所述数据存储库;和
通过所述数据导出模块,从所述数据存储库导出ID数据、特征数据或者数据查询反馈到与所述数据管理系统相连接的隐私计算框架,或者,通过所述元信息数据库从外部数据源获得所述ID数据、所述特征数据或者所述数据查询反馈。
14.根据权利要求13所述的数据管理方法,其特征在于,所述数据管理方法还包括:通过所述数据导出模块导出ID数据到所述隐私计算框架从而进行求交操作以获得数据ID交集,以及通过所述数据导出模块以基于所述数据ID交集导出与所述数据ID交集对应的特征数据到所述隐私计算框架从而进行建模操作以建立联邦学习模型或者进行离线预测操作。
15.根据权利要求14所述的数据管理方法,其特征在于,所述数据管理方法还包括:接收数据查询要求并且通过所述数据导出模块以基于所述数据查询要求导出与所述数据查询要求对应的数据查询反馈到所述隐私计算框架从而进行在线预测操作,其中与所述数据查询要求对应的数据查询反馈包括所述数据存储库中符合所述数据查询要求的至少一个数据的特征。
16.根据权利要求15所述的数据管理方法,其特征在于,所述建模操作适用于离线建模场景,所述离线预测操作适用于离线预测场景,所述在线预测操作适用于在线预测场景。
17.一种非瞬时性计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,该计算机指令被处理器执行时实现根据权利要求13至16中任一项所述的数据管理方法。
18.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现根据权利要求13至16中任一项所述的数据管理方法。
CN202210673705.4A 2022-06-13 2022-06-13 隐私计算、隐私数据及联邦学习的数据管理系统及方法 Pending CN114996760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210673705.4A CN114996760A (zh) 2022-06-13 2022-06-13 隐私计算、隐私数据及联邦学习的数据管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210673705.4A CN114996760A (zh) 2022-06-13 2022-06-13 隐私计算、隐私数据及联邦学习的数据管理系统及方法

Publications (1)

Publication Number Publication Date
CN114996760A true CN114996760A (zh) 2022-09-02

Family

ID=83034821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210673705.4A Pending CN114996760A (zh) 2022-06-13 2022-06-13 隐私计算、隐私数据及联邦学习的数据管理系统及方法

Country Status (1)

Country Link
CN (1) CN114996760A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510297A (zh) * 2022-09-26 2022-12-23 深圳致星科技有限公司 隐私计算、隐私数据和联邦学习的数据管理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115510297A (zh) * 2022-09-26 2022-12-23 深圳致星科技有限公司 隐私计算、隐私数据和联邦学习的数据管理方法
CN115510297B (zh) * 2022-09-26 2023-05-16 深圳致星科技有限公司 隐私计算、隐私数据和联邦学习的数据管理方法

Similar Documents

Publication Publication Date Title
CN110506260B (zh) 用于神经网络环境中的增强数据处理的方法、系统和介质
WO2017167095A1 (zh) 一种模型的训练方法和装置
CN114996760A (zh) 隐私计算、隐私数据及联邦学习的数据管理系统及方法
CN112905596B (zh) 数据处理的方法、装置、计算机设备以及存储介质
CN114089921A (zh) 电力系统数据存储方法、装置、计算机设备和存储介质
CN115129460A (zh) 获取算子硬件时间的方法、装置、计算机设备和存储介质
CN115168499B (zh) 数据库表的分片方法、装置、计算机设备和存储介质
WO2019214071A1 (zh) 区块链上用户通信方法、装置、终端设备及存储介质
WO2023173550A1 (zh) 一种跨领域数据推荐方法、装置、计算机设备及介质
CN110297842B (zh) 一种数据比对方法、装置、终端和存储介质
CN112597113A (zh) 一种数据快速读取方法、装置、电子设备及存储介质
CN114661301B (zh) 图形处理单元编译方法、装置、编译加速库和存储介质
CN117056028B (zh) 机器人仿真平台搭建方法、装置、计算机设备和存储介质
CN115456858B (zh) 图像处理方法、装置、计算机设备及计算机可读存储介质
CN117056343B (zh) 一种电网领域多源数据管理方法、系统和电子设备
CN116643902B (zh) 接口数据模拟方法、装置、设备、存储介质和程序产品
CN117992061A (zh) 程序转换方法、装置、计算机设备及计算机可读存储介质
CN117455501A (zh) 请求处理方法、装置、计算机设备和存储介质
CN116910115A (zh) 客群查询方法、装置、计算机设备和存储介质
CN116866419A (zh) 信息推送方法、装置、计算机设备和存储介质
CN116307472A (zh) 能源供需互动模型构建方法、装置和计算机设备
CN116401323A (zh) 指标数据处理方法、装置及计算机设备
CN117435651A (zh) 测试数据处理方法、装置、计算机设备和存储介质
Roscigno The role of distributed computing in big data science: Case studies in forensics and bioinformatics
CN116880852A (zh) 基于机器学习的代码数据检查方法、装置及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination