CN111177740A - 数据混淆处理方法、系统及计算机可读介质 - Google Patents

数据混淆处理方法、系统及计算机可读介质 Download PDF

Info

Publication number
CN111177740A
CN111177740A CN201911114599.0A CN201911114599A CN111177740A CN 111177740 A CN111177740 A CN 111177740A CN 201911114599 A CN201911114599 A CN 201911114599A CN 111177740 A CN111177740 A CN 111177740A
Authority
CN
China
Prior art keywords
data
opposite
confusion
local
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911114599.0A
Other languages
English (en)
Other versions
CN111177740B (zh
Inventor
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911114599.0A priority Critical patent/CN111177740B/zh
Publication of CN111177740A publication Critical patent/CN111177740A/zh
Application granted granted Critical
Publication of CN111177740B publication Critical patent/CN111177740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请的实施例提供了一种数据混淆处理方法、系统、计算机可读介质及电子设备。该数据混淆处理方法包括:基于本端设备的本端隐私数据生成本端混淆数据;获取对端设备根据对端隐私数据生成的对端混淆数据;根据所述本端混淆数据和所述对端混淆数据生成混淆结果;基于所述混淆结果处理所述本端隐私数据,并将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理。本申请实施例的技术方案使得两端设备在没有明确得到对方隐私数据的前提下便能得到混淆结果,并能基于混淆结果进行数据的共享和应用,这种方式极大的提高了数据的安全性和私密性。

Description

数据混淆处理方法、系统及计算机可读介质
技术领域
本申请涉及计算机及通信技术领域,具体而言,涉及一种数据混淆处理方法、系统、计算机可读介质及电子设备。
背景技术
当通信双方都持有各自的数据,并且需要共享两者各自的数据,以扩大数据基数来进行相应的数据处理的情况下,很难保证各自数据的私密性。因此,如何能够在保证实现数据共享的前提下,提高数据的私密性成为亟待解决的技术问题。
发明内容
本申请的实施例提供了一种数据混淆处理方法、系统、计算机可读介质及电子设备,进而至少在一定程度上降低数据加密的通信开销,提高数据的私密性。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供了一种数据混淆处理方法,其特征在于,包括:基于本端设备的本端隐私数据生成本端混淆数据;获取对端设备根据对端隐私数据生成的对端混淆数据;根据所述本端混淆数据和所述对端混淆数据生成混淆结果;基于所述混淆结果处理所述本端隐私数据,并将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理。
根据本申请实施例的一个方面,提供了一种数据混淆处理装置,包括:第一混淆单元,用于基于本端设备的本端隐私数据生成本端混淆数据;第一获取单元,用于获取对端设备根据对端隐私数据生成的对端混淆数据;第一生成单元,用于根据所述本端混淆数据和所述对端混淆数据生成混淆结果;第一处理单元,用于基于所述混淆结果处理所述本端隐私数据,并将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理。
在本申请的一些实施例中,基于前述方案,所述第一混淆单元配置为:第二生成单元,用于基于本端混淆矩阵与所述对端设备生成的对端混淆矩阵之间的约束关系生成本端混淆矩阵;第二获取单元,用于获取所述对端设备发送的对端混淆参数,所述对端混淆参数为所述对端设备根据所述对端隐私数据、所述对端混淆矩阵生成;第一计算单元,用于根据所述本端隐私数据、所述对端混淆参数计算所述本端混淆数据。
在本申请的一些实施例中,基于前述方案,所述第一混淆单元配置为:第一发送单元,用于根据所述本端混淆矩阵计算本端混淆参数,将所述本端混淆参数发送至所述对端设备;第三获取单元,用于获取所述对端设备根据所述对端隐私数据和所述本端混淆参数生成的对端混淆数据。
在本申请的一些实施例中,基于前述方案,所述第二生成单元配置为:第三生成单元,用于随机生成对称矩阵,将所述对称矩阵发送至所述对端设备,以使所述对端设备基于所述对称矩阵生成对端混淆矩阵;第四生成单元,用于基于所述本端混淆矩阵与所述对端混淆矩阵之间的约束关系生成所述本端混淆矩阵。
在本申请的一些实施例中,基于前述方案,所述第四生成单元配置为:随机生成第一自然数集合,将所述第一自然数集合发送给所述对端设备,以使所述对端设备基于所述标准正交矩阵和所述第一自然数集合生成所述对端混淆矩阵;根据所述第一自然数集合生成随机对角矩阵,其中,所述随机对角矩阵中包含的第一类元素的值为随机生成的值,所述随机对角矩阵中包含的第二类元素的值为0,所述第一类元素的元素下标属于所述第一自然数集合,所述第二类元素的元素下标不属于所述第二自然数集合;根据所述标准正交矩阵和所述随机对角矩阵,生成本端混淆矩阵。
在本申请的一些实施例中,基于前述方案,所述约束关系包括所述本端混淆矩阵的转置与所述对端混淆矩阵的乘积为0,且所述本端混淆矩阵的秩与所述对端混淆矩阵的秩都小于所述本端隐私数据的行列数。
在本申请的一些实施例中,基于前述方案,所述第一生成单元配置为:将所述本端混淆数据和所述对端混淆数据进行合并,得到所述混淆结果。
在本申请的一些实施例中,基于前述方案,所述混淆数据处理装置还包括:第五生成单元,用于对所述本端隐私数据进行特征标准化处理得到本端特征矩阵,基于所述本端特征矩阵生成本端混淆数据;第四获取单元,用于获取所述对端设备根据对所述对端隐私数据进行特征标准化处理得到的对端特征矩阵生成的对端混淆数据;第一处理单元,用于基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的特征共线性,根据所述特征共线性,识别所述本端隐私数据中待删除的冗余特征数据,以从所述本端隐私数据中删除所述冗余特征数据。
在本申请的一些实施例中,基于前述方案,所述第一处理单元配置为:基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的相关系数,以根据所述相关系数确定所述特征共线性。
在本申请的一些实施例中,基于前述方案,基于所述混淆结果,通过如下公式确定所述本端隐私数据与所述对端隐私数据之间的相关系数Mc:
Figure BDA0002273712030000031
其中,X′A TX′B表示所述混淆结果,X′A T表示所述本端特征矩阵的转置,X′B表示所述对端特征矩阵,n表示所述本端隐私数据的行列数。
在本申请的一些实施例中,基于前述方案,所述数据混淆处理装置还包括:模型构建单元,用于构建所述本端隐私数据与所述对端隐私数据之间的机器学习模型;第一降维单元,用于根据所述本端隐私数据与所述对端隐私数据之间的混淆结果,对所述本端隐私数据进行降维得到第一降维数据,并获取所述对端设备对所述对端隐私数据进行降维之后得到的第二降维数据;训练单元,用于将所述第一降维数据和所述第二降维数据作为训练数据对所述机器学习模型进行训练,并基于所述混淆结果确定所述机器学习模型的模型参数,得到用于处理所述本端隐私数据的模型。
在本申请的一些实施例中,基于前述方案,所述第一降维单元配置为:第二计算单元,用于根据所述混淆结果计算所述本端隐私数据和所述对端隐私数据之间的协方差矩阵;第三计算单元,用于根据所述协方差矩阵中特征值对应的特征向量确定降维矩阵;第二降维单元,用于基于所述降维矩阵对所述本端隐私数据进行降维处理,得到所述第一降维数据。
根据本申请实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的数据混淆处理方法。
根据本申请实施例的一个方面,提供了一种数据混淆处理系统,包括第一设备和第二设备,其中:
第一设备基于其第一隐私数据生成第一混淆数据;
第二设备基于其第二隐私数据生成第二混淆数据,并将所述第二混淆数据发送至所述第一设备;
第一设备根据所述第一混淆数据和所述第二混淆数据生成混淆结果,基于所述混淆结果处理所述第一隐私数据,并将所述混淆结果发送至所述第二设备;
第二设备基于所述混淆结果处理所述第二隐私数据。
根据本申请实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的数据混淆处理方法或数据混淆处理系统。
在本申请的一些实施例所提供的技术方案中,通过基于两端设备的隐私数据生成两端设备各自对应的混淆数据,最后根据混淆数据得到混淆结果,使得两端设备在没有明确得到对方隐私数据的前提下便能得到混淆结果,并能基于混淆结果进行数据的共享和应用,这种方式极大的提高了数据的安全性和私密性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了可以应用本申请实施例的技术方案示例性本端设备的系统架构的示意图;
图2(a)示出了可以应用本申请实施例的技术方案示例性本端设备与对端设备交互的系统架构示意图;
图2(b)示出了可以应用本申请实施例的技术方案示例性数据混淆处理系统的示意图;
图3示意性示出了根据本申请的一个实施例的数据混淆处理方法的流程图;
图4示意性示出了根据本申请的一个实施例的基于本端设备的本端隐私数据生成本端混淆数据的流程图;
图5示意性示出了根据本申请的一个实施例的生成本端混淆矩阵的流程图;
图6示意性示出了根据本申请的一个实施例的基于约束关系生成本端混淆矩阵的流程图;
图7示意性示出了根据本申请的一个实施例的获取对端混淆数据的流程图;
图8(a)示意性示出了根据本申请的一个实施例的生成混淆结果的流程图;
图8(b)示意性示出了根据本申请的一个实施例的生成混淆结果的流程图;
图9示意性示出了根据本申请的一个实施例的混淆数据处理方法的流程图;
图10示意性示出了根据本申请的一个实施例的数据降维的流程图;
图11示意性示出了根据本申请的一个实施例的数据混淆处理装置的框图;
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示出了可以应用本申请实施例的技术方案示例性本端设备的系统架构的示意图。
如图1所示,系统架构可以包括本端的终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备通过网络104与服务器105交互,以接收或发送消息等。服务器105可以是提供各种服务的服务器。例如用户利用终端设备103(也可以是终端设备101或102)向服务器105发送了数据混淆处理请求,服务器105可以基于本端设备的本端隐私数据生成本端混淆数据,获取对端设备根据对端隐私数据生成的对端混淆数据,根据本端混淆数据和对端混淆数据生成混淆结果,最后基于混淆结果处理本端隐私数据,并将混淆结果发送至对端设备,以使对端设备基于混淆结果对对端隐私数据进行处理。通过将两端数据分别混淆得到混淆结果的方式,在保证两端数据私密性的基础上,在两端设备中进行数据共享和处理,提高了两端数据的安全性。
需要说明的是,本申请实施例所提供的数据混淆处理方法一般由服务器105执行,相应地,数据混淆处理装置一般设置于服务器105中。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的数据混淆处理的方案。
示例性的,在本端设备与服务器具有相似的功能时,本端设备在对隐私数据进行混淆处理得到混淆结果之后,可以直接将混淆结果发送至对端设备。
图2(a)示出了可以应用本申请实施例的技术方案示例性本端设备与对端设备交互的系统架构示意图。
如图2(a)所示,系统架构可以包括本端设备201、本端网络202、本端服务器203,以及对端服务器204、对端网络205和对端设备206。
其中,本端设备201和对端设备206都包括但不限于智能手机、平板电脑和便携式计算机、台式计算机中的一种或多种。本端设备的系统架构与对端设备的系统架构如图1所示,此处不做赘述。
其中,本端网络202用以在本端设备201和本端服务器203之间提供通信链路的介质;对端网络205用以在对端设备206和对端服务器204之间提供通信链路的介质。本端网络202和对端网络205都可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
在本端设备201与对端设备206之间的交互过程中,本端设备201对应的用户利用本端设备201向本端服务器发送了数据混淆处理请求,本端服务器203可以基于本端设备的本端隐私数据生成本端混淆数据,同时对端服务器204根据对端隐私数据生成对端混淆数据,并将对端混淆数据发送至本端服务器203,再由本端服务器203根据本端混淆数据和对端混淆数据生成混淆结果,并基于混淆结果处理本端隐私数据,再将混淆结果通过对端服务器204发送至对端设备206,以使对端设备206基于混淆结果对对端隐私数据进行处理。通过将两端数据分别混淆得到混淆结果的方式,在保证两端数据私密性的基础上,在两端设备中进行数据共享和处理,同时减少了数据的运算消耗,降低通信开销。
图2(b)示出了可以应用本申请实施例的技术方案示例性数据混淆处理系统的示意图。
如图2(b)所示,在本申请的一个实施例中,数据混淆处理系统中包括了第一设备207、第二设备209,以及其中的传输介质208。其中,传输介质208可以是有线传输的介质,也可以是无线传输的介质,此处不做限定。
在本申请的一个实施例中,第一设备207基于其第一隐私数据生成第一混淆数据;第二设备209基于其第二隐私数据生成第二混淆数据,并将第二混淆数据发送至所述第一设备207;第一设备207根据第一混淆数据和第二混淆数据生成混淆结果,并基于所述混淆结果处理所述第一隐私数据,并将所述混淆结果发送至所述第二设备209;第二设备209基于所述混淆结果处理第二隐私数据。通过将两端数据分别混淆得到混淆结果的方式,在保证两端数据私密性的基础上,在两端设备中进行数据共享和处理,同时减少了数据的运算消耗,降低通信开销。
需要说明的是,本申请实施例所提供的数据混淆处理系统中,第一设备207与第二设备209也可以具有与服务器相似的功能。相应地,第一设备207与第二设备209一般设置于服务器中,从而实现本申请实施例所提供的数据混淆处理系统的功能。
需要说明的是,本实施例中第一设备207与第二设备209之间具体的数据处理方式和传输方式,请详见以下数据混淆处理方法中的实施例说明,此处不做赘述。
在本端设备与服务器具有相似的功能时,本端设备在对隐私数据进行混淆处理得到混淆结果之后,可以直接将混淆结果发送至对端设备。对端设备也可以通过网络直接接收到本端设备发送的混淆结果,而不通过服务器。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
图3示出了根据本申请的一个实施例的数据混淆处理方法的流程图,该数据混淆处理方法可以由服务器来执行,该服务器可以是图1中所示的服务器。参照图3所示,该数据混淆处理方法至少包括步骤S310至步骤S340,详细介绍如下:
在步骤S310中,基于本端设备的本端隐私数据生成本端混淆数据。
在本申请的一个实施例中,在本端设备中存储有本端隐私数据,在对端设备中存储有对端隐私数据,在隐私数据的实际应用中,本端设备和对端设备可以共享各自的隐私数据,但不能直接获取到明确的隐私数据,因此,在应用对端隐私数据之前,需要先将两端的隐私数据混淆,得到混淆数据,以保护隐私数据的安全性和私密性。
在本申请的一个实施例中,如图4所示,步骤S310中基于本端设备的本端隐私数据生成本端混淆数据的过程,包括如下步骤S410至步骤S430,详细介绍如下:
在步骤S410中,基于本端混淆矩阵与所述对端设备生成的对端混淆矩阵之间的约束关系生成本端混淆矩阵。
在本申请的一个实施例中,在基于本端隐私数据生成本端混淆数据的过程中,通过生成的本端混淆矩阵来生成本端混淆数据,而在生成本端混淆矩阵时,可以基于预设的本端混淆矩阵与对端设备生成的对端混淆矩阵之间的约束关系来生成。
在本申请的一个实施例中,如图5所示,步骤S410中基于本端混淆矩阵与所述对端设备生成的对端混淆矩阵之间的约束关系生成本端混淆矩阵的过程,包括如下步骤S510至步骤S520,详细介绍如下:
在步骤S510中,随机生成对称矩阵,将所述对称矩阵发送至所述对端设备,以使所述对端设备基于所述对称矩阵生成对端混淆矩阵。
在本申请的一个实施例中,随机生成一个对称矩阵,用于通过该对称矩阵在本端设备中生成本端混淆矩阵,同时在对端生成对端混淆矩阵。在生成对称矩阵之后,将对称矩阵发送至对端设备,以使对端设备基于对称矩阵生成对端混淆矩阵。
在步骤S520中,基于所述本端混淆矩阵与所述对端混淆矩阵之间的约束关系生成所述本端混淆矩阵。
在本申请的一个实施例中,本端混淆矩阵与对端混淆矩阵之间存在一个预设的约束关系,用于基于该约束关系和随机生成的对称矩阵,得到混淆矩阵,即在本端设备生成本端混淆矩阵、在对端设备生成对端混淆矩阵。
在本申请的一个实施例中,该约束关系是:本端混淆矩阵的转置与对端混淆矩阵的乘积为0,且本端混淆矩阵的秩与对端混淆矩阵的秩都小于本端隐私数据的行列数。用公式表示为:PA TPB=0,且rank(PA),rank(PB)<n,其中,PA、PB分别为本端混淆矩阵和对端混淆矩阵。
在本申请的一个实施例中,在生成本端混淆矩阵时,可以是基于对称矩阵和约束关系进行轮询,来确定本端混淆矩阵。其中,最后得到的本端混淆矩阵和对端混淆矩阵只需满足上述约束关系即可,对其具体的生成方式,此处不做限定。
需要说明的是,为了保证两端各自的隐私数据不被对端窃取,本实施例中的双方各自的混淆矩阵不会被对方通过任何方式得到,其中包括通过计算、或者获取等方式。
在本申请的一个实施例中,如图6和图8所示,在所述对称矩阵为标准正交矩阵的情况下,步骤S520中基于所述本端混淆矩阵与所述对端混淆矩阵之间的约束关系生成所述本端混淆矩阵的过程,包括如下步骤S610至步骤S630,详细介绍如下:
在步骤S610中,随机生成第一自然数集合,将所述第一自然数集合发送给所述对端设备,以使所述对端设备基于所述标准正交矩阵和所述第一自然数集合生成所述对端混淆矩阵。
在本申请的一个实施例中,当步骤510中的对称矩阵为标准正交矩阵的特殊情况下,本实施例中通过生成基于矩阵下标构成的第一自然数集合,并将第一自然数集合发送对端设备,以使对端设备根据该第一自然数集合中的矩阵下标对标准正交矩阵进行处理,进而得到对端混淆矩阵。
示例性的,本端设备生成的标准正交矩阵为Q∈Rn×n
Figure BDA0002273712030000101
本端设备从1,2,…,n随机选出1≤kA<n个数,用于表示矩阵下标,并将SA发送给对端设备。对端设备在接收到第一自然数集合之后,计算SB={1,…,n}\SA。通过这种方式使得本端设备和对端设备分别对应的矩阵下标之间的交集为空集,即
Figure BDA0002273712030000103
对端设备随机生成对端设备的随机对角矩阵ΛB=diag(λ1,…,λn)。在生成随机对角矩阵时,若矩阵下标i∈SB,则λi∈R为不等于0的随机数,且只有对端设备知道;若
Figure BDA0002273712030000102
则λi=0。
示例性的,本端设备从1,2,…,n中随机选出1、2、4,将这些数组成第一自然数集合SA={1,2,4},将SA发送给对端设备。对端设备在接收到第一自然数集合之后,计算得到SB={1,…,n}\SA={3,5},即在随机对角矩阵的第3行第3列、第5行第5列的矩阵元素值为随机生成的不为0的数值,其余矩阵元素的值为0,根据SB中的矩阵下标随机生成对端设备的随机对角矩阵为:
Figure BDA0002273712030000111
在步骤S620中,根据所述第一自然数集合生成随机对角矩阵,其中,所述随机对角矩阵中包含的第一类元素的值为随机生成的值,所述随机对角矩阵中包含的第二类元素的值为0,所述第一类元素的元素下标属于所述第一自然数集合,所述第二类元素的元素下标不属于所述第二自然数集合。
与对端设备对应的,在本端设备中,基于第一自然数集合中的矩阵下标,生成随机对角矩阵。在本实施例中,将属于第一自然数集合的元素下标识别为第一类元素的元素下标,将不属于第一自然数集合的元素下标识别为第二类元素的元素下标。并在生成随机对角矩阵时,第一类元素的元素下标对应的第一类元素的值为随机生成的值,第二类元素的值为0。即若矩阵下标i∈SB,则λi∈R为不等于0的随机数,且只有对端设备知道;若
Figure BDA0002273712030000113
则λi=0。
示例性的,在步骤S610中随机生成的第一自然数集合为SA={1,2,4},则第一类元素的元素下标为1、2、4,在1、2、4元素下标处对应的第一类元素的值为随机生成的非零值,而在随机对角矩阵中的第二类元素对应的值为0,即:
Figure BDA0002273712030000112
在步骤S630中,根据所述标准正交矩阵和所述随机对角矩阵,生成本端混淆矩阵。
在生成随机对角矩阵之后,根据公式PA=QΛAQT生成本端混淆矩阵。
示例性的,基于步骤S610中生成的标准正交矩阵Q和步骤S620中生成的本端设备的随机对角矩阵ΛA,计算得到本端混淆矩阵为:
Figure BDA0002273712030000121
在步骤S420中,获取所述对端设备发送的对端混淆参数,所述对端混淆参数为所述对端设备根据所述对端隐私数据、所述对端混淆矩阵生成。
在本申请的一个实施例中,通过对端设备根据对端隐私数据和对端混淆矩阵生对端混淆参数,以保证对隐私数据的私密性。
本实施例中通过计算方式简单,尤其是针对数据量较大的情况下,通过随机生成矩阵下标的方式来生成随机对角矩阵,进而得到混淆矩阵,可以极大降低数据计算量和通信开销,进而提高数据处理速度和传输效率。
与步骤630中生成本端混淆矩阵的过程对应的,在对端设备中生成对端混淆矩阵时,根据公式PB=QΛBQT生成本端混淆矩阵。
示例性的,基于步骤S610中生成的标准正交矩阵Q和对端设备的随机对角矩阵ΛB,通过公式PB=QΛBQT得到对端混淆矩阵为:
Figure BDA0002273712030000122
在本申请的一个实施例中,对端设备通过公式(In-PB)XB生成对端混淆参数,并将对端混淆参数发送至本端设备,其中,XB表示对端隐私数据。
在步骤S430中,根据所述本端隐私数据、所述对端混淆参数计算本端混淆数据。
在本申请的一个实施例中,本端设备在接收到对端设备的对端混淆参数之后,无法将对端混淆参数破解,得到原始的对端隐私数据,通过这种方式,保护了对端隐私数据的私密性。
在本申请的一个实施例中,根据本端隐私数据、获取到的对端混淆参数,本端设备通过如下公式计算得到本端混淆数据M1
Figure BDA0002273712030000123
其中,
Figure BDA0002273712030000124
表示本端隐私数据的转置,
Figure BDA0002273712030000125
表示本端混淆矩阵的转置,(In-PB)XB表示对端混淆参数。
由于在步骤S610中,本端设备和对端设备分别对应的矩阵下标之间的交集为空集,即
Figure BDA0002273712030000131
因此
Figure BDA0002273712030000132
满足了本实施例中的本端混淆矩阵和对端混淆矩阵之间的约束条件,将该约束条件带入上述M1的公式中,最后得到的本端混淆数据M1为:
Figure BDA0002273712030000133
示例性的,假设本端隐私数据和对端隐私数据分别为:
Figure BDA0002273712030000134
根据计算得到的对端混淆参数(In-PB)XB,计算得到本端混淆数据M1为:
Figure BDA0002273712030000135
在步骤S320中,获取对端设备根据对端隐私数据生成的对端混淆数据。
在本申请的一个实施例中,如图7所示,步骤S320中获取对端设备根据对端隐私数据生成的对端混淆数据的过程,包括如下步骤S710至步骤S720,详细介绍如下:
在步骤S710中,根据所述本端混淆矩阵计算本端混淆参数,将所述本端混淆参数发送至所述对端设备。
在本申请的一个实施例中,与步骤S420中生成对端混淆参数对应的,本端设备通过公式
Figure BDA0002273712030000136
生成本端混淆参数,并将本端混淆参数发送至对端设备,以使对端设备根据对端隐私数据和本端混淆参数生成对端混淆数据。
在步骤S720中,获取所述对端设备根据所述对端隐私数据和所述本端混淆参数生成的对端混淆数据。
在本申请的一个实施例中,与步骤S430中生成本端混淆参数对应的,在对端设备在获取到本端混淆参数之后,通过公式
Figure BDA0002273712030000137
生成对端混淆数据,其中,
Figure BDA0002273712030000138
表示本端混淆参数,XB表示对端隐私数据。
在对端设备生成对端混淆数据之后,将对端混淆数据发送至本端设备。
示例性的,基于本实施例中的上述计算得到的本端混淆参数,对端设备根据本端混淆参数、对端隐私数据以及公式
Figure BDA0002273712030000141
计算得到对端混淆数据为:
Figure BDA0002273712030000142
继续参照图3所示,在步骤S330中,根据所述本端混淆数据和所述对端混淆数据生成混淆结果。
在本申请的一个实施例中,将本端混淆数据和对端混淆数据进行合并,得到混淆结果。
在本申请的一个实施例中,基于上述计算结果:
Figure BDA0002273712030000143
Figure BDA0002273712030000144
因此,将上述本端混淆数据和对端混淆数据进行合并得到:
Figure BDA0002273712030000145
即可得到本实施例中要求得到的混淆结果
Figure BDA0002273712030000146
本实施例中通过生成混淆矩阵计算两端设备的混淆参数,并基于两端设备的隐私数据和混淆参数来计算两端设备各自对应的混淆数据,最后根据混淆数据得到混淆结果,使得两端设备在没有明确得到对方隐私数据的前提下,便能得到混淆结果,并能基于混淆结果进行数据的共享和应用,这种方式极大的提高了数据的安全性和私密性。且本实施例中的计算方式简单,尤其是针对数据量较大的情况下,通过随机选择矩阵下标来生成混淆矩阵的方式,可以极大降低数据计算量和通信开销,进而提高数据处理速度和传输效率。
在步骤S340中,基于所述混淆结果处理所述本端隐私数据,并将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理。
在得到混淆结果之后,即得到了混淆之后的对端数据和本端数据,可以直接处理混淆结果,也可以基于混淆结果处理本端隐私数据,同时将混淆结果发送至对端设备,以使对端设备基于混淆结果对对端隐私数据进行处理。
在本申请的一个实施例中,还可以实现如下步骤,详细介绍如下:
对所述本端隐私数据进行特征标准化处理得到本端特征矩阵,基于所述本端特征矩阵生成本端混淆数据;
获取所述对端设备根据对所述对端隐私数据进行特征标准化处理得到的对端特征矩阵生成的对端混淆数据;
基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的特征共线性,根据所述特征共线性,识别所述本端隐私数据中待删除的冗余特征数据,以从所述本端隐私数据中删除所述冗余特征数据。
在本申请的一个实施例中,数据的混淆结果在两端设备的数据交互中有着广泛的应用。在基于隐私保护的分布式机器学习中,本端设备先确定本端隐私数据与对端隐私数据之间的共线性,以根据共线性对隐私数据进行处理,例如,删除冗余数据等。
具体的,在确定共线性时,先对对本端隐私数据进行特征标准化处理,得到本端特征矩阵,同时对端设备根据对对端隐私数据进行特征标准化处理得到的对端特征矩阵。
示例性的,本端设备A的本端隐私数据中包括了mA个特征,对端设备B中的对端隐私数据中包括了mB个特征。双方首先对各自的每一列特征做z-score标准化,即用
Figure BDA0002273712030000151
替代原特征值x,在本端设备中得到本端特征矩阵X'A,同时本端设备获取对端设备根据对端隐私数据进行特征标准化处理得到的对端特征矩阵生成的对端混淆数据X'B
在本申请的一个实施例中,基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的相关系数,以根据所述相关系数确定所述特征共线性。
在本申请的一个实施例中,通过如下公式确定所述本端隐私数据与所述对端隐私数据之间的相关系数Mc:
Figure BDA0002273712030000152
其中,X′A TX′B表示所述混淆结果,X′A T表示所述本端特征矩阵的转置,X′B表示所述对端特征矩阵,n表示所述本端隐私数据的行列数。
通过上述计算混淆结果的方式计算Mc中的X′A TX′B,便可以在保护X′A和X′B不被对方获知的情况下,计算得到混淆结果X′A TX′B
需要说明的是,上述图3和实施例的说明仅为本申请的一个实施例,其执行顺序并不能代表本申请方案中全部的执行顺序。在其余的实施例中,其中一些步骤的执行顺序可以进行相应调整。例如,步骤S310和步骤S320的可以是同时执行、也可以先执行步骤S320再执行步骤S310;并且在步骤S340中,基于所述混淆结果处理所述本端隐私数据的过程,与将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理的过程,两者可以同时并列执行,也可以先执行将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理的过程,后执行基于所述混淆结果处理所述本端隐私数据的过程。
请参阅图8(a),图8(a)示意性示出了根据本申请的一个实施例的生成混淆结果的流程图。在本端设备和对端设备的交互过程中,本端设备先生成标准正交矩阵和第一自然数集合,在步骤S810中,将标准正交矩阵和第一自然数集合发送至对端设备,对端设备根据标准正交矩阵和第一自然数集合生成对端混淆参数;在步骤S820中,将对端混淆参数发送至本端设备,由本端设备根据对端混淆参数和本端隐私数据生成了本端混淆数据。本端设备根据标准正交矩阵和第一自然数集合生成本端混淆参数;在步骤S830中将本端混淆参数发送至对端设备,对端设备根据本端混淆参数和对端隐私数据生成对端混淆数据,并在步骤S840中将对端混淆数据发送至本端设备,最后,本端设备根据本端混淆数据和对端混淆数据生成混淆结果。
请再参阅图8(b),图8(b)示意性示出了根据本申请的一个实施例的生成混淆结果的流程图,图8(b)中的A表示本端设备,B表示对端设备,详细的流程步骤介绍如下:
1、A生成随机标准正交矩阵Q,并发送随机标准正交矩阵Q至B;
2、A生成随机下标集合SA,并发送随机下标集合SA至B;
3、B根据随机下标集合SA生成自己的下标集合SB={1,…,n}\SA,并根据SB中的矩阵下标随机生成对端设备的随机对角矩阵ΛB
4、B根据随机标准正交矩阵Q、对端设备的随机对角矩阵ΛB生成对端混淆矩阵PB=QΛBQT,并根据对端混淆矩阵PB生成对端混淆参数,并将对端混淆参数发送至A;
5、A随机生成本端混淆矩阵PA
6、A根据本端混淆矩阵PA、本端隐私数据XA,生成本端混淆数据M1为:
Figure BDA0002273712030000161
7、A根据本端混淆矩阵PA、本端隐私数据XA,计算本端混淆参数
Figure BDA0002273712030000162
Figure BDA0002273712030000163
并将其发送至B;
8、B根据A发送的本端混淆参数生成对端混淆数据:
Figure BDA0002273712030000164
并将对端混淆数据发送至A;
9、A将本端混淆数据M1和对端混淆数据M2进行合并得到混淆结果:
Figure BDA0002273712030000171
以此结束两端设备之间的混淆数据处理过程。
在本申请的一个实施例中,如图9所示,本实施例中的混淆数据处理方法还包括如下步骤S910至步骤S930,详细介绍如下:
在步骤S910中,构建所述本端隐私数据与所述对端隐私数据之间的机器学习模型。
在本申请的一个实施例中,当本端设备和对端设备的数据来源都有限的情况下,本端设备和对端设备之间通过数据共享,扩大数据基数,提高数据处理的效果。但是当两端设备的隐私都需要得到保证时,构建机器学习模型时,便需在基于保护本端隐私数据与对端隐私数据的私密性的基础上构建的机器学习模型。
示例性的,在资金保险数据的应用场景中,本端设备为银行的数据处理设备,对端设备为保险公司的数据处理设备,其中,银行的数据处理设备中存储的数据为用户的资金账目信息,保险公司的数据处理设备中存储的数据为用户的保险信息。当银行因为某些业务需求需要用户的保险信息时,就需要通过对端的保险公司的数据处理设备来共享或者处理用户的保险信息。但是用户的保险信息在保险公司的角度应该是被保密的状态,若交由银行的数据处理设备处理,则需要在保证保险信息安全性和私密性的基础上,将保险信息共享给银行的数据处理设备。反之,若保险公司需要银行的数据处理设备中的用户的资金账目信息,银行的数据处理设备也需要将数据进行混淆或者保密,才能共享给保险公司的数据处理设备。因此,在两端设备进行数据处理时,若需要用到机器学习模型,则需在两端数据隐私的基础上,构建机器学习模型。
本实施例中的机器学习模型可以是基于决策树算法、朴素贝叶斯算法、支持向量机算法、随机森林算法、人工神经网络算法等构建得到,此处不做限定。并且,本实施例中的机器学习模型可以用于实现对数据的分析、识别、检测以及挖掘等,此处对机器学习模型的功能也不做限定。
在步骤S920中,根据所述本端隐私数据与所述对端隐私数据之间的混淆结果,对所述本端隐私数据进行降维得到第一降维数据,并获取所述对端设备对所述对端隐私数据进行降维之后得到的第二降维数据。
在本申请的一个实施例中,在本端隐私数据和对端隐私数据的数据量都很大,或者数据较杂乱的情况下,可以先对本端隐私数据和对端隐私数据进行降维。
需要说明的是,为了保证数据的隐私性,由本端设备对本端隐私数据进行降维得到第一降维数据,由对端设备对对端隐私数据进行降维得到第二降维数据,并且两端对隐私数据的降维操作相互对应。
在本申请的一个实施例中,如图10所示,步骤S920中根据所述本端隐私数据与所述对端隐私数据之间的混淆结果,对所述本端隐私数据进行降维得到第一降维数据的过程,包括如下步骤S1010至步骤S1030,详细介绍如下:
在步骤S1010中,根据所述混淆结果计算所述本端隐私数据和所述对端隐私数据之间的协方差矩阵。
在本申请的一个实施例中,本端隐私数据可以看成是由多个特征组成的矩阵,其行列数为n,矩阵中的每一列数据表示一个特征对应的数据值。先对每一列特征作去中心标准化,即用x'=x-mean替代原特征x,得到本端特征矩阵,基于本端特征矩阵生成本端标准数据
Figure BDA0002273712030000185
同时获取对端设备根据对对端隐私数据进行特征标准化处理得到的对端特征矩阵生成的对端标准数据
Figure BDA0002273712030000186
最后通过如下公式计算协方差矩阵:
Figure BDA0002273712030000181
在步骤S1020中,根据所述协方差矩阵中特征值对应的特征向量确定降维矩阵。
在本申请的一个实施例中,本端隐私数据和对端隐私数据分别为矩阵形式的数据,即
Figure BDA0002273712030000187
Figure BDA0002273712030000188
两方想在保护XA和XB不被对方获知的情况下,计算矩阵乘积
Figure BDA0002273712030000182
其中,R表示数据组成的矩阵,n表示矩阵的列数,即特征数量,mA、mB表示矩阵的行数,即某一特征对应的特征值。计算矩阵
Figure BDA0002273712030000183
其中W的每一列是协方差矩阵C的前k大的特征值对应的特征向量。分解W得到:
Figure BDA0002273712030000184
其中,WA、WB分别对应本端隐私数据的降维矩阵和对端隐私数据的降维矩阵。在计算得到WA、WB之后,将WB发送至对端设备,以使对端设备根据WB对其对端隐私数据进行降维。
在步骤S1030中,基于所述降维矩阵对所述本端隐私数据进行降维处理,得到所述第一降维数据。
在本申请的一个实施例中,本端设备根据WA对本端隐私数据进行降维,对端设备根据WB对对端隐私数据进行降维。本端隐私数据和对端隐私数据之间通过降维之后得到的数据为:
XPCA=XW=XAWA+XBWB
通过对数据进行降维,可以减少数据中的冗余数据,缓解数据维度,达到压缩数据、提高数据运算效率的目的。
在步骤S930中,将所述第一降维数据和所述第二降维数据作为训练数据对所述机器学习模型进行训练,并基于所述混淆结果确定所述机器学习模型的模型参数,得到用于处理所述本端隐私数据的模型。
在本申请的一个实施例中,在得到第一降维数据和第二降维数据之后,将第一降维数据和第二降维数据作为训练数据对机器学习模型进行训练,并基于两个数据之间的混淆结果,确定机器学习模型的最优模型参数,得到用于处理本端隐私数据的模型。
示例性的,若本实施例中的机器学习模型为基于线性回归模型构建得到,则计算该模型的最优参为:
w*=(XTX)-1XTy
其中,X用于表示模型中的输入数据,y用于表示计算系数。
在本实施例中,当模型训练过程中输入的数据是本端设备和对端设备的拼接的数据时,在保护两端数据隐私的前提下,需要将两端数据进行混淆,将混淆结果,即X=[XAXB],作为模型训练的输入数据。
显然,其中需要计算:
Figure BDA0002273712030000191
由此,通过上述计算混淆结果的方式,在保护XA和XB不被对方获知的情况下,计算矩阵乘积形式的混淆结果
Figure BDA0002273712030000192
在隐私保护的前提下,将计算得到的混淆结果
Figure BDA0002273712030000193
输入机器学习模型中,便可以训练得到机器学习模型的最优参,同时得到用于处理本端隐私数据的模型。
需要说明的是,本实施例中的机器学习模型可以用于实现对数据的分析、识别、检测以及挖掘等,此处对机器学习模型的功能不做限定;对应的,在通过机器学习模型处理本端隐私数据时,可以是对本端隐私数据进行分析、识别、检测以及挖掘等,此处对本端隐私数据的处理方式不做限定。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的数据混淆处理方法。对于本申请装置实施例中未披露的细节,请参照本申请上述的数据混淆处理方法的实施例。
图11示出了根据本申请的一个实施例的数据混淆处理装置的框图。
参照图11所示,根据本申请的一个实施例的数据混淆处理装置1100,包括:第一混淆单元1101,用于基于本端设备的本端隐私数据生成本端混淆数据;第一获取单元1102,用于获取对端设备根据对端隐私数据生成的对端混淆数据;第一生成单元1103,用于根据所述本端混淆数据和所述对端混淆数据生成混淆结果;第一处理单元1104,用于基于所述混淆结果处理所述本端隐私数据,并将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理。
在本申请的一个实施例中,所述第一混淆单元1101配置为:第二生成单元,用于基于本端混淆矩阵与所述对端设备生成的对端混淆矩阵之间的约束关系生成本端混淆矩阵;第二获取单元,用于获取所述对端设备发送的对端混淆参数,所述对端混淆参数为所述对端设备根据所述对端隐私数据、所述对端混淆矩阵生成;第一计算单元,用于根据所述本端隐私数据、所述对端混淆参数计算所述本端混淆数据。
在本申请的一个实施例中,所述第一混淆单元1101配置为:第一发送单元,用于根据所述本端混淆矩阵计算本端混淆参数,将所述本端混淆参数发送至所述对端设备;第三获取单元,用于获取所述对端设备根据所述对端隐私数据和所述本端混淆参数生成的对端混淆数据。
在本申请的一个实施例中,所述第二生成单元配置为:第三生成单元,用于随机生成对称矩阵,将所述对称矩阵发送至所述对端设备,以使所述对端设备基于所述对称矩阵生成对端混淆矩阵;第四生成单元,用于基于所述本端混淆矩阵与所述对端混淆矩阵之间的约束关系生成所述本端混淆矩阵。
在本申请的一个实施例中,所述第四生成单元配置为:随机生成第一自然数集合,将所述第一自然数集合发送给所述对端设备,以使所述对端设备基于所述标准正交矩阵和所述第一自然数集合生成所述对端混淆矩阵;根据所述第一自然数集合生成随机对角矩阵,其中,所述随机对角矩阵中包含的第一类元素的值为随机生成的值,所述随机对角矩阵中包含的第二类元素的值为0,所述第一类元素的元素下标属于所述第一自然数集合,所述第二类元素的元素下标不属于所述第二自然数集合;根据所述标准正交矩阵和所述随机对角矩阵,生成本端混淆矩阵。
在本申请的一个实施例中,所述约束关系包括所述本端混淆矩阵的转置与所述对端混淆矩阵的乘积为0,且所述本端混淆矩阵的秩与所述对端混淆矩阵的秩都小于所述本端隐私数据的行列数。
在本申请的一个实施例中,所述第一生成单元1103配置为:将所述本端混淆数据和所述对端混淆数据进行合并,得到所述混淆结果。
在本申请的一个实施例中,所述混淆数据处理装置还包括:第五生成单元,用于对所述本端隐私数据进行特征标准化处理得到本端特征矩阵,基于所述本端特征矩阵生成本端混淆数据;第四获取单元,用于获取所述对端设备根据对所述对端隐私数据进行特征标准化处理得到的对端特征矩阵生成的对端混淆数据;第一处理单元1104,用于基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的特征共线性,根据所述特征共线性,识别所述本端隐私数据中待删除的冗余特征数据,以从所述本端隐私数据中删除所述冗余特征数据。
在本申请的一个实施例中,所述第一处理单元1104配置为:基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的相关系数,以根据所述相关系数确定所述特征共线性。
在本申请的一个实施例中,基于所述混淆结果,通过如下公式确定所述本端隐私数据与所述对端隐私数据之间的相关系数Mc:
Figure BDA0002273712030000211
其中,X′A TX′B表示所述混淆结果,X′A T表示所述本端特征矩阵的转置,X′B表示所述对端特征矩阵,n表示所述本端隐私数据的行列数。
在本申请的一个实施例中,所述数据混淆处理装置还包括:模型构建单元,用于构建所述本端隐私数据与所述对端隐私数据之间的机器学习模型;第一降维单元,用于根据所述本端隐私数据与所述对端隐私数据之间的混淆结果,对所述本端隐私数据进行降维得到第一降维数据,并获取所述对端设备对所述对端隐私数据进行降维之后得到的第二降维数据;训练单元,用于将所述第一降维数据和所述第二降维数据作为训练数据对所述机器学习模型进行训练,并基于所述混淆结果确定所述机器学习模型的模型参数,得到用于处理所述本端隐私数据的模型。
在本申请的一个实施例中,所述第一降维单元配置为:第二计算单元,用于根据所述混淆结果计算所述本端隐私数据和所述对端隐私数据之间的协方差矩阵;第三计算单元,用于根据所述协方差矩阵中特征值对应的特征向量确定降维矩阵;第二降维单元,用于基于所述降维矩阵对所述本端隐私数据进行降维处理,得到所述第一降维数据。
图12示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图12示出的电子设备的计算机系统1200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图12所示,计算机系统1200包括中央处理单元(Central Processing Unit,CPU)1201,其可以根据存储在只读存储器(Read-Only Memory,ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RandomAccess Memory,RAM)1203中的程序而执行各种适当的动作和处理,例如执行上述实施例中所述的方法。在RAM 1203中,还存储有系统操作所需的各种程序和数据。CPU 1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(Input/Output,I/O)接口1205也连接至总线1204。
以下部件连接至I/O接口1205:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN(LocalAreaNetwork,局域网)卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被中央处理单元(CPU)1201执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (14)

1.一种数据混淆处理方法,其特征在于,包括:
基于本端设备的本端隐私数据生成本端混淆数据;
获取对端设备根据对端隐私数据生成的对端混淆数据;
根据所述本端混淆数据和所述对端混淆数据生成混淆结果;
基于所述混淆结果处理所述本端隐私数据,并将所述混淆结果发送至所述对端设备,以使所述对端设备基于所述混淆结果对所述对端隐私数据进行处理。
2.根据权利要求1所述的方法,其特征在于,基于本端设备的本端隐私数据生成本端混淆数据,包括:
基于本端混淆矩阵与所述对端设备生成的对端混淆矩阵之间的约束关系生成本端混淆矩阵;
获取所述对端设备发送的对端混淆参数,所述对端混淆参数为所述对端设备根据所述对端隐私数据、所述对端混淆矩阵生成;
根据所述本端隐私数据、所述对端混淆参数计算所述本端混淆数据。
3.根据权利要求2所述的方法,其特征在于,获取对端设备根据对端隐私数据生成的对端混淆数据,包括:
根据所述本端混淆矩阵计算本端混淆参数,将所述本端混淆参数发送至所述对端设备;
获取所述对端设备根据所述对端隐私数据和所述本端混淆参数生成的对端混淆数据。
4.根据权利要求2所述的方法,其特征在于,基于本端混淆矩阵与所述对端设备生成的对端混淆矩阵之间的约束关系生成本端混淆矩阵,包括:
随机生成对称矩阵,将所述对称矩阵发送至所述对端设备,以使所述对端设备基于所述对称矩阵生成对端混淆矩阵;
基于所述本端混淆矩阵与所述对端混淆矩阵之间的约束关系生成所述本端混淆矩阵。
5.根据权利要求4所述的方法,其特征在于,在所述对称矩阵为标准正交矩阵的情况下,基于所述本端混淆矩阵与所述对端混淆矩阵之间的约束关系生成所述本端混淆矩阵,包括:
随机生成第一自然数集合,将所述第一自然数集合发送给所述对端设备,以使所述对端设备基于所述标准正交矩阵和所述第一自然数集合生成所述对端混淆矩阵;
根据所述第一自然数集合生成随机对角矩阵,其中,所述随机对角矩阵中包含的第一类元素的值为随机生成的值,所述随机对角矩阵中包含的第二类元素的值为0,所述第一类元素的元素下标属于所述第一自然数集合,所述第二类元素的元素下标不属于所述第二自然数集合;
根据所述标准正交矩阵和所述随机对角矩阵,生成本端混淆矩阵。
6.根据权利要求2所述的方法,其特征在于,所述约束关系包括所述本端混淆矩阵的转置与所述对端混淆矩阵的乘积为0,且所述本端混淆矩阵的秩与所述对端混淆矩阵的秩都小于所述本端隐私数据的行列数。
7.根据权利要求1所述的方法,其特征在于,根据所述本端混淆数据和所述对端混淆数据生成混淆结果,包括:
将所述本端混淆数据和所述对端混淆数据进行合并,得到所述混淆结果。
8.根据权利要求1所述的方法,其特征在于:
基于本端设备的本端隐私数据生成本端混淆数据,包括:对所述本端隐私数据进行特征标准化处理得到本端特征矩阵,基于所述本端特征矩阵生成本端混淆数据;
获取对端设备根据对端隐私数据生成的对端混淆数据,包括:获取所述对端设备根据对所述对端隐私数据进行特征标准化处理得到的对端特征矩阵生成的对端混淆数据;
基于所述混淆结果处理所述本端隐私数据,包括:基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的特征共线性,根据所述特征共线性,识别所述本端隐私数据中待删除的冗余特征数据,以从所述本端隐私数据中删除所述冗余特征数据。
9.根据权利要求8所述的方法,其特征在于,基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的特征共线性,包括:
基于所述混淆结果,确定所述本端隐私数据与所述对端隐私数据之间的相关系数,以根据所述相关系数确定所述特征共线性。
10.根据权利要求9所述的方法,其特征在于,基于所述混淆结果,通过如下公式确定所述本端隐私数据与所述对端隐私数据之间的相关系数Mc:
Figure FDA0002273712020000031
其中,
Figure FDA0002273712020000032
表示所述混淆结果,
Figure FDA0002273712020000033
表示所述本端特征矩阵的转置,X′B表示所述对端特征矩阵,n表示所述本端隐私数据的行列数。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
构建所述本端隐私数据与所述对端隐私数据之间的机器学习模型;
根据所述本端隐私数据与所述对端隐私数据之间的混淆结果,对所述本端隐私数据进行降维得到第一降维数据,并获取所述对端设备对所述对端隐私数据进行降维之后得到的第二降维数据;
将所述第一降维数据和所述第二降维数据作为训练数据对所述机器学习模型进行训练,并基于所述混淆结果确定所述机器学习模型的模型参数,得到用于处理所述本端隐私数据的模型。
12.根据权利要求11所述的方法,其特征在于,根据所述本端隐私数据与所述对端隐私数据之间的混淆结果,对所述本端隐私数据进行降维得到第一降维数据,包括:
根据所述混淆结果计算所述本端隐私数据和所述对端隐私数据之间的协方差矩阵;
根据所述协方差矩阵中特征值对应的特征向量确定降维矩阵;
基于所述降维矩阵对所述本端隐私数据进行降维处理,得到所述第一降维数据。
13.一种数据混淆处理系统,其特征在于,包括第一设备和第二设备,其中:
第一设备基于其第一隐私数据生成第一混淆数据;
第二设备基于其第二隐私数据生成第二混淆数据,并将所述第二混淆数据发送至所述第一设备;
第一设备根据所述第一混淆数据和所述第二混淆数据生成混淆结果,基于所述混淆结果处理所述第一隐私数据,并将所述混淆结果发送至所述第二设备;
第二设备基于所述混淆结果处理所述第二隐私数据。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至13中任一项所述的数据混淆处理方法。
CN201911114599.0A 2019-11-14 2019-11-14 数据混淆处理方法、系统及计算机可读介质 Active CN111177740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911114599.0A CN111177740B (zh) 2019-11-14 2019-11-14 数据混淆处理方法、系统及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911114599.0A CN111177740B (zh) 2019-11-14 2019-11-14 数据混淆处理方法、系统及计算机可读介质

Publications (2)

Publication Number Publication Date
CN111177740A true CN111177740A (zh) 2020-05-19
CN111177740B CN111177740B (zh) 2023-05-02

Family

ID=70655399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911114599.0A Active CN111177740B (zh) 2019-11-14 2019-11-14 数据混淆处理方法、系统及计算机可读介质

Country Status (1)

Country Link
CN (1) CN111177740B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989420A (zh) * 2021-03-31 2021-06-18 支付宝(杭州)信息技术有限公司 一种保护数据隐私的相关系数确定方法和系统
CN113032840A (zh) * 2021-05-26 2021-06-25 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN114692209A (zh) * 2022-05-31 2022-07-01 蓝象智联(杭州)科技有限公司 一种基于混淆技术的图联邦方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262035A1 (en) * 2012-03-28 2013-10-03 Michael Charles Mills Updating rollup streams in response to time series of measurement data
US20150104080A1 (en) * 2013-10-10 2015-04-16 Elwha Llc Methods, systems, and devices for obscuring entities depicted in captured images
CN105978854A (zh) * 2016-04-18 2016-09-28 西安电子科技大学 一种基于不可区分混淆的智能医疗服务方法
CN108769027A (zh) * 2018-05-31 2018-11-06 深圳壹账通智能科技有限公司 安全通信方法、装置、移动终端和存储介质
CN108985063A (zh) * 2018-07-13 2018-12-11 南方电网科学研究院有限责任公司 一种恶意代码混淆检测方法、系统、计算机设备、介质
CN109145644A (zh) * 2018-08-28 2019-01-04 北京云测信息技术有限公司 私钥混淆及数字签名生成方法、装置、智能设备
US20190080362A1 (en) * 2017-09-14 2019-03-14 Amadeus S.A.S. Systems and methods for real-time online traveler segmentation using machine learning
CN109698812A (zh) * 2017-10-23 2019-04-30 中国电信股份有限公司 信息加密方法和装置、信息解密方法和装置及安全系统
CN110197078A (zh) * 2018-04-28 2019-09-03 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
US20190281048A1 (en) * 2016-11-24 2019-09-12 Alibaba Group Holding Limited Methods and devices for generating security questions and verifying identities
CN110266484A (zh) * 2019-06-28 2019-09-20 深圳前海微众银行股份有限公司 一种数据加密方法、装置、设备及介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262035A1 (en) * 2012-03-28 2013-10-03 Michael Charles Mills Updating rollup streams in response to time series of measurement data
US20150104080A1 (en) * 2013-10-10 2015-04-16 Elwha Llc Methods, systems, and devices for obscuring entities depicted in captured images
CN105978854A (zh) * 2016-04-18 2016-09-28 西安电子科技大学 一种基于不可区分混淆的智能医疗服务方法
US20190281048A1 (en) * 2016-11-24 2019-09-12 Alibaba Group Holding Limited Methods and devices for generating security questions and verifying identities
US20190080362A1 (en) * 2017-09-14 2019-03-14 Amadeus S.A.S. Systems and methods for real-time online traveler segmentation using machine learning
CN109698812A (zh) * 2017-10-23 2019-04-30 中国电信股份有限公司 信息加密方法和装置、信息解密方法和装置及安全系统
CN110197078A (zh) * 2018-04-28 2019-09-03 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机可读介质及电子设备
CN108769027A (zh) * 2018-05-31 2018-11-06 深圳壹账通智能科技有限公司 安全通信方法、装置、移动终端和存储介质
CN108985063A (zh) * 2018-07-13 2018-12-11 南方电网科学研究院有限责任公司 一种恶意代码混淆检测方法、系统、计算机设备、介质
CN109145644A (zh) * 2018-08-28 2019-01-04 北京云测信息技术有限公司 私钥混淆及数字签名生成方法、装置、智能设备
CN110266484A (zh) * 2019-06-28 2019-09-20 深圳前海微众银行股份有限公司 一种数据加密方法、装置、设备及介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CRAIG SCOON等: "The Data Privacy Matrix Project: Towards a Global Alignment of Data Privacy Laws", 《网页在线公开:HTTPS://IEEEXPLORE.IEEE.ORG/STAMP/STAMP.JSP?TP=&ARNUMBER=7847188》 *
张宏磊等: "一种基于分块混淆的动态数据隐私保护机制", 《计算机研究与发展》 *
邵必林等: "增强隐私保护度的数据混淆机制研究", 《西安建筑科技大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989420A (zh) * 2021-03-31 2021-06-18 支付宝(杭州)信息技术有限公司 一种保护数据隐私的相关系数确定方法和系统
CN113032840A (zh) * 2021-05-26 2021-06-25 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN113032840B (zh) * 2021-05-26 2021-07-30 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及计算机可读存储介质
CN114692209A (zh) * 2022-05-31 2022-07-01 蓝象智联(杭州)科技有限公司 一种基于混淆技术的图联邦方法及系统

Also Published As

Publication number Publication date
CN111177740B (zh) 2023-05-02

Similar Documents

Publication Publication Date Title
US20210409191A1 (en) Secure Machine Learning Analytics Using Homomorphic Encryption
US20220230071A1 (en) Method and device for constructing decision tree
CN111898137A (zh) 一种联邦学习的隐私数据处理方法、设备及系统
CN111400766B (zh) 针对隐私数据进行多方联合降维处理的方法及装置
CN111177740A (zh) 数据混淆处理方法、系统及计算机可读介质
CN112182644A (zh) 一种数据处理方法、装置和电子设备
CN111784001A (zh) 一种模型训练方法、设备及计算机可读存储介质
CN112131316A (zh) 应用于区块链系统的数据处理方法及装置
CN111368320B (zh) 基于同态加密的安全多方计算的方法及装置
CN113742764B (zh) 基于区块链的可信数据安全存储方法、检索方法及设备
JP2012128398A (ja) プライバシを保護したまま暗号化された要素の順序を選択するための方法およびシステム
CN114611128B (zh) 一种纵向联邦学习方法、装置、系统、设备及存储介质
CN111563267A (zh) 用于联邦特征工程数据处理的方法和装置
CN112100680A (zh) 保护隐私的多平台数据处理方法及装置
CN114186263A (zh) 一种基于纵向联邦学习的数据回归方法及电子装置
CN114611008A (zh) 基于联邦学习的用户服务策略确定方法、装置及电子设备
CN115842627A (zh) 基于安全多方计算的决策树评估方法、装置、设备及介质
CN111490995A (zh) 保护隐私的模型训练方法和装置、数据处理方法、服务器
CN110874481B (zh) 一种基于gbdt模型的预测方法和装置
CN109412791B (zh) 密钥信息处理方法、装置、电子设备及计算机可读介质
Ukwuoma et al. Post-quantum cryptography-driven security framework for cloud computing
CN112734050A (zh) 文本模型的训练方法、识别方法、装置、设备及存储介质
CN114514550A (zh) 将请求分区成区块链的交易
US20170302437A1 (en) Nondecreasing sequence determining device, method and program
US20220309178A1 (en) Private searchable database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant