CN111709051A - 数据处理方法、装置、系统、计算机存储介质及电子设备 - Google Patents
数据处理方法、装置、系统、计算机存储介质及电子设备 Download PDFInfo
- Publication number
- CN111709051A CN111709051A CN202010469566.4A CN202010469566A CN111709051A CN 111709051 A CN111709051 A CN 111709051A CN 202010469566 A CN202010469566 A CN 202010469566A CN 111709051 A CN111709051 A CN 111709051A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- target
- user identifier
- encrypted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Storage Device Security (AREA)
Abstract
本公开提供了一种数据处理方法、装置,涉及人工智能领域。该方法包括:获取对第一业务方的用户数据进行加密得到的第一数据表和对第二业务方的用户数据进行加密得到的第二数据表,第一数据表和第二数据表中均包含加密用户标识;根据加密用户标识将第一数据表和第二数据表进行关联,以获取数据总表;根据预设业务目标从数据总表中确定目标数据集,并通过基于目标数据集训练的机器学习模型对数据总表中的用户数据进行处理,以获取目标加密用户标识;对目标加密用户标识进行初解密,并将初解密后的目标加密用户标识发送至与第二业务方对应的第二数据处理单元进行再解密,以获取目标用户标识。本公开能够保护数据安全,进行有效地联合数据挖掘和应用。
Description
技术领域
本公开涉及人工智能技术领域,具体而言,涉及一种数据处理方法、 数据处理装置、数据处理系统、计算机可读存储介质及电子设备。
背景技术
随着互联网技术和人工智能的快速发展,电子商务成为交易的一种方 式,大量的产品加工方(广告主)会在流量较大的广告平台上发布广告, 以期用户在广告平台上进行操作时能够注意到广告主发布的广告,并点击 进入广告主的系统中进行浏览、购买等。
为了提高广告效果和用户转化率,对于不同用户进行广告的定向投放 是很重要的,目前广告主或者平台通常会使用机器学习算法,对用户的基 础属性/行为/兴趣等信息进行多样化的建模和预测,进而实现精准的个性化 推荐和优化的广告定向投放。但是广告主和广告平台拥有的数据不完全相 同且都是保密的,如果采用一些不恰当的机器学习算法进行处理容易导致 用户信息泄露,存在数据安全风险。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开 的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技 术的信息。
发明内容
本公开的实施例提供了一种数据处理方法、数据处理装置、数据处理 系统、计算机可读存储介质和电子设备,进而至少在一定程度上可以提高 用户数据的安全性,并且能够把第一业务方(广告主)和第二业务方(广 告平台)的数据关联起来,关联后的数据可以支持业务投放,提升业务定 向能力和业务效果。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地 通过本公开的实践而习得。
根据本公开实施例的一个方面,提供了一种数据处理方法,由第一业 务方对应的第一数据处理单元执行,包括:获取对所述第一业务方的用户 数据进行加密得到的第一数据表和对第二业务方的用户数据进行加密得到 的第二数据表,所述第一数据表和所述第二数据表中均包含加密用户标 识;根据所述加密用户标识将所述第一数据表和所述第二数据表进行关 联,以获取数据总表;根据预设业务目标从所述数据总表中确定目标数据集,并通过基于所述目标数据集训练的机器学习模型对所述数据总表中的 用户数据进行处理,以获取目标加密用户标识;对所述目标加密用户标识 进行初解密,并将初解密后的目标加密用户标识发送至与所述第二业务方 对应的第二数据处理单元进行再解密,以获取目标用户标识。
根据本公开实施例的一个方面,提供了一种数据处理装置,配置于第 一业务方,包括:获取模块,用于获取对所述第一业务方的用户数据进行 加密得到的第一数据表和对第二业务方的用户数据进行加密得到的第二数 据表,所述第一数据表和所述第二数据表中均包含加密用户标识;关联模 块,用于根据所述加密用户标识将所述第一数据表和所述第二数据表进行 关联,以获取数据总表;处理模块,用于根据预设业务目标从所述数据总表中确定目标数据集,并通过基于所述目标数据集训练的机器学习模型对 所述数据总表中的用户数据进行处理,以获取目标加密用户标识;解密模 块,用于对所述目标加密用户标识进行初解密,并将初解密后的目标加密 用户标识发送至与所述第二业务方对应的第二数据处理单元进行再解密, 以获取目标用户标识。
在本公开的一些实施例中,基于前述方案,所述获取模块包括:第一 交换加密单元,用于对所述第一业务方的用户数据进行交换加密,以获取 所述第一数据表;第二交换加密单元,用于对所述第二业务方的用户数据 进行交换加密,以获取所述第二数据表。
在本公开的一些实施例中,所述第一业务方的用户数据包括第一用户 标识和与所述第一用户标识对应的用户标注信息,所述用户标注信息包括 第一用户属性信息和第一用户特征信息或者第一用户特征信息;基于前述 方案,所述第一交换加密单元配置为:根据第一幂次加密函数对所述第一 用户标识进行加密以获取第一加密用户标识,并对所述第一用户标注信息 进行匿名化处理以获取第一隐私数据;将所述第一加密用户标识和所述第 一隐私数据发送至所述第二数据处理单元,通过所述第二数据处理单元根 据第二幂次加密函数对所述第一加密用户标识进行加密,以获取第二加密 用户标识;获取所述第二加密用户标识和所述第一隐私数据,并根据所述 第二加密用户标识和所述第一隐私数据构建所述第一数据表。
在本公开的一些实施例中,所述第二业务方的用户数据包括第二用户 标识和与所述第二用户标识对应的第二用户属性信息;基于前述方案,所 述第二交换加密单元配置为:通过所述第二数据处理单元根据所述第二幂 次加密函数对所述第二用户标识进行加密以获取第三加密用户标识,并对 所述第二用户属性信息进行匿名化处理以获取第二隐私数据;获取所述第 三加密用户标识和所述第二隐私数据,并根据所述第一幂次加密函数对所 述第三加密用户标识进行加密以获取第四加密用户标识;根据所述第四加 密用户标识和所述第二隐私数据构建所述第二数据表。
在本公开的一些实施例中,基于前述方案,所述第一幂次加密函数中 的幂指数和所述第二幂次加密函数中的幂指数为不同的奇数,并且所述第 一幂次加密函数和所述第二幂次加密函数具有可交换性。
在本公开的一些实施例中,基于前述方案,所述关联模块配置为:将 所述第一数据表中的数据和所述第二数据表中的数据进行整合,形成数据 整合表;将所述数据整合表中对应同一加密用户标识的数据进行分类合 并,以获取所述数据总表。
在本公开的一些实施例中,基于前述方案,所述处理模块配置为:根 据所述预设业务目标从所述数据总表的用户特征信息中确定目标用户特征 信息;获取与所述目标用户特征信息对应的所有数据构建所述目标数据 集。
在本公开的一些实施例中,所述目标数据集包括多组目标数据,各组 所述目标数据包括加密用户标识以及与所述加密用户标识对应的匿名化用 户特征信息和匿名化用户属性信息;基于前述方案,所述处理模块配置 为:根据所述加密用户标识、所述匿名化用户特征信息和所述匿名化用户 属性信息对待训练机器学习模型进行训练,以获取所述机器学习模型;通 过所述机器学习模型对所述数据总表中所有的用户数据进行处理,以获取与所述预设业务目标对应的目标加密用户标识。
在本公开的一些实施例中,基于前述方案,所述解密模块配置为:根 据与所述第一幂次加密函数对应的第一解密函数对所述目标加密用户标识 进行初解密,以获取初解密后的目标加密用户标识。
在本公开的一些实施例中,基于前述方案,所述解密模块配置为:根 据与所述第二幂次加密函数对应的第二解密函数对所述初解密后的目标加 密用户标识进行再解密,以获取所述目标用户标识。
在本公开的一些实施例中,基于前述方案,所述第一解密函数为所述 第一加密函数的反函数,所述第二解密函数为所述第二加密函数的反函 数,并且所述第一解密函数和所述第二解密函数具有可交换性。
在本公开的一些实施例中,基于前述方案,所述数据处理装置还配置 为:在根据预设业务目标从所述数据总表中确定目标数据集之前,对所述 数据总表中的匿名化用户特征信息进行取消匿名化处理。
根据本公开实施例的一个方面,提供了一种数据处理系统,包括:第 一数据处理单元,配置于第一业务方;第二数据处理单元,配置于第二业 务方,并与所述第一数据处理单元连接;其中,所述第一数据处理单元获 取由所述第一数据处理单元和所述第二数据处理单元对所述第一业务方的 用户数据和所述第二业务方的用户数据进行交换加密所形成的第一数据表 和第二数据表,并根据加密用户标识对所述第一数据表和所述第二数据表进行关联形成数据总表;以及,根据预设业务目标从所述数据总表中获取 目标数据集,并通过基于所述目标数据集训练的机器学习模型对所述数据 总表中的用户数据进行处理,以获取目标加密用户标识;对所述目标加密 用户标识进行初解密,并将初解密后的目标加密用户标识发送至所述第二 数据处理单元进行再解密,以获取目标用户标识。
根据本公开实施例的一个方面,提供了一种计算机可读存储介质,其 上存储有计算机程序,所述程序被处理器执行时实现如上述实施例所述的 数据处理方法。
根据本公开实施例的一个方面,提供了一种电子设备,包括:一个或 多个处理器;存储装置,所述存储装置用于存储一个或多个程序,当所述 一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处 理器执行如上述实施例中所述的数据处理方法。
在本公开的一些实施例所提供的技术方案中,首先获取对第一业务方 的用户数据加密得到的第一数据表和对第二业务方的用户数据加密得到的 第二数据表;接着将第一数据表和第二数据表根据加密用户标识进行关联 形成数据总表;然后根据基于预设业务目标从数据总表中确定的目标数据 集对机器学习模型进行训练,并采用训练后的机器学习模型对数据总表中 的所有用户数据进行处理,以获取目标加密用户标识;最后通过第一业务 方和第二业务方对目标加密用户标识进行解密,以获取目标用户标识。该 目标用户标识所对应的用户即为满足预设业务目标的用户。本公开的技术 方案一方面能够通过交换加密方式提高数据的安全性,避免不法分子窃取 数据进行恶意应用;另一方面能够利用第一业务方和第二业务方的数据和 能力,进行联合隐私数据的挖掘,提高了数据处理结果的精准度,提升了 业务定向能力和效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释 性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本 公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下 面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附 图。在附图中:
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示 意图;
图2示意性示出了根据本公开的一个实施例的数据处理方法的流程示 意图;
图3示意性示出了根据本公开的一个实施例的对第一业务方的用户数 据进行交换加密获取第一数据表的流程示意图;
图4示意性示出了根据本公开的一个实施例的对第二业务方的用户数 据进行交换加密的流程示意图;
图5示意性示出了根据本公开的一个实施例的第一业务方和第二业务 方对用户数据进行交换加密的流程示意图;
图6A-6C示意性示出了根据本公开的一个实施例的第一数据表、第二 数据表和数据总表的结构示意图;
图7示意性示出了根据本公开的一个实施例的联合数据挖掘的流程示 意图;
图8示意性示出了根据本公开的一个实施例的数据处理装置的框图;
图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结 构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能 够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这 些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面 地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个 或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开 的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开 的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、 组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装 置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实 体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个 硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置 和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操 作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分 解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根 据实际情况改变。
图1示出了可以应用本公开实施例的技术方案的示例性系统架构的示 意图。
如图1所示,系统架构100包括终端设备101、网络102和服务器 103,其中,终端设备101可以是任意的具有显示屏幕的电子设备,诸如平 板电脑、笔记本电脑、台式计算机、智能手机、智能电视等电子设备;网 络102用以在终端设备101和服务器103之间提供通信链路的介质,网络 102可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
应该理解,图1中的终端设备101、网络102、服务器103的数目仅仅 是示意性的。根据实际需要,可以具有任意数目的终端设备101、网络 102、服务器103。
在本公开的一个实施例中,第一业务方可以通过网络在第二业务方的 平台上发布信息,例如第一业务方为广告商,第二业务方位广告平台,广 告商在广告平台上发布广告,用户通过终端设备101可以登录第二业务方 的业务平台进行浏览、查询等业务操作,同时也可以对第一业务方在第二 业务方的业务平台中发布的信息进行点击查看以及交易。用户如果想要正 常使用第二业务方的平台中的所有功能,通常会在其业务平台上进行注册,这样第二业务方就拥有了用户的属性信息,如用户的性别、年龄、职 业等等,同时用户在平台上进行操作,例如浏览广告等,那么第二业务方 同时也会拥有广告曝光/交互等信息,也就是说,第二业务方拥有用户在该 业务平台上的所有用户数据,而当用户点击进入第一业务方在第二业务方 的平台中发布的信息时,此时用户便跳转至第一业务方的业务平台,其所 进行的浏览、存储、交易等用户数据则被第一业务方拥有,也就是说,第 一业务方拥有用户在第一业务方侧的详细行为/偏好等信息,例如用户对商 品的浏览、收藏、加入购物车、购买等信息。可以看出,第一业务方和第 二业务方拥有大量的共同用户,但是由于第一业务方拥有的数据有限,尤 其是对用户的属性信息掌握有限,同时第二业务方也对用户在第一业务方 侧的行为/偏好等数据掌握有限,那么双方就期望能够结合双方的数据进行 数据分析,特别是对于第一业务方,更期望借助于自身拥有的用户数据和 第二业务方拥有的用户数据进行数据分析,以便更有效、精准地进行业务 投放。但是在结合双方的用户数据时,由于用户数据安全性的限制,均不 能对外直接输出用户数据,这对于业务投放的精准度的影响更大,比如在 投放广告时,无法做到对用户的定向投放,这样广告效果就很差,因此需 要寻找一种方法在保证数据安全性和合规性的基础上对双方数据进行挖掘以得到对业务投放效果能够产生积极效果的数据,例如对应具体业务目标 的用户群。其中,广告效果是指用户在广告曝光之后一段时间,在广告主 侧进行了满足广告主转化的操作,例如对于App类广告主,具体效果包含 下载App、注册账号、登录、充值等,对于商城/商品类的广告主,具体效 果包含搜索商品、将商品放入购物车、实际购买等。
在本公开的一个实施例中,数据处理系统具体包括配置于第一业务方 的第一数据处理单元和配置于第二业务方的第二数据处理单元,该第一数 据处理单元与该第二数据处理单元连接,首先可以通过第一数据处理单元 和第二数据处理单元对第一业务方的用户数据和第二业务方的用户数据进 行交换加密处理得到第一数据表和第二数据表,具体地,第一业务方的用 户数据可以先由第一数据处理单元进行加密,然后再由第二数据处理单元 对加密后的用户数据进行加密,同时第二业务方的用户数据可以先由第二 数据处理单元进行加密,然后再由第一数据处理单元对加密后的用户数据 进行加密;接着可以通过第一数据处理单元将第一数据表和第二数据表进 行关联,实现两侧相同用户的关联;然后根据关联后形成的数据总表中的 数据可以训练一个或多个机器学习模型,各个机器学习模型具有不同的学 习任务;最后采用训练好的机器学习模型对数据总表中的用户数据进行处 理即可确定目标加密用户标识,通过第一数据处理单元和第二数据处理单 元对目标加密用户标识分别进行解密即可获得目标用户标识,该目标用户 标识对应的用户即为满足业务目标的用户。在明确了哪些用户对应哪个具 体的业务目标后就可以实现业务的定向投放,进而提升业务效果。
本公开实施例的技术方案一方面能够通过交换加密对各个业务方掌握 的数据分别进行加密,提高了数据的安全性;另一方面能够将各个业务方 掌握的数据中对应同一用户的数据关联起来,并通过基于关联后的数据训 练的模型进行数据挖掘,提高了数据的精准度和挖掘效率。
需要说明的是,本公开实施例所提供的数据处理方法可由服务器执 行,相应地,数据处理装置可设置于服务器中。但是,在本公开的其它实 施例中,也可以由终端设备执行本公开实施例所提供的数据处理方法。
在本领域的相关技术中,通常采用联邦机器学习进行联合隐私数据挖 掘,联邦机器学习是机器学习中的一个分支,目标是帮助多个机构在保护 用户隐私数据安全和合规性的要求下,进行机器学习建模和数据应用,主 要解决以下问题:双方/多方由于数据安全考虑,敏感的用户数据不能直接 输出,但又希望利用敏感数据进行机器学习/数据应用。双方不直接交换原 始用户数据,取而代之,双方交换机器学习模型的参数、迭代信息和其他参数,通过一定的算法和机制,共同完成利用双方数据共同进行模型训练 的目标。由于双方用户的原始数据不进行交换,只交换机器学习模型的参 数,被认为是既能保护用户隐私,又能利用双方/多方的数据进行进一步应 用/挖掘的解决方案。
但是联邦机器学习存在以下安全性问题:在已知的攻击方案中,可以 利用联邦学习方案中,双方交换的机器学习模型/参数,以及模型的更新/迭 代等信息中泄露的额外信息,利用机器学习算法/模型的性质,恢复出与机 器学习模型无关的多种信息,包括且不限于:双方/多方用于训练的原始数 据、额外的机器学习目标(分类信息)等。已知的攻击中,可以应用于双 方参与(含/不含参数服务器)、多方参与的情况。攻击者可以直接攻击参 数服务器,或作为参与联邦学习中的一个恶意用户,通过多轮的交互和学 习,利用每一轮交互/更新得到的模型和参数,通过攻击方法获得全部/部分 的用户数据和额外信息。尽管联邦学习的初衷是在不输出用户原始数据的 前提下完成机器学习的联合建模,原始数据确实没有直接输出,但通过巧 妙的攻击,可以恢复出用户的全部或部分原始数据,以及其他本不应被泄 露的信息,违背了联邦机器学习的初衷和数据安全的原则。
鉴于相关技术中存在的问题,本公开实施例提供了一种数据处理方 法,该数据处理方法涉及机器学习,而机器学习属于人工智能技术领域。 人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制 的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得 最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机 科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人 类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机 器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术 也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智 能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一 体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技 术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV),计算机视觉是一门研究如何使 机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目 标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理 成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算 机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取 信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图 像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为 识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构 建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率 论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计 算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织 已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心, 是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器 学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学 习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和 应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能 营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等, 相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越 来越重要的价值。
本公开实施例提供的方案涉及人工智能的机器学习技术,具体通过如 下实施例进行说明:
本公开实施例中的数据处理方法可以两个业务方之间执行,也可以在 多个业务方之间执行,以广告平台和广告商为例,一个广告平台可以发布 一个或多个广告商的广告,但是无论是发布一个广告商的广告还是多个广 告商的广告,都是根据某个广告商拥有的用户数据和广告平台拥有的用户 数据进行数据挖掘,进而获取满足具体业务目标的用户群,因此在本公开 的实施例中,将以一个广告商在广告平台发布广告为例对本公开的技术方 案进行说明。
图2示意性示出了根据本公开的一个实施例的数据处理方法的流程 图,该方法可由与第一业务方对应的第一数据处理单元执行,该第一数据 处理单元具体可以为服务器或服务器集群,服务器为图1中所示的服务器 103。参照图2所示,该数据处理方法至少包括步骤S210至步骤S240,详 细介绍如下:
在步骤S210中,获取对所述第一业务方的用户数据进行加密得到的第 一数据表和对第二业务方的用户数据进行加密得到的第二数据表,所述第 一数据表和所述第二数据表中均包含加密用户标识。
在本公开的一个实施例中,为了保证第一业务方和第二业务方的用户 数据的安全性,在对第一业务方和第二业务方的用户数据进行联合挖掘之 前,需要第一业务方和第二业务方对各自拥有的用户数据进行加密处理, 以保证另一方拿到对方加密后的用户数据后不会通过攻击的方式获取具体 的用户数据,造成用户数据泄露。在本公开的实施例中,第一业务方和第 二业务方可以采用幂次加密函数对用户数据进行交换加密以获取可用于模 型训练的数据,具体地,可以对第一业务方的用户数据进行交换加密,以 获取第一数据表;同时对第二业务方的用户数据进行交换加密,以获取第 二数据表。
在本公开的一个实施例中,第一业务方的用户数据和第二业务方的用 户数据不同,第一业务方的用户数据包括第一用户标识、与所述第一用户 标识对应的用户标注数据,该用户标注数据包括第一用户属性信息和第一 用户特征信息或者第一用户特征信息,第二业务方的用户数据包括第二用 户标识和与所述第二用户标识对应的第二用户属性信息。相应地,第一数 据表中包含加密后的第一用户标识和匿名化用户标注数据,该匿名化用户 标注数据包括匿名化后的第一用户特征信息和匿名化后的第一用户属性信 息或者匿名化后的第一用户特征信息;第二数据表中包含加密后的第二用 户标识和匿名化后的第二用户属性信息。其中,用户标识可以是任何与用 户唯一对应的标识,例如身份证号、手机号、设备号等等;用户属性信息 可以是用户本身所具有的定向信息,例如年龄、性别、职业等等,根据用 户属性信息可以构建用户画像;用户特征信息可以是用户行为信息、用户的兴趣爱好等等,由于用户在第一业务方进行诸如浏览、购买、登录、注 册、充值等操作,所以只有第一业务方拥有用户的用户特征信息。值得注 意的是,由于第一业务方对用户属性信息掌握有限,其并不一定能完全拥 有每个用户的用户属性信息,因此第一业务方的用户数据可能包括第一用 户标识、与第一用户标识对应的第一用户属性信息和第一用户特征信息, 也可能只包括第一用户标识和与第一用户标识对应的第一用户特征信息。
在本公开的一个实施例中,图3示出了对第一业务方的用户数据进行 交换加密获取第一数据表的流程示意图,如图3所示,在步骤S301中,根 据第一幂次加密函数对第一用户标识进行加密以获取第一加密用户标识, 并对用户标注信息进行匿名化处理以获取第一隐私数据;在步骤S302中, 将第一加密用户标识和第一隐私数据发送至第二数据处理单元,通过第二 数据处理单元根据第二幂次加密函数对第一加密用户标识进行加密,以获取第二加密用户标识;在步骤S303中,获取第二加密用户标识和第一隐私 数据,并根据第二加密用户标识和第一隐私数据构建第一数据表。例如第 一业务方拥有两组用户数据,对应的第一用户标识分别为a、b,其中与第 一用户标识a对应的第一用户属性信息为<性别:男>,第一用户特征信息 为<对iPhone感兴趣>,与第一用户标识b对应的第一用户特征信息为<对 无线蓝牙耳机感兴趣>,通过图3所示的流程图对第一业务方的用户数据进 行交换加密后,可得到如表1所示的信息,其中将匿名化用户属性信息对 应的列标记为ColA,匿名化用户特征信息对应的列标记为Lable:
表1第一数据表
用户标识 | ColA | Label |
f(g(a)) | x | y1 |
f(g(b)) | y2 |
其中,g(.)为第一幂次加密函数,f(.)为第二幂次加密函数,f(g(a))、 f(g(b))分别为对用户标识a、b进行交换加密后得到的加密用户标识,x为 对与第一用户标识a对应的第一用户属性信息进行匿名化处理后得到的信 息,y1、y2分别为对与第一用户标识a和第一用户标识b对应的第一用户 特征信息进行匿名化处理后得到的信息。
图4示出了对第二业务方的用户数据进行交换加密的流程示意图,如 图4所示,在步骤S401中,通过第二数据处理单元根据第二幂次加密函数 对第二用户标识进行加密以获取第三加密用户标识,并对第二用户属性信 息进行匿名处理以获取第二隐私数据;在步骤S402中,获取第三加密用户 标识和第二隐私数据,并根据第一幂次加密函数对第三加密用户标识进行 加密以获取第四加密用户标识;在步骤S403中,根据第四加密用户标识和第二隐私数据构建第二数据表。例如第二业务方拥有三组用户数据,对应 的第二用户标识分别为A、B、C,其中与第二用户标识A对应的第二用户 属性信息为<性别:男>,与第二用户标识B对应的第二用户特征信息为< 年龄:20-30>,与第二用户标识C对应的第二用户特征信息为<职业:IT 工程师>,通过图4所示的流程图对第二业务方的用户数据进行交换加密后,可得到如表2所示的信息:
表2第二数据表
用户标识 | ColA |
g(f(A)) | x1 |
g(f(B)) | x2 |
g(f(C)) | x3 |
其中,g(f(A))、g(f(B))、g(f(C))分别为对第二用户标识A、B、C进行 交换加密后得到的加密用户标识,x1、x2、x3分别为对与第二用户标识 A、B、C对应的第二用户属性信息进行匿名化处理后得到的信息。
在本公开的一个实施例中,第一幂次加密函数和第二幂次加密函数具 有相同的表达式xe mod p,其中e为保密数字即秘钥,p为第一业务方和第 二业务方共同约定的一个公共的素数。在双方约定素数p时,可以由第二 业务方指定一个具体的素数,然后将该素数发送至第一业务方,然后第一 业务方判断p及(p-1)/2是否为素数,如果满足该条件,则将该素数作为双 方约定的公共素数p。为了保证数据的安全性,第一业务方和第二业务方 可以选定不同的保密数字e1、e2作为各自的秘钥,同时为了保证后期能够 顺利解密,必须保证第一业务方和第二业务方选定的秘钥e1、e2均为奇 数,在本公开的实施例中,定义第一幂次加密函数为第二 幂次加密函数为其中e1<p,e2<p。并且当p确定时,第一 幂次加密函数和第二幂次加密函数具有可交换性,即
在本公开的一个实施例中,对用户特征信息、用户属性信息进行匿名 化处理是为了消除用户的身份信息、敏感信息以达到隐私保护的目的,因 此在本公开实施例中,除了进行匿名化处理,还可以对用户特征信息、用 户属性信息进行脱敏处理、加密处理、去标识化处理等等,只要能够达到 保护用户隐私数据的目的即可。
在本公开的一个实施例中,在步骤S302、步骤S303或者步骤S402 中,在第一业务方和第二业务方交换各自加密过的数据时,其中的元素是 打乱后传递的,这样可以进一步提高数据的安全性。图5示出了第一业务 方和第二业务方对用户数据进行交换加密的流程示意图,如图5所示,第 一业务方的用户数据包含用户ID(A集合)和与各用户ID对应的用户特 征信息(a),第二业务方的用户数据包含用户ID(B集合)和与各用户 ID对应的用户属性信息(b),在步骤S501中,第一业务方根据第一幂次 加密函数对其所拥有的用户数据进行加密,得到第一加密用户标识g(A) 和第一隐私数据,该第一隐私数据包括对用户特征信息匿名化处理后得到 的数据X,根据第一加密用户标识g(A)和第一隐私数据可以形成表 T1;同时第二业务方根据第二幂次加密函数对其所拥有的用户数据进行加 密,得到第三加密用户标识f(B)和第二隐私数据,该第二隐私数据为对 用户属性信息匿名化处理后得到的Y,根据第三加密用户标识f(B)和第 二隐私数据Y可以形成表T2;在步骤S502中,第一业务方将表T1中的 元素顺序打乱后传送给第二业务方,第二业务方将表T2中的元素顺序打乱后传送给第一业务方;在步骤S503中,第一业务方根据第一幂次加密函数 对表T2中的数据进行加密,得到第四加密用户标识g(f(B)),根据第四加密 用户标识g(f(B))和第二隐私数据Y可以形成表T3,同时第二业务方根据第 二幂次加密函数对表T1中的第一加密用户标识进行加密,得到第二加密用 户标识f(g(A)),进而根据第二加密用户标识f(g(A))和第一隐私数据X可以 形成表T4;在步骤S504中,第一业务方将表T3中的元素顺序打乱后传送 给第二业务方,第二业务方将表T4中的元素顺序打乱后传送给第一业务 方。
通过上述交换加密方式保证了第一业务方和第二业务方能够得到相同 的信息,即所有的f(g(A))和g(f(B)),根据幂次加密函数的可交换性,对于 集合f(g(A))、g(f(B))的交集部分的每个元素,即A=B,一定对应着某个加 密后的用户标识同时存在于第一业务方和第二业务方,同时由于进行了两 次加密,而且加密的数据是打乱顺序的,因此在仅知道e1或e2时,第一业 务方无法独自从f(g(A))中解密得到A的值,第二业务方无法独自从g(f(B)) 中解密得到B的值,因此不存在数据泄露的风险。
在本公开的一个实施例中,由于最终要确定的目标用户标识是满足具 体业务目标的,而该业务目标一般是由第一业务方(例如广告商)确定 的,作为第二业务方是不知道第一业务方所制定的业务目标的,因此在第 二次交换加密数据时,可以仅通过第二业务方的第二数据处理单元将表T4 中的元素顺序打乱后传送给第一业务方,以使第一业务方根据业务目标从 表T3和表T4中的所有数据中确定用于训练模型的加密数据。为了便于描述,将表T3记为第一数据表,表T4记为第二数据表。
在步骤S220中,根据所述加密用户标识将所述第一数据表和所述第二 数据表进行关联,以获取数据总表。
在本公开的一个实施例中,在获取第一数据表和第二数据表后,可以 将两个数据表进行整合形成一个完整的大表。具体地,可以先将第一数据 表中的数据和第二数据表中的数据进行整合,形成数据整合表;接着可以 将数据整合表中对应同一加密用户标识的数据进行分类合并,以获取数据 总表。也就是说,数据总表中包含了加密后的第一业务方和第二业务方所 拥有的所有用户数据,并且对应同一用户标识只有一条数据记录。
图6A-6C分别示出了第一数据表、第二数据表和数据总表的结构示意 图,如图6A所示,第一数据表中包含两个加密用户ID:f(g(a))和f(g(d)), 以及与加密用户ID f(g(a))对应的匿名化用户属性信息(colA)A’和与加密 用户ID f(g(a))和f(g(d))对应的匿名化用户特征信息(Lable)X、Y;如图 6B所示,第二数据表中包含三个加密用户ID:g(f(a))、g(f(b))、g(f(c)),以 及与各加密用户ID对应的匿名化用户属性信息(colA)A、B、C。根据第 一数据表和第二数据表可以得到数据总表,由于幂次加密函数具有可交换 性,即f(g(a))=g(f(a)),因此可以将与相同加密用户ID对应的信息进行分类 合并,获得与加密用户ID f(g(a))对应的匿名化用户属性信息A+A’和匿名 化用户特征信息X,如图6C所示,其它几个加密用户ID都只有单条记 录,只需整合到数据总表中即可。
在步骤S230中,根据预设业务目标从所述数据总表中确定目标数据 集,并通过基于所述目标数据集训练的机器学习模型对所述数据总表中的 用户数据进行处理,以获取目标加密用户标识。
在本公开的一个实施例中,在形成数据总表后,可以根据不同的业务 目标从数据总表中获取不同的目标数据集,并基于目标数据集对机器学习 模型进行训练,以得到一个或多个对应不同业务目标的机器学习模型。具 体地,第一业务方可以预先设定一业务目标,该业务目标包含于数据总表 中的用户特征信息,接着第一数据处理单元可以对预设业务目标也进行匿 名化处理,然后将匿名化后的预设业务目标与数据总表中的匿名化用户特 征信息进行匹配,如果存在匹配的匿名化用户特征信息,则从数据总表中 获取对应的所有数据构建目标数据集,具体地,当数据表中存在与匹配的 匿名化用户特征信息对应的匿名化用户属性信息时,则获取对应的加密用 户标识和匿名化用户属性信息,当数据表中不存在与匹配的匿名化用户属 性信息对应的匿名化用户属性信息时,则获取对应的加密用户标识。在基 于目标数据集进行模型训练时,加密用户标识或者加密用户标识和匿名化用户属性信息为模型的输入,匿名化用户特征信息为预期的输出,通过对 机器学习模型不断的调参以得到稳定的模型,最终获取的机器学习模型即 为能够处理与具体业务目标相关的任务的模型。
在本公开的一个实施例中,由于第一业务方掌握所有的用户特征信 息,而特征总表中的匿名化用户特征信息是第一数据处理单元对用户特征 信息进行匿名化处理得到的,因此在根据预设业务目标从特征总表中确定 目标数据集之前,还可以对数据总表中的匿名化用户特征信息进行取消匿 名化的处理,将其还原为初始的用户特征信息。这样一来,在获取预设业 务目标之后,便可以直接将预设业务目标与数据总表中的用户特征信息进 行匹配,以获取目标数据集,并基于目标数据集对机器学习模型进行训 练。值得说明的是,本公开实施例中的机器学习模型可以是任意的机器学 习模型,只要能够根据目标数据集进行训练后从数据总表中的所有数据中 确定满足具体业务目标的加密用户标识即可。
在本公开的一个实施例中,在模型训练完成后,可以采用训练后的模 型对数据总表中的所有数据进行处理,从中选择满足业务目标的加密用户 标识。例如,在模型训练时,第一业务方设定的业务目标为“对iPhone感 兴趣”,属于用户特征信息中的一种,那么可以获取数据总表中用户特征 信息为“对iPhone感兴趣”的所有数据,并根据所有数据形成目标数据 集,由于用户数据量大,所以目标数据集中通常会有多组目标数据,每组 目标数据对应一个用户ID,并且每组目标数据包括加密用户ID、与加密用 户ID对应的匿名化用户特征信息和匿名化用户属性信息,如果不存在匿名 化用户属性信息的话,则每组目标数据包括加密用户ID和与其对应的匿名 化用户特征信息;然后可以将每组目标数据作为训练样本对待训练机器学 习模型进行训练,以获取机器学习模型;最后可以通过机器学习模型对数 据总表中所有的用户数据进行处理,以获取与预设业务目标对应的目标加 密用户标识,也就是所有“对iPhone感兴趣”的用户的加密用户标识。当 然,第一业务方还可以设置多个业务目标,比如“对无线蓝牙耳机感兴 趣”、“对XX品牌衣服感兴趣”,等等,并分别基于各个业务目标对待 训练机器学习模型进行训练,以获得能够从所有用户中确定“对无线蓝牙 耳机感兴趣”、“对XX品牌衣服感兴趣”用户的加密用户标识的机器学 习模型。同时,训练得到的机器学习模型还可以用于对其它非数据总表中 的用户数据进行处理,以获取符合相关业务目标的用户标识。
在步骤S240中,对所述目标加密用户标识进行初解密,并将初解密后 的目标加密用户标识发送至与所述第二业务方对应的第二数据处理单元进 行再解密,以获取目标用户标识。
在本公开的一个实施例中,在通过模型确定目标加密用户标识后,可 以对其进行解密,由于数据总表中的加密用户标识是经过第一幂次加密函 数和第二幂次加密函数分别加密的,因此为了获取满足业务目标的所有用 户的用户标识,则需要对目标加密用户标识进行两次解密,即初解密和再 解密。由于第一幂次加密函数和第二幂次加密函数的幂指数不同,所以仅 由第一数据处理单元或第二数据处理单元进行解密是不行的,必须通过第一数据处理单元和第二数据处理单元联合解密。在本公开的实施例中,记 与幂次加密函数对应的解密函数为幂次加密函数的反函数f-1,那么f-1(xemodp,e)=x,同时由于第一幂次加密函数和第二幂次加密函数之间具 有可交换性,且e1、e2为不同的奇数,所以与第一幂次加密函数对应的第 一解密函数和与第二幂次加密函数对应的第二解密函数之间也具有可交换 性,即
在本公开的一个实施例中,为了获取与目标加密用户标识对应的用户 标识,可以先根据与第一幂次加密函数对应的第一解密函数对目标加密用 户标识进行初解密,然后将初解密后的目标加密用户标识发送至第二数据 处理单元,并根据与第二幂次加密函数对应的第二解密函数对初解密后的 目标加密用户标识进行再解密,以获取目标用户标识。
在本公开的一个实施例中,由于在素数p确定时,第一幂次加密函数 和第二幂次加密函数之间具有可交换性,那么目标加密用户标识中先经过 第一幂次加密函数加密,再经过第二幂次加密函数加密的目标加密用户标 识,也就是结构如f(g(x))的目标加密用户标识均可以转换为g(f(x)),进而 在根据第一解密函数g-1进行初解密之后能够获取f(x),最后通过第二解密 函数f-1进行再解密后能够获取目标用户标识x。
在本公开的一个实施例中,在确定目标用户标识后,即可对具有该目 标用户标识的用户进行业务定向投放。例如目标用户标识对应的用户为 “喜欢交友”的用户,那么可以将平台中所有关于交友、婚恋的App广告 定向推送给这些用户,并且后续当广告商在广告平台发布广告时,直接将 类型为交友、婚恋的广告商发布的App广告定向推送给这些用户,提高广 告定向能力和广告效果。
为了使本公开的技术方案更清晰,接下来以对商品类广告主和广告平 台所拥有的用户数据进行联合隐私数据挖掘为例进行说明。
在本公开的一个实施例中,广告主经营多种类型的商品,例如A类商 品、B类商品和C类商品,关于每类商品都会在广告平台上投放广告,为 了进一步提高各类广告的定向投放和广告效果,广告主期望能够借助广告 平台所拥有的用户数据和自身所拥有的用户数据进行联合数据挖掘,同时 又不泄露用户数据,以根据联合挖掘到的数据进行定向投放,例如向对A 类商品感兴趣的用户定向投放A类商品,等等。
图7示出了联合数据挖掘的流程图,如图7所示,在步骤S701中,广 告主侧根据第一幂次加密函数对其所拥有的用户数据中的用户标识进行加 密,并对用户特征信息和用户属性信息进行匿名化处理,形成数据表T1; 同时广告平台侧根据第二幂次加密函数对其所拥有的用户数据中的用户标 识进行加密,并对用户属性信息进行匿名化处理,形成数据表T2;在步骤 S702中,广告主将数据表T1发送至广告平台,广告平台将数据表T2发送 至广告主;在步骤S703中,广告主侧根据第一幂次加密函数对数据表T2 中的加密用户标识进行加密,形成数据表T3;同时广告平台根据第二幂次 加密函数对数据表T1中的加密用户标识进行加密,形成数据表T4;在步 骤S704中,广告平台将数据表T4发送至广告主;在步骤S705中,广告 主侧将数据表T3和数据表T4进行整合,形成数据总表;在步骤S706 中,对数据总表中的匿名化用户特征信息进行取消匿名化处理;在步骤 S707中,将预设业务目标与数据总表中的用户特征信息进行匹配,获取匹 配的用户特征信息对应的加密用户标识和匿名化用户属性信息(如果有则 获取),以形成目标数据集;在步骤S708中,根据目标数据集进行机器学 习模型的训练;在步骤S709中,采用训练后的机器学习模型对数据总表中 所有的用户数据进行分析,以获取目标加密用户标识;该目标加密用户标 识即为对A类商品感兴趣的用户的加密用户标识;在步骤S710中,广告 主侧根据第一解密函数对目标加密用户标识进行初解密,得到初解密后的 加密用户标识;在步骤S711中;广告主将初解密后的加密用户标识发送至 广告平台;在步骤S712中,广告平台侧根据第二解密函数对初解密后的加 密用户标识进行再解密,得到满足业务目标的目标用户标识。
在本公开的一个实施例中,多个广告商可以在同一广告平台上发布广 告,对于每个广告商而言,都可以根据自设的业务目标对自己拥有的用户 数据和广告平台拥有的用户数据进行联合隐私数据挖掘,并将挖掘得到的 数据应用于后续的定向业务发布,其中具体的挖掘过程与图7所示的流程 图相同,在此不再赘述。
本公开实施例中的数据处理方法能够将广告商和广告平台两侧所拥有 的用户数据联合起来,在联合过程中可以将两侧关于同一用户的数据关联 起来,然后广告商根据自己的业务目标从联合后的用户数据中获取目标数 据集,并基于目标数据集训练模型。在模型训练完成后,可以通过模型对 联合后的所有用户数据进行分析,并从中确定满足业务目标的目标用户标 识。其中广告主和广告平台采用的数据都是加密/脱敏/去标识化的用户隐私 数据,在传递过程中没有泄露用户数据和用户对应的属性/行为/兴趣等信 息,在机器学习建模过程中对密文进行计算。在最终的用户ID解密过程 中,只有广告平台掌握用户的真实ID,避免了广告主利用真实的用户ID 管理用户加密/脱敏/去标识化的属性信息,实现了将用户和其加密后的属性 信息/画像进行隔离,有效保护了广告平台和广告主的数据安全,避免了广 告主利用广告平台的数据进行进一步恶意应用,同时利用了双方的数据和能力,进行了联合数据挖掘和应用。因此本公开的技术方案一方面能够通 过交换加密对各个业务方掌握的数据分别进行加密,提高了数据的安全 性;另一方面能够将各个业务方掌握的数据中对应同一用户的数据关联起 来,并通过基于关联后的数据训练的模型进行数据挖掘,提高了数据的精 准度和挖掘效率,进一步提高了业务的定向能力和效果。
以下介绍本公开的装置实施例,可以用于执行本公开上述实施例中的 数据处理方法。对于本公开装置实施例中未披露的细节,请参照本公开上 述的数据处理方法的实施例。
图8示意性示出了根据本公开的一个实施例的数据处理装置的框图。 该装置可以用于执行本申请实施例提供的方法中的相应步骤。
参照图8所示,根据本公开的一个实施例的数据处理装置800,包 括:获取模块801、关联模块802、处理模块803和解密模块804。
其中,获取模块801,用于获取对所述第一业务方的用户数据进行加 密得到的第一数据表和对第二业务方的用户数据进行加密得到的第二数据 表,所述第一数据表和所述第二数据表中均包含加密用户标识;关联模块 802,用于根据所述加密用户标识将所述第一数据表和所述第二数据表进行 关联,以获取数据总表;处理模块803,用于根据预设业务目标从所述数 据总表中确定目标数据集,并通过基于所述目标数据集训练的机器学习模 型对所述数据总表中的用户数据进行处理,以获取目标加密用户标识;解 密模块804,用于对所述目标加密用户标识进行初解密,并将初解密后的 目标加密用户标识发送至与所述第二业务方对应的第二数据处理单元进行 再解密,以获取目标用户标识。
在本公开的一个实施例中,所述获取模块801包括:第一交换加密单 元,用于对所述第一业务方的用户数据进行交换加密,以获取所述第一数 据表;第二交换加密单元,用于对所述第二业务方的用户数据进行交换加 密,以获取所述第二数据表。
在本公开的一个实施例中,所述第一业务方的用户数据包括第一用户 标识和与所述第一用户标识对应的用户标注信息,所述用户标注信息包括 第一用户属性信息和第一用户特征信息或者第一用户特征信息;所述第一 交换加密单元配置为:根据第一幂次加密函数对所述第一用户标识进行加 密以获取第一加密用户标识,并对所述第一用户标注信息进行匿名化处理 以获取第一隐私数据;将所述第一加密用户标识和所述第一隐私数据发送 至所述第二数据处理单元,通过所述第二数据处理单元根据第二幂次加密 函数对所述第一加密用户标识进行加密,以获取第二加密用户标识;获取 所述第二加密用户标识和所述第一隐私数据,并根据所述第二加密用户标 识和所述第一隐私数据构建所述第一数据表。
在本公开的一个实施例中,所述第二业务方的用户数据包括第二用户 标识和与所述第二用户标识对应的第二用户属性信息;所述第二交换加密 单元配置为:通过所述第二数据处理单元根据所述第二幂次加密函数对所 述第二用户标识进行加密以获取第三加密用户标识,并对所述第二用户属 性信息进行匿名化处理以获取第二隐私数据;获取所述第三加密用户标识 和所述第二隐私数据,并根据所述第一幂次加密函数对所述第三加密用户 标识进行加密以获取第四加密用户标识;根据所述第四加密用户标识和所 述第二隐私数据构建所述第二数据表。
在本公开的一个实施例中,所述第一幂次加密函数中的幂指数和所述 第二幂次加密函数中的幂指数为不同的奇数,并且所述第一幂次加密函数 和所述第二幂次加密函数具有可交换性。
在本公开的一个实施例中,所述关联模块802配置为:将所述第一数 据表中的数据和所述第二数据表中的数据进行整合,形成数据整合表;将 所述数据整合表中对应同一加密用户标识的数据进行分类合并,以获取所 述数据总表。
在本公开的一个实施例中,所述处理模块803配置为:根据所述预设 业务目标从所述数据总表的用户特征信息中确定目标用户特征信息;获取 与所述目标用户特征信息对应的所有数据构建所述目标数据集。
在本公开的一个实施例中,所述目标数据集包括多组目标数据,各组 所述目标数据包括加密用户标识以及与所述加密用户标识对应的匿名化用 户特征信息和匿名化用户属性信息;所述处理模块803配置为:根据所述 加密用户标识、所述匿名化用户特征信息和所述匿名化用户属性信息对待 训练机器学习模型进行训练,以获取所述机器学习模型;通过所述机器学 习模型对所述数据总表中所有的用户数据进行处理,以获取与所述预设业务目标对应的目标加密用户标识。
在本公开的一个实施例中,所述解密模块804配置为:根据与所述第 一幂次加密函数对应的第一解密函数对所述目标加密用户标识进行初解 密,以获取初解密后的目标加密用户标识。
在本公开的一个实施例中,所述解密模块804配置为:根据与所述第 二幂次加密函数对应的第二解密函数对所述初解密后的目标加密用户标识 进行再解密,以获取所述目标用户标识。
在本公开的一个实施例中,所述第一解密函数为所述第一加密函数的 反函数,所述第二解密函数为所述第二加密函数的反函数,并且所述第一 解密函数和所述第二解密函数具有可交换性。
在本公开的一个实施例中,所述数据处理装置800还配置为:在根据 预设业务目标从所述数据总表中确定目标数据集之前,对所述数据总表中 的匿名化用户特征信息进行取消匿名化处理。
图9示出了适于用来实现本公开实施例的电子设备的计算机系统的结 构示意图。
需要说明的是,图9示出的电子设备的计算机系统900仅是一个示 例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(Central Processing Unit,CPU)901,其可以根据存储在只读存储器(Read-Only Memory, ROM)902中的程序或者从存储部分908加载到随机访问存储器(Random Access Memory,RAM)903中的程序而执行各种适当的动作和处理,实现 上述实施例中所述的图像标注方法。在RAM 903中,还存储有系统操作所 需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼 此相连。输入/输出(Input/Output,I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包 括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN(Local Area Network,局域网)卡、调制解调器 等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执 行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质 911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动 器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分 908。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实 现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品, 其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执 行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以 通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安 装。在该计算机程序被中央处理单元(CPU)901执行时,执行本公开的系 统中限定的各种功能。
需要说明的是,本公开实施例所示的计算机可读介质可以是计算机可 读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机 可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、 或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介 质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便 携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、 可擦式可编程只读存储器(Erasable Programmable Read Only Memory, EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read- Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合 适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序 的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结 合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作 为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种 传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上 述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介 质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传 输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计 算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限 于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法 和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程 图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上 述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功 能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的 功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所 涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或 流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件 的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也 可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其 中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读 介质可以是上述实施例中描述的数据处理装置中所包含的;也可以是单独 存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多 个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子 设备实现上述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干 模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施 方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块 或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可 以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述 的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方 式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式 体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD- ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设 备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据 本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到 本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适 应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包 括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精 确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅 由所附的权利要求来限制。
Claims (15)
1.一种数据处理方法,其特征在于,由与第一业务方对应的第一数据处理单元执行,包括:
获取对所述第一业务方的用户数据进行加密得到的第一数据表和对第二业务方的用户数据进行加密得到的第二数据表,所述第一数据表和所述第二数据表中均包含加密用户标识;
根据所述加密用户标识将所述第一数据表和所述第二数据表进行关联,以获取数据总表;
根据预设业务目标从所述数据总表中确定目标数据集,并通过基于所述目标数据集训练的机器学习模型对所述数据总表中的用户数据进行处理,以获取目标加密用户标识;
对所述目标加密用户标识进行初解密,并将初解密后的目标加密用户标识发送至与所述第二业务方对应的第二数据处理单元进行再解密,以获取目标用户标识。
2.根据权利要求1所述的数据处理方法,其特征在于,所述对所述第一业务方的用户数据进行加密得到第一数据表,包括:
对所述第一业务方的用户数据进行交换加密,以获取所述第一数据表;
所述对第二业务方的用户数据进行加密得到第二数据表,包括:
对所述第二业务方的用户数据进行交换加密,以获取所述第二数据表。
3.根据权利要求2所述的数据处理方法,其特征在于,所述第一业务方的用户数据包括第一用户标识和与所述第一用户标识对应的用户标注信息,所述用户标注信息包括第一用户属性信息和第一用户特征信息或者第一用户特征信息;
所述对所述第一业务方的用户数据进行交换加密,以获取所述第一数据表,包括:
根据第一幂次加密函数对所述第一用户标识进行加密以获取第一加密用户标识,并对所述用户标注信息进行匿名化处理以获取第一隐私数据;
将所述第一加密用户标识和所述第一隐私数据发送至所述第二数据处理单元,通过所述第二数据处理单元根据第二幂次加密函数对所述第一加密用户标识进行加密,以获取第二加密用户标识;
获取所述第二加密用户标识和所述第一隐私数据,并根据所述第二加密用户标识和所述第一隐私数据构建所述第一数据表。
4.根据权利要求3所述的数据处理方法,其特征在于,所述第二业务方的用户数据包括第二用户标识和与所述第二用户标识对应的第二用户属性信息;
所述对所述第二业务方的用户数据进行交换加密,以获取所述第二数据表,包括:
通过所述第二数据处理单元根据所述第二幂次加密函数对所述第二用户标识进行加密以获取第三加密用户标识,并对所述第二用户属性信息进行匿名化处理以获取第二隐私数据;
获取所述第三加密用户标识和所述第二隐私数据,并根据所述第一幂次加密函数对所述第三加密用户标识进行加密以获取第四加密用户标识;
根据所述第四加密用户标识和所述第二隐私数据构建所述第二数据表。
5.根据权利要求3或4所述的数据处理方法,所述第一幂次加密函数中的幂指数和所述第二幂次加密函数中的幂指数为不同的奇数,并且所述第一幂次加密函数和所述第二幂次加密函数具有可交换性。
6.根据权利要求1所述的数据处理方法,其特征在于,所述根据所述加密用户标识将所述第一数据表和所述第二数据表进行关联,以获取数据总表,包括:
将所述第一数据表中的数据和所述第二数据表中的数据进行整合,形成数据整合表;
将所述数据整合表中对应同一加密用户标识的数据进行分类合并,以获取所述数据总表。
7.根据权利要求6所述的数据处理方法,其特征在于,所述根据预设业务目标从所述数据总表中确定目标数据集,包括:
根据所述预设业务目标从所述数据总表的用户特征信息中确定目标用户特征信息;
获取与所述目标用户特征信息对应的所有数据构建所述目标数据集。
8.根据权利要求1或7所述的数据处理方法,其特征在于,所述目标数据集包括多组目标数据,各组所述目标数据包括加密用户标识以及与所述加密用户标识对应的匿名化用户特征信息和匿名化用户属性信息;
所述通过基于所述目标数据集训练的机器学习模型对所述数据总表中的用户数据进行处理,以获取目标加密用户标识,包括:
根据所述加密用户标识、所述匿名化用户特征信息和所述匿名化用户属性信息对待训练机器学习模型进行训练,以获取所述机器学习模型;
通过所述机器学习模型对所述数据总表中所有的用户数据进行处理,以获取与所述预设业务目标对应的目标加密用户标识。
9.根据权利要求3所述的数据处理方法,其特征在于,所述对所述目标加密用户标识进行初解密,包括:
根据与所述第一幂次加密函数对应的第一解密函数对所述目标加密用户标识进行初解密,以获取初解密后的目标加密用户标识。
10.根据权利要求9所述的数据处理方法,其特征在于,所述将初解密后的目标加密用户标识发送至第二数据处理单元进行再解密,以获取目标用户标识,包括:
根据与所述第二幂次加密函数对应的第二解密函数对所述初解密后的目标加密用户标识进行再解密,以获取所述目标用户标识。
11.根据权利要求10所述的数据处理方法,其特征在于,所述第一解密函数为所述第一加密函数的反函数,所述第二解密函数为所述第二加密函数的反函数,并且所述第一解密函数和所述第二解密函数具有可交换性。
12.根据权利要求1所述的数据处理方法,其特征在于,在根据预设业务目标从所述数据总表中确定目标数据集之前,所述方法还包括:
对所述数据总表中的匿名化用户特征信息进行取消匿名化处理。
13.一种数据处理装置,其特征在于,配置于第一业务方,包括:
获取模块,用于获取对所述第一业务方的用户数据进行加密得到的第一数据表和对第二业务方的用户数据进行加密得到的第二数据表,所述第一数据表和所述第二数据表中均包含加密用户标识;
关联模块,用于根据所述加密用户标识将所述第一数据表和所述第二数据表进行关联,以获取数据总表;
处理模块,用于根据预设业务目标从所述数据总表中确定目标数据集,并通过基于所述目标数据集训练的机器学习模型对所述数据总表中的用户数据进行处理,以获取目标加密用户标识;
解密模块,用于对所述目标加密用户标识进行初解密,并将初解密后的目标加密用户标识发送至与所述第二业务方对应的第二数据处理单元进行再解密,以获取目标用户标识。
14.一种数据处理系统,其特征在于,包括:
第一数据处理单元,配置于第一业务方;
第二数据处理单元,配置于第二业务方,并与所述第一数据处理单元连接;其中,
所述第一数据处理单元获取由所述第一数据处理单元和所述第二数据处理单元对所述第一业务方的用户数据和所述第二业务方的用户数据进行交换加密所形成的第一数据表和第二数据表,并根据加密用户标识对所述第一数据表和所述第二数据表进行关联形成数据总表;以及,
根据预设业务目标从所述数据总表中获取目标数据集,并通过基于所述目标数据集训练的机器学习模型对所述数据总表中的用户数据进行处理,以获取目标加密用户标识;
对所述目标加密用户标识进行初解密,并将初解密后的目标加密用户标识发送至所述第二数据处理单元进行再解密,以获取目标用户标识。
15.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,所述存储装置用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至12中任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469566.4A CN111709051A (zh) | 2020-05-28 | 2020-05-28 | 数据处理方法、装置、系统、计算机存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010469566.4A CN111709051A (zh) | 2020-05-28 | 2020-05-28 | 数据处理方法、装置、系统、计算机存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111709051A true CN111709051A (zh) | 2020-09-25 |
Family
ID=72538164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010469566.4A Pending CN111709051A (zh) | 2020-05-28 | 2020-05-28 | 数据处理方法、装置、系统、计算机存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111709051A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686390A (zh) * | 2020-12-28 | 2021-04-20 | 科大讯飞股份有限公司 | 联合建模方法、系统、装置及具有存储功能的装置 |
CN113190871A (zh) * | 2021-05-28 | 2021-07-30 | 脸萌有限公司 | 数据保护方法、装置、可读介质及电子设备 |
CN113259353A (zh) * | 2021-05-13 | 2021-08-13 | 北京有竹居网络技术有限公司 | 信息处理方法、装置和电子设备 |
CN113542247A (zh) * | 2021-07-06 | 2021-10-22 | 建信金融科技有限责任公司 | 一种基于数据加密的业务推送方法、装置及设备 |
WO2023061108A1 (zh) * | 2021-10-14 | 2023-04-20 | 中国银联股份有限公司 | 数据脱敏方法、联邦学习方法及系统 |
CN116012036A (zh) * | 2023-03-24 | 2023-04-25 | 中科云策(深圳)科技成果转化信息技术有限公司 | 基于大数据的分布式数据处理系统 |
-
2020
- 2020-05-28 CN CN202010469566.4A patent/CN111709051A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112686390A (zh) * | 2020-12-28 | 2021-04-20 | 科大讯飞股份有限公司 | 联合建模方法、系统、装置及具有存储功能的装置 |
CN112686390B (zh) * | 2020-12-28 | 2023-11-17 | 科大讯飞股份有限公司 | 联合建模方法、系统、装置及具有存储功能的装置 |
CN113259353A (zh) * | 2021-05-13 | 2021-08-13 | 北京有竹居网络技术有限公司 | 信息处理方法、装置和电子设备 |
CN113190871A (zh) * | 2021-05-28 | 2021-07-30 | 脸萌有限公司 | 数据保护方法、装置、可读介质及电子设备 |
WO2022250608A1 (zh) * | 2021-05-28 | 2022-12-01 | 脸萌有限公司 | 数据保护方法、装置、可读介质及电子设备 |
CN113190871B (zh) * | 2021-05-28 | 2023-10-31 | 脸萌有限公司 | 数据保护方法、装置、可读介质及电子设备 |
CN113542247A (zh) * | 2021-07-06 | 2021-10-22 | 建信金融科技有限责任公司 | 一种基于数据加密的业务推送方法、装置及设备 |
WO2023061108A1 (zh) * | 2021-10-14 | 2023-04-20 | 中国银联股份有限公司 | 数据脱敏方法、联邦学习方法及系统 |
CN116012036A (zh) * | 2023-03-24 | 2023-04-25 | 中科云策(深圳)科技成果转化信息技术有限公司 | 基于大数据的分布式数据处理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110245510B (zh) | 用于预测信息的方法和装置 | |
CN111709051A (zh) | 数据处理方法、装置、系统、计算机存储介质及电子设备 | |
US11790117B2 (en) | Systems and methods for enforcing privacy-respectful, trusted communications | |
CN110189192B (zh) | 一种信息推荐模型的生成方法及装置 | |
JP7095140B2 (ja) | 特徴抽出に基くマルチモデルトレーニング方法及び装置、電子機器と媒体 | |
CN112182595A (zh) | 基于联邦学习的模型训练方法及装置 | |
WO2022247576A1 (zh) | 一种数据处理方法、装置、设备及计算机可读存储介质 | |
CN111428887B (zh) | 一种基于多个计算节点的模型训练控制方法、装置及系统 | |
CN102177498B (zh) | 数据匿名系统 | |
CN111027870A (zh) | 用户风险评估方法及装置、电子设备、存储介质 | |
Vu | Privacy-preserving Naive Bayes classification in semi-fully distributed data model | |
CN111081337B (zh) | 一种协同任务预测方法及计算机可读存储介质 | |
CN111666460A (zh) | 基于隐私保护的用户画像生成方法、装置及存储介质 | |
CN113748440A (zh) | 安全多方计算归因 | |
CN102123141A (zh) | 在个性化内容递送期间维持私密性 | |
CN111553443B (zh) | 裁判文书处理模型的训练方法、训练装置和电子设备 | |
CN116529730A (zh) | 使用安全多方计算的隐私保护机器学习 | |
CN111612167A (zh) | 机器学习模型的联合训练方法、装置、设备及存储介质 | |
Yu et al. | Traceable and undeniable ciphertext-policy attribute-based encryption for cloud storage service | |
CN111324812A (zh) | 基于迁移学习的联邦推荐方法、装置、设备及介质 | |
Cheng et al. | A privacy-protection model for patients | |
Munn et al. | Clouded data: Privacy and the promise of encryption | |
Omer et al. | Privacy-preserving of SVM over vertically partitioned with imputing missing data | |
Vu et al. | An efficient and practical approach for privacy-preserving Naive Bayes classification | |
CN114881247A (zh) | 基于隐私计算的纵向联邦特征衍生方法、装置、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |