CN108984733B - 跨域数据融合方法、系统以及存储介质 - Google Patents

跨域数据融合方法、系统以及存储介质 Download PDF

Info

Publication number
CN108984733B
CN108984733B CN201810766536.2A CN201810766536A CN108984733B CN 108984733 B CN108984733 B CN 108984733B CN 201810766536 A CN201810766536 A CN 201810766536A CN 108984733 B CN108984733 B CN 108984733B
Authority
CN
China
Prior art keywords
user
feature
domain
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810766536.2A
Other languages
English (en)
Other versions
CN108984733A (zh
Inventor
张钧波
郑宇�
梁宇轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Intelligent City Big Data Research Institute
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN201810766536.2A priority Critical patent/CN108984733B/zh
Publication of CN108984733A publication Critical patent/CN108984733A/zh
Priority to PCT/CN2019/095429 priority patent/WO2020011200A1/zh
Application granted granted Critical
Publication of CN108984733B publication Critical patent/CN108984733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种跨域数据融合方法、系统以及存储介质,涉及数据挖掘技术领域,其中方法包括:获得数据域中的与用户关键词信息相对应的用户特征信息,将与用户特征信息转换为隐含特征信息,对用户关键词信息进行多次加密处理,对用户关键词信息密文与隐含特征信息进行融合处理生成域用户融合特征,根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征。本公开的跨域数据融合方法、系统以及存储介质,可以避免由于用户关键词泄露导致的用户原始数据泄露,将用户特征信息转换为隐含特征信息并进行融合处理,提高了对于各个领域数据汇总特征的表示能力,能够提升数据挖掘准确度和安全性。

Description

跨域数据融合方法、系统以及存储介质
技术领域
本公开涉及数据挖掘技术领域,尤其涉及一种跨域数据融合方法、系统以及存储介质。
背景技术
传统数据挖掘通常处理的是来自单一数据域的数据,把将同一领域的多个数据集合并成具有一致数据模式的数据库。而在大数据时代背景下,经常面临着来自不同领域、不同来源的各类数据,这些数据往往由多种形式组成,每种形式都有着不同的表示、分布、规模以及密度。来自不同领域的多个数据集通过潜在对象进行了隐式连接,例如,一个用户的电商平台交易数据,个人信用记录和人口统计特性描述了该用户的潜在消费能力。
现有的跨域数据融合首先在不同的存储源当中分别进行用户的特征融合,之后通过用户的Key(主键)的对应关系,将来自多个存储地方的所有特征进一步融合,最后得到用户关于多个存储地方的汇总跨域特征。用户的不同领域数据都是隐私敏感的,一旦用户Key的加密方式泄露,攻击方可以利用用户Key的密文反推得到用户Key,造成用户各领域知识甚至原始特征信息的泄露,并且各个存储地方的输出是由用户Key密文和低阶的原始特征融合组成,安全性较低。
发明内容
有鉴于此,本发明要解决的一个技术问题是提供一种跨域数据融合方法、系统以及存储介质。
根据本公开的一个方面,提供一种跨域数据融合方法,包括:获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息;基于特征转换模型将与所述用户特征信息转换为隐含特征信息;根据预设的加密规则对所述用户关键词信息进行多次加密处理;对用户关键词信息密文与所述隐含特征信息进行融合处理,生成所述数据域的域用户融合特征;根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征。
可选地,所述获得数据域中的数据源存储的与用户关键词相对应的用户特征信息包括:根据所述用户关键词信息并按照预设的关联映射规则生成查询SQL语句;将所述查询SQL语句发送到所述数据源中执行,用以获取所述用户特征信息。
可选地,所述基于预设的加密规则对所述用户关键词信息进行加密处理包括:采用第一加密算法将所述用户关键词进行第一次加密;采用第二加密算法将第一次加密后的密文数据进行二次加密,获得所述用户关键词信息密文;其中,所述第一加密算法包括:MD5算法;所述第二加密算法包括:AES算法。
可选地,所述基于特征转换模型将与所述用户特征信息转换为隐含特征信息包括:将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本;使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练,获得所述特征转换模型;将所述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入所述特征转换模型,获得与所述用户特征信息相对应的所述隐含特征信息。
可选地,所述使对预设的深度学习模型进行训练包括:将所述初始用户特征信息作为输入特征数据,将与所述初始用户特征信息相对应的所述初始隐含特征信息作为初始预测结果;基于所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进行训练。
可选地,所述用户特征信息包括多个特征参数,所述特征转换模型的数量为多个;所述获得与所述用户特征信息相对应的所述隐含特征信息包括:将所述多个特征参数中的至少一个特征参数输入各个所述特征转换模型,获得多个所述隐含特征信息。
可选地,所述特征转换模型包括:三层神经元模型;所述三层神经元模型包括:输入层神经元模型、中间层神经元模型和输出层神经元模型;每层神经元模型的输出作为下一层神经元模型的输入;其中,所述输入层神经元模型的神经元与所述多个特征参数中的至少一个特征参数相对应,所述输出层神经元模型的神经元与所述隐含特征信息相对应。
可选地,所述三层神经元模型为具有全连接结构的多个神经网络层的子网络结构;其中,所述中间层神经元模型为全连接层。
可选地,所述隐含特征信息为多维数字向量;其中,所述对所述用户关键词密文与所述隐含特征信息进行融合处理、生成所述数据域的域用户融合特征包括:获取多个所述特征转换模型输出的多个多维数字向量;将所述用户关键词信息密文与所述多个多维向量进行合并处理,生成域用户融合特征向量。
可选地,所述根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理、获得跨域用户融合特征包括:获取与所述用户关键词信息密文相对应的多个数据域的域用户融合特征向量;将所述多个数据域的域用户融合特征向量进行合并处理,生成跨域用户融合特征向量。
根据本公开的另一方面,提供一种跨域数据融合系统,包括:原始信息获取模块,用于获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息;隐含特征生成模块,用于基于特征转换模型将与所述用户特征信息转换为隐含特征信息;关键词加密模块,用于根据预设的加密规则对所述用户关键词信息进行多次加密处理;域数据融合模块,用于对用户关键词信息密文与所述隐含特征信息进行融合处理,生成所述数据域的域用户融合特征;跨域数据融合模块,用于根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征。
可选地,所述原始信息获取模块,用于根据所述用户关键词信息并按照预设的关联映射规则生成查询SQL语句;将所述查询SQL语句发送到所述数据源中执行,用以获取所述用户特征信息。
可选地,所述关键词加密模块,用于采用第一加密算法将所述用户关键词进行第一次加密;采用第二加密算法将第一次加密后的密文数据进行二次加密,获得所述用户关键词信息密文;其中,所述第一加密算法包括:MD5算法;所述第二加密算法包括:AES算法。
可选地,所述隐含特征生成模块,包括:模型训练单元,用于将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本;使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练,获得所述特征转换模型;特征生成单元,用于将所述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入所述特征转换模型,获得与所述用户特征信息相对应的所述隐含特征信息。
可选地,所述模型训练单元,用于将所述初始用户特征信息作为输入特征数据,将与所述初始用户特征信息相对应的所述初始隐含特征信息作为初始预测结果;基于所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进行训练。
可选地,所述用户特征信息包括多个特征参数,所述特征转换模型的数量为多个;其中,所述特征生成单元,用于将所述多个特征参数中的至少一个特征参数输入各个所述特征转换模型,获得多个所述隐含特征信息。
可选地,所述特征转换模型包括:三层神经元模型;所述三层神经元模型包括:输入层神经元模型、中间层神经元模型和输出层神经元模型;每层神经元模型的输出作为下一层神经元模型的输入;其中,所述输入层神经元模型的神经元与所述多个特征参数中的至少一个特征参数相对应,所述输出层神经元模型的神经元与所述隐含特征信息相对应。
可选地,所述三层神经元模型为具有全连接结构的多个神经网络层的子网络结构;其中,所述中间层神经元模型为全连接层。
可选地,所述隐含特征信息为多维数字向量;所述域数据融合模块,用于获取多个所述特征转换模型输出的多个多维数字向量;将所述用户关键词信息密文与所述多个多维向量进行合并处理,生成域用户融合特征向量。
可选地,所述跨域数据融合模块,用于获取与所述用户关键词信息密文相对应的多个数据域的域用户融合特征向量;将所述多个数据域的域用户融合特征向量进行合并处理,生成跨域用户融合特征向量。
根据本公开的又一方面,提供一种跨域数据融合系统,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如上所述的方法。
根据本公开的再一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如上所述的方法。
本公开的跨域数据融合方法、系统以及存储介质,将与用户特征信息转换为隐含特征信息,对用户关键词信息进行多次加密处理,对用户关键词信息密文与隐含特征信息进行融合处理生成域用户融合特征,对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征;可以避免由于用户关键词泄露导致的用户原始数据泄露,将用户特征信息转换为隐含特征信息并进行融合处理,提高了对于各个领域数据汇总特征的表示能力,能够提升数据挖掘准确度和安全性。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本公开的跨域数据融合方法的一个实施例的流程示意图;
图2为根据本公开的跨域数据融合方法的一个实施例中的数据融合的示意图;
图3为根据本公开的跨域数据融合系统的一个实施例的模块示意图;
图4为根据本公开的跨域数据融合系统的一个实施例中的隐含特征生成模块的模块示意图;
图5为根据本公开的跨域数据融合系统的另一个实施例的模块示意图。
具体实施方式
下面参照附图对本公开进行更全面的描述,其中说明本公开的示例性实施例。下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。下面结合各个图和实施例对本公开的技术方案进行多方面的描述。
下文中的“第一”、“第二”等仅用于描述上相区别,并没有其它特殊的含义。
图1为根据本公开的跨域数据融合方法的一个实施例的流程示意图,如图1所示:
步骤101,获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息。数据域也称为数据领域,可以采用多种规则划分数据域,例如可以根据不同的电商系统划分数据域,也可以根据数据的存储地点划分数据域等。
用户关键词信息可以为身份证号、手机号、QQ号、银行账号等,用户特征信息可以为身高、体重、年龄、工资等信息,也可以为购买商品数量、信用信息、工资、消费频率等信息。可以基于用户特征信息对用户进行画像,获得用户的消费习惯等,可用于对用户分级,推送广告等。
步骤102,基于特征转换模型将与用户特征信息转换为隐含特征信息。特征转换模型可以为多种模型,例如机器学习模型等,隐含特征信息可以为多种,例如为一个向量,隐含特征信息可由机器识别而人工则识别困难。
步骤103,根据预设的加密规则对用户关键词信息进行多次加密处理,可以为二次、三次加密等。
步骤104,对用户关键词信息密文与隐含特征信息进行融合处理,生成数据域的域用户融合特征,域用户融合特征可以为多维向量等。
步骤105,根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征,跨域用户融合特征可以为多维向量等。
在一个实施例中,获得数据域中的数据源存储的与用户关键词相对应的用户特征信息可以有多种方法。例如,根据用户关键词信息并按照预设的关联映射规则生成查询SQL语句,将查询SQL语句发送到数据源中执行,用以获取用户特征信息。例如,用户关键词信息为身份证号,根据数据库的数据表以及字段与身份证号的关联映射规则确定需要检索的数据表以及字段,根据确定的数据表以及字段生成查询SQL语句,将查询SQL语句发送到数据库中执行,用以获取身高、体重、年龄、工资等信息用户特征信息。
加密规则可以为多种,对用户关键词信息进行多次加密处理。例如,采用第一加密算法将用户关键词进行第一次加密,采用第二加密算法将第一次加密后的密文数据进行二次加密,获得用户关键词信息密文。第一加密算法包括MD5算法等,第二加密算法包括AES算法等。
基于特征转换模型将与用户特征信息转换为隐含特征信息可以有多种方法。例如,将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本,使用深度学习方法并基于训练样本对预设的深度学习模型进行训练,获得特征转换模型。将预设的深度学习模型更新为特征转换模型,通过将用户特征信息输入特征转换模型,获得与用户特征信息相对应的隐含特征信息。可以将初始用户特征信息作为输入特征数据,将与初始用户特征信息相对应的初始隐含特征信息作为初始预测结果,基于输入特征数据和初始预测结果对预设的深度学习模型进行训练。
用户特征信息包括多个特征参数,特征参数可以为身高、体重、年龄、工资、每月消费额等。特征转换模型的数量为多个,将多个特征参数中的至少一个特征参数输入各个特征转换模型,获得多个隐含特征信息。例如,将身高、体重、年龄输入一个特征转换模型,获得一个隐含特征信息,将工资、每月消费额输入另一个特征转换模型,获得另一个隐含特征信息。
深度学习模型包括CNN、DBN、RNN、RNTN、自动编码器、GAN等。特征转换模型包括三层神经元模型;三层神经元模型包括:输入层神经元模型、中间层神经元模型和输出层神经元模型,每层神经元模型的输出作为下一层神经元模型的输入。输入层神经元模型的神经元与多个特征参数中的至少一个特征参数相对应,输出层神经元模型的神经元与隐含特征信息相对应。三层神经元模型为具有全连接结构的多个神经网络层的子网络结构,中间层神经元模型为全连接层。
隐含特征信息可以为多维数字向量,获取多个特征转换模型输出的多个多维数字向量,将用户关键词信息密文与多个多维向量进行合并处理,生成域用户融合特征向量。获取与用户关键词信息密文相对应的多个数据域的域用户融合特征向量,将多个数据域的域用户融合特征向量进行合并处理,生成跨域用户融合特征向量。
图2为根据本公开的跨域数据融合方法的一个实施例中的数据融合的示意图,如图2所示,在进行多源跨域数据融合时,各领域数据存储在不同的存储源,这些存储源之间互相隔离,严格保证数据的安全性。例如数据域A中的数据源存储在A地,数据域B中的数据源存储在B地。
来自不同存储源的数据融合需要使用用户的Key(关键词)进行匹配,出于对用户的隐私保护,使用用户Key加密后的密文进行匹配。当用户Key加密方式泄露时,攻击方很容易通过还原用户Key来获得用户在各存储源的原始特征。同时,在各存储源进行的单领域特征融合只是把一些低阶的原始特征进行融合,没有进行高阶表示的学习,很大程度上限制了该领域知识的表示能力。以数据域A为例进行说明,数据域B与数据域A的处理方法相同。
对用户Key二次加密,对数据域A当中的用户Key使用进行二次加密,可以采用MD5算法和AES加密算法,保证加密算法的不可逆性,得到的用户Key二次加密后的密文为EK。根据用户Key在数据域A的数据库当中进行索引,得到该用户对应的所有原始特征,记为A1,A2…Ap。将用户的所有原始特征A1至Ap进行特定的组合作为不同的特征转换模块的输入,得到表示能力更强的高阶隐含特征HA1至HAm。例如,用户Key为用户手机号,对用户手机号进行二次加密,可以对数据域A当中的用户手机号采用MD5算法和AES加密算法进行二次加密,保证加密算法的不可逆性,用户手机号的二次加密后的密文为EK。
根据用户手机号在数据域A的数据库当中进行索引,得到该用户对应的所有原始特征,可以为年龄、职位、工资、工作年限等。将用户的所有原始特征年龄、职位、工资等进行特定的组合作为不同的特征转换模块的输入,得到表示能力更强的高阶隐含特征。不仅能够加强单领域特征的表示能力,而且由于特征学习模块是不可逆的,无法通过高阶隐含特征HA1至HAm反推来得到用户的原始特征,所以没有原始数据泄露的风险。
例如,特征转换模块的数量为两个,第一特征转换模块输入的特征为年龄、职位组合,第二特征转换模块的输入的特征为工资、工作年限组合。第一特征转换模块输出的第一隐含特征为第一向量{05,25,34},第二特征转换模块输出的第二隐含特征为第二向量{08,35,45}。
将用户Key密文EK和在各个数据域中得到的所有高阶隐含特征融合,得到该数据域的汇总特征,并可以得到来自不同数据域的特征集合,基于用户Key密文进行跨域特征融合,来得到了用户的跨域特征。例如,将用户Key密文EK和在数据域A中得到的所有高阶隐含特征融合,生成域用户融合特征向量{EN,05,25,34,08,35,45}。基于相同的方法生成对于数据域B的对于此用户的域用户融合特征向量{EN,11,20,15,30}。根据EN进行的跨域特征融合,获取与EN相对应的多个数据域的域用户融合特征向量,将具有EN元素的两个域用户融合特征向量进行合并处理,生成域用户融合特征向量{EN,05,25,34,08,35,45,11,20,15,30}。域用户融合特征向量、域用户融合特征向量可以由机器进行识别。
上述的跨域数据融合方法,可以保证在用户Key泄露时,攻击方不能通过反推用户Key来获取用户的原始特征信息,也能在进行单领域特征融合的时候,进行高阶隐含特征的提取及融合,增加安全性。
在一个实施例中,如图3所示,本公开提供一种跨域数据融合系统30,包括:原始信息获取模块31、隐含特征生成模块32、关键词加密模块33、域数据融合模块34和跨域数据融合模块35。
原始信息获取模块31获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息。隐含特征生成模块32基于特征转换模型将与用户特征信息转换为隐含特征信息。关键词加密模块33根据预设的加密规则对用户关键词信息进行多次加密处理。域数据融合模块34对用户关键词信息密文与隐含特征信息进行融合处理,生成数据域的域用户融合特征。跨域数据融合模块35根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征。
在一个实施例中,原始信息获取模块31根据用户关键词信息并按照预设的关联映射规则生成查询SQL语句,将查询SQL语句发送到数据源中执行,用以获取用户特征信息。
关键词加密模块33采用第一加密算法将用户关键词进行第一次加密;采用第二加密算法将第一次加密后的密文数据进行二次加密,获得用户关键词信息密文。第一加密算法包括MD5算法等,第二加密算法包括AES算法等。
如图4所示,隐含特征生成模块32包括:模型训练单元321和特征生成单元322。模型训练单元321将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本,使用深度学习方法并基于训练样本对预设的深度学习模型进行训练,获得特征转换模型。特征生成单元322将预设的深度学习模型更新为特征转换模型,通过将用户特征信息输入特征转换模型,获得与用户特征信息相对应的隐含特征信息。
模型训练单元321将初始用户特征信息作为输入特征数据,将与初始用户特征信息相对应的初始隐含特征信息作为初始预测结果,基于输入特征数据和初始预测结果对预设的深度学习模型进行训练。用户特征信息包括多个特征参数,特征转换模型的数量为多个。特征生成单元322将多个特征参数中的至少一个特征参数输入各个特征转换模型,获得多个隐含特征信息。
隐含特征信息为多维数字向量。域数据融合模块34获取多个特征转换模型输出的多个多维数字向量,将用户关键词信息密文与多个多维向量进行合并处理,生成域用户融合特征向量。跨域数据融合模块35获取与用户关键词信息密文相对应的多个数据域的域用户融合特征向量,将多个数据域的域用户融合特征向量进行合并处理,生成跨域用户融合特征向量。
图5为根据本公开的跨域数据融合系统的另一个实施例的模块示意图。如图5所示,该装置可包括存储器51、处理器52、通信接口53以及总线54。存储器51用于存储指令,处理器52耦合到存储器51,处理器52被配置为基于存储器51存储的指令执行实现上述的跨域数据融合方法。
存储器51可以为高速RAM存储器、非易失性存储器(non-volatile memory)等,存储器51也可以是存储器阵列。存储器51还可能被分块,并且块可按一定的规则组合成虚拟卷。处理器52可以为中央处理器CPU,或专用集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本公开的跨域数据融合方法的一个或多个集成电路。
在一个实施例中,本公开提供一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,指令被处理器执行时实现如上任一个实施例中的跨域数据融合方法。
上述实施例中的跨域数据融合方法、系统以及存储介质,获得数据域中的与用户关键词信息相对应的用户特征信息,将与用户特征信息转换为隐含特征信息,对用户关键词信息进行多次加密处理,对用户关键词信息密文与隐含特征信息进行融合处理生成域用户融合特征,根据用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征;可以避免由于用户关键词泄露导致的用户原始数据泄露,将用户特征信息转换为隐含特征信息并进行融合处理,提高了对于各个领域数据汇总特征的表示能力,能够提升数据挖掘准确度和安全性。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
本公开的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本公开限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本公开的原理和实际应用,并且使本领域的普通技术人员能够理解本公开从而设计适于特定用途的带有各种修改的各种实施例。

Claims (22)

1.一种跨域数据融合方法,包括:
获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息;
基于特征转换模型将与所述用户特征信息转换为隐含特征信息;
根据预设的加密规则对所述用户关键词信息进行多次加密处理;
对用户关键词信息密文与所述隐含特征信息进行融合处理,生成所述数据域的域用户融合特征;
根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征。
2.如权利要求1所述的方法,所述获得数据域中的数据源存储的与用户关键词相对应的用户特征信息包括:
根据所述用户关键词信息并按照预设的关联映射规则生成查询SQL语句;
将所述查询SQL语句发送到所述数据源中执行,用以获取所述用户特征信息。
3.如权利要求1所述的方法,所述根据预设的加密规则对所述用户关键词信息进行多次加密处理包括:
采用第一加密算法将所述用户关键词进行第一次加密;
采用第二加密算法将第一次加密后的密文数据进行二次加密,获得所述用户关键词信息密文;
其中,所述第一加密算法包括:MD5算法;所述第二加密算法包括:AES算法。
4.如权利要求1所述的方法,所述基于特征转换模型将与所述用户特征信息转换为隐含特征信息包括:
将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本;
使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练,获得所述特征转换模型;
将所述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入所述特征转换模型,获得与所述用户特征信息相对应的所述隐含特征信息。
5.如权利要求4所述的方法,所述使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练包括:
将所述初始用户特征信息作为输入特征数据,将与所述初始用户特征信息相对应的所述初始隐含特征信息作为初始预测结果;
基于所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进行训练。
6.如权利要求4所述的方法,所述用户特征信息包括多个特征参数,所述特征转换模型的数量为多个;所述获得与所述用户特征信息相对应的所述隐含特征信息包括:
将所述多个特征参数中的至少一个特征参数输入各个所述特征转换模型,获得多个所述隐含特征信息。
7.如权利要求6所述的方法,其中,
所述特征转换模型包括:三层神经元模型;所述三层神经元模型包括:输入层神经元模型、中间层神经元模型和输出层神经元模型;每层神经元模型的输出作为下一层神经元模型的输入;
其中,所述输入层神经元模型的神经元与所述多个特征参数中的至少一个特征参数相对应,所述输出层神经元模型的神经元与所述隐含特征信息相对应。
8.如权利要求7所述的方法,其中,
所述三层神经元模型为具有全连接结构的多个神经网络层的子网络结构;其中,所述中间层神经元模型为全连接层。
9.如权利要求6所述的方法,所述隐含特征信息为多维数字向量;其中,所述对所述用户关键词信息密文与所述隐含特征信息进行融合处理、生成所述数据域的域用户融合特征包括:
获取多个所述特征转换模型输出的多个多维数字向量;
将所述用户关键词信息密文与所述多个多维数字向量进行合并处理,生成域用户融合特征向量。
10.如权利要求9所述的方法,所述根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理、获得跨域用户融合特征包括:
获取与所述用户关键词信息密文相对应的多个数据域的域用户融合特征向量;
将所述多个数据域的域用户融合特征向量进行合并处理,生成跨域用户融合特征向量。
11.一种跨域数据融合系统,包括:
原始信息获取模块,用于获得数据域中的数据源存储的与用户关键词信息相对应的用户特征信息;
隐含特征生成模块,用于基于特征转换模型将与所述用户特征信息转换为隐含特征信息;
关键词加密模块,用于根据预设的加密规则对所述用户关键词信息进行多次加密处理;
域数据融合模块,用于对用户关键词信息密文与所述隐含特征信息进行融合处理,生成所述数据域的域用户融合特征;
跨域数据融合模块,用于根据所述用户关键词信息密文对多个数据域的域用户融合特征进行融合处理,获得跨域用户融合特征。
12.如权利要求11所述的系统,其中,
所述原始信息获取模块,用于根据所述用户关键词信息并按照预设的关联映射规则生成查询SQL语句;将所述查询SQL语句发送到所述数据源中执行,用以获取所述用户特征信息。
13.如权利要求11所述的系统,其中,
所述关键词加密模块,用于采用第一加密算法将所述用户关键词进行第一次加密;采用第二加密算法将第一次加密后的密文数据进行二次加密,获得所述用户关键词信息密文;其中,所述第一加密算法包括:MD5算法;所述第二加密算法包括:AES算法。
14.如权利要求11所述的系统,其中,
所述隐含特征生成模块,包括:
模型训练单元,用于将预先提供的初始用户特征信息和初始隐含特征信息作为训练样本;使用深度学习方法并基于所述训练样本对预设的深度学习模型进行训练,获得所述特征转换模型;
特征生成单元,用于将所述预设的深度学习模型更新为所述特征转换模型,通过将所述用户特征信息输入所述特征转换模型,获得与所述用户特征信息相对应的所述隐含特征信息。
15.如权利要求14所述的系统,其中,
所述模型训练单元,用于将所述初始用户特征信息作为输入特征数据,将与所述初始用户特征信息相对应的所述初始隐含特征信息作为初始预测结果;基于所述输入特征数据和所述初始预测结果对所述预设的深度学习模型进行训练。
16.如权利要求14所述的系统,所述用户特征信息包括多个特征参数,所述特征转换模型的数量为多个;其中,
所述特征生成单元,用于将所述多个特征参数中的至少一个特征参数输入各个所述特征转换模型,获得多个所述隐含特征信息。
17.如权利要求16所述的系统,其中,
所述特征转换模型包括:三层神经元模型;所述三层神经元模型包括:输入层神经元模型、中间层神经元模型和输出层神经元模型;每层神经元模型的输出作为下一层神经元模型的输入;
其中,所述输入层神经元模型的神经元与所述多个特征参数中的至少一个特征参数相对应,所述输出层神经元模型的神经元与所述隐含特征信息相对应。
18.如权利要求17所述的系统,其中,
所述三层神经元模型为具有全连接结构的多个神经网络层的子网络结构;其中,所述中间层神经元模型为全连接层。
19.如权利要求16所述的系统,其中,所述隐含特征信息为多维数字向量;
所述域数据融合模块,用于获取多个所述特征转换模型输出的多个多维数字向量;将所述用户关键词信息密文与所述多个多维数字向量进行合并处理,生成域用户融合特征向量。
20.如权利要求19所述的系统,其中,
所述跨域数据融合模块,用于获取与所述用户关键词信息密文相对应的多个数据域的域用户融合特征向量;将所述多个数据域的域用户融合特征向量进行合并处理,生成跨域用户融合特征向量。
21.一种跨域数据融合系统,包括:
存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求1至10中任一项所述的方法。
22.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述指令被处理器执行如权利要求1至10中任一项所述的方法。
CN201810766536.2A 2018-07-13 2018-07-13 跨域数据融合方法、系统以及存储介质 Active CN108984733B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810766536.2A CN108984733B (zh) 2018-07-13 2018-07-13 跨域数据融合方法、系统以及存储介质
PCT/CN2019/095429 WO2020011200A1 (zh) 2018-07-13 2019-07-10 跨域数据融合方法、系统以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810766536.2A CN108984733B (zh) 2018-07-13 2018-07-13 跨域数据融合方法、系统以及存储介质

Publications (2)

Publication Number Publication Date
CN108984733A CN108984733A (zh) 2018-12-11
CN108984733B true CN108984733B (zh) 2020-07-31

Family

ID=64537206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810766536.2A Active CN108984733B (zh) 2018-07-13 2018-07-13 跨域数据融合方法、系统以及存储介质

Country Status (2)

Country Link
CN (1) CN108984733B (zh)
WO (1) WO2020011200A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984733B (zh) * 2018-07-13 2020-07-31 京东数字科技控股有限公司 跨域数据融合方法、系统以及存储介质
CN111612492A (zh) * 2019-02-26 2020-09-01 北京奇虎科技有限公司 一种基于多特征融合的用户在线精准营销方法及装置
CN110149326A (zh) * 2019-05-14 2019-08-20 中国农业银行股份有限公司 数据引入方法、装置及系统
CN110569663A (zh) * 2019-08-15 2019-12-13 深圳市莱法照明通信科技有限公司 一种教育数据共享的方法、装置、系统和存储介质
CN110968892A (zh) * 2019-11-18 2020-04-07 广东卓维网络有限公司 一种基于电量数据查询的数据加密系统
CN111475532B (zh) * 2020-03-05 2023-11-03 拉扎斯网络科技(上海)有限公司 数据处理的优化方法及装置、存储介质、终端
CN111324911B (zh) * 2020-05-15 2021-01-01 支付宝(杭州)信息技术有限公司 一种隐私数据保护方法、系统及装置
CN111861253A (zh) * 2020-07-29 2020-10-30 北京车薄荷科技有限公司 一种人员能力的确定方法及确定系统
CN113312644B (zh) * 2021-06-15 2022-05-24 杭州金智塔科技有限公司 基于隐私保护的跨域推荐模型训练方法及训练系统
CN114707488B (zh) * 2022-02-25 2024-02-09 马上消费金融股份有限公司 数据处理方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102176709A (zh) * 2010-12-13 2011-09-07 北京交通大学 一种带隐私保护的数据共享与发布的方法和装置
US9323837B2 (en) * 2008-03-05 2016-04-26 Ying Zhao Multiple domain anomaly detection system and method using fusion rule and visualization
CN108092768A (zh) * 2017-12-21 2018-05-29 中国联合网络通信集团有限公司 数据融合方法与系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110295722A1 (en) * 2010-06-09 2011-12-01 Reisman Richard R Methods, Apparatus, and Systems for Enabling Feedback-Dependent Transactions
CN106203491B (zh) * 2016-07-01 2019-03-05 交通运输部路网监测与应急处置中心 一种公路矢量数据的融合更新方法
CN107609116B (zh) * 2017-09-13 2020-09-18 星环信息科技(上海)有限公司 一种创建跨域迁移深度网络的方法及设备
CN108984733B (zh) * 2018-07-13 2020-07-31 京东数字科技控股有限公司 跨域数据融合方法、系统以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9323837B2 (en) * 2008-03-05 2016-04-26 Ying Zhao Multiple domain anomaly detection system and method using fusion rule and visualization
CN102176709A (zh) * 2010-12-13 2011-09-07 北京交通大学 一种带隐私保护的数据共享与发布的方法和装置
CN108092768A (zh) * 2017-12-21 2018-05-29 中国联合网络通信集团有限公司 数据融合方法与系统

Also Published As

Publication number Publication date
WO2020011200A1 (zh) 2020-01-16
CN108984733A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108984733B (zh) 跨域数据融合方法、系统以及存储介质
TWI689841B (zh) 資料加密、機器學習模型訓練方法、裝置及電子設備
Feng et al. Privacy-preserving tensor decomposition over encrypted data in a federated cloud environment
US11902413B2 (en) Secure machine learning analytics using homomorphic encryption
US9787647B2 (en) Secure computer evaluation of decision trees
US20160156460A1 (en) Secure computer evaluation of k-nearest neighbor models
CN111539009B (zh) 保护隐私数据的有监督特征分箱方法及装置
CN111144576A (zh) 模型训练方法、装置和电子设备
JP2016531513A (ja) 付加ノイズを用いる効用対応プライバシー保護写像のための方法および装置
CN113221153B (zh) 图神经网络训练方法、装置、计算设备及存储介质
CN113362048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
Guo et al. Enabling secure cross-modal retrieval over encrypted heterogeneous IoT databases with collective matrix factorization
CN111553744A (zh) 联邦产品推荐方法、装置、设备及计算机存储介质
CN110837653A (zh) 标签预测方法、装置以及计算机可读存储介质
CN113449048A (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN114186263A (zh) 一种基于纵向联邦学习的数据回归方法及电子装置
CN112734050A (zh) 文本模型的训练方法、识别方法、装置、设备及存储介质
CN114201532A (zh) 基于esop系统的数据查询方法、装置、介质及设备
CN112948883A (zh) 保护隐私数据的多方联合建模的方法、装置和系统
JP6467063B2 (ja) 秘密認証符号付加装置、秘密認証符号付加方法、およびプログラム
CN112800467A (zh) 基于数据隐私保护的在线模型训练方法、装置以及设备
CN111553743A (zh) 联邦产品推荐方法、装置、设备及计算机存储介质
CN114297693B (zh) 一种模型预训练方法、装置、电子设备及存储介质
CN114547684A (zh) 一种保护隐私数据的多方联合训练树模型的方法及装置
Sumathi et al. Scale-based secured sensitive data storage for banking services in cloud

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant after: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Applicant before: BEIJING JINGDONG FINANCIAL TECHNOLOGY HOLDING Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Patentee after: Jingdong Digital Technology Holding Co.,Ltd.

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Patentee before: JINGDONG DIGITAL TECHNOLOGY HOLDINGS Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200723

Address after: Room 806, 8 / F, Zhongguancun International Innovation Building, Haidian District, Beijing 100080

Patentee after: Beijing Jingdong intelligent city big data Research Institute

Address before: Room 221, 2nd floor, Block C, 18 Kechuang 11th Street, Beijing Daxing District, Beijing

Patentee before: Jingdong Digital Technology Holding Co.,Ltd.