CN110162993A - 脱敏处理方法、模型训练方法、装置和计算机设备 - Google Patents

脱敏处理方法、模型训练方法、装置和计算机设备 Download PDF

Info

Publication number
CN110162993A
CN110162993A CN201810785828.0A CN201810785828A CN110162993A CN 110162993 A CN110162993 A CN 110162993A CN 201810785828 A CN201810785828 A CN 201810785828A CN 110162993 A CN110162993 A CN 110162993A
Authority
CN
China
Prior art keywords
user characteristics
data
network
training
splicing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810785828.0A
Other languages
English (en)
Other versions
CN110162993B (zh
Inventor
张宗一
余传伟
凌国惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810785828.0A priority Critical patent/CN110162993B/zh
Publication of CN110162993A publication Critical patent/CN110162993A/zh
Application granted granted Critical
Publication of CN110162993B publication Critical patent/CN110162993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种脱敏处理方法、模型训练方法、装置和计算机设备,所述方法包括:获取第一类用户特征和第二类用户特征;所述第一类用户特征是不具有数值大小属性的特征;所述第二类用户特征是具有数值大小属性的特征;将所述第一类用户特征进行降维处理,获得低维用户特征;拼接所述第二类用户特征和所述低维用户特征,获得拼接用户特征;分别通过特征交叉网络和深度网络对所述拼接用户特征进行处理;将所述特征交叉网络和所述深度网络输出的结果拼接,获得脱敏数据。本申请提供的方案可以实现对用户数据脱敏后不影响数据的准确性。

Description

脱敏处理方法、模型训练方法、装置和计算机设备
技术领域
本申请涉及数据处理技术领域,特别是涉及一种脱敏处理方法、模型训练方法、装置和计算机设备。
背景技术
随着大数据技术的快速发展,越来越多的数据不断地被建模方挖掘、分析和建模,然后投入相应的应用领域。一般而言,建模方的数据主要来源于数据所有方,而数据所有方所提供的数据可能会包含涉及到用户隐私或商业秘密等敏感信息,若数据所有方直接向建模方提供原始的数据,可能会对数据的安全造成一定的威胁。
发明内容
本发明实施例提供了一种脱敏处理方法、模型训练方法、装置和计算机设备,能够在确保数据所有方的隐私数据安全性的前提下,提升建模方利用数据的准确性。
一种脱敏处理方法,包括:
获取第一类用户特征和第二类用户特征;所述第一类用户特征是不具有数值大小属性的特征;所述第二类用户特征是具有数值大小属性的特征;
将所述第一类用户特征进行降维处理,获得低维用户特征;
拼接所述第二类用户特征和所述低维用户特征,获得拼接用户特征;
分别通过特征交叉网络和深度网络对所述拼接用户特征进行处理;
将所述特征交叉网络和所述深度网络输出的结果拼接,获得脱敏数据。
一种脱敏处理装置,包括:
获取模块,用于获取第一类用户特征和第二类用户特征;所述第一类用户特征是不具有数值大小属性的特征;所述第二类用户特征是具有数值大小属性的特征;
降维模块,用于将所述第一类用户特征进行降维处理,获得低维用户特征;
第一拼接模块,用于拼接所述第二类用户特征和所述低维用户特征,获得拼接用户特征;
处理模块,用于分别通过特征交叉网络和深度网络对所述拼接用户特征进行处理;
第二拼接模块,用于将所述特征交叉网络和所述深度网络输出的结果拼接,获得脱敏数据。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述脱敏处理方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述脱敏处理方法的步骤。
上述的脱敏处理方法、装置、存储介质和计算机设备,对不具有数值大小属性的第一类用户特征进行降维,在一定程度上可降低第一类用户特征的数据大小。将降维后的第一类用户特征与具有数值大小属性的第二类用户特征进行拼接,然后将分别通过特征交叉网络和深度网络对拼接后的拼接用户特征进行处理后输出的结果进行拼接,获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
一种模型训练方法,包括:
获取第一类用户特征样本和第二类用户特征样本;所述第一类用户特征样本是不具有数值大小属性的特征;所述第二类用户特征样本是具有数值大小属性的特征;
对所述第一类用户特征样本进行降维处理,获得低维训练用户特征;
拼接所述第二类用户特征样本和所述低维训练用户特征,获得训练拼接用户特征;
通过所述特征交叉网络和所述深度网络处理所述训练拼接用户特征;
将所述特征交叉网络和所述深度网络输出的结果拼接,获得训练脱敏数据;
对所述训练脱敏数据进行分类处理,获得预测标签;
根据所述预测标签与参考标签之间的差异,调整所述特征交叉网络中的参数和所述深度网络中的参数。
一种模型训练装置,包括:
样本获取模块,用于获取第一类用户特征样本和第二类用户特征样本;所述第一类用户特征样本是不具有数值大小属性的特征;所述第二类用户特征样本是具有数值大小属性的特征;
降维模块,用于对所述第一类用户特征样本进行降维处理,获得低维训练用户特征;
第一拼接模块,用于拼接所述第二类用户特征样本和所述低维训练用户特征,获得训练拼接用户特征;
处理模块,用于通过所述特征交叉网络和所述深度网络处理所述训练拼接用户特征;
第二拼接模块,用于将所述特征交叉网络和所述深度网络输出的结果拼接,获得训练脱敏数据;
处理模块,用于对所述训练脱敏数据进行分类处理,获得预测标签;
参数调整模块,用于根据所述预测标签与参考标签之间的差异,调整所述特征交叉网络中的参数和所述深度网络中的参数。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述模型训练方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述模型训练方法的步骤。
上述的模型训练方法、装置、存储介质和计算机设备,通过由第一类用户特征样本和第二类用户特征样本获得的训练拼接用户特征,对用于将数据进行脱敏处理的特征交叉网络和深度网络进行训练。从而,由特征交叉网络和深度网络处理处理由第一类用户特征和第二类用户特征获得的拼接用户特征,便可获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
附图说明
图1为一个实施例中脱敏处理方法和模型训练方法的应用环境图;
图2为一个实施例中脱敏处理方法的流程示意图;
图3为一个实施例中经过训练后所得的神经网络模型的示意图;
图4为一个实施例中对脱敏数据进行降维的步骤的流程示意图;
图5为一个实施例中神经网络模型进行训练的步骤的流程示意图;
图6为一个实施例中原始的神经网络模型的示意图;
图7为一个实施例中获得第一预测标签的步骤的流程示意图;
图8为一个实施例中使用建模模型对脱敏数据预测的步骤的流程示意图;
图9为一个实施例中使用建模模型结合目标数据对脱敏数据进行预测的步骤的流程示意图;
图10为一个实施例中对建模模型进行训练的步骤的流程示意图;
图11为一个实施例中模型训练方法的流程示意图;
图12为一个实施例中获得预测标签的步骤的流程示意图;
图13为一个实施例中脱敏处理装置的结构框图;
图14为另一个实施例中脱敏处理装置的结构框图;
图15为一个实施例中模型训练装置的结构框图;
图16为另一个实施例中模型训练装置的结构框图;
图17为一个实施例中计算机设备的结构框图;
图18为另一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中脱敏处理方法的应用环境图。参照图1,该脱敏处理方法应用于用户数据脱敏处理系统。该用户数据脱敏处理系统包括终端110、服务器120和终端130。终端110、终端130和服务器120通过网络连接。终端110和终端130具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种脱敏处理方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该脱敏处理方法具体包括如下步骤:
S202,获取第一类用户特征和第二类用户特征;第一类用户特征是不具有数值大小属性的特征;第二类用户特征是具有数值大小属性的特征。
其中,将原始数据分为两类:第一类用户特征和第二类用户特征。第一类用户特征指的是没有数值大小之分的特征,包括:以稀疏矩阵表示的数据特征,或以代码表示的数据特征(可称为类别型特征)。例如,对提取的图像特征采用稀疏编码方式进行编码,获得稀疏字典,处理稀疏字典得到稀疏矩阵,那么以稀疏矩阵表示的图像特征可称为以稀疏矩阵表示的数据特征。又例如,用城市代码表示用户的常住城市,那么以城市代码所表示的常住城市可称为以代码表示的数据特征。
第二类用户特征指的是具有数值大小之分的特征,也即除以稀疏矩阵表示的数据特征和以代码表示的数据特征之外的特征。如用户的年龄和身高等特征。
在一个实施例中,终端接收建模方的数据请求,根据所接收的数据请求从原始数据中获取第一类用户特征和第二类用户特征。例如,若建模方需要用到用户的特征数据,如年龄、性别、常住省市、广告互动历史和阅读习惯等,那么终端根据建模方的数据请求获取关于用户的年龄、性别、常住省市、广告互动历史和阅读习惯等。其中,第一类用户特征包括用户的性别、常住省市、广告互动历史和阅读习惯。第二类用户特征包括用户的年龄。
S204,将第一类用户特征进行降维处理,获得低维用户特征。
以稀疏矩阵表示的数据特征和以代码表示的数据特征的维度较高。在一个实施例中,终端确定对第一类用户特征降维的目标维度值,该目标维度值小于第一类用户特征的维度值。终端通过嵌入的方式,将第一类用户特征从原始维度空间映射到目标维度值的空间,从而实现降维的目的,获得目标维度值的用户特征,即所述的低维用户特征。降维后所得的低维用户特征,终端处理时可降低终端的计算量。
其中,嵌入可以指把用户数据从一个空间映射到另一个空间的函数。S204具体可以包括:确定对第一类用户特征进行降维的第一目标维度值;获取第一类用户特征对应的用于降维的映射函数;根据映射函数,将第一类用户特征从高维空间映射到第一目标维度值的空间,获得低维用户特征。
在另一个实施例中,终端可根据数据压缩算法对第一类用户特征进行压缩处理,获得低维用户特征。
S206,拼接第二类用户特征和低维用户特征,获得拼接用户特征。
在一个实施例中,终端确定低维用户特征中的第一子特征,以及确定第二类用户特征中的第二子特征。终端根据低维用户特征中的各第一子特征与第二类用户特征中的各第二子特征之间内在的逻辑关系,将第二类用户特征中的各第二子特征分别与对应的第二类用户特征中的各第二子特征进行拼接,获得拼接用户特征。例如,对于用户的基本信息,用户的名称后面一般会跟着性别和年龄,在拼接时将数据第二类用户特征的年龄拼接在性别之后。
S208,分别通过特征交叉网络和深度网络对拼接用户特征进行处理。
在一个实施例中,终端将拼接用户特征输入经过训练后所得的神经网络模型,其中,神经网络模型中包括有特征交叉网络和深度网络。终端通过神经网络模型中的特征交叉网络和深度网络,分别对拼接用户特征中的各子特征进行特征交叉处理。其中,经过训练后所得的神经网络模型如图3所示。
具体地,终端确定拼接用户特征中的各子特征;通过特征交叉网络中各网络层,依次对所述拼接用户特征中的各子特征进行特征交叉处理;根据深度网络中各全连接层,依次对所述拼接用户特征的各子特征进行特征交叉处理;所述深度网络中的参数多于所述特征交叉网络中的参数。
例如,如图3所示,为经过训练后所得的神经网络模型。假设拼接用户特征为x0,将拼接用户特征x0分别输入深度网络和特征交叉网络,通过深度网络和特征交叉网络对拼接用户特征x0中的子特征进行特征交叉处理。举例来说,拼接用户特征x0包含有用户对页面中广告的点击率、广告互动历史、阅读习惯、用户年龄和性别等特征,若用户对广告的点击率与广告互动历史、阅读习惯的关联性最强。因此,可以将拼接用户特征x0中用户点击广告的点击率与广告互动历史、阅读习惯进行特征交叉,从而让用户对广告的点击率与广告互动历史、阅读习惯产生关联。
其中,对于深度网络,该深度网络由多层相同结构的全连接层组成,每层的计算为:
h=ReLu(Wx+b)
其中,W,b分别为深度网络中全连接层的权重值和偏差值,权重值和偏差值需要通过训练来计算得到。x,h分别为该全连接层的输入和输出。ReLu为线性整流函数,该函数的表达式如下:
ReLu(x)=max(0,x)
通过该函数的表达式可知,ReLu(x)的取值为0和输入值之间的最大值。
对于特征交叉网络,该特征交叉网络由以下多个相同网络层的计算串联而成:
xk+1=x0xk Twk+bk+xk
其中,k表示特征交叉网络中网络层数的序号。对于特征交叉网络中的第k层,xk为输入,xk+1为输出,同时xk+1也为k+1层的输入。x0为特征交叉网络的第一个输入。wk和bk为特征交叉网络中的第k层的权重值和偏差值,需要通过训练来计算得到。
S210,将特征交叉网络和深度网络输出的结果拼接,获得脱敏数据。
其中,这里的脱敏指的是:通过脱敏规则使第一类用户特征和第二类用户特征的敏感信息变形,使得敏感信息抽象为不具有解释性的数据,因此无法将脱敏后所得的脱敏数据进行还原。这样,在开发、测试、建模和其它应用场景中可直接使用该脱敏数据,而无需担心数据安全性的问题。
具体地,终端将特征交叉网络最后一层输出的结果和深度网络最后一层输出的结果进行拼接,获得脱敏数据。该脱敏数据包含有经过数据脱敏处理后的用户敏感信息,而经过数据脱敏处理后没有可解释性。
上述实施例中,对不具有数值大小属性的第一类用户特征进行降维,在一定程度上可降低第一类用户特征的数据大小。将降维后的第一类用户特征与具有数值大小属性的第二类用户特征进行拼接,然后将分别通过特征交叉网络和深度网络对拼接后的拼接用户特征进行处理后输出的结果进行拼接,获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
在一个实施例中,如图4所示,该方法还包括:
S402,确定对脱敏数据进行降维的第二目标维度值。
其中,通过深度网络和特征交叉网络处理后所得的脱敏数据的维度值较大,在实际应用过程中,为了数据量变小,以降低传输、储存和计算的成本,需要对该脱敏数据进行降维处理。脱敏数据的维度值大于第二目标维度值。
维度指的是一组数据的组织形式,可以是一维、二维或多维。对应的,一维数据由对等关系的有序或无序数据构成。二维数据由多个一维数据构成,是一维数据的组合形式。多维数据由一维或二维数据在新维度上扩展形式,如在二维数据中加上时间维度。
例如,在一个关系型数据库中表的一列可视为一个维度,每个字段包含某一专题的信息,比如用户ID(Identification,身份标识)。
在一个实施例中,终端可根据数据传输要求或建模方对数据量的大小要求,确定对脱敏数据进行降维的第二目标维度值。
S404,根据第二目标维度值,调整对脱敏数据进行降维处理的神经网络层中神经元的数量。
其中,在数值上,第二目标维度值可以等于神经网络层中神经元的数量。
S406,通过经过调整的神经网络层,并按照第二目标维度值对脱敏数据进行降维处理。
例如,如图3所示,神经网络层指的是神经网络模型中的最后一层。在神经网络模型中最后一层的神经元中,该神经元数量可以控制对于原始数据压缩的维度。通过调节最后一层的神经元数量来调节脱敏数据的维度。
在一个实施例中,终端通过神经元中的用于降维的映射函数,根据映射函数将脱敏数据从高维空间映射到第二目标维度值的空间,获得降维后的脱敏数据。
上述实施例中,通过对脱敏数据的降维处理,可使脱敏数据的数据量变小,从而降低数据在传输、储存和计算上的开销。
在一个实施例中,如图5所示,该方法还包括:
S502,获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征。
其中,第一类用户特征样本和第二类用户特征样本为训练样本。第一类用户特征样本指的是没有数值大小之分的特征,包括:以稀疏矩阵表示的数据特征,或以代码表示的数据特征(可称为类别型特征)。
第二类用户特征样本指的是具有数值大小之分的特征,如用户的年龄和身高等特征。
需要说明的是,在第一类用户特征样本和/或第二类用户特征样本中,可携带有第一参考标签。
S504,对第一类用户特征样本进行降维处理,获得低维训练用户特征。
以稀疏矩阵表示的数据特征和以代码表示的数据特征的维度较高。在一个实施例中,终端采用嵌入的方式对第一类用户特征样本进行降维处理,获得训练低维用户特征。降维后所得的训练低维用户特征,终端处理时可降低终端的计算量。
在一个实施例中,S204具体可以包括:确定对第一类用户特征样本进行降维的目标维度值;获取第一类用户特征样本对应的用于降维的映射函数;根据映射函数,将第一类用户特征样本从高维空间映射到目标维度值的空间,获得训练低维用户特征。
在另一个实施例中,终端可根据数据压缩算法对第一类用户特征样本进行压缩处理,获得训练低维用户特征。
S506,拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征。
在一个实施例中,终端确定低维训练用户特征中的第一训练子特征,以及确定第二类用户特征样本中的第二训练子特征。终端根据低维训练用户特征中的各第一训练子特征与第二类用户特征样本中的各第二训练子特征之间内在的逻辑关系,将第二类用户特征样本中的各第二训练子特征分别与对应的第二类用户特征样本中的各第二训练子特征进行拼接,获得训练拼接用户特征。例如,对于用户的基本信息,用户的名称后面一般会跟着性别和年龄,在拼接时将数据第二类用户特征的年龄拼接在性别之后。
S508,通过特征交叉网络和深度网络处理训练拼接用户特征。
在一个实施例中,终端将训练拼接用户特征输入未经过训练的神经网络模型中的特征交叉网络和深度网络。终端通过特征交叉网络和深度网络,分别对训练拼接用户特征进行处理。其中,未经过训练的神经网络模型如图6所示。需要说明的是,图3的神经网络模型是图6中经过训练后除去最后一层的网络。
在一个实施例中,S208具体可以包括:终端确定训练拼接用户特征中的各子特征;通过特征交叉网络中各网络层,依次对所述训练拼接用户特征中的各子特征进行特征交叉处理;根据深度网络中各全连接层,依次对所述训练拼接用户特征的各子特征进行特征交叉处理;所述深度网络中的参数多于所述特征交叉网络中的参数。
例如,如图6所示,未经过训练的神经网络模型包括:特征交叉网络和深度网络,以及用于拼接特征交叉网络和深度网络输出结果的全连接层和用于降维处理的神经网络层中神经元。假设训练拼接用户特征为x0,将训练拼接用户特征x0分别输入深度网络和特征交叉网络,通过深度网络和特征交叉网络对训练拼接用户特征x0进行特征交叉,从而实现训练拼接用户特征x0的层层提炼得到不具有解释性的脱敏数据。
S510,将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据。
具体地,终端将特征交叉网络最后一层输出的结果和深度网络最后一层输出的结果进行拼接,获得训练脱敏数据。该训练脱敏数据包含有经过数据脱敏处理后的用户敏感信息,而经过数据脱敏处理后的用户敏感信息为不具有解释性的脱敏数据。
S512,对训练脱敏数据进行分类处理,获得第一预测标签。
S514,根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,S514具体可以包括:终端根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签;确定第一预测标签与确定的第一参考标签之间的差异;根据差异,调整特征交叉网络中各网络层的权重值和偏差值,并调整深度网络中各全连接层的权重值和偏差值。
在一个实施例中,终端根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签的步骤,具体可以包括:确定建模模型所输出结果的类型;根据第一类用户特征样本和/或第二类用户特征样本确定与类型相关的用户特征;根据所确定的用户特征确定第一参考标签。
其中,建模模型指的是建模方所要建立的模型。
例如,若建模方想要获得不同用户对某个产品的点击率,建模模型的输入数据为用户特征,如用户登录相应应用程序的次数、用户年龄段、用户消费行为等,通过用户特征预测出该用户对产品的点击率。因此,终端可以根据建模模型预测的结果的类型,在第一类用户特征样本和/或第二类用户特征样本查找出与之匹配的用户特征,根据匹配的用户特征确定第一参考标签,该第一参考标签可以表示用户对产品的点击情况,如点击频率高或点击频率低。
具体地,终端根据第一预测标签与第一参考标签计算损失函数,将损失函数结果反向传播到神经网络模型中,计算调整神经网络模型中的特征交叉网络中的参数和深度网络中的参数的梯度,根据计算出来的梯度更新调整特征交叉网络中的参数和深度网络中的参数。其中,特征交叉网络中的参数包括特征交叉网络中的权重值和偏差值。深度网络中的参数包括深度网络中的权重值和偏差值。
例如,在对特征交叉网络中和深度网络进行训练之前,神经网络模型中的特征交叉网络中的参数和深度网络中的参数都被随机初始化,令分类处理后输出的第一预测标签为output,第一参考标签为target,那么损失量可以为:
当第一预测标签为output为变量不断变化,那么上述表达式即为损失函数。
假设变量L等于Etotal,为尽量减少损失量,通过不断调整神经网络模型中的特征交叉网络中的参数和深度网络中的参数,以使第一预测标签output不断逼近第一参考标签target。
令特征交叉网络中的权重值为w,则有
其中,w为特征交叉网络中的权重值,wi为特征交叉网络中初始化过程的权重值,为梯度,η为学习率。
在一个实施例中,终端可采用adam算法对神经网络模型中的深度网络和特征交叉网络进行训练,调整网络中各层的参数,获得经过训练后所得的神经网络模型。
在一个实施例中,终端可使用dropout和batch normalization方法控制训练过程中的过拟合和加快训练收敛速度。
上述实施例中,通过由第一类用户特征样本和第二类用户特征样本获得的训练拼接用户特征,对用于将数据进行脱敏处理的特征交叉网络和深度网络进行训练。由特征交叉网络和深度网络处理处理由第一类用户特征和第二类用户特征获得的拼接用户特征,便可获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
在一个实施例中,如图7所示,该方法还包括:
S702,确定对训练脱敏数据进行降维的第三目标维度值。
其中,通过深度网络和特征交叉网络处理后所得的训练脱敏数据的维度值较大,需要对该训练脱敏数据进行降维处理。训练脱敏数据的维度值大于第三目标维度值。
在一个实施例中,终端可根据建模方对数据量的大小要求,确定对脱敏数据进行降维的第二目标维度值。
S704,根据第三目标维度值调整对训练脱敏数据进行降维处理的神经网络层中神经元的数量。
其中,在数值上,第三目标维度值可以等于神经网络层中神经元的数量。
S706,通过经过调整的神经网络层,并按照第三目标维度值对训练脱敏数据进行降维处理。
例如,如图6所示,在神经网络模型中最后第二层的神经元中,该神经元数量可以控制对于原始数据压缩的维度。通过调节最后第二层的神经元数量来调节训练脱敏数据的维度。
在一个实施例中,终端通过神经元中的用于降维的映射函数,根据映射函数将训练脱敏数据从高维空间映射到第二目标维度值的空间,获得降维后的训练脱敏数据。
S512具体可以包括:
S708,根据降维后的训练脱敏数据进行分类处理,获得第一预测标签。
上述实施例中,通过对训练脱敏数据的降维处理,可使训练脱敏数据的数据量变小,从而降低数据在传输、储存和计算上的开销。此外,建模方可根据获得训练脱敏数据进行建模;而且,终端可以根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数,获得经过训练后所得的特征交叉网络中和深度网络。
在一个实施例中,终端在获得脱敏数据时,将其发送给建模方,建模方的终端可直接根据脱敏数据进行目标结果的预测,如图8所示,该方法还包括:
S802,获取与脱敏数据对应的建模模型;建模模型为根据脱敏数据样本进行训练所得。
脱敏数据是经过特征交叉网络和深度网络处理对应数据所得,且特征交叉网络和深度网络是以建模模型的目标确定训练样本的标签训练所得,通过建模模型可以对脱敏数据进行相应的处理。不同的建模模型具有不同的目标。
例如,所述的目标可以是对广告点击率的预测,当把用户特征输入建模模型时,如输入用户年龄、性别、常住省市、广告互动历史和阅读习惯等,便可预测出该用户对某个广告的点击率。
S804,通过建模模型处理脱敏数据,获得预测结果;预测结果用于表示对第一类用户特征和第二类用户特征进行预测的结果。
上述实施例中,通过建模模型对脱敏数据进行处理,获得预测结果,由于脱敏数据为变形后的数据,不具有解释性,一方面不影响脱敏数据在预测过程中的准确性,另一方面也保证了数据的安全性。
在一个实施例中,终端在获得脱敏数据时,将其发送给建模方,建模方的终端可根据脱敏数据和其它数据来源(如与脱敏数据对应的目标数据)进行目标结果的预测,如图9所示,该方法还包括:
S902,获取与脱敏数据对应的目标数据。
S904,对目标数据中的第一类用户特征进行降维处理。
S906,通过特征交叉网络和深度网络对降维后的目标数据进行处理。
S908,将特征交叉网络和深度网络输出的结果拼接,获得目标脱敏数据。
其中,S902-S908处理过程可以参考S202-S210,这里不再赘述。
S804具体可以包括:
S910,通过建模模型处理脱敏数据和目标脱敏数据,获得预测结果。
在一个实施例中,终端将脱敏数据和与脱敏数据对应的目标数据进行拼接,将拼接的结果输入建模模型进行处理,获得预测结果。其中,这里的建模模型可以是由脱敏数据样本与目标数据样本的拼接结果训练所得。
建模方在进行预测过程中,除了可以使用脱敏数据之外,也可以结合其它数据来源,相较于直接使用原始数据,同样不会有模型准确度损失。
上述实施例中,除了利用数据提供方提供的数据进行预测,还可以通过数据提供方提供的数据与其它来源的数据结合进行预测,提高了预测的精准度。
在一个实施例中,如图10所示,该方法还可以包括:
S1002,获取脱敏数据样本;脱敏数据样本携带有第二参考标签。
在一个实施例中,终端获取脱敏数据样本的步骤可以包括:获取第一类用户特征和第二类用户特征;第一类用户特征是不具有数值大小属性的特征;第二类用户特征是具有数值大小属性的特征;将第一类用户特征进行降维处理,获得低维用户特征;拼接第二类用户特征和低维用户特征,获得拼接用户特征;分别通过特征交叉网络和深度网络对拼接用户特征进行处理;将特征交叉网络和深度网络输出的结果拼接,将拼接的结果作为脱敏数据样本。建模方在得到脱敏数据样本后可以自行建模。
S1004,将脱敏数据样本输入建模模型进行训练,获得训练预测结果。
在一个实施例中,终端拼接脱敏数据样本和与脱敏数据样本对应的目标数据样本,将拼接结果输入建模模型进行训练,获得训练预测结果。
在一个实施例中,终端通过特征交叉网络和深度网络对与脱敏数据样本对应的目标数据样本进行处理,获得目标脱敏数据。终端拼接脱敏数据样本和目标脱敏数据,将拼接结果输入建模模型进行训练,获得训练预测结果。
S1006,根据预测结果与第二参考标签之间的差异,调整建模模型中的参数。
在很多场景中,如广告精准推送中常见的CTR预估问题,逻辑回归是一个很常用的选择。对于分类问题,由于图6中神经网络模型的输出层的激活函数是sigmoid(二分类)或者softmax(多分类),从数学上完全等价于逻辑回归。在这种情况下,对特征的脱敏和压缩完全不影响建模方建模的准确度。
在一个实施例中,建模方在建模过程中,终端除了可以使用脱敏数据样本之外,还可以结合对应的目标数据样本,使用其它模型,例如SVM(Support Vector Machine,支持向量机),GBDT(Gradient Boosting Decision Tree,梯度提升决策树)等建模,相较于直接使用原始数据,同样不会有模型准确度损失。
上述实施例中,利用脱敏数据样本对建模模型进行训练,获得经过训练后所得的建模模型,一方面通过该建模模型可以对脱敏数据进行预测,另一方面脱敏数据具有较高的安全性,在使用该建模模型进行预测过程中不会出现信息泄露的问题。
如图11所示,在一个实施例中,提供了一种脱敏处理方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图11,该脱敏处理方法具体包括如下步骤:
S1102,获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征。
其中,第一类用户特征样本指的是没有数值大小之分的特征,包括:以稀疏矩阵表示的数据特征,或以代码表示的数据特征(可称为类别型特征)。例如,对提取的图像特征采用稀疏编码的方法,首先得到稀疏字典,然后得到稀疏矩阵,那么以稀疏矩阵表示的图像特征可称为以稀疏矩阵表示的数据特征。又例如,用城市代码表示用户的常住城市,那么以城市代码所表示的常住城市可称为以代码表示的数据特征。
第二类用户特征样本指的是具有数值大小之分的特征,如用户的年龄和身高等特征。
需要说明的是,在第一类用户特征样本和/或第二类用户特征样本中,可携带有参考标签。
S1104,对第一类用户特征样本进行降维处理,获得低维训练用户特征。
以稀疏矩阵表示的数据特征和以代码表示的数据特征的维度较高。在一个实施例中,终端采用嵌入的方式对第一类用户特征样本进行降维处理,获得训练低维用户特征。降维后所得的训练低维用户特征,终端处理时可降低终端的计算量。
其中,嵌入可以指把用户数据从一个空间映射到另一个空间的函数。S204具体可以包括:终端确定对第一类用户特征样本进行降维的目标维度值;获取第一类用户特征样本对应的用于降维的映射函数;根据映射函数,将第一类用户特征样本从高维空间映射到目标维度值的空间,获得训练低维用户特征。
在另一个实施例中,终端可根据数据压缩算法对第一类用户特征样本进行压缩处理,获得训练低维用户特征。
S1106,拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征。
在一个实施例中,终端确定低维训练用户特征中的第一训练子特征,以及确定第二类用户特征样本中的第二训练子特征。终端根据低维训练用户特征中的各第一训练子特征与第二类用户特征样本中的各第二训练子特征之间内在的逻辑关系,将第二类用户特征样本中的各第二训练子特征分别与对应的第二类用户特征样本中的各第二训练子特征进行拼接,获得训练拼接用户特征。例如,对于用户的基本信息,用户的名称后面一般会跟着性别和年龄,在拼接时将数据第二类用户特征的年龄拼接在性别之后。
S1108,通过特征交叉网络和深度网络处理训练拼接用户特征。
在一个实施例中,终端将训练拼接用户特征输入神经网络模型中的特征交叉网络和深度网络。终端通过特征交叉网络和深度网络,分别对训练拼接用户特征进行处理。其中,神经网络模型如图6所示。
在一个实施例中,S208具体可以包括:终端确定训练拼接用户特征中的各子特征;通过特征交叉网络中各网络层,依次对所述训练拼接用户特征中的各子特征进行特征交叉处理;根据深度网络中各全连接层,依次对所述训练拼接用户特征的各子特征进行特征交叉处理;所述深度网络中的参数多于所述特征交叉网络中的参数。
例如,如图6所示,假设训练拼接用户特征为x0,将训练拼接用户特征x0分别输入深度网络和特征交叉网络,通过深度网络和特征交叉网络对训练拼接用户特征x0进行特征交叉,从而实现训练拼接用户特征x0的层层提炼得到不具有解释性的脱敏数据。
其中,对于深度网络,该深度网络由多层相同结构的全连接层组成,每层的计算为:
h=ReLu(Wx+b)
其中,W,b分别为深度网络中全连接层的权重值和偏差值,权重值和偏差值通过训练过程中所得的预测标签和参考标签之间的差异不断调整得到。x,h分别为该全连接层的输入和输出。ReLu为线性整流函数,该函数的表达式如下:
ReLu(x)=max(0,x)
通过该函数的表达式可知,ReLu(x)的取值为0和输入值之间的最大值。
对于特征交叉网络,该特征交叉网络由以下多个相同网络层的计算串联而成:
xk+1=x0xk Twk+bk+xk
其中,k表示特征交叉网络中网络层数的序号。对于特征交叉网络中的第k层,xk为输入,xk+1为输出,同时xk+1也为k+1层的输入。x0为特征交叉网络的第一个输入。wk和bk为特征交叉网络中的第k层的权重值和偏差值,需要通过训练过程中所得的预测标签和参考标签之间的差异不断调整得到。
S1110,将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据。
具体地,终端将特征交叉网络最后一层输出的结果和深度网络最后一层输出的结果进行拼接,获得训练脱敏数据。该训练脱敏数据包含有经过数据脱敏处理后的用户敏感信息,而经过数据脱敏处理后的用户敏感信息为不具有解释性的脱敏数据。
S1112,对训练脱敏数据进行分类处理,获得预测标签。
S1114,根据预测标签与参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,S1114具体可以包括:终端根据第一类用户特征样本和/或第二类用户特征样本确定参考标签;确定预测标签与确定的参考标签之间的差异;根据差异,调整特征交叉网络中各网络层的权重值和偏差值,并调整深度网络中各全连接层的权重值和偏差值。
在一个实施例中,终端根据第一类用户特征样本和/或第二类用户特征样本确定参考标签的步骤,具体可以包括:确定建模模型所输出结果的类型;根据第一类用户特征样本和/或第二类用户特征样本确定与类型相关的用户特征;根据所确定的用户特征确定参考标签。
其中,建模模型指的是建模方所要建立的模型。
例如,若建模方想要获得不同用户对某个产品的点击率,那么,建模模型的输入数据为用户特征,如用户登录相应应用程序的次数、用户年龄段、用户消费行为等,通过用户特征预测出该用户对产品的点击率。因此,终端可以根据建模模型预测的结果的类型,在第一类用户特征样本和/或第二类用户特征样本查找出与之匹配的用户特征,根据匹配的用户特征确定参考标签,该参考标签可以表示用户对产品的点击情况,如点击频率高或点击频率低。
具体地,终端根据预测标签与参考标签计算损失函数,将损失函数结果反向传播到神经网络模型中,计算调整神经网络模型中的特征交叉网络中的参数和深度网络中的参数的梯度,根据计算出来的梯度更新调整特征交叉网络中的参数和深度网络中的参数。其中,特征交叉网络中的参数包括特征交叉网络中的权重值和偏差值。深度网络中的参数包括深度网络中的权重值和偏差值。
例如,在对特征交叉网络中和深度网络进行训练之前,神经网络模型中的特征交叉网络中的参数和深度网络中的参数都被随机初始化,令分类处理后输出的预测标签为output,参考标签为target,那么损失量可以为:
假设变量L等于Etotal,为尽量减少损失量,通过不断调整神经网络模型中的特征交叉网络中的参数和深度网络中的参数,以使预测标签output不断逼近参考标签target。
令特征交叉网络中的权重值为w,则有
其中,w为特征交叉网络中的权重值,wi为特征交叉网络中初始化过程的权重值,为梯度,η为学习率。
在一个实施例中,终端可采用adam算法对神经网络模型中的深度网络和特征交叉网络进行训练,调整网络中各层的参数,获得经过训练后所得的神经网络模型。
在一个实施例中,终端可使用dropout和batch normalization方法控制训练过程中的过拟合和加快训练收敛速度。
上述实施例中,通过由第一类用户特征样本和第二类用户特征样本获得的训练拼接用户特征,对用于将数据进行脱敏处理的特征交叉网络和深度网络进行训练。由特征交叉网络和深度网络处理处理由第一类用户特征和第二类用户特征获得的拼接用户特征,便可获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
在一个实施例中,如图12所示,该方法还包括:
S1202,确定对训练脱敏数据进行降维的目标维度值。
其中,通过深度网络和特征交叉网络处理后所得的训练脱敏数据的维度值较大,需要对该训练脱敏数据进行降维处理。训练脱敏数据的维度值大于目标维度值。
维度可以是一组数据的组织形式,可以是一维、二维或多维。对应的,一维数据由对等关系的有序或无序数据构成,采用线性方式组织。二维数据由多个一维数据构成,是一维数据的组合形式。多维数据由一维或二维数据在新维度上扩展形式,如在二维数据中加上时间维度。例如,在一个关系型数据库中表的一列可视为一个维度,每个字段包含某一专题的信息,比如用户ID(Identification,身份标识)。
在一个实施例中,终端可根据建模方对数据量的大小要求,确定对脱敏数据进行降维的目标维度值。
S1204,根据目标维度值调整对脱敏数据进行降维处理的神经网络层中神经元的数量。
其中,在数值上,目标维度值可以等于神经网络层中神经元的数量。
S1206,通过经过调整的神经网络层,并按照目标维度值对脱敏数据进行降维处理。
例如,如图6所示,在神经网络模型中最后第二层的神经元中,该神经元数量可以控制对于原始数据压缩的维度。通过调节最后第二层的神经元数量来调节训练脱敏数据的维度。
在一个实施例中,终端通过神经元中的用于降维的映射函数,根据映射函数将训练脱敏数据从高维空间映射到目标维度值的空间,获得降维后的训练脱敏数据。
S1012具体可以包括:
S1208,根据降维后的训练脱敏数据进行分类处理,获得预测标签。
上述实施例中,通过对训练脱敏数据的降维处理,可使训练脱敏数据的数据量变小,从而降低数据在传输、储存和计算上的开销。此外,建模方可根据获得训练脱敏数据进行建模;而且,终端可以根据预测标签与参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数,获得经过训练后所得的特征交叉网络中和深度网络。
在很多数据挖掘业务场景下,数据提供方需要向外部数据挖掘团队(建模方)提供相应的数据,以供建模方进行预测和建模使用。对于提供的数据,可能会包含一些涉及用户隐私和商业秘密等敏感信息。如何将所提供的数据中的敏感信息脱敏,同时又对建模方使用脱敏后的数据建模时不影响模型的精度,是一个很有实际意义的数据挖掘问题。
对于传统的技术方案中,对于敏感信息的处理方法有以下几种:
(1)直接去掉敏感信息的字段。如用户的年龄信息属于用户的隐私数据,直接去掉年龄数据后建模方用来建模的特征就少了这一项数据。相对于直接使用包含敏感信息的原始数据,使用去掉敏感信息的数据所建立的模型,其准确度可能会有较大幅度的降低。
(2)提供模糊化的数据。如将用户年龄改为年龄段(如将用户年龄22改为年龄段20-25)。对敏感信息进行模糊化处理,使用模糊化处理的数据所建立的模型,其准确度可能会有一定程度的降低。
(3)加入噪声,使得单一用户的信息不再准确,但是在统计分析上误差可控。然而,这类方法在实际机器学习建模应用中会对模型准确度带来不利影响,同时脱敏效果也不是很理想。
为了解决上述技术问题,本发明提出一种脱敏处理方法,经过脱敏压缩的数据不具备任何可解释性,可以被提供给第三方或者公开而不用担心有敏感信息被挖掘。而且,经过压缩的数据量变小,降低传输、储存和计算的成本。同时,经过脱敏压缩的数据在机器学习的建模模型中,能达到与使用原始数据所得的建模模型具有相同或类似的准确度。本脱敏处理方法具体可以包括两部分内容:一是对数据进行脱敏和压缩处理的神经网络模型的训练;另一是使用经过训练后所得的神经网络模型对原始数据进行脱敏和压缩处理。
(一)对于神经网络模型的训练:
首先,将需要处理的原始数据分为两大类:第一类用户特征和第二类用户特征。其中,第一类用户特征是不具有数值大小属性的特征,可以包括:类别型特征和稀疏特征。第二类用户特征为具有数值大小属性的特征,可以包括:除类别型特征和稀疏特征之外的所有其它特征。
在训练过程中,可以在原始数据中提取部分数据作为训练样本。该训练样本可以是第一类用户特征样本和第二类用户特征样本。
类别型特征样本(如用城市代码表示用户常住城市)和稀疏特征样本的维度较高,在训练模型之前,先对类别型特征样本和稀疏特征样本进行降维,降维后的使用效果更好。其中,降维的方式可采用嵌入(embedding)方式,将类别型特征样本和稀疏特征样本从高维空间映射到另一个低维空间,从而达到降维目的。
把第二类用户特征样本和经过嵌入处理的第一类用户特征样本进行拼接,产生一个训练拼接特征,该训练特征为向量x0。将该向量x0分别输入到神经网络模型(如图6所示)中的深度网络和特征交叉网络,进行特征交叉处理。分别将深度网络和特征交叉网络输出的结果拼接成目标向量。将该目标向量输入到全连接层,该全连接层为神经网络模型的最后第二层。全连接层后连接的是输出层,该输出层输出的是样本的预测标签。
深度网络由多层相同结构的全连接层组成,每层的计算为:
h=ReLu(Wx+b)
其中W,b分别为全连接层的权重值和偏差值,是神经网络的参数,需要通过训练来计算得到。x,h分别为该全连接层的输入和输出。ReLu为线性整流函数,定义如下:
ReLu(x)=max(0,x)
即取0和输入值之间的最大值作为函数的输出。
特征交叉网络用来学习特征交叉,深度网络可以学到非常复杂的特征交叉,但是深度网络中的参数较多,在学习特征交叉时会失败。因此使用一个含有较少参数的特征交叉网络,可以提高神经网络模型学习特征交叉的成功率。
其中,特征交叉网络由以下多层相同的计算串联而成
xk+1=x0xk Twk+bk+xk
其中,k表示特征交叉网络中网络层数的序号。对于特征交叉网络中的第k层,xk为输入,xk+1为输出,同时xk+1也为k+1层的输入。x0为特征交叉网络的第一个输入。wk和bk为特征交叉网络中的第k层的权重值和偏差值,是神经网络的参数,需要通过训练来计算得到。
从以上计算公式可知,输入向量xk和输出向量xk+1的维度相同,因此特征交叉网络的各层输出向量和x0有相同大小的维度。每一层计算增加了一阶特征交叉,因此如果特征交叉网络有n层,那么该网络可以表达n+1阶特征交叉。
最后第二层的神经元数量控制了对于原始数据压缩的维度,通过调节该层的神经元数量来确定脱敏和压缩处理后所得训练脱敏数据的维度。
模型训练采用adam算法对神经网络模型中的深度网络和特征交叉网络进行训练,调整网络中各层的参数,获得经过训练后所得的神经网络模型。使用dropout、batchnormalization方法控制训练过程中的过拟合和加快训练收敛速度。
由于神经网络模型的训练是监督式端对端训练方法,训练之前需要知道建模方建模的目标,根据该目标确定训练样本的标签。
(二)对于原始数据的脱敏和压缩处理。
模型训练完毕之后把图6中大虚线框内的部分提取出来,作为训练好的神经网络模型,用于对原始数据进行脱敏和压缩处理。
对原始数据进行脱敏和压缩处理的过程实质就是这个模型预测的过程。具体的步骤如下:
1)获取第一类用户特征和第二类用户特征;第一类用户特征是不具有数值大小属性的特征;第二类用户特征是具有数值大小属性的特征。
2)将第一类用户特征进行降维处理,获得低维用户特征。
3)拼接第二类用户特征和低维用户特征,获得拼接用户特征。
4)分别通过特征交叉网络和深度网络对拼接用户特征进行处理。
5)将特征交叉网络和深度网络输出的结果拼接,获得拼接结果。
6)将拼接结果进行降维处理,获得经过脱敏和压缩处理的脱敏数据。
经过脱敏和压缩处理的脱敏数据是由训练好的神经网络模型经过层层提炼而得不具有解释性的数据,建模方无法得知该数据的具体含义。
建模方在得到这个数据后就可以自行建模。在很多场景中,比如广告精准推送中常见的CTR预估问题,逻辑回归是一个很常用的选择。对于分类问题,由于神经网络模型中输出层的激活函数是sigmoid(二分类)或者softmax(多分类),从数学上完全等价于逻辑回归。在这种情况下,对特征的脱敏和压缩完全不影响建模方自行建模的准确度。此外,建模方也可以结合其他数据来源,使用其他模型,例如SVM,GBDT等建模,相较于直接使用原始数据,同样不会有模型准确度损失。因为这些模型比逻辑回归有更强的学习能力。
通过实施上述实施例的方案,可以在不妨碍建模方建模的前提下,解决了数据脱敏问题,一方面避免了传统方案中建模方所建模型的准确性低的问题,另一方面提供脱敏处理后的数据,使数据提供方无需担心数据的安全性问题,数据提供方可以向合作伙伴开放经过脱敏处理的用户特征数据。
图2为一个实施例中脱敏处理方法的流程示意图。图11为一个实施例中模型训练方法的流程示意图。应该理解的是,虽然图2和图11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图11中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图13所示,在一个实施例中,提供了一种脱敏处理装置,该脱敏处理装置具体包括:特征获取模块1302、降维模块1304、第一拼接模块1306、处理模块1308和第二拼接模块1310;其中:
特征获取模块1302,用于获取第一类用户特征和第二类用户特征;第一类用户特征是不具有数值大小属性的特征;第二类用户特征是具有数值大小属性的特征;
降维模块1304,用于将第一类用户特征进行降维处理,获得低维用户特征;
第一拼接模块1306,用于拼接第二类用户特征和低维用户特征,获得拼接用户特征;
处理模块1308,用于分别通过特征交叉网络和深度网络对拼接用户特征进行处理;
第二拼接模块1310,用于将特征交叉网络和深度网络输出的结果拼接,获得脱敏数据。
在一个实施例中,降维模块1304还用于确定对第一类用户特征进行降维的第一目标维度值;获取第一类用户特征对应的用于降维的映射函数;根据映射函数,将第一类用户特征从高维空间映射到第一目标维度值的空间,获得低维用户特征。
在一个实施例中,处理模块1308还用于确定拼接用户特征中的各子特征;通过特征交叉网络中各网络层,依次对拼接用户特征中的各子特征进行特征交叉处理;根据深度网络中各全连接层,依次对拼接用户特征的各子特征进行特征交叉处理;深度网络中的参数多于特征交叉网络中的参数。
上述实施例中,对不具有数值大小属性的第一类用户特征进行降维,在一定程度上可降低第一类用户特征的数据大小。将降维后的第一类用户特征与具有数值大小属性的第二类用户特征进行拼接,然后将分别通过特征交叉网络和深度网络对拼接后的拼接用户特征进行处理后输出的结果进行拼接,获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
在一个实施例中,如图14所示,该装置还包括:维度值确定模块1312、数量调整模块1314;其中:
维度值确定模块1312,用于确定对脱敏数据进行降维的第二目标维度值;
数量调整模块1314,用于根据第二目标维度值,调整对脱敏数据进行降维处理的神经网络层中神经元的数量;
降维模块1304还用于通过经过调整的神经网络层,并按照第二目标维度值对脱敏数据进行降维处理。
上述实施例中,通过对脱敏数据的降维处理,可使脱敏数据的数据量变小,从而降低数据在传输、储存和计算上的开销。
在一个实施例中,如图14所示,该装置还包括:样本获取模块1316和参数调整模块1318;其中:
样本获取模块1316,用于获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征;
降维模块1304还用于对第一类用户特征样本进行降维处理,获得低维训练用户特征;
第一拼接模块1306还用于拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征;
处理模块1308还用于通过特征交叉网络和深度网络处理训练拼接用户特征;
第二拼接模块1310还用于将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据;
处理模块1308还用于对训练脱敏数据进行分类处理,获得第一预测标签;
参数调整模块1318,用于根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,参数调整模块1318还用于根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签;确定第一预测标签与确定的第一参考标签之间的差异;根据差异,调整特征交叉网络中各网络层的权重值和偏差值,并调整深度网络中各全连接层的权重值和偏差值。
在一个实施例中,参数调整模块1318还用于确定建模模型所输出结果的类型;根据第一类用户特征样本和/或第二类用户特征样本确定与类型相关的用户特征;根据所确定的用户特征确定第一参考标签。
上述实施例中,通过由第一类用户特征样本和第二类用户特征样本获得的训练拼接用户特征,对用于将数据进行脱敏处理的特征交叉网络和深度网络进行训练。由特征交叉网络和深度网络处理处理由第一类用户特征和第二类用户特征获得的拼接用户特征,便可获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
在一个实施例中,维度值确定模块1312还用于确定对训练脱敏数据进行降维的第三目标维度值;
数量调整模块1314还用于根据第三目标维度值调整对训练脱敏数据进行降维处理的神经网络层中神经元的数量;
降维模块1304还用于通过经过调整的神经网络层,并按照第三目标维度值对训练脱敏数据进行降维处理;
处理模块1308还用于根据降维后的训练脱敏数据进行分类处理,获得第一预测标签。
上述实施例中,通过对训练脱敏数据的降维处理,可使训练脱敏数据的数据量变小,从而降低数据在传输、储存和计算上的开销。此外,建模方可根据获得训练脱敏数据进行建模;而且,终端可以根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数,获得经过训练后所得的特征交叉网络中和深度网络。
在一个实施例中,如图14所示,该装置还可以包括:模型获取模块1320;其中:
模型获取模块1320,用于获取与脱敏数据对应的建模模型;建模模型为根据脱敏数据样本进行训练所得;
处理模块1308还用于通过建模模型处理脱敏数据,获得预测结果;预测结果用于表示对第一类用户特征和第二类用户特征进行预测的结果。
上述实施例中,通过建模模型对脱敏数据进行处理,获得预测结果,由于脱敏数据为变形后的数据,不具有解释性,一方面不影响脱敏数据在预测过程中的准确性,另一方面也保证了数据的安全性。
在一个实施例中,如图14所示,该装置还包括:数据获取模块1322;其中:
数据获取模块1322,用于获取与脱敏数据对应的目标数据;
降维模块1304还用于对目标数据中的第一类用户特征进行降维处理;
处理模块1308还用于通过特征交叉网络和深度网络对降维后的目标数据进行处理;
第二拼接模块1310还用于将特征交叉网络和深度网络输出的结果拼接,获得目标脱敏数据;
处理模块1308还用于通过建模模型处理脱敏数据和目标脱敏数据,获得预测结果。
上述实施例中,除了利用数据提供方提供的数据进行预测,还可以通过数据提供方提供的数据与其它来源的数据结合进行预测,提高了预测的精准度。
在一个实施例中,如图14所示,该装置还包括:训练模块1324;其中:
样本获取模块1316还用于获取脱敏数据样本;脱敏数据样本携带有第二参考标签;
训练模块1324,用于将脱敏数据样本输入建模模型进行训练,获得训练预测结果;
参数调整模块1318还用于根据预测结果与第二参考标签之间的差异,调整建模模型中的参数。
上述实施例中,利用脱敏数据样本对建模模型进行训练,获得经过训练后所得的建模模型,一方面通过该建模模型可以对脱敏数据进行预测,另一方面脱敏数据具有较高的安全性,在使用该建模模型进行预测过程中不会出现信息泄露的问题。
如图15所示,在一个实施例中,提供了一种模型训练装置,该模型训练装置具体包括:样本获取模块1502、降维模块1504、第一拼接模块1506、处理模块1508、第二拼接模块1510和参数调整模块1512;其中:
样本获取模块1502,用于获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征;
降维模块1504,用于对第一类用户特征样本进行降维处理,获得低维训练用户特征;
第一拼接模块1506,用于拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征;
处理模块1508,用于通过特征交叉网络和深度网络处理训练拼接用户特征;
第二拼接模块1510,用于将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据;
处理模块1508还用于对训练脱敏数据进行分类处理,获得第一预测标签;
参数调整模块1512,用于根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
上述实施例中,通过由第一类用户特征样本和第二类用户特征样本获得的训练拼接用户特征,对用于将数据进行脱敏处理的特征交叉网络和深度网络进行训练。由特征交叉网络和深度网络处理处理由第一类用户特征和第二类用户特征获得的拼接用户特征,便可获得脱敏数据,脱敏数据为变形后的数据,不具有解释性,一方面保证了数据的安全性,另一方面在使用脱敏数据进行预测或建模时不影响数据的准确性。
在一个实施例中,如图16所示,该装置还可以包括:维度值确定模块1514、数量调整模块1516;其中:
维度值确定模块1514,用于确定对训练脱敏数据进行降维的目标维度值;
数量调整模块1516,用于根据目标维度值调整对脱敏数据进行降维处理的神经网络层中神经元的数量;
降维模块1504,用于通过经过调整的神经网络层,并按照目标维度值对脱敏数据进行降维处理;
处理模块1508还用于根据降维后的训练脱敏数据进行分类处理,获得预测标签。
上述实施例中,通过对训练脱敏数据的降维处理,可使训练脱敏数据的数据量变小,从而降低数据在传输、储存和计算上的开销。此外,建模方可根据获得训练脱敏数据进行建模;而且,终端可以根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数,获得经过训练后所得的特征交叉网络中和深度网络。
图17示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图17所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现脱敏处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行脱敏处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图17中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的12装置可以实现为一种计算机程序的形式,计算机程序可在如图17所示的计算机设备上运行。计算机设备的存储器中可存储组成该12装置的各个程序模块,比如,图13所示的特征获取模块1302、降维模块1304、第一拼接模块1306、处理模块1308和第二拼接模块1310。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的脱敏处理方法中的步骤。
例如,图17所示的计算机设备可以通过如图13所示的脱敏处理装置中的特征获取模块1302执行S202。计算机设备可通过降维模块1304执行S204。计算机设备可通过第一拼接模块1306执行S206。计算机设备可通过处理模块1308执行S208。计算机设备可通过第二拼接模块1310执行S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一类用户特征和第二类用户特征;第一类用户特征是不具有数值大小属性的特征;第二类用户特征是具有数值大小属性的特征;将第一类用户特征进行降维处理,获得低维用户特征;拼接第二类用户特征和低维用户特征,获得拼接用户特征;分别通过特征交叉网络和深度网络对拼接用户特征进行处理;将特征交叉网络和深度网络输出的结果拼接,获得脱敏数据。
在一个实施例中,计算机程序被处理器执行将第一类用户特征进行降维处理,获得低维用户特征的步骤时,使得处理器具体执行以下步骤:确定对第一类用户特征进行降维的第一目标维度值;获取第一类用户特征对应的用于降维的映射函数;根据映射函数,将第一类用户特征从高维空间映射到第一目标维度值的空间,获得低维用户特征。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:确定对脱敏数据进行降维的第二目标维度值;根据第二目标维度值,调整对脱敏数据进行降维处理的神经网络层中神经元的数量;通过经过调整的神经网络层,并按照第二目标维度值对脱敏数据进行降维处理。
在一个实施例中,计算机程序被处理器执行分别通过特征交叉网络和深度网络对拼接用户特征进行处理的步骤时,使得处理器具体执行以下步骤:确定拼接用户特征中的各子特征;通过特征交叉网络中各网络层,依次对拼接用户特征中的各子特征进行特征交叉处理;根据深度网络中各全连接层,依次对拼接用户特征的各子特征进行特征交叉处理;深度网络中的参数多于特征交叉网络中的参数。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征;对第一类用户特征样本进行降维处理,获得低维训练用户特征;拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征;通过特征交叉网络和深度网络处理训练拼接用户特征;将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据;对训练脱敏数据进行分类处理,获得第一预测标签;根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:确定对训练脱敏数据进行降维的第三目标维度值;根据第三目标维度值调整对训练脱敏数据进行降维处理的神经网络层中神经元的数量;通过经过调整的神经网络层,并按照第三目标维度值对训练脱敏数据进行降维处理;对训练脱敏数据进行分类处理,获得第一预测标签包括:根据降维后的训练脱敏数据进行分类处理,获得第一预测标签。
在一个实施例中,计算机程序被处理器执行根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数的步骤时,使得处理器具体执行以下步骤:根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签;确定第一预测标签与确定的第一参考标签之间的差异;根据差异,调整特征交叉网络中各网络层的权重值和偏差值,并调整深度网络中各全连接层的权重值和偏差值。
在一个实施例中,计算机程序被处理器执行根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签的步骤时,使得处理器具体执行以下步骤:确定建模模型所输出结果的类型;根据第一类用户特征样本和/或第二类用户特征样本确定与类型相关的用户特征;根据所确定的用户特征确定第一参考标签。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取与脱敏数据对应的建模模型;建模模型为根据脱敏数据样本进行训练所得;通过建模模型处理脱敏数据,获得预测结果;预测结果用于表示对第一类用户特征和第二类用户特征进行预测的结果。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取与脱敏数据对应的目标数据;对目标数据中的第一类用户特征进行降维处理;通过特征交叉网络和深度网络对降维后的目标数据进行处理;将特征交叉网络和深度网络输出的结果拼接,获得目标脱敏数据;该通过建模模型处理脱敏数据,获得预测结果的步骤包括:通过建模模型处理脱敏数据和目标脱敏数据,获得预测结果。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取脱敏数据样本;脱敏数据样本携带有第二参考标签;将脱敏数据样本输入建模模型进行训练,获得训练预测结果;根据预测结果与第二参考标签之间的差异,调整建模模型中的参数。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一类用户特征和第二类用户特征;第一类用户特征是不具有数值大小属性的特征;第二类用户特征是具有数值大小属性的特征;将第一类用户特征进行降维处理,获得低维用户特征;拼接第二类用户特征和低维用户特征,获得拼接用户特征;分别通过特征交叉网络和深度网络对拼接用户特征进行处理;将特征交叉网络和深度网络输出的结果拼接,获得脱敏数据。
在一个实施例中,计算机程序被处理器执行将第一类用户特征进行降维处理,获得低维用户特征的步骤时,使得处理器具体执行以下步骤:确定对第一类用户特征进行降维的第一目标维度值;获取第一类用户特征对应的用于降维的映射函数;根据映射函数,将第一类用户特征从高维空间映射到第一目标维度值的空间,获得低维用户特征。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:确定对脱敏数据进行降维的第二目标维度值;根据第二目标维度值,调整对脱敏数据进行降维处理的神经网络层中神经元的数量;通过经过调整的神经网络层,并按照第二目标维度值对脱敏数据进行降维处理。
在一个实施例中,计算机程序被处理器执行分别通过特征交叉网络和深度网络对拼接用户特征进行处理的步骤时,使得处理器具体执行以下步骤:确定拼接用户特征中的各子特征;通过特征交叉网络中各网络层,依次对拼接用户特征中的各子特征进行特征交叉处理;根据深度网络中各全连接层,依次对拼接用户特征的各子特征进行特征交叉处理;深度网络中的参数多于特征交叉网络中的参数。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征;对第一类用户特征样本进行降维处理,获得低维训练用户特征;拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征;通过特征交叉网络和深度网络处理训练拼接用户特征;将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据;对训练脱敏数据进行分类处理,获得第一预测标签;根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:确定对训练脱敏数据进行降维的第三目标维度值;根据第三目标维度值调整对训练脱敏数据进行降维处理的神经网络层中神经元的数量;通过经过调整的神经网络层,并按照第三目标维度值对训练脱敏数据进行降维处理;对训练脱敏数据进行分类处理,获得第一预测标签包括:根据降维后的训练脱敏数据进行分类处理,获得第一预测标签。
在一个实施例中,计算机程序被处理器执行根据第一预测标签与第一参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数的步骤时,使得处理器具体执行以下步骤:根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签;确定第一预测标签与确定的第一参考标签之间的差异;根据差异,调整特征交叉网络中各网络层的权重值和偏差值,并调整深度网络中各全连接层的权重值和偏差值。
在一个实施例中,计算机程序被处理器执行根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签的步骤时,使得处理器具体执行以下步骤:确定建模模型所输出结果的类型;根据第一类用户特征样本和/或第二类用户特征样本确定与类型相关的用户特征;根据所确定的用户特征确定第一参考标签。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取与脱敏数据对应的建模模型;建模模型为根据脱敏数据样本进行训练所得;通过建模模型处理脱敏数据,获得预测结果;预测结果用于表示对第一类用户特征和第二类用户特征进行预测的结果。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取与脱敏数据对应的目标数据;对目标数据中的第一类用户特征进行降维处理;通过特征交叉网络和深度网络对降维后的目标数据进行处理;将特征交叉网络和深度网络输出的结果拼接,获得目标脱敏数据;该通过建模模型处理脱敏数据,获得预测结果的步骤包括:通过建模模型处理脱敏数据和目标脱敏数据,获得预测结果。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:获取脱敏数据样本;脱敏数据样本携带有第二参考标签;将脱敏数据样本输入建模模型进行训练,获得训练预测结果;根据预测结果与第二参考标签之间的差异,调整建模模型中的参数。
图18示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图18所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现模型训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行模型训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的模型训练装置可以实现为一种计算机程序的形式,计算机程序可在如图18所示的计算机设备上运行。计算机设备的存储器中可存储组成该模型训练装置的各个程序模块,比如,图15所示的样本获取模块1502、降维模块1504、第一拼接模块1506、处理模块1508、第二拼接模块1510和参数调整模块1512。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的模型训练方法中的步骤。
例如,图18所示的计算机设备可以通过如图15所示的模型训练装置中的样本获取模块1502执行S1102。计算机设备可通过降维模块1504执行S1104。计算机设备可通过第一拼接模块1506执行S1106和S1112。计算机设备可通过处理模块1508执行S1108。计算机设备可通过第二拼接模块1510执行S1110。计算机设备可通过参数调整模块1512执行S1114。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征;对第一类用户特征样本进行降维处理,获得低维训练用户特征;拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征;通过特征交叉网络和深度网络处理训练拼接用户特征;将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据;对训练脱敏数据进行分类处理,获得预测标签;根据预测标签与参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:确定对训练脱敏数据进行降维的目标维度值;根据目标维度值调整对脱敏数据进行降维处理的神经网络层中神经元的数量;通过经过调整的神经网络层,并按照目标维度值对脱敏数据进行降维处理;该对训练脱敏数据进行分类处理,获得预测标签的步骤包括:根据降维后的训练脱敏数据进行分类处理,获得预测标签。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一类用户特征样本和第二类用户特征样本;第一类用户特征样本是不具有数值大小属性的特征;第二类用户特征样本是具有数值大小属性的特征;对第一类用户特征样本进行降维处理,获得低维训练用户特征;拼接第二类用户特征样本和低维训练用户特征,获得训练拼接用户特征;通过特征交叉网络和深度网络处理训练拼接用户特征;将特征交叉网络和深度网络输出的结果拼接,获得训练脱敏数据;对训练脱敏数据进行分类处理,获得预测标签;根据预测标签与参考标签之间的差异,调整特征交叉网络中的参数和深度网络中的参数。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:确定对训练脱敏数据进行降维的目标维度值;根据目标维度值调整对脱敏数据进行降维处理的神经网络层中神经元的数量;通过经过调整的神经网络层,并按照目标维度值对脱敏数据进行降维处理;该对训练脱敏数据进行分类处理,获得预测标签的步骤包括:根据降维后的训练脱敏数据进行分类处理,获得预测标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种脱敏处理方法,包括:
获取第一类用户特征和第二类用户特征;所述第一类用户特征是不具有数值大小属性的特征;所述第二类用户特征是具有数值大小属性的特征;
将所述第一类用户特征进行降维处理,获得低维用户特征;
拼接所述第二类用户特征和所述低维用户特征,获得拼接用户特征;
分别通过特征交叉网络和深度网络对所述拼接用户特征进行处理;
将所述特征交叉网络和所述深度网络输出的结果拼接,获得脱敏数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一类用户特征进行降维处理,获得低维用户特征包括:
确定对所述第一类用户特征进行降维的第一目标维度值;
获取所述第一类用户特征对应的用于降维的映射函数;
根据所述映射函数,将所述第一类用户特征从高维空间映射到所述第一目标维度值的空间,获得低维用户特征。
3.根据权利要求1所述的方法,其特征在于,还包括:
确定对所述脱敏数据进行降维的第二目标维度值;
根据所述第二目标维度值,调整对所述脱敏数据进行降维处理的神经网络层中神经元的数量;
通过经过所述调整的所述神经网络层,并按照所述第二目标维度值对所述脱敏数据进行降维处理。
4.根据权利要求1所述的方法,其特征在于,所述分别通过特征交叉网络和深度网络对所述拼接用户特征进行处理包括:
确定所述拼接用户特征中的各子特征;
通过特征交叉网络中各网络层,依次对所述拼接用户特征中的各子特征进行特征交叉处理;
根据深度网络中各全连接层,依次对所述拼接用户特征的各子特征进行特征交叉处理;所述深度网络中的参数多于所述特征交叉网络中的参数。
5.根据权利要求1所述的方法,其特征在于,还包括:
获取第一类用户特征样本和第二类用户特征样本;所述第一类用户特征样本是不具有数值大小属性的特征;所述第二类用户特征样本是具有数值大小属性的特征;
对所述第一类用户特征样本进行降维处理,获得低维训练用户特征;
拼接所述第二类用户特征样本和所述低维训练用户特征,获得训练拼接用户特征;
通过所述特征交叉网络和所述深度网络处理所述训练拼接用户特征;
将所述特征交叉网络和所述深度网络输出的结果拼接,获得训练脱敏数据;
对所述训练脱敏数据进行分类处理,获得第一预测标签;
根据所述第一预测标签与第一参考标签之间的差异,调整所述特征交叉网络中的参数和所述深度网络中的参数。
6.根据权利要求5所述的方法,其特征在于,还包括:
确定对所述训练脱敏数据进行降维的第三目标维度值;
根据所述第三目标维度值调整对所述训练脱敏数据进行降维处理的神经网络层中神经元的数量;
通过经过所述调整的所述神经网络层,并按照所述第三目标维度值对所述训练脱敏数据进行降维处理;
所述对所述训练脱敏数据进行分类处理,获得第一预测标签包括:
根据降维后的训练脱敏数据进行分类处理,获得第一预测标签。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第一预测标签与第一参考标签之间的差异,调整所述特征交叉网络中的参数和所述深度网络中的参数包括:
根据第一类用户特征样本和/或第二类用户特征样本确定第一参考标签;
确定所述第一预测标签与确定的第一参考标签之间的差异;
根据所述差异,调整所述特征交叉网络中各网络层的权重值和偏差值,并
调整所述深度网络中各全连接层的权重值和偏差值。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一类用户特征样本和/或第二类用户特征样本确定第一参考标签包括:
确定建模模型所输出结果的类型;
根据所述第一类用户特征样本和/或第二类用户特征样本确定与所述类型相关的用户特征;
根据所确定的用户特征确定第一参考标签。
9.根据权利要求1至8任一项所述的方法,其特征在于,还包括:
获取与所述脱敏数据对应的建模模型;所述建模模型为根据脱敏数据样本进行训练所得;
通过所述建模模型处理所述脱敏数据,获得预测结果;所述预测结果用于表示对所述第一类用户特征和所述第二类用户特征进行预测的结果。
10.根据权利要求9所述的方法,其特征在于,还包括:
获取与所述脱敏数据对应的目标数据;
对所述目标数据中的第一类用户特征进行降维处理;
通过所述特征交叉网络和所述深度网络对降维后的目标数据进行处理;
将所述特征交叉网络和所述深度网络输出的结果拼接,获得目标脱敏数据;
所述通过所述建模模型处理所述脱敏数据,获得预测结果包括:
通过所述建模模型处理所述脱敏数据和所述目标脱敏数据,获得预测结果。
11.根据权利要求9所述的方法,其特征在于,还包括:
获取脱敏数据样本;所述脱敏数据样本携带有第二参考标签;
将所述脱敏数据样本输入建模模型进行训练,获得训练预测结果;
根据所述预测结果与所述第二参考标签之间的差异,调整所述建模模型中的参数。
12.一种模型训练方法,包括:
获取第一类用户特征样本和第二类用户特征样本;所述第一类用户特征样本是不具有数值大小属性的特征;所述第二类用户特征样本是具有数值大小属性的特征;
对所述第一类用户特征样本进行降维处理,获得低维训练用户特征;
拼接所述第二类用户特征样本和所述低维训练用户特征,获得训练拼接用户特征;
通过所述特征交叉网络和所述深度网络处理所述训练拼接用户特征;
将所述特征交叉网络和所述深度网络输出的结果拼接,获得训练脱敏数据;
对所述训练脱敏数据进行分类处理,获得预测标签;
根据所述预测标签与参考标签之间的差异,调整所述特征交叉网络中的参数和所述深度网络中的参数。
13.根据权利要求12所述的方法,其特征在于,还包括:
确定对所述训练脱敏数据进行降维的目标维度值;
根据所述目标维度值调整对所述脱敏数据进行降维处理的神经网络层中神经元的数量;
通过经过所述调整的所述神经网络层,并按照所述目标维度值对所述脱敏数据进行降维处理;
所述对所述训练脱敏数据进行分类处理,获得预测标签包括:
根据降维后的训练脱敏数据进行分类处理,获得预测标签。
14.一种脱敏处理装置,包括:
获取模块,用于获取第一类用户特征和第二类用户特征;所述第一类用户特征是不具有数值大小属性的特征;所述第二类用户特征是具有数值大小属性的特征;
降维模块,用于将所述第一类用户特征进行降维处理,获得低维用户特征;
第一拼接模块,用于拼接所述第二类用户特征和所述低维用户特征,获得拼接用户特征;
处理模块,用于分别通过特征交叉网络和深度网络对所述拼接用户特征进行处理;
第二拼接模块,用于将所述特征交叉网络和所述深度网络输出的结果拼接,获得脱敏数据。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至13中任一项所述方法的步骤。
CN201810785828.0A 2018-07-17 2018-07-17 脱敏处理方法、模型训练方法、装置和计算机设备 Active CN110162993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810785828.0A CN110162993B (zh) 2018-07-17 2018-07-17 脱敏处理方法、模型训练方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810785828.0A CN110162993B (zh) 2018-07-17 2018-07-17 脱敏处理方法、模型训练方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN110162993A true CN110162993A (zh) 2019-08-23
CN110162993B CN110162993B (zh) 2024-01-05

Family

ID=67645074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810785828.0A Active CN110162993B (zh) 2018-07-17 2018-07-17 脱敏处理方法、模型训练方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN110162993B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079947A (zh) * 2019-12-20 2020-04-28 支付宝(杭州)信息技术有限公司 一种基于可选隐私数据进行模型训练的方法及系统
CN111597580A (zh) * 2020-05-13 2020-08-28 贵州大学 机器人听觉隐私信息监听处理方法
CN111625858A (zh) * 2020-05-10 2020-09-04 武汉理工大学 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN112200374A (zh) * 2020-10-15 2021-01-08 平安国际智慧城市科技股份有限公司 医疗数据处理方法、装置、电子设备及介质
CN112465042A (zh) * 2020-12-02 2021-03-09 中国联合网络通信集团有限公司 一种分类网络模型的生成方法及装置
US20210133590A1 (en) * 2019-10-30 2021-05-06 Royal Bank Of Canada System and method for machine learning architecture with differential privacy
CN112948836A (zh) * 2020-11-16 2021-06-11 支付宝(杭州)信息技术有限公司 保护神经网络模型安全的方法及装置
CN117579079A (zh) * 2024-01-15 2024-02-20 每日互动股份有限公司 一种数据压缩的处理方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611129A (zh) * 2016-12-27 2017-05-03 东华互联宜家数据服务有限公司 数据脱敏方法、装置及系统
CN107704868A (zh) * 2017-08-29 2018-02-16 重庆邮电大学 基于移动应用使用行为的用户分群聚类方法
CN107871083A (zh) * 2017-11-07 2018-04-03 平安科技(深圳)有限公司 脱敏规则配置方法、应用服务器及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106611129A (zh) * 2016-12-27 2017-05-03 东华互联宜家数据服务有限公司 数据脱敏方法、装置及系统
CN107704868A (zh) * 2017-08-29 2018-02-16 重庆邮电大学 基于移动应用使用行为的用户分群聚类方法
CN107871083A (zh) * 2017-11-07 2018-04-03 平安科技(深圳)有限公司 脱敏规则配置方法、应用服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
RUOXI WANG 等: "Deep & Cross Network for Ad Click Predictions", 《ARXIV.ORG》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210133590A1 (en) * 2019-10-30 2021-05-06 Royal Bank Of Canada System and method for machine learning architecture with differential privacy
CN111079947B (zh) * 2019-12-20 2022-05-17 支付宝(杭州)信息技术有限公司 一种基于可选隐私数据进行模型训练的方法及系统
CN111079947A (zh) * 2019-12-20 2020-04-28 支付宝(杭州)信息技术有限公司 一种基于可选隐私数据进行模型训练的方法及系统
CN111625858A (zh) * 2020-05-10 2020-09-04 武汉理工大学 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN111625858B (zh) * 2020-05-10 2023-04-07 武汉理工大学 一种垂直领域下的智能化多模态数据脱敏方法和装置
CN111597580A (zh) * 2020-05-13 2020-08-28 贵州大学 机器人听觉隐私信息监听处理方法
CN111597580B (zh) * 2020-05-13 2023-04-14 贵州大学 机器人听觉隐私信息监听处理方法
CN112200374A (zh) * 2020-10-15 2021-01-08 平安国际智慧城市科技股份有限公司 医疗数据处理方法、装置、电子设备及介质
CN112948836B (zh) * 2020-11-16 2022-05-17 支付宝(杭州)信息技术有限公司 保护神经网络模型安全的方法及装置
CN112948836A (zh) * 2020-11-16 2021-06-11 支付宝(杭州)信息技术有限公司 保护神经网络模型安全的方法及装置
CN112465042A (zh) * 2020-12-02 2021-03-09 中国联合网络通信集团有限公司 一种分类网络模型的生成方法及装置
CN112465042B (zh) * 2020-12-02 2023-10-24 中国联合网络通信集团有限公司 一种分类网络模型的生成方法及装置
CN117579079A (zh) * 2024-01-15 2024-02-20 每日互动股份有限公司 一种数据压缩的处理方法、装置、设备及介质
CN117579079B (zh) * 2024-01-15 2024-03-29 每日互动股份有限公司 一种数据压缩的处理方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110162993B (zh) 2024-01-05

Similar Documents

Publication Publication Date Title
CN110162993A (zh) 脱敏处理方法、模型训练方法、装置和计算机设备
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN109196527A (zh) 广度和深度机器学习模型
CN108647205A (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
CN111090756B (zh) 基于人工智能的多目标推荐模型的训练方法及装置
CN110874439B (zh) 一种基于评论信息的推荐方法
CN109478254A (zh) 使用合成梯度来训练神经网络
CN109816438B (zh) 信息推送方法及装置
CN110326002A (zh) 使用在线注意的序列处理
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN112418292A (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN114564593A (zh) 多模态知识图谱的补全方法、装置和电子设备
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN114648032B (zh) 语义理解模型的训练方法、装置和计算机设备
CN112801425A (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN112632256A (zh) 基于问答系统的信息查询方法、装置、计算机设备和介质
CN112288483A (zh) 用于训练模型的方法和装置、用于生成信息的方法和装置
CN116186326A (zh) 视频推荐方法、模型训练方法、电子设备及存储介质
CN111291563A (zh) 词向量对齐方法和词向量对齐模型训练方法
CN113420203B (zh) 对象推荐方法、装置、电子设备及存储介质
CN110807693A (zh) 专辑的推荐方法、装置、设备和存储介质
Wang et al. Swin-GAN: generative adversarial network based on shifted windows transformer architecture for image generation
CN110163401A (zh) 时间序列的预测方法、数据预测方法和装置
CN114880709B (zh) 一种应用人工智能的电商数据防护方法及服务器
CN114004206A (zh) 一种表单生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant