CN111506617A - 一种基于用户数据生成标签的方法及装置 - Google Patents
一种基于用户数据生成标签的方法及装置 Download PDFInfo
- Publication number
- CN111506617A CN111506617A CN201910100788.6A CN201910100788A CN111506617A CN 111506617 A CN111506617 A CN 111506617A CN 201910100788 A CN201910100788 A CN 201910100788A CN 111506617 A CN111506617 A CN 111506617A
- Authority
- CN
- China
- Prior art keywords
- parameter value
- user
- data
- tag
- reference data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种基于用户数据生成标签的方法及装置,属于数据处理技术领域。所述方法包括:采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到所述用户数据对应的用户标签的概率服从所述概率分布;根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。采用本申请实施例的方案,可以提高用户数据的安全性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种基于用户数据生成标签的方法及装置。
背景技术
受益于电子设备制造技术的发展,人类社会每天都在产生大量的数据,对数据进行有效分析和处理,可以产生巨大的社会或者经济效益。画像刻画便是众多数据分析方法中的一项重要应用。画像刻画即为根据用户数据生成预设属性对应的用户标签的过程,这个方法可以应用于对用户进行画像刻画,例如,通过对用户进行画像刻画,得到用户的年龄、性别、活跃度、性格、偏好等信息,进而向用户进行产品推广、自动化营销等服务。画像刻画还可以应用于对网元进行画像刻画,例如,通过对网元进行画像刻画,得到网元的运行状态、操作风险等信息,进而为网元配置优化、运行风险预测提供技术支持。
生成用户标签的方法大致分为两种,一种是根据用户数据、以及对用户标签的分类规则直接生成用户标签,生成的这类用户标签可以称为统计类标签,例如用户的年龄、用户的性别、用户的通话时长、网元的运行时长等。另外一种是通过数学模型对用户数据进行运算反推而生成,生成的这类用户标签可以称为挖掘类标签,例如用户的性格、用户的偏好、网元的操作风险等。
现有技术至少存在以下问题:
用户标签可以精确描述用户的自然属性、社会属性、兴趣爱好、行为习惯等,这些用户标签之间往往存在着较强的关联关系,而不法分子根据这些用户标签之间的关联关系,可能会反推出用户的隐私信息,这样,会导致数据的安全性降低。
发明内容
为了解决相关技术的问题,本发明实施例提供了一种基于用户数据生成标签的方法及装置。所述技术方案如下:
第一方面,提供了一种基于用户数据生成标签的方法,该方法包括:
采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到用户数据对应的用户标签的概率服从概率分布;根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。
本申请实施例所示的方案,概率分布可以是技术人员预先设定的概率分布,也可以是运行技术人员预先设定的算法确定出的概率分布。电子设备获取概率分布,并用概率分布扰动用户数据与用户标签的对应关系,然后,当基于目标用户数据生成对应的用户标签时,根据目标用户数据以及扰动后的对应关系,生成目标用户数据对应的用户标签,在生成过程中,生成的用户标签的概率服从概率分布。这样,通过概率分布的扰动作用,生成的用户标签中可能会存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的这些用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
在一种可能的实现方式中,获取每个用户标签的参考数据与概率分布的对应关系,其中,概率分布包括待选择的每个用户标签对应的抽样概率;基于目标用户数据以及每个用户标签的参考数据与概率分布的对应关系,确定与目标用户数据相匹配的参考数据对应的概率分布;基于确定出的概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。
其中,用户标签的参考数据是用于划分用户标签的范围信息,相当于进行标签分类的依据,其生成方式可以是人工经验总结、统计规律描述、聚类结果描述等方法中的一种或者几种的组合。
本申请实施例所示的方案,每个用户标签的参考数据与概率分布的对应关系可以是技术人员预先设定的,也可以是根据技术人员预先设定的算法确定出的。获取每个用户标签的参考数据与概率分布的对应关系后,确定与目标用户数据相匹配的参考数据。然后,在每个用户标签的参考数据与概率分布的对应关系中,确定与目标用户数据相匹配的参考数据对应的概率分布,概率分布中包括待选择的每个用户标签对应的抽样概率。基于确定出的概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。
在一种可能的实现方式中,根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值;根据每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,确定每个用户标签的参考数据与概率分布的对应关系。
其中,效用函数值用于表示某个数据与某个类别数据的相似程度,用户标签的代表数据与用户标签的参考数据的效用函数值用于表示用户标签的代表数据与用户标签的参考数据的相似程度,相似程度越大,则用户标签的代表数据与用户标签的参考数据的效用函数值越大。
本申请实施例所示的方案,根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。然后,可以根据每个用户标签的参考数据与每个用户标签的参考数据的效用函数值,得到与每个用户标签的参考数据相对应的每个用户标签的参考数据的抽样概率,将得到的多个抽样概率进行组合,可以得到每个用户标签的参考数据对应的概率分布,即得到了每个用户标签的参考数据与概率分布的对应关系。
在一种可能的实现方式中,根据预设的每个用户标签的代表数据以及每个用户标签的数据取值范围,确定每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,根据每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
本申请实施例所示的方案,当预设的用户标签的代表数据以及参考数据均为数值型数据时,用户标签的参考数据为数据取值范围的形式。确定每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,该距离可以是欧式距离。该距离可以表示用户标签的代表数据与用户标签的数据取值范围的相似程度,用户标签的代表数据与用户标签的数据取值范围的相似程度越大,两者的距离越小。根据每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
在一种可能的实现方式中,根据每个用户标签的代表数据以及每个用户标签的参考数据集合,确定每个用户标签的代表数据与每个用户标签的参考数据集合的交集,根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
本申请实施例所示的方案,当预设的每个用户标签的代表数据以及参考数据均为非数值型数据时,用户标签的参考数据可以是多个参考数据的集合的形式。在每个用户标签的参考数据集合中的参考数据中,确定与每个用户标签的代表数据相匹配的参考数据,将与每个用户标签的代表数据相匹配的参考数据的集合,确定为每个用户标签的代表数据与每个用户标签的参考数据集合的交集。对每个用户标签的代表数据与每个用户标签的参考数据集合的交集进行取模运算,得到每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
在一种可能的实现方式中,根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集中的每个参考数据的预设权值,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
本申请实施例所示的方案,技术人员可以预先为每个用户标签的参考数据集合的每个参考数据设定一个预设权值,该预设权值可以用于调整参考数据的重要程度,通过预设权值可以改变用户标签的代表数据与用户标签的参考数据的效用函数值,进而改变待选择的用户标签的抽样概率,重要程度越高的、代表性越大的参考数据,其预设权值可以设定的越大。
在一种可能的实现方式中,根据公式pij=exp(εqij/2Δ1(q)),确定与第i个用户标签的代表数据相对应的第j个用户标签的抽样概率pij;其中,ε表示预设调整系数,qij表示第i个用户标签的代表数据与第j个用户标签的参考数据的效用函数值,Δ1()表示敏感度函数,q表示效用函数;对每个代表数据对应的所有用户标签的抽样概率pij进行组合,得到每个代表数据对应的概率分布;基于每个代表数据对应的概率分布和每个代表数据对应的用户标签的参考数据,确定每个用户标签的参考数据与概率分布的对应关系。
本申请实施例所示的方案,通过用户标签的代表数据与用户标签的参考数据的效用函数值计算得到其对应的抽样概率,用户标签的代表数据与用户标签的参考数据相似程度越大,对应的效用函数值越大,与用户标签的代表数据对应的用户标签的抽样概率越大。
将每个代表数据对应的所有用户标签的抽样概率组合成一个概率分布,即得到每个代表数据对应的概率分布,进而根据每个用户标签的代表数据与参考数据的对应关系,得到每个用户标签的参考数据与概率分布的对应关系。
在一种可能的实现方式中,对于预先存储的标签生成模型中待训练的模型参数组,随机生成多个参数值组,组成参数值组集合;根据训练样本,对参数值组集合进行优化处理,得到待选参数值组集合;确定待选参数值组集合中的参数值组对应的概率分布,其中,概率分布中包括待选参数值组集合中每个参数值组对应的抽样概率;基于概率分布,对待选参数值组集合中的所有参数值组进行随机抽样处理,得到抽样的参数值组;基于抽样的参数值组,确定训练后的标签生成模型;将用户数据输入到训练后的标签生成模型,得到至少一个用户标签。
本申请实施例所示的方案,在训练预先存储的标签生成模型的过程中,采用概率分布对待训练的模型参数组加扰,完成训练后得到被扰动的标签生成模型。在基于用户数据生成对应的用户标签时,将用户数据输入到被扰动的标签生成模型中,生成的用户标签即为加噪的用户标签,即生成的用户标签中可能存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的这些用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
在一种可能的实现方式中,在参数值组集合中,循环选取P个参数值组,每次选取P个参数值组后,基于训练样本,对P个参数值组进行优化调整,以更新参数值组集合,直到满足预设的循环结束条件,得到待选参数值组集合;其中,P个参数值组中包括至少一个噪声参数值组,噪声参数值组是参数值组集合中与训练样本匹配度最高的P个参数值组之外的参数值组,P为预设正整数。
本申请实施例所示的方案,考虑到如果将参数值组集合中的所有参数值组同时进行优化调整,会导致收敛的速度很慢,因此,在参数值组集合中,可以先选取P个参数值组,根据预存的训练样本对选取的这P个参数值组进行优化调整。在对这P个参数值组中的一个或多个参数值组进行优化调整时,实际上是在参数值组集合中的P个参数值组对应的参数值组进行优化调整,也即是说,对选取的这P个参数值组进行优化调整实际上是对参数值组集合进行更新。然后,在更新后的参数值组集合中重新选取P个参数值组,根据训练样本对新选出的这P个参数值组进行优化调整,以达到更新参数值组集合的目的。循环上述选取P个参数值组并更新参数值组集合的步骤,直到满足预设的循环结束条件时,停止循环操作,将此时的参数值组集合确定为待选参数值组集合。
在一种可能的实现方式中,循环选取P个参数值组以及Q个参数值组,每次选取P个参数值组以及Q个参数值组后,基于训练样本,分别对P个参数值组以及Q个参数值组进行优化调整。
本申请实施例所示的方案,由于每次选取参数值组集合中的一部分参数值组进行优化调整,为了加快优化调整的速度,减少循环次数,可以在一次循环过程中,分别选取P个参数值组以及Q个参数值组,并在这一次循环中,基于训练样本,分别对P个参数值组以及Q个参数值组进行优化调整,相当于一次循环中对参数值组集合进行两次优化调整,这样,可以加快对参数值组集合进行更新的速度,减少循环次数,节省计算资源。
在一种可能的实现方式中,根据训练样本,确定参数值组集合中的每个参数值组对应的抽样概率,基于参数值组集合中的每个参数值组对应的抽样概率,选取P个参数值组,在参数值组集合中随机选取Q个参数值组。
本申请实施例所示的方案,根据每个参数值组对应的抽样概率在参数值组集合中选取P 个参数值组,越好的参数值组其抽样概率越大,而抽样概率越大的参数值组,被选取为P个参数值组的概率越大,因此,P个参数值组中的参数值组相对来说较好。
在一种可能的实现方式中,对于P个参数值组和Q个参数值组中的任一参数值组,将任一参数值组确定为待优化参数值组,确定待优化参数值组对应的至少一个备选参数值组,根据训练样本,确定待优化参数值组和至少一个备选参数值组分别对应的抽样概率,根据待优化参数值组和至少一个备选参数值组分别对应的抽样概率,在待优化参数值组和至少一个备选参数值组中,选取一个参数值组,使用选取的参数值组更新待优化参数值组。
本申请实施例所示的方案,在待优化参数值组基础上开采出至少一个备选参数值组,然后在待优化参数值组以及至少一个备选参数值组中,根据抽样概率选取一个参数值组来更新待优化参数值组,如果选取出的参数值组是待优化参数值组,则无需更新待优化参数值组,如果选取出的参数值组是至少一个备选参数值组中的一个备选参数值组,则使用选取的备选参数值组替换待优化参数值组。越好的参数值组其抽样概率越大,因此被选取出来的概率越大,但也存在选取出的参数值组不好的可能性,通过这种方式对参数值组进行加噪。
在一种可能的实现方式中,如果待优化参数值组属于P个参数值组,则在参数值组集合中随机选取至少一个参数值组作为基础参数值组,如果待优化参数值组属于Q个参数值组,则在P个参数值组中随机选取至少一个参数值组作为基础参数值组;根据待优化参数值组、基础参数值组以及随机生成的调整系数,确定待优化参数值组对应的至少一个备选参数值组。
本申请实施例所示的方案,为了达到广度开采的目的,对于属于P个参数值组的待优化参数值组,在参数值组集合中随机选取至少一个参数值组作为其基础参数值组,基于参数值组集合中的参数值组生成待优化参数值组的备选参数值组。为了达到深度开采的目的,对于属于Q个参数值组的待优化参数值组,在P个参数值组中随机选取至少一个参数值组作为基础参数值组,基于P个参数值组中的参数值组生成待优化参数值组的备选参数值组。
在一种可能的实现方式中,如果选取的参数值组为待优化参数值组,则对待优化参数值组的计数值增加预设数值;当待优化参数值组对应的计数值达到预设计数值最大值,则在参数值组集合中删除待优化参数值组,并随机生成一个参数值组添加到参数值组集合中。
本申请实施例所示的方案,可以在生成每个参数值组时,将其计数值设定为初始值。每次循环中,在待优化参数值以及对应的至少一个备选参数值组中,选取用于更新待优化参数值组的参数值组时,如果选取的参数值组为待优化参数值组,则对待优化参数值组的计数值增加预设数值。经过多次循环,当待优化参数值组的计数值达到预设计数值最大值,说明多次循环中该待优化参数值组一直没有被更新,这样的参数值组的开发潜力很小,可能无法进行优化,因此,可以将该待优化参数值组从参数值组集合中删除,并根据随机生成新的参数值组添加到参数值组集合中,并为新添加的参数值组的计数值设定为初始值。
在一种可能的实现方式中,预设的循环结束条件为确定出的备选参数值组的总数目达到预设阈值。
本申请实施例所示的方案,每次循环时计算一次更新迭代参数,并将计算得到的更新迭代参数与预设阈值进行比较,如果更新迭代参数达到预设阈值,则结束循环操作,。如果更新迭代参数未达到预设阈值,则继续进行下一次循环操作。
第二方面,提供了一种基于用户数据生成标签的电子设备,该电子设备包括处理器和存储器;所述该存储器存储有一个或多个程序,该一个或多个程序被配置成由该处理器执行,用于实现如上述第一方面中任一项所述的方法的指令。
第三方面,提供了一种基于用户数据生成标签的装置,该装置包括:
扰动模块,用于采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到所述用户数据对应的用户标签的概率服从所述概率分布;
生成模块,用于根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。
可选地,所述扰动模块,用于:
获取每个用户标签的参考数据与概率分布的对应关系,其中,所述概率分布包括待选择的每个用户标签对应的抽样概率;
所述根据用户数据和扰动后的对应关系,生成至少一个用户标签,包括:
基于目标用户数据以及所述每个用户标签的参考数据与概率分布的对应关系,确定与所述目标用户数据相匹配的参考数据对应的概率分布;
基于确定出的概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。
可选地,所述扰动模块,用于:
根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值;
根据所述每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,确定每个用户标签的参考数据与概率分布的对应关系。
可选地,所述扰动模块,用于:
当所述预设的每个用户标签的代表数据以及参考数据均为数值型数据时,根据预设的每个用户标签的代表数据以及所述每个用户标签的数据取值范围,确定所述每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,根据所述每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
可选地,所述扰动模块,用于:
当所述预设的每个用户标签的代表数据以及参考数据均为非数值型数据时,根据所述每个用户标签的代表数据以及每个用户标签的参考数据集合,确定所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,根据所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
可选地,所述扰动模块,用于:
根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集中的每个参考数据的预设权值,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
可选地,所述扰动模块,用于:
根据公式pij=exp(εqij/2Δ1(q)),确定与第i个用户标签的代表数据相对应的第j个用户标签的抽样概率pij;其中,ε表示预设调整系数,qij表示第i个用户标签的代表数据与第j个用户标签的参考数据的效用函数值,Δ1()表示敏感度函数,q表示效用函数;
对每个代表数据对应的所有用户标签的抽样概率pij进行组合,得到每个代表数据对应的概率分布;
基于所述每个代表数据对应的概率分布和每个代表数据对应的用户标签的参考数据,确定每个用户标签的参考数据与概率分布的对应关系。
可选地,所述扰动模块,用于:
对于预先存储的标签生成模型中待训练的模型参数组,随机生成多个参数值组,组成参数值组集合;
根据训练样本,对所述参数值组集合进行优化处理,得到待选参数值组集合;
确定所述待选参数值组集合中的参数值组对应的概率分布,其中,所述概率分布中包括所述待选参数值组集合中每个参数值组对应的抽样概率;
基于所述概率分布,对所述待选参数值组集合中的所有参数值组进行随机抽样处理,得到抽样的参数值组;
基于所述抽样的参数值组,确定训练后的标签生成模型;
所述根据用户数据和扰动后的对应关系,生成至少一个用户标签,包括:
将用户数据输入到所述训练后的标签生成模型,得到至少一个用户标签。
可选地,所述扰动模块,用于:
在所述参数值组集合中,循环选取P个参数值组,每次选取P个参数值组后,基于训练样本,对所述P个参数值组进行优化调整,以更新所述参数值组集合,直到满足预设的循环结束条件,得到待选参数值组集合;其中,所述P个参数值组中包括至少一个噪声参数值组,所述噪声参数值组是所述参数值组集合中与所述训练样本匹配度最高的P个参数值组之外的参数值组,P为预设正整数。
可选地,所述扰动模块,用于:
循环选取P个参数值组以及Q个参数值组,每次选取P个参数值组以及Q个参数值组后,基于训练样本,分别对所述P个参数值组以及所述Q个参数值组进行优化调整。
可选地,所述扰动模块910,用于:
根据训练样本,确定所述参数值组集合中的每个参数值组对应的抽样概率,基于所述参数值组集合中的每个参数值组对应的抽样概率,选取P个参数值组,在所述参数值组集合中随机选取Q个参数值组。
可选地,所述扰动模块,用于:
对于所述P个参数值组和所述Q个参数值组中的任一参数值组,将所述任一参数值组确定为待优化参数值组,确定所述待优化参数值组对应的至少一个备选参数值组,根据训练样本,确定所述待优化参数值组和至少一个备选参数值组分别对应的抽样概率,根据所述待优化参数值组和至少一个备选参数值组分别对应的抽样概率,在所述待优化参数值组和至少一个备选参数值组中,选取一个参数值组,使用选取的参数值组更新所述待优化参数值组。
可选地,所述扰动模块,用于:
如果所述待优化参数值组属于所述P个参数值组,则在所述参数值组集合中随机选取至少一个参数值组作为基础参数值组,如果所述待优化参数值组属于所述Q个参数值组,则在所述P个参数值组中随机选取至少一个参数值组作为基础参数值组;
根据所述待优化参数值组、所述基础参数值组以及随机生成的调整系数,确定所述待优化参数值组对应的至少一个备选参数值组。
可选地,所述装置还包括:
增加模块,用于如果选取的参数值组为所述待优化参数值组,则对所述待优化参数值组的计数值增加预设数值;
删除模块,用于当所述待优化参数值组对应的计数值达到预设计数值最大值,则在所述参数值组集合中删除所述待优化参数值组,并随机生成一个参数值组添加到所述参数值组集合中。
可选地,所述预设的循环结束条件为确定出的备选参数值组的总数目达到预设阈值。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质包括指令,当所述计算机可读存储介质在电子设备上运行时,使得所述电子设备执行上述第一方面所述的方法。
第五方面,提供了一种包含指令的计算机程序产品,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行上述第一方面所述的方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例中,采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到用户数据对应的用户标签的概率服从概率分布,然后,根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。这样,生成的用户标签中可能会存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
附图说明
图1是本申请实施例提供的一种系统功能框架示意图;
图2是本申请实施例提供的一种系统结构框架示意图;
图3是本申请实施例提供的一种标签生成服务器的结构框图;
图4是本申请实施例提供的一种系统结构框架示意图;
图5是本申请实施例提供的一种标签生成终端的结构框图;
图6是本申请实施例提供的一种基于用户数据生成标签的方法流程示意图;
图7是本申请实施例提供的一种基于用户数据生成标签的方法流程示意图;
图8是本申请实施例提供的一种基于用户数据生成标签的方法流程示意图;
图9是本申请实施例提供的一种基于用户数据生成标签的装置结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了便于对本申请实施例的理解,下面首先介绍本申请实施例涉及的系统架构。
本申请实施例可以适用于基于隐私保护的标签生成系统,如图1所示,该标签生成系统的功能架构可以分为5个层次,包括业务系统/日志系统原始数据层101、业务系统/日志系统用户数据采集层102、用户数据存储层103、基于用户数据生成标签方法层104及应用服务层 105。业务系统/日志系统原始数据层101是进行生成用户标签的原始数据来源。一般情况下,原始数据为系统拥有者掌握,数据内容与形式越多样的,生成的用户标签内容越丰富。业务系统/日志系统基础数据采集层102,是指利用Kafka(一种分布式发布订阅消息系统)、Flume (一种用于进行日志采集、聚合和传输的系统)等组件、Restful API(Representational State Transfer Application Programming Interface,一种应用程序编程接口的设计方式)接口、数据探针、SQL(Structured Query Language,结构化查询语言)查询等获取生成用户标签的用户基础数据。获取到用于生成用户标签的用户基础数据后,上述数据将被存储于基础数据存储层103,存储组件可以是Hbase(一种分布式数据库)、MySQL(一种关系型数据库管理系统) 等常见数据库中的一种或者几种。基于用户数据生成标签方法层104负责在保护用户隐私的前提下,根据用户基础数据存储器中的数据生成用户标签。用户标签主要使用Python、R等语言实现,其中的挖掘类标签还可以利用Sklearn(scikit-learn,一种机器学习库)、Tensorflow (一种开放源代码软件库)等框架辅助部署。应用服务层105主要包含使用生成的用户标签的应用服务,如画像数据存储、广告推送、用户(网元)生命周期管理等。
基于上述标签生成系统的功能架构,该标签生成系统的结构框架可以如图2所示,包括业务服务器201、日志服务器202、终端203、标签生成服务器204,其中,标签生成服务器204是基于用户数据生成用户标签的服务器,该标签生成服务器204可以是可信云服务器等服务器。业务服务器201以及日志服务器202中存储有用户数据,终端203向业务服务器201以及日志服务器202获取用于生成用户标签的用户数据。终端203内部包括数据收集及存储模块2031、用户数据控制模块2032、终端侧通讯接口2033。获取到用户数据后,数据收集及存储模块2031将上述用户数据存储在终端本地以待后续处理。用户数据控制模块2032用于控制终端侧通讯接口2033发送用户数据。标签生成服务器204包括服务器侧通讯接口2041、用户数据处理模块2042、用户标签控制器2043、统计类标签生成模块2044、挖掘类标签生成模块2045。服务器侧通讯接口2041用于与终端侧通讯接口2033进行数据交互。在用户标签控制器2043的控制下,用户数据处理模块2042负责对服务器侧通讯接口2041接收的用户数据进行数据检索、解析、清洗、转换、简单计算等操作,用于保证待使用的用户数据的一致性。用户标签控制器2043还用于将用户数据下发至对应的标签生成模块中,即将用户数据下发至统计类标签生成模块2044或挖掘类标签生成模块2045,以及收集统计类标签生成模块2044与挖掘类标签生成模块2045生成的用户标签,并控制服务器侧通讯接口2041将用户标签发送给终端203。统计类标签生成模块2044用于根据用户数据和对用户标签的分类规则生成用户标签,挖掘类标签生成模块2045用于通过数学模型对用户数据进行运算生成用户标签。统计类标签生成模块2044以及挖掘类标签生成模块2045生成的用户标签,通过服务器侧通讯接口2041发送至终端侧通讯接口2033,终端侧通讯接口2033将接收到的用户标签发送至用户数据控制模块2032,用户数据控制模块2032对接收到的用户标签进行整合、存储以及应用。
基于上述图2所示的系统架构,该方法的执行主体可以是标签生成服务器,标签生成服务器可以为执行本申请实施例提供的方法的电子设备。图3示出了本申请实施例中标签生成服务器的结构框图,至少可以包括处理器301、存储器302、系统总线303、网络接口306。其中,处理器301可以是CPU(Central Processing Unit,中央处理器),用以执行生成用户标签等处理。处理器301通过读取存储在存储器302的软件代码以及模块,从而执行标签生成服务器的各种功能应用以及数据处理。存储器302用于存储个软件代码以及模块、通过网络接口306接收的数据以及生成的数据等,如用户数据以及生成的用户标签。网络接口306用于数据交互,如接收数据以及发送数据等。该标签生成服务器还可以包括输入设备304以及输出设备305。
基于上述标签生成系统的功能架构,该标签生成系统的结构框架可以如图4所示,包括业务服务器401、日志服务器402、标签生成终端403、应用服务器404,其中,标签生成终端403是基于用户数据生成用户标签的终端,该标签生成终端403可以是便携式移动终端,如智能手机、笔记本电脑、平板电脑等。业务服务器401以及日志服务器402中存储有用户数据,标签生成终端403向业务服务器401以及日志服务器402获取用于生成用户标签的用户数据。标签生成终端403内部包括数据收集及存储模块4031、用户数据处理模块4032、用户标签控制器4033、统计类标签生成模块4034、挖掘类标签生成模块4035。其中,数据收集及存储模块4031从业务服务器401中获取用户数据,如用户的基础数据以及用户业务相关数据等,从日志服务器402中获取用户数据,如用户行为记录类数据等。获取到用户数据后,数据收集及存储模块4031将上述用户数据存储在终端本地以待后续处理。在用户标签控制器4033的控制下,用户数据处理模块4032负责对终端本地存储的用户数据进行数据检索、解析、清洗、转换、简单计算等操作,用于保证待使用的用户数据的一致性。用户数据控制器4033还用于将用户数据下发至对应的标签生成模块中,即将用户数据下发至统计类标签生成模块4034或挖掘类标签生成模块4035。统计类标签生成模块4034用于根据用户数据和对用户标签的分类规则生成用户标签,挖掘类标签生成模块4035用于通过数学模型对用户数据进行运算生成用户标签。统计类标签生成模块4034以及挖掘类标签生成模块4035生成的用户标签,发送至应用服务器404中进行整合、存储以及应用。
基于上述图4所示的系统架构,该方法的执行主体可以是标签生成终端,该标签生成终端可以是执行本申请实施例提供的方法的电子设备。该标签生成终端至少可以包括处理器 501、存储器502、系统总线503、网络接口506。其中,处理器501可以是CPU(CentralProcessing Unit,中央处理器),用以执行生成用户标签等处理。处理器501通过读取存储在存储器502 的软件代码以及模块,从而执行标签生成终端的各种功能应用以及数据处理。存储器502用于存储个软件代码以及模块、通过网络接口506接收的数据以及生成的数据等,如用户数据以及生成的用户标签。网络接口506用于数据交互,如接收数据以及发送数据等。该标签生成终端还可以包括输入设备504以及输出设备505。
本申请实施例中提到的用户,既可以是实际用户,也可以是通信网络系统组件。当生成实际用户的用户标签时,其用户数据为该实际用户的基础数据、用户业务相关数据以及用户行为记录类数据等,例如用户年龄、用户性别、套餐订购、通话时长、通话频次、流量使用量、分时段流量类型、用户相关日志数据等。当生成通信网络系统组件的用户标签时,其用户数据为该通信网络系统组件的基础数据、被使用的行为记录类数据等,例如业务服务类型、登录失败尝试次数、网元活跃用户数、活跃会话数、连接用户数、配置数据、管理员操作日志、告警信息等数据。
下面将结合具体实施方式,对图6所示的生成统计类用户标签的处理流程进行详细的说明,内容可以如下:
步骤601,采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到用户数据对应的用户标签的概率服从概率分布。
在一种可能的实现方式中,为了实现在生成用户标签的过程中,在保证用户数据安全的前提下,生成具有一定准确率的用户标签,技术人员可以采用概率分布扰动用户数据与用户标签的对应关系,使得基于用户数据得到用户数据对应的用户标签的概率服从概率分布,这样,技术人员可以在保护隐私与标签准确率中进行均衡,使得基于用户数据得到用户数据对应的用户标签的准确率可以进行人为把控。
步骤602,根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。
在一种可能的实现方式中,根据目标用户数据以及扰动后的对应关系,生成至少一个用户标签。生成的用户标签中可能会存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的这些用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
本申请实施例中,采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到用户数据对应的用户标签的概率服从概率分布,然后,根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。这样,生成的用户标签中可能会存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的这些用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
下面将结合具体实施方式,对图7所示的生成统计类用户标签的处理流程进行详细的说明,内容可以如下:
步骤701,获取每个用户标签的参考数据与概率分布的对应关系,其中,概率分布包括待选择的每个用户标签对应的抽样概率。
其中,用户标签的参考数据为划分用户标签的范围信息,相当于进行标签分类的依据,其生成方式可以是人工经验总结、统计规律描述、聚类结果描述等方法中的一种或者几种的组合。举例来说,年龄段的用户标签可以分为幼年、青年、中年和老年四个用户标签,幼年的参考数据为1-12岁,青年的参考数据为13-28岁,中年的参考数据为29-50岁,老年的参考数据为51-100岁。
在一种可能的实现方式中,在根据目标用户数据确定对应的用户标签之前,可以先获取待选择的每个用户标签的参考数据与概率分布的对应关系。该每个用户标签的参考数据与概率分布可以是技术人员根据经验人为设定的,也可以是根据某些算法计算得到的,本申请实施例对此不做限定。
可选地,可以根据确定效用函数值来确定每个用户标签的参考概率与概率分布的对应关系,相应的处理步骤可以如下:根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值;根据每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,确定每个用户标签的参考数据与概率分布的对应关系。
其中,效用函数值用于表示某个数据与某个类别数据的相似程度,用户标签的代表数据与用户标签的参考数据的效用函数值用于表示用户标签的代表数据与用户标签的参考数据的相似程度,相似程度越大,则用户标签的代表数据与用户标签的参考数据的效用函数值越大。
在一种可能的实现方式中,在获取预设的每个用户标签的代表数据时,当用户标签的代表数据以及参考数据为不同类型的数据时,获取的方法也不同。
当用户标签的代表数据以及参考数据为数值型数据时,每个用户标签的代表数据可以设置为每个用户标签的参考数据的中值。以年龄段的用户标签为例,年龄段的用户标签包括幼年、青年、中年和老年四个用户标签,幼年的参考数据为1-12岁,青年的参考数据为13-28 岁,中年的参考数据为29-50岁,老年的参考数据为51-100岁,在确定每个用户标签的代表数据时,确定每个用户标签的参考数据的中值,即幼年的代表数据为(1+12)/2=6.5,青年的代表数据为20.5,中年的代表数据为39.5,老年的代表数据为75.5。在获取用户标签的代表数据时,可以是获取预先存储的每个用户标签的代表数据,也可以是根据预先存储的中值算法实时计算每个用户标签的代表数据,本申请实施例对此不做限定。
当用户标签的代表数据以及参考数据为非数值型数据时,每个用户标签的代表数据可以是每个用户标签的参考数据。以性格的用户标签为例,性格的用户标签可以包括运动达人、文艺青年、二次元迷三个用户标签,运动达人的参考数据为篮球、跑步、健身、羽毛球,文艺青年的参考数据为小资、独立音乐、忧郁,二次元迷的参考数据为二次元、动漫、游戏、漫画,则将每个用户标签的参考数据设置为对应的代表数据即可。
根据上述获取的每个用户标签的参考数据以及对应的代表数据,对于每个用户标签的参考数据,分别计算该用户标签的参考数据与每个用户标签的参考数据的效用函数值,可以得到每个用户标签的参考数据与每个用户标签的参考数据的效用函数值。进而,可以根据每个用户标签的参考数据与每个用户标签的参考数据的效用函数值,得到与每个用户标签的参考数据相对应的每个用户标签的参考数据的抽样概率,将得到的多个抽样概率进行组合,可以得到每个用户标签的参考数据对应的概率分布,即得到了每个用户标签的参考数据与概率分布的对应关系。
可选地,当用户标签的代表数据以及参考数据为不同类型的数据时,确定用户标签的代表数据与用户标签的参考数据的效用函数值的方法也不同,下面分别对数值型数据以及非数值型数据对应的效用函数值的确定方法进行说明。
当预设的每个用户标签的代表数据以及参考数据均为数值型数据时,根据预设的每个用户标签的代表数据以及每个用户标签的数据取值范围,确定每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,根据每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
在一种可能的实现方式中,当预设的用户标签的代表数据以及参考数据均为数值型数据时,如上述例举的年龄段的用户标签的代表数据以及参考数据,用户标签的参考数据实际上相当于用户标签的数据取值范围,例如,幼年的用户标签的参考数据是1-12岁,则幼年的用户标签的数据取值范围为[1,12]。
获取预设的每个用户标签的代表数据以及每个用户标签的数据取值范围后,以一个用户标签的代表数据为例,分别确定该用户标签的代表数据与每个用户标签的数据取值范围之间的距离。可选地,可以根据下述公式(1)来计算用户的代表数据与每个用户标签的数据取值范围之间的欧式距离:
其中,dij为第i个用户标签的代表数据与第j个用户标签的数据取值范围之间的欧氏距离,T(i)为第i个用户标签的代表数据,S(j)lower为第j个用户标签的数据取值范围中的下限值,S(j)upper为第j个用户标签的数据取值范围中的上限值。
举例来说,假设计算青年的用户标签的代表数据与中年的用户标签的数据取值范围之间的欧氏距离,青年的用户标签的代表数据为20.5,中年的用户标签的数据取值范围为[29,50],则根据上述公式(1)计算青年的用户标签的代表数据与中年的用户标签的数据取值范围之间的欧氏距离为:
按照上述步骤确定第一个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,再确定第二个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,直到确定每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离。然后,根据确定出的每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,按照下述公式(2),确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值:
其中,qij第i个用户标签的代表数据与第j个用户标签的数据取值范围之间的效用函数值,dij为第i个用户标签的代表数据与第j个用户标签的数据取值范围之间的欧氏距离。
当然,在确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值时,也可以是每当确定出某个用户标签的代表数据与某个用户标签的数据取值范围之间的距离时,就根据确定出的代表数据与数据取值范围之间的距离以及上述公式(2),确定出该用户标签的代表数据与该用户标签的参考数据的效用函数值,然后,再确定该用户标签的代表数据与其它参考数据的距离。也就是说,在确定用户标签的代表数据与用户标签的参考数据的效用函数值时,可以是先确定出每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,再确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值;也可以是每当确定出一个用户标签的代表数据与一个用户标签的数据取值范围之间的距离,就确定该用户标签的代表数据与该用户标签的参考数据的效用函数值。对于确定步骤的顺序,本申请实施例不做限定。
当预设的每个用户标签的代表数据以及参考数据均为非数值型数据时,根据每个用户标签的代表数据以及每个用户标签的参考数据集合,确定每个用户标签的代表数据与每个用户标签的参考数据集合的交集,根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
在一种可能的实现方式中,当预设的每个用户标签的代表数据以及参考数据均为非数值型数据时,如上述例举的性格的用户标签的代表数据以及参考数据,用户标签的参考数据实际上是多个参考数据的集合,如对于运动达人这个用户标签,篮球、跑步、健身、羽毛球中的每个数据可以称为该用户标签的参考数据,这样,{篮球、跑步、健身、羽毛球}可以称为该用户标签的参考数据集合。因此,当预设的每个用户标签的代表数据以及参考数据均为非数值型数据时,用户标签的参考数据可以称为用户标签的参考数据集合。
获取每个用户标签的代表数据以及每个用户标签的参考数据集合后,以一个用户标签的代表数据为例,确定该用户标签的代表数据与每个用户标签的参考数据集合中的参考数据的交集,即确定用户标签的代表数据中是否存在与用户标签的参考数据集合中的参考数据相同的数据,将确定出的代表数据中与参考数据集合中的参考数据相同的数据组成一个集合。然后,按照上述步骤确定每个用户标签的代表数据与每个用户标签的参考数据集合的交集即可。然后,根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集,分别对每个用户标签的代表数据与每个用户标签的参考数据集合的交集进行取模计算,即确定交集中数据的个数,确定出的模值即为对应的用户标签的代表数据与用户标签的参考数据集合的似然支持度。可选地,上述步骤可以使用下述公式(3)来表示:
gij=|T(i)∩S(j)|……(3)
其中,gij为第i个用户标签的代表数据与第j个用户标签的参考数据集合的似然支持度, T(i)为第i个用户标签的代表数据,S(j)为第j个用户标签的参考数据集合,| |为取模运算。
举例来说,兴趣标签包括娱乐、健身、美容这三个标签,娱乐标签的参考数据集合为{书籍、动漫、电影、健美},健身标签的参考数据集合为{塑形、球类运动、健美、水上运动},美容标签的参考数据集合为{健美、塑形、护肤、美发},而每个用户标签的代表数据与其各自的参考数据相同。在确定用户标签的代表数据与用户标签的参考数据集合的交集时,假设确定娱乐标签的代表数据与健身标签的参考数据集合的交集,则将{书籍、动漫、电影、健美} 中的数据逐一与{塑形、球类运动、健美、水上运动}中的数据进行比较,确定“健美”这个数据是娱乐标签的代表数据与健身标签的参考数据集合中均存在的数据,则{健美}即为娱乐标签的代表数据与健身标签的参考数据集合的交集。进而,对娱乐标签的代表数据与健身标签的参考数据集合交集进行取模运算,得到娱乐标签的代表数据与健身标签的参考数据集合的似然支持度为1。相应地,{健美、塑形}为健身标签的代表数据与美容标签的参考数据集合的交集,对健身标签的代表数据与美容标签的参考数据集合的交集进行取模运算,得到的健身标签的代表数据与美容标签的参考数据集合的似然支持度为2。
然后,根据确定出的似然支持度进一步确定对应的用户标签的代表数据与用户标签的参考数据集合的效用函数值。可选地,可以使用户标签的代表数据与用户标签的参考数据集合的效用函数值等于其对应的似然支持度。
可选地,在确定非数值型数据的用户标签的代表数据与用户标签的参考数据的效用函数值时,可以为用户标签的参考数据集合中的每个参考数据预先设置不同的权值,相应的处理步骤可以如下:根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集中的每个参考数据的预设权值,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
在一种可能的实现方式中,通过上述步骤确定了用户标签的代表数据与参考数据集合的交集后,获取交集中每个参考数据的预设权值。然后,在对交集进行取模运算时,根据交集中每个参考数据的预设权值调整取模运算过程中每个参考数据的系数,得到用户标签的代表数据与参考数据集合的似然支持度,进而根据用户标签的代表数据与参考数据集合的似然支持度得到对应的效用函数值。举例来说,通过上述例子可知,健身标签的代表数据与美容标签的参考数据集合的交集为{健美、塑形},假设“健美”的预设权值为10,“塑形”的预设权值为2,则健身标签的代表数据与美容标签的参考数据集合的似然支持度为10×1+2×1=12,即健身标签的代表数据与美容标签的参考数据集合的效用函数值为12。
需要说明的是,可以根据下述公式(4)确定用户标签的代表数据与参考数据集合的似然支持度:
其中,gij为第i个用户标签的代表数据与第j个用户标签的参考数据集合的似然支持度, wik为第i个用户标签的代表数据中的第k个数据的预设权值,χ为示性函数,T(i)(k)为第i个用户标签的代表数据中的第k个数据,S(j)第j个用户标签的参考数据集合。
以上述例举的兴趣标签为例,通过上述步骤可知,健身标签的参考数据集合为{塑形、球类运动、健美、水上运动},美容标签的参考数据集合为{健美、塑形、护肤、美发},假设健身标签的参考数据集合中每个参考数据的预设权值分别为2、3、10、2。结合上述公式(4)计算健身标签的代表数据与美容标签的参考数据集合的似然支持度时,健身标签的参考数据集合中的第1个参考数据(即T(1)(1))属于美容标签的参考数据集合(即S(2)),则示性函数的值为1;健身标签的参考数据集合中的第2个参考数据(即T(1)(2))不属于美容标签的参考数据集合(即S(2)),则示性函数的值为0。以此类推,可以得到下述算式:
这样,确定健身标签的代表数据与美容标签的参考数据集合的似然支持度为12,即健身标签的代表数据与美容标签的参考数据集合的效用函数值为12。
可选地,根据确定出的用户标签的代表数据与用户标签的参考数据的效用函数值,可以确定出与用户标签数据的代表数据相对应的用户标签的抽样概率,进而得到每个代表数据对应的概率分布,并确定每个用户标签的参考数据与概率分布的对应关系,相应的处理步骤可以如下:根据公式pij=exp(εqij/2Δ1(q)),确定与第i个用户标签的代表数据相对应的第j个用户标签的抽样概率pij;其中,ε表示预设调整系数,qij表示第i个用户标签的代表数据与第j 个用户标签的参考数据的效用函数值,Δ1()表示敏感度函数,q表示效用函数;对每个代表数据对应的所有用户标签的抽样概率pij进行组合,得到每个代表数据对应的概率分布;基于每个代表数据对应的概率分布和每个代表数据对应的用户标签的参考数据,确定每个用户标签的参考数据与概率分布的对应关系。
在一种可能的实现方式中,通过上述步骤确定出的用户标签的代表数据与用户标签的参考数据的效用函数值后,根据下述公式(5)确定与用户标签的代表数据相对应的每个用户标签的输出可能性度量:
pij=exp(εqij/2Δ1(q))……(5)
其中,ε表示预设调整系数,qij表示第i个用户标签的代表数据与第j个用户标签的参考数据的效用函数值,Δ1()表示敏感度函数,q表示效用函数。
确定出与第i个用户标签的代表数据相对应的每个用户标签的输出可能性度量后,根据公式pij/∑pij分别确定与第i个用户标签的代表数据相对应的每个用户标签的抽样概率。
需要说明的是,与用户标签的代表数据相对应的每个用户标签的输出可能性度量与对应的效用函数值成正比,与用户标签的代表数据相对应的每个用户标签的抽样概率与对应的输出可能性度量成正比,而用户标签的代表数据与用户标签的参考数据的效用函数值表示用户标签的代表数据与用户标签的参考数据相似程度,相似程度越大,则效用函数值越大。因此,用户标签的代表数据与用户标签的参考数据相似程度越大,与用户标签的代表数据对应的用户标签的抽样概率越大。
确定与某个用户标签的代表数据对应的每个用户标签的抽样概率pij后,将这一组抽样概率pij组合起来,形成一个概率分布,即为该用户标签的代表数据对应的概率分布。依此方式确定出每个用户标签的代表数据对应的概率分布。然后,每个代表数据对应的概率分布和每个代表数据对应的用户标签的参考数据,确定并存储每个用户标签的参考数据与概率分布的对应关系。
步骤702,基于目标用户数据以及每个用户标签的参考数据与概率分布的对应关系,确定与目标用户数据相匹配的参考数据对应的概率分布。
在一种可能的实现方式中,当想要确定目标用户数据对应的用户标签时,获取根据上述步骤确定的每个用户标签的参考数据与概率分布的对应关系。根据每个用户标签的参考数据与概率分布的对应关系,确定目标用户数据所属的用户标签的参考数据对应的概率分布,即为与目标用户数据相匹配的参考数据对应的概率分布。
可选地,如果目标用户数据为数值型数据,则确定目标用户数据所对应的用户标签的参考数据,即确定目标用户数据在哪个用户标签的参考数据的范围内,然后,根据用户标签的参考数据与概率分布的对应关系,确定目标用户数据所对应的用户标签的参考数据对应的概率分布,即为与目标用户数据相匹配的参考数据对应的概率分布。
举例来说,获取每个用户标签的参考数据与概率分布的对应关系可以如下表1所示。
表1
用户标签的参考数据 | 概率分布 |
[1,10] | {0.80,0.15,0.05} |
(11,20] | {0.10,0.80,0.10} |
(21,30] | {0.05,0.15,0.80} |
假设目标用户数据为14,则根据上表1可以确定目标用户数据所对应的用户标签的参考数据为(11,20],而参考数据(11,20]对应的概率分布为{0.10,0.80,0.10},因此,可以确定与目标用户数据相匹配的参考数据对应的概率分布为{0.10,0.80,0.10}。
如果目标用户数据为非数值型数据,则确定与目标用户数据匹配度最高的用户标签的参考数据,其中,目标用户数据与用户标签的参考数据的匹配度可以理解成相似度,例如,目标用户数据为{a,b,c},第一个用户标签的参考数据为{a,d,e,f},第二个用户标签的参考数据为{a,b,e,f},相对来说,目标用户数据与第一个用户标签的参考数据的相似度小于目标用户数据与第二个用户标签的参考数据的相似度。
然后,根据用户标签的参考数据与概率分布的对应关系,确定目标用户数据所对应的用户标签的参考数据对应的概率分布,即为与目标用户数据相匹配的参考数据对应的概率分布。
再例如,获取每个用户标签的参考数据与概率分布的对应关系可以如下表2所示。
表2
用户标签的参考数据 | 概率分布 |
书籍、动漫、电影、健美 | {0.80,0.10,0.10} |
塑形、球类运动、健美、水上运动 | {0.10,0.70,0.20} |
健美、塑形、护肤、美发 | {0.10,0.20,0.70} |
假设目标用户数据为{书籍、塑形、球类运动、水上运动},根据表2可知,可以确定与目标用户数据匹配度最大的参考数据是{塑形、球类运动、健美、水上运动},而参考数据{塑形、球类运动、健美、水上运动}所对应的概率分布是{0.10,0.70,0.20},因此,可以确定与目标用户数据相匹配的参考数据对应的概率分布为{0.10,0.70,0.20}。
步骤703,基于确定出的概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。
在一种可能的实现方式中,通过上述步骤702确定出与目标用户数据相匹配的参考数据对应的概率分布后,根据概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。随机抽样的方法有很多种,如根据生成的随机数进行抽样处理,假设与目标用户数据相匹配的参考数据对应的概率分布为{0.10,0.80, 0.10},则根据概率分布划分出每个用户标签对应的概率范围,分别为[0,0.10]、(0.10,0.90]、 (0.90,1.00],然后,根据随机数生成算法在[0,1]的取值范围内生成一个随机数为0.47,确定生成的随机数所属的概率范围为(0.10,0.90],因此,将概率范围(0.10,0.90]对应的用户标签确定为随机抽样处理得到的抽样的用户标签。或者,随机抽样的方法还可以是生成10个白球、 80个黑球以及10个红球,在这100个球中随机抽取一个球,根据抽取到的球的颜色确定抽取到的用户标签。随机抽样的方法多种多样,本申请实施例对此不做限定。
下面将结合具体实施方式,对图8所示的生成挖掘类用户标签的处理流程进行详细的说明,内容可以如下:
步骤801,对于预先存储的标签生成模型中待训练的模型参数组,随机生成多个参数值组,组成参数值组集合。
在一种可能的实现方式中,获取预先存储的标签生成模型,该标签生成模型是未经过训练的初始模型,对该标签生成模型进行训练,即对该标签生成模型中的多个模型参数(可称为模型参数组)进行训练,得到每个模型参数的参数值。
对于待训练的模型参数组,使用预设算法随机生成多个参数值组,组成参数值组集合。举例来说,假设待训练的模型参数组包括5个待训练的参数,分别为a、b、c、d、e,则随机生成N个参数值组,分别为{a1,b1,c1,d1,e1}、{a2,b2,c2,d2,e2}、……、{aN,bN,cN,dN,eN},将这n个参数值组按照预设顺序组成参数值组集合,该参数值组集合相当于一个矩阵。
可选地,可以根据下述公式(6)来生成多个参数值组:
其中,xij为第i个参数值组中的第j个参数的参数值,i的取值范围为[1,N]的正整数,N 为预设的参数值组集合中的参数值组的个数,j的取值范围是[1,n]的正整数,n为待训练的模型参数组中参数的个数;为预设的第j个参数的下限值,为预设的第j个参数的上限值, randj为第j个参数对应的随机调整系数,randj的取值范围是[0,1]的随机数。
步骤802,根据训练样本,对参数值组集合进行优化处理,得到待选参数值组集合。
在一种可能的实现方式中,通过上述步骤得到参数值组集合后,根据训练样本,对参数值组集合中的至少一个参数值组进行优化处理,使得参数值组集合中既包括准确率较高的参数值组,又包括噪声参数值组,得到待选参数值组集合。
可选地,在对参数值组集合进行优化处理时,可以采用循环的方式进行优化处理,来提高参数值组集合中参数值组的准确率,相应的处理步骤可以如下:在参数值组集合中,循环选取P个参数值组,每次选取P个参数值组后,基于训练样本,对P个参数值组进行优化调整,以更新参数值组集合,直到满足预设的循环结束条件,得到待选参数值组集合。
其中,P个参数值组中包括至少一个噪声参数值组,噪声参数值组是参数值组集合中与训练样本匹配度最高的P个参数值组之外的参数值组,P为预设正整数。
在一种可能的实现方式中,考虑到如果将参数值组集合中的所有参数值组同时进行优化调整,会导致收敛的速度很慢,因此,在参数值组集合中,可以先选取P个参数值组,根据预存的训练样本对选取的这P个参数值组进行优化调整。在对这P个参数值组中的一个或多个参数值组进行优化调整时,实际上是在参数值组集合中的P个参数值组对应的参数值组进行优化调整,也即是说,对选取的这P个参数值组进行优化调整实际上是对参数值组集合进行更新。
然后,在更新后的参数值组集合中重新选取P个参数值组,根据训练样本对新选出的这 P个参数值组进行优化调整,以达到更新参数值组集合的目的。循环上述选取P个参数值组并更新参数值组集合的步骤,直到满足预设的循环结束条件时,停止循环操作,将此时的参数值组集合确定为待选参数值组集合。
需要说明的是,在上述每次选取P个参数值组时,选取的P个参数值组包括至少一个噪声参数值组,以使优化过程含噪,使得通过这样的方法训练得到的标签生成模型含噪,使得不法分子无法通过含噪的标签生成模型生成的用户标签反推出用户的隐私信息,进而提高用户数据的安全性。
可选地,为了加快优化调整的速度,减少循环次数,可以分两次选取多个参数值组,分别对参数值组集合进行更新,相应的处理步骤可以如下:循环选取P个参数值组以及Q个参数值组,每次选取P个参数值组以及Q个参数值组后,基于训练样本,分别对P个参数值组以及Q个参数值组进行优化调整。
在一种可能的实现方式中,由于每次选取参数值组集合中的一部分参数值组进行优化调整,为了加快优化调整的速度,减少循环次数,可以在一次循环过程中,分别选取P个参数值组以及Q个参数值组,并在这一次循环中,基于训练样本,分别对P个参数值组以及Q个参数值组进行优化调整,相当于一次循环中对参数值组集合进行两次优化调整,这样,可以加快对参数值组集合进行更新的速度,减少循环次数,节省计算资源。
可选地,在加快优化调整的速度的同时,可以采用不同的方式分别选取P个参数值组以及Q个参数值组,相应的处理步骤可以如下:根据训练样本,确定参数值组集合中的每个参数值组对应的抽样概率,基于参数值组集合中的每个参数值组对应的抽样概率,选取P个参数值组,在参数值组集合中随机选取Q个参数值组。
在一种可能的实现方式中,人工蜂群算法是模仿蜜蜂行为提出的一种优化方法,是集群智能算法的一个具体应用,它的主要特点是不需要了解问题的特殊信息,只需要对问题进行优劣的比较,通过各人工蜂个体的局部寻优行为,最终在群体中使全局最优值突现出来,有着较快的收敛速度。本申请实施例对待训练的模型参数组进行训练时,可以采用人工蜂群算法的基本架构,达到快速收敛的训练效果。
基于人工蜂群算法,可以选取精英集合以及深度开采集合分别进行优化处理,精英集合在优化时采用无偏好的开采算法,在参数值组集合中的某些参数值组进行广度挖掘开采,进而对参数值组进行优化。而深度开采集合在优化时采用了精英个体指导的开采算法,在精英集合中的参数值组的基础上进行深度挖掘开采,进而对参数值组进行优化。
基于上述算法,在选取精英集合(即P个参数值组)时,根据训练样本,确定参数值组集合中的每个参数值组对应的抽样概率,并根据参数值组集合中的每个参数值组对应的抽样概率选取出精英集合。选取的方式可以有多种,例如根据参数值组集合中的每个参数值组对应的抽样概率进行随机抽样处理,在参数值组集合中抽取出P个参数值组,再例如直接选取出参数值组集合中的所有参数值组对应的抽样概率最大的P个参数值组,作为精英集合。具体选取方式根据实际需求进行设定,本申请实施例对此不做限定。
在选取深度开采集合(即Q个参数值组)时,可以在参数值组集合中随机选取Q个参数值组。
需要说明的是,上述确定每个参数值组对应的抽样概率并根据抽样概率选取P个参数值组时,可以采用基于差分隐私的参数值组选取算法进行确定。该基于差分隐私的参数值组选取算法基于差分隐私(DP,differential privacy)的算法架构,可以在输入的多个候选参数值组中抽取出预设选取数目个参数值组,可以将该算法称为DP_Select()算法。该DP_Select()算法的处理可以如下步骤8021-8024:
步骤8021、根据待训练模型的代价函数、训练样本、候选参数值组中的每个参数值组以及下述公式(7),计算得到每个参数值组对应的效用函数值:
qs=f(s,D)……(7)
其中,qs为参数值组对应的效用函数值,s为候选参数值组中的每个参数值组,D为训练样本,f()为待训练模型的代价函数。
步骤8022、根据每个参数值组对应的效用函数值、每个参数值组对应的隐私预算、选取的参数值组的个数、预设的敏感度函数以及待训练模型的代价函数,基于下述公式(8),计算得到候选参数值组中的每个参数值组输出可能性度量:
其中,ps为候选参数值组中的每个参数值组输出可能性度量,ε每个参数值组对应的隐私预算,qs每个参数值组对应的效用函数值,m为选取的参数值组的个数,Δ1()为预设的敏感度函数,f为待训练模型的代价函数。
步骤8023、根据候选参数值组中的每个参数值组输出可能性度量以及公式ps/∑ps,确定候选参数值组中的每个参数值组的抽样概率。
步骤8024、根据候选参数值组中的每个参数值组的抽样概率,对候选参数值组中的所有参数值组进行随机抽样处理,抽取到的m个参数值组即为选取出的参数值组。
基于上述DP_Select()算法,确定DP_Select(D,f,ε,S,m)即为选取出的P个参数值组。
需要说明的是,如果根据上述DP_Select()算法选取P个参数值组,假设精英集合的初始化隐私预算为ε1,基于差分隐私机制,每次选取P个参数值组之前,确定P个参数值组的隐私预算为ε1=ε1/2。
可选地,对于P个参数值组和Q个参数值组中的任一参数值组,将任一参数值组确定为待优化参数值组,确定待优化参数值组对应的至少一个备选参数值组,根据训练样本,确定待优化参数值组和至少一个备选参数值组分别对应的抽样概率,根据待优化参数值组和至少一个备选参数值组分别对应的抽样概率,在待优化参数值组和至少一个备选参数值组中,选取一个参数值组,使用选取的参数值组更新待优化参数值组。
在一种可能的实现方式中,对P个参数值组和Q个参数值组中的参数值组进行优化的方式为,在P个参数值组和Q个参数值组中的任一参数值组(可称为待优化参数值组),确定待优化参数值组对应的至少一个备选参数值组,然后,根据训练样本,确定待优化参数值组和至少一个备选参数值组分别对应的抽样概率,并根据确定出的待优化参数值组和对应的每个备选参数值组对应的抽样概率,在待优化参数值组和至少一个备选参数值组中,选取一个参数值组,使用选取的参数值组更新待优化参数值组。
如果选取出的参数值组是待优化参数值组,则无需更新待优化参数值组,如果选取出的参数值组是至少一个备选参数值组中的一个备选参数值组,则使用选取的备选参数值组替换待优化参数值组。
需要说明的是,上述确定待优化参数值组和至少一个备选参数值组分别对应的抽样概率的方法,可以采用上述步骤中基于差分隐私的参数值组选取算法来确定。这时,算法的输入中,选取的数目m的值为1,隐私预算为ε2=ε2/2,候选参数值组中的参数值组分别为待优化参数值组和对应的至少一个备选参数值组,算法的输出DP_Select(D,f,ε2/2K,N(yi),1)即为在待优化参数值组和至少一个备选参数值组中选取出的、用于更新待优化参数值组的参数值组,算法的运算过程此处不做赘述。其中,K为待优化参数值组所属的参数值组的数目,当待优化参数值组属于P个参数值组时,K的值为P,当待优化参数值组属于Q个参数值组时,K的值为Q;N(yi)为待优化参数值组和至少一个备选参数值组的集合。
可选地,基于不同的优化算法,对P个参数值组以及Q个参数值组分别采用不同的优化方法,相应的处理步骤可以如下:如果待优化参数值组属于P个参数值组,则在参数值组集合中随机选取至少一个参数值组作为基础参数值组,如果待优化参数值组属于Q个参数值组,则在P个参数值组中随机选取至少一个参数值组作为基础参数值组;根据待优化参数值组、基础参数值组以及随机生成的调整系数,确定待优化参数值组对应的至少一个备选参数值组。
在一种可能的实现方式中,基于上述人工蜂群算法的算法架构中,对精英集合在优化时采用无偏好的开采算法,在参数值组集合中的某些参数值组进行广度挖掘开采,进而对参数值组进行优化。因此,如果待优化参数值组属于P个参数值组,在参数值组集合中随机选取至少一个参数值组作为基础参数值组,假设待优化参数值组为y,选出的基础参数值组为x,则可以根据下述公式(9)确定出至少一个备选参数值组:
其中,为第a个备选参数值组中的第j个参数值,a的最大取值可以是参数值组集合中参数值组的个数N与P的比值,为第a个基础参数值组中的第j个参数值,δj为第j个参数值的随机调整系数,yj为待优化参数值组中的第j个参数值。
如果待优化参数值组属于Q个参数值组,基于精英个体指导的开采算法,可以在P个参数值组中随机选取至少一个参数值组作为基础参数值组,假设待优化参数值组为y,选出的基础参数值组为xp,则可以根据下述公式(10)确定出至少一个备选参数值组:
其中,为第b个备选参数值组中的第j个参数值,b的最大取值可以是参数值组集合中参数值组的个数N与Q的比值,为第b个基础参数值组中的第j个参数值,δj为第j个参数值的随机调整系数,yj为待优化参数值组中的第j个参数值。
可选地,在上述循环对参数值组集合中的参数值组进行更新时,可能会存在某个参数值组一直没有被更新,这样的参数值组的开发潜力很小,可能无法进行优化,可以将这样的参数值组删除,相应的处理步骤可以如下:如果选取的参数值组为待优化参数值组,则对待优化参数值组的计数值增加预设数值;当待优化参数值对应的计数值达到预设计数值最大值,则在参数值组集合中删除待优化参数值组,并随机生成一个参数值组添加到参数值组集合中。
在一种可能的实现方式中,可以在生成每个参数值组时,将其计数值设定为初始值。每次循环中,在待优化参数值以及对应的至少一个备选参数值组中,选取用于更新待优化参数值组的参数值组时,如果选取的参数值组为待优化参数值组,则对待优化参数值组的计数值增加预设数值。经过多次循环,当待优化参数值组的计数值达到预设计数值最大值,说明多次循环中该待优化参数值组一直没有被更新,这样的参数值组的开发潜力很小,可能无法进行优化,因此,可以将该待优化参数值组从参数值组集合中删除,并根据上述步骤801中的随机生成算法,随机生成一个参数值组添加到参数值组集合中,并为新添加的参数值组的计数值设定为初始值。
如果在待优化参数值以及对应的至少一个备选参数值组中,选取用于更新待优化参数值组的参数值组时,选取的参数值组为至少一个备选参数值组中的一个备选参数值组,则使用备选参数值组替换待优化参数值组,即删除待优化参数值组以及待优化参数值组对应的计数值,将选取的备选参数值组添加到参数值组集合中,此时,备选参数值组对应的计数值为初始值。
可选地,上述预设数值可以设定为每次循环时生成待优化参数值组对应的备选参数值组的个数,计数值的初始值可以为0。
可选地,上述预设的循环结束条件可以为确定出的备选参数值组的总数目达到预设阈值。
在一种可能的实现方式中,每次循环中,对P个参数值组以及Q个参数值组分别进行优化调整后,可以根据下述公式(11)计算更新迭代参数:
Cycle=Cycle+a×P+b×Q……(11)
其中,Cycle为更新迭代参数,a为P个参数值组中每个待优化参数值组对应的备选参数值组的个数,b为Q个参数值组中每个待优化参数值组对应的备选参数值组的个数。
每次循环时计算一次更新迭代参数,并将计算得到的更新迭代参数与预设阈值进行比较,如果更新迭代参数达到预设阈值,则停止循环操作,进行下述步骤803;如果更新迭代参数未达到预设阈值,则继续进行下一次循环操作。
步骤803,确定待选参数值组集合中的参数值组对应的概率分布,其中,概率分布中包括待选参数值组集合中每个参数值组对应的抽样概率。
在一种可能的实现方式中,通过上述步骤确定待选参数值组集合后,确定待选参数值组集合中的每个参数值组对应的抽样概率,确定抽样概率的方法可以参考上述步骤中的处理方式,此处不做赘述。将每个参数值组对应的抽样概率进行组合,可以得到待选参数值组集合中的参数值组对应的概率分布。
步骤804,基于概率分布,对待选参数值组集合中的所有参数值组进行随机抽样处理,得到抽样的参数值组。
在一种可能的实现方式中,为了达到训练中加噪的效果,使得训练得到的标签生成模型可以保护用户数据的隐私,根据上述步骤得到的待选参数值组集合中的参数值组对应的概率分布,在待选参数值组集合中进行随机抽样处理,得到抽样的参数值组。
步骤805,基于抽样的参数值组,确定训练后的标签生成模型。
在一种可能的实现方式中,根据抽样的参数值组中的各个参数值,设定标签生成模型中待训练的各个模型参数的参数值,设定参数值后的标签生成模型即为训练好的标签生成模型。
步骤806,将用户数据输入到训练后的标签生成模型,得到至少一个用户标签。
在一种可能的实现方式中,通过上述步骤得到训练后的标签生成模型后,当用户想要根据用户数据生成对应的用户标签时,可以将用户数据输入到训练后的标签生成模型,标签生成模型输出用户数据对应的用户标签。
本申请实施例中,采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到用户数据对应的用户标签的概率服从概率分布,然后,根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。这样,生成的用户标签中可能会存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的这些用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
基于相同的技术构思,本申请实施例还提供了一种基于用户数据生成标签的装置,如图 9所示,该装置包括扰动模块910以及生成模块920,其中:
扰动模块910,用于采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到所述用户数据对应的用户标签的概率服从所述概率分布,具体可以实现上述步骤601 中的扰动功能,以及其他隐含步骤;
生成模块920,用于根据目标用户数据和扰动后的对应关系,生成至少一个用户标签,具体可以实现上述步骤602中的读取功能,以及其他隐含步骤。
可选地,所述扰动模块910,用于:
获取每个用户标签的参考数据与概率分布的对应关系,其中,所述概率分布包括待选择的每个用户标签对应的抽样概率;
所述根据用户数据和扰动后的对应关系,生成至少一个用户标签,包括:
基于目标用户数据以及所述每个用户标签的参考数据与概率分布的对应关系,确定与所述目标用户数据相匹配的参考数据对应的概率分布;
基于确定出的概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。
可选地,所述扰动模块910,用于:
根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值;
根据所述每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,确定每个用户标签的参考数据与概率分布的对应关系。
可选地,所述扰动模块910,用于:
当所述预设的每个用户标签的代表数据以及参考数据均为数值型数据时,根据预设的每个用户标签的代表数据以及所述每个用户标签的数据取值范围,确定所述每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,根据所述每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
可选地,所述扰动模块910,用于:
当所述预设的每个用户标签的代表数据以及参考数据均为非数值型数据时,根据所述每个用户标签的代表数据以及每个用户标签的参考数据集合,确定所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,根据所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
可选地,所述扰动模块910,用于:
根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集中的每个参考数据的预设权值,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
可选地,所述扰动模块910,用于:
根据公式pij=exp(εqij/2Δ1(q)),确定与第i个用户标签的代表数据相对应的第j个用户标签的抽样概率pij;其中,ε表示预设调整系数,qij表示第i个用户标签的代表数据与第j个用户标签的参考数据的效用函数值,Δ1()表示敏感度函数,q表示效用函数;
对每个代表数据对应的所有用户标签的抽样概率pij进行组合,得到每个代表数据对应的概率分布;
基于所述每个代表数据对应的概率分布和每个代表数据对应的用户标签的参考数据,确定每个用户标签的参考数据与概率分布的对应关系。
可选地,所述扰动模块910,用于:
对于预先存储的标签生成模型中待训练的模型参数组,随机生成多个参数值组,组成参数值组集合;
根据训练样本,对所述参数值组集合进行优化处理,得到待选参数值组集合;
确定所述待选参数值组集合中的参数值组对应的概率分布,其中,所述概率分布中包括所述待选参数值组集合中每个参数值组对应的抽样概率;
基于所述概率分布,对所述待选参数值组集合中的所有参数值组进行随机抽样处理,得到抽样的参数值组;
基于所述抽样的参数值组,确定训练后的标签生成模型;
所述根据用户数据和扰动后的对应关系,生成至少一个用户标签,包括:
将用户数据输入到所述训练后的标签生成模型,得到至少一个用户标签。
可选地,所述扰动模块910,用于:
在所述参数值组集合中,循环选取P个参数值组,每次选取P个参数值组后,基于训练样本,对所述P个参数值组进行优化调整,以更新所述参数值组集合,直到满足预设的循环结束条件,得到待选参数值组集合;其中,所述P个参数值组中包括至少一个噪声参数值组,所述噪声参数值组是所述参数值组集合中与所述训练样本匹配度最高的P个参数值组之外的参数值组,P为预设正整数。
可选地,所述扰动模块910,用于:
循环选取P个参数值组以及Q个参数值组,每次选取P个参数值组以及Q个参数值组后,基于训练样本,分别对所述P个参数值组以及所述Q个参数值组进行优化调整。
可选地,所述扰动模块910,用于:
根据训练样本,确定所述参数值组集合中的每个参数值组对应的抽样概率,基于所述参数值组集合中的每个参数值组对应的抽样概率,选取P个参数值组,在所述参数值组集合中随机选取Q个参数值组。
可选地,所述扰动模块910,用于:
对于所述P个参数值组和所述Q个参数值组中的任一参数值组,将所述任一参数值组确定为待优化参数值组,确定所述待优化参数值组对应的至少一个备选参数值组,根据训练样本,确定所述待优化参数值组和至少一个备选参数值组分别对应的抽样概率,根据所述待优化参数值组和至少一个备选参数值组分别对应的抽样概率,在所述待优化参数值组和至少一个备选参数值组中,选取一个参数值组,使用选取的参数值组更新所述待优化参数值组。
可选地,所述扰动模块910,用于:
如果所述待优化参数值组属于所述P个参数值组,则在所述参数值组集合中随机选取至少一个参数值组作为基础参数值组,如果所述待优化参数值组属于所述Q个参数值组,则在所述P个参数值组中随机选取至少一个参数值组作为基础参数值组;
根据所述待优化参数值组、所述基础参数值组以及随机生成的调整系数,确定所述待优化参数值组对应的至少一个备选参数值组。
可选地,如图9所示,所述装置还包括:
增加模块930,用于如果选取的参数值组为所述待优化参数值组,则对所述待优化参数值组的计数值增加预设数值;
删除模块940,用于当所述待优化参数值组对应的计数值达到预设计数值最大值,则在所述参数值组集合中删除所述待优化参数值组,并随机生成一个参数值组添加到所述参数值组集合中。
可选地,所述预设的循环结束条件为确定出的备选参数值组的总数目达到预设阈值。
需要说明的是,上述扰动模块910、生成模块920、增加模块930、删除模块940可以由处理器实现,或者由处理器配合存储器、收发器来实现。
本申请实施例中,采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到用户数据对应的用户标签的概率服从概率分布,然后,根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。这样,生成的用户标签中可能会存在不准确的用户标签,在生成的所有用户标签的整体来看,是具有一定准确性的,不影响用户的产品推广、自动化营销等使用。但由于所有用户标签中可能存在的不准确的用户标签,不法分子无法通过生成的这些用户标签反推出用户的隐私信息,也无法根据生成的这些用户标签确定用户的身份信息,对用户的隐私信息起到了保护作用,提高了用户数据的安全性。
需要说明的是:上述实施例提供的基于用户数据生成标签的装置在基于用户数据生成标签时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的基于用户数据生成标签的装置与基于用户数据生成标签的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在设备上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴光缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是设备能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质 (如软盘、硬盘和磁带等),也可以是光介质(如数字视盘(Digital VideoDisk,DVD)等),或者半导体介质(如固态硬盘等)。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请一个实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种基于用户数据生成标签的方法,其特征在于,所述方法包括:
采用概率分布扰动用户数据与用户标签的对应关系,以使基于用户数据得到所述用户数据对应的用户标签的概率服从所述概率分布;
根据目标用户数据和扰动后的对应关系,生成至少一个用户标签。
2.根据权利要求1所述的方法,其特征在于,所述采用概率分布扰动用户数据与用户标签的对应关系,包括:
获取每个用户标签的参考数据与概率分布的对应关系,其中,所述概率分布包括待选择的每个用户标签对应的抽样概率;
所述根据用户数据和扰动后的对应关系,生成至少一个用户标签,包括:
基于目标用户数据以及所述每个用户标签的参考数据与概率分布的对应关系,确定与所述目标用户数据相匹配的参考数据对应的概率分布;
基于确定出的概率分布中每个用户标签对应的抽样概率,对待选择的所有用户标签进行随机抽样处理,得到抽样的用户标签。
3.根据权利要求2所述的方法,其特征在于,所述获取每个用户标签的参考数据与概率分布的对应关系,包括:
根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值;
根据所述每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,确定每个用户标签的参考数据与概率分布的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述预设的每个用户标签的代表数据以及参考数据均为数值型数据,所述根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,包括:
根据预设的每个用户标签的代表数据以及所述每个用户标签的数据取值范围,确定所述每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,根据所述每个用户标签的代表数据与每个用户标签的数据取值范围之间的距离,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
5.根据权利要求3所述的方法,其特征在于,所述预设的每个用户标签的代表数据以及参考数据均为非数值型数据,所述根据每个用户标签的参考数据以及预设的每个用户标签的代表数据,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,包括:
根据所述每个用户标签的代表数据以及每个用户标签的参考数据集合,确定所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,根据所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个用户标签的代表数据与每个用户标签的参考数据集合的交集,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,包括:
根据每个用户标签的代表数据与每个用户标签的参考数据集合的交集中的每个参考数据的预设权值,确定每个用户标签的代表数据与每个用户标签的参考数据的效用函数值。
7.根据权利要求3所述的方法,其特征在于,所述根据所述每个用户标签的代表数据与每个用户标签的参考数据的效用函数值,确定每个用户标签的参考数据与概率分布的对应关系,包括:
根据公式pij=exp(εqij/2Δ1(q)),确定与第i个用户标签的代表数据相对应的第j个用户标签的抽样概率pij;其中,ε表示预设调整系数,qij表示第i个用户标签的代表数据与第j个用户标签的参考数据的效用函数值,Δ1()表示敏感度函数,q表示效用函数;
对每个代表数据对应的所有用户标签的抽样概率pij进行组合,得到每个代表数据对应的概率分布;
基于所述每个代表数据对应的概率分布和每个代表数据对应的用户标签的参考数据,确定每个用户标签的参考数据与概率分布的对应关系。
8.根据权利要求1所述的方法,其特征在于,所述采用概率分布扰动用户数据与用户标签的对应关系,包括:
对于预先存储的标签生成模型中待训练的模型参数组,随机生成多个参数值组,组成参数值组集合;
根据训练样本,对所述参数值组集合进行优化处理,得到待选参数值组集合;
确定所述待选参数值组集合中的参数值组对应的概率分布,其中,所述概率分布中包括所述待选参数值组集合中每个参数值组对应的抽样概率;
基于所述概率分布,对所述待选参数值组集合中的所有参数值组进行随机抽样处理,得到抽样的参数值组;
基于所述抽样的参数值组,确定训练后的标签生成模型;
所述根据用户数据和扰动后的对应关系,生成至少一个用户标签,包括:
将用户数据输入到所述训练后的标签生成模型,得到至少一个用户标签。
9.根据权利要求8所述的方法,其特征在于,所述根据训练样本,对所述参数值组集合进行优化处理,得到待选参数值组集合,包括:
在所述参数值组集合中,循环选取P个参数值组,每次选取P个参数值组后,基于训练样本,对所述P个参数值组进行优化调整,以更新所述参数值组集合,直到满足预设的循环结束条件,得到待选参数值组集合;其中,所述P个参数值组中包括至少一个噪声参数值组,所述噪声参数值组是所述参数值组集合中与所述训练样本匹配度最高的P个参数值组之外的参数值组,P为预设正整数。
10.根据权利要求9所述的方法,其特征在于,所述循环选取P个参数值组,每次选取P个参数值组后,基于训练样本,对所述P个参数值组进行优化调整,包括:
循环选取P个参数值组以及Q个参数值组,每次选取P个参数值组以及Q个参数值组后,基于训练样本,分别对所述P个参数值组以及所述Q个参数值组进行优化调整。
11.根据权利要求10所述的方法,其特征在于,所述选取P个参数值组以及Q个参数值组,包括:
根据训练样本,确定所述参数值组集合中的每个参数值组对应的抽样概率,基于所述参数值组集合中的每个参数值组对应的抽样概率,选取P个参数值组,在所述参数值组集合中随机选取Q个参数值组。
12.根据权利要求10所述的方法,其特征在于,所述基于训练样本,分别对所述P个参数值组以及所述Q个参数值组进行优化调整,包括:
对于所述P个参数值组和所述Q个参数值组中的任一参数值组,将所述任一参数值组确定为待优化参数值组,确定所述待优化参数值组对应的至少一个备选参数值组,根据训练样本,确定所述待优化参数值组和至少一个备选参数值组分别对应的抽样概率,根据所述待优化参数值组和至少一个备选参数值组分别对应的抽样概率,在所述待优化参数值组和至少一个备选参数值组中,选取一个参数值组,使用选取的参数值组更新所述待优化参数值组。
13.根据权利要求12所述的方法,其特征在于,所述确定所述待优化参数值组对应的至少一个备选参数值组,包括:
如果所述待优化参数值组属于所述P个参数值组,则在所述参数值组集合中随机选取至少一个参数值组作为基础参数值组,如果所述待优化参数值组属于所述Q个参数值组,则在所述P个参数值组中随机选取至少一个参数值组作为基础参数值组;
根据所述待优化参数值组、所述基础参数值组以及随机生成的调整系数,确定所述待优化参数值组对应的至少一个备选参数值组。
14.根据权利要求12所述的方法,其特征在于,所述方法还包括:
如果选取的参数值组为所述待优化参数值组,则对所述待优化参数值组的计数值增加预设数值;
当所述待优化参数值组对应的计数值达到预设计数值最大值,则在所述参数值组集合中删除所述待优化参数值组,并随机生成一个参数值组添加到所述参数值组集合中。
15.根据权利要求12-14中任一权利要求所述的方法,其特征在于,所述预设的循环结束条件为确定出的备选参数值组的总数目达到预设阈值。
16.一种基于用户数据生成标签的电子设备,其特征在于,所述电子设备包括处理器和存储器;
所述存储器存储有一个或多个程序,所述一个或多个程序被配置成由所述处理器执行,用于实现如权利要求1-15中任一项所述的方法的指令。
17.一种计算机可读存储介质,其特征在于,包括指令,当所述计算机可读存储介质在电子设备上运行时,使得所述电子设备执行所述权利要求1-15中任一权利要求所述的方法。
18.一种包含指令的计算机程序产品,其特征在于,当所述计算机程序产品在电子设备上运行时,使得所述电子设备执行所述权利要求1-15中任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100788.6A CN111506617B (zh) | 2019-01-31 | 2019-01-31 | 一种基于用户数据生成标签的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910100788.6A CN111506617B (zh) | 2019-01-31 | 2019-01-31 | 一种基于用户数据生成标签的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111506617A true CN111506617A (zh) | 2020-08-07 |
CN111506617B CN111506617B (zh) | 2023-10-20 |
Family
ID=71877311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910100788.6A Active CN111506617B (zh) | 2019-01-31 | 2019-01-31 | 一种基于用户数据生成标签的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506617B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040015464A1 (en) * | 2002-03-25 | 2004-01-22 | Lockheed Martin Corporation | Method and computer program product for producing a pattern recognition training set |
US20160117512A1 (en) * | 2014-10-23 | 2016-04-28 | Samsung Electronics Co., Ltd. | Computing system with information privacy mechanism and method of operation thereof |
CN105701230A (zh) * | 2016-01-19 | 2016-06-22 | 成都品果科技有限公司 | 一种基于图像内容的用户兴趣细分方法及系统 |
CN106096439A (zh) * | 2016-06-03 | 2016-11-09 | 武汉大学 | 一种基于移动用户配置文件混淆的隐私保护系统及方法 |
CN106204091A (zh) * | 2015-05-28 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法和装置 |
US20170124152A1 (en) * | 2015-11-02 | 2017-05-04 | LeapYear Technologies, Inc. | Differentially private processing and database storage |
US20170178168A1 (en) * | 2015-12-21 | 2017-06-22 | International Business Machines Corporation | Effectiveness of service complexity configurations in top-down complex services design |
US20170337487A1 (en) * | 2014-10-24 | 2017-11-23 | National Ict Australia Limited | Learning with transformed data |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
CN107886009A (zh) * | 2017-11-20 | 2018-04-06 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
US20180316776A1 (en) * | 2016-04-29 | 2018-11-01 | Tencent Technology (Shenzhen) Company Limited | User portrait obtaining method, apparatus, and storage medium |
CN109117889A (zh) * | 2018-08-23 | 2019-01-01 | 北京小米智能科技有限公司 | 标签预测方法及装置 |
US20190005151A1 (en) * | 2017-06-28 | 2019-01-03 | General Electric Company | Tag mapping process and pluggable framework for generating algorithm ensemble |
CN109284620A (zh) * | 2017-07-19 | 2019-01-29 | 中国移动通信集团黑龙江有限公司 | 一种发布数据的生成方法、装置和服务器 |
-
2019
- 2019-01-31 CN CN201910100788.6A patent/CN111506617B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040015464A1 (en) * | 2002-03-25 | 2004-01-22 | Lockheed Martin Corporation | Method and computer program product for producing a pattern recognition training set |
US20160117512A1 (en) * | 2014-10-23 | 2016-04-28 | Samsung Electronics Co., Ltd. | Computing system with information privacy mechanism and method of operation thereof |
US20170337487A1 (en) * | 2014-10-24 | 2017-11-23 | National Ict Australia Limited | Learning with transformed data |
CN106204091A (zh) * | 2015-05-28 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法和装置 |
US20170124152A1 (en) * | 2015-11-02 | 2017-05-04 | LeapYear Technologies, Inc. | Differentially private processing and database storage |
US20170178168A1 (en) * | 2015-12-21 | 2017-06-22 | International Business Machines Corporation | Effectiveness of service complexity configurations in top-down complex services design |
CN105701230A (zh) * | 2016-01-19 | 2016-06-22 | 成都品果科技有限公司 | 一种基于图像内容的用户兴趣细分方法及系统 |
US20180316776A1 (en) * | 2016-04-29 | 2018-11-01 | Tencent Technology (Shenzhen) Company Limited | User portrait obtaining method, apparatus, and storage medium |
CN106096439A (zh) * | 2016-06-03 | 2016-11-09 | 武汉大学 | 一种基于移动用户配置文件混淆的隐私保护系统及方法 |
WO2017219548A1 (zh) * | 2016-06-20 | 2017-12-28 | 乐视控股(北京)有限公司 | 用户属性预测方法及装置 |
US20190005151A1 (en) * | 2017-06-28 | 2019-01-03 | General Electric Company | Tag mapping process and pluggable framework for generating algorithm ensemble |
CN109284620A (zh) * | 2017-07-19 | 2019-01-29 | 中国移动通信集团黑龙江有限公司 | 一种发布数据的生成方法、装置和服务器 |
CN107886009A (zh) * | 2017-11-20 | 2018-04-06 | 北京大学 | 防隐私泄露的大数据生成方法和系统 |
CN109117889A (zh) * | 2018-08-23 | 2019-01-01 | 北京小米智能科技有限公司 | 标签预测方法及装置 |
Non-Patent Citations (1)
Title |
---|
肖亚飞: "差分隐私合成数据发布理论及方法研究", pages 12 - 17 * |
Also Published As
Publication number | Publication date |
---|---|
CN111506617B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10958748B2 (en) | Resource push method and apparatus | |
US20210224142A1 (en) | Systems and methods for removing identifiable information | |
CN110012060B (zh) | 移动终端的信息推送方法、装置、存储介质和服务器 | |
US9654593B2 (en) | Discovering signature of electronic social networks | |
CN110162717B (zh) | 一种推荐好友的方法和设备 | |
CN107798027B (zh) | 一种信息热度预测方法、信息推荐方法及装置 | |
CN107977928A (zh) | 表情生成方法、装置、终端及存储介质 | |
WO2021155691A1 (zh) | 用户画像生成方法、装置、存储介质及设备 | |
CN108876751A (zh) | 图像处理方法、装置、存储介质及终端 | |
CN112104642A (zh) | 一种异常账号确定方法和相关装置 | |
CN112995414B (zh) | 基于语音通话的行为质检方法、装置、设备及存储介质 | |
CN113254804A (zh) | 一种基于用户属性和行为特征的社会关系推荐方法及系统 | |
CN113538070A (zh) | 用户生命价值周期检测方法、装置和计算机设备 | |
CN110889036A (zh) | 一种多维度信息的处理方法、装置及终端设备 | |
US10997609B1 (en) | Biometric based user identity verification | |
CN110347781A (zh) | 文章倒排方法、文章推荐方法、装置、设备及存储介质 | |
CN111310918B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN115271931A (zh) | 一种信用卡产品的推荐方法、装置、电子设备和介质 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN113222073B (zh) | 训练广告推荐模型的方法及装置 | |
WO2021175010A1 (zh) | 用户性别识别的方法、装置、电子设备及存储介质 | |
CN112052399B (zh) | 一种数据处理方法、装置和计算机可读存储介质 | |
CN110210884B (zh) | 确定用户特征数据的方法、装置、计算机设备及存储介质 | |
KR101871998B1 (ko) | 그룹채팅 기반 채팅 콘텐츠 인터렉티브 캐릭터 육성 서비스 제공 방법 | |
CN114286999A (zh) | 推送内容的处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |