CN111666460A - 基于隐私保护的用户画像生成方法、装置及存储介质 - Google Patents

基于隐私保护的用户画像生成方法、装置及存储介质 Download PDF

Info

Publication number
CN111666460A
CN111666460A CN202010462217.XA CN202010462217A CN111666460A CN 111666460 A CN111666460 A CN 111666460A CN 202010462217 A CN202010462217 A CN 202010462217A CN 111666460 A CN111666460 A CN 111666460A
Authority
CN
China
Prior art keywords
data
party
user
sample
target user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010462217.XA
Other languages
English (en)
Inventor
徐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202010462217.XA priority Critical patent/CN111666460A/zh
Publication of CN111666460A publication Critical patent/CN111666460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Storage Device Security (AREA)

Abstract

本发明涉及人工智能,提出一种基于隐私保护的用户画像生成方法、装置及存储介质,通过纵向联邦学习模型获得目标用户的组合特征用户数据;对获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件;利用大数据平台对数据文件进行数据挖掘,以获得目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述目标用户的用户画像。本发明还涉及区块链技术,组合特征用户数据可存储于区块链中。本发明通过对数据集的提供者的筛选,增加联邦学习的效率,达到了提升用户画像数据的契合度的技术效果。

Description

基于隐私保护的用户画像生成方法、装置及存储介质
技术领域
本发明涉及人工智能,尤其涉及一种基于隐私保护的用户画像生成方法、系统、装置及存储介质。
背景技术
用户画像是企业根据自身的业务系统、事件系统和关系信息等数据,通过机器/深度学习相关模型,对用户的特征进行描绘勾勒。但是,由于信息类别缺失,数据只能覆盖企业自身的主营业务特征,所形成的用户画像模型的全面度和准确度不高。
为了构建准确度更高的用户画像模型,企业往往会通过与其他企业进行数据交换以增加数据信息的维度。然而,随着Facebook数据泄露事件引起的轰动,各国都陆续颁布了数据隐私保护条例,如欧盟GDPR《通用数据保护条例》,我国也颁布的相关网络安全法规。今后,用户隐私保护在构建用户画像过程中,成为了企业不得不考虑的因素。
现有技术中通常采用联邦学习实现数据隔离,以一种隐私保护的方式利用双方的数据协作构建一个模型,在保护隐私的基础上实现信息共享。但是存在的弊端如下:
1)外部信息维度较多,来源也较分散,需要花大量时间筛选匹配的外部信息;
2)由于联邦学习参与者的两个数据集互相不匹配,最终影响了用户画像模型的全面性和精准度。
所以,亟需一种兼顾隐私保护的全面用户画像生成方法。
发明内容
本发明提供一种基于隐私保护的用户画像生成方法、系统、电子装置及计算机可读存储介质,其主要利用联邦学习的数据不发生数据交换即可实现数据信息维度增加的特点,并增加了联邦学习用户数据的筛选过程,解决了用户画像的精准度和全面性不够的问题。
为实现上述目的,本发明还提供一种基于隐私保护的用户画像生成方法,应用于电子装置,所述用户画像的生成方法包括:
S110、通过纵向联邦学习模型获得目标用户的组合特征用户数据;
S120、对获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件;
S130、利用大数据平台对所述数据文件进行数据挖掘,以获得所述目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述所述目标用户的用户画像。
进一步,优选的,所述组合特征用户数据存储于区块链中,
在所述步骤S110中通过纵向联邦学习模型获得所述目标用户的组合特征用户数据的方法包括:
S210、利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
S220、将所述第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
S230、将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据。
进一步,优选的,所述步骤S210中所述第三方筛选与所述第一方样本数据相匹配的第二方样本数据的方法包括:
S310、第三方通过特征类别词典对所述特征组合进行规范标记,并获取第一方样本数据和候选第二方样本数据的类别饱和度信息;
S320、第三方对第一方样本数据和候选第二方样本数据进行加密,并比对获得特征饱和度与客户重合度;
S330、第三方筛选出特征饱和度大于特征饱和度阈值X1,且客户重合度大于客户重合度阈值X2的候选第二方样本数据,作为与所述第一方样本数据相匹配的第二方样本数据。
进一步,优选的,在所述步骤S230中将所述联邦联盟进行联邦学习训练,获得组合特征用户数据的方法包括:
获取所述联邦联盟的AUC值,将所述AUC值与预设阈值Y进行比较;
若AUC值小于预设阈值Y,则重复组合成联邦联盟并进行联邦学习的步骤;
若AUC值大于联邦模型评判阈值Y,则将获得的数据作为组合特征用户数据。
进一步,优选的,所述联邦联盟的AUC值通过ROC AUCH法获得。
为实现上述目的,本发明还提供一种用户画像生成系统,包括组合特征用户数据生成单元、用户画像生成单元;其中,
所述组合特征用户数据生成单元,用于通过纵向联邦学习模型获得目标用户的组合特征用户数据;
所述用户画像生成单元,对所获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件,利用大数据平台对数据文件进行数据挖掘,以获得目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述目标用户的用户画像。
进一步,优选的,所述组合特征用户数据存储于区块链中,
所述组合特征用户数据生成单元包括特征组合生成模块、联邦联盟生成模块和组合特征用户数据生成模块;其中,
所述特征组合生成模块,用于利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
所述联邦联盟生成模块,用于将所述目标用户的第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
所述组合特征用户数据生成模块,用于将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器,所述存储器中存储有用户画像生成程序,所述用户画像生成程序被所述处理器执行时实现如下步骤:
S110、通过纵向联邦学习模型获得目标用户的组合特征用户数据;
S120、对获得的组合特征用户数据按照设定维度形成分类数据,将分类数据生成数据文件;
S130、利用大数据平台对所述数据文件进行数据挖掘,以获得所述目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述所述目标用户的用户画像。
进一步,优选的,在所述步骤S110中通过纵向联邦学习模型获得组合特征用户数据的方法包括:
S210、利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
S220、将所述目标用户的第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
S230、将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有计算机程序,所述计算机程序包括用户画像生成程序,所述用户画像生成程序被处理器执行时,实现上述的基于隐私保护的用户画像生成方法的步骤。
本发明提出的基于隐私保护的用户画像生成方法、系统、电子装置及计算机可读存储介质,通过增加用户画像数据的筛选过程提升联邦学习中的第二方数据集与第一方数据集的匹配度,将第一方、第二方和第三方经过联邦学习后,获得多方位、更全面的用户画像的组合特征用户数据,最终利用获得的组合特征用户数据获得更加精准的用户画像结果;有益效果如下:
1)、利用纵向联邦学习方法丰富了用户画像的数据来源,提升用户画像的准确率;
2)、通过对数据集的提供者的筛选,增加联邦学习的效率,提升用户画像数据的契合度;
3)、通过联邦学习在确保数据不发生交换、保护个人数据隐私的前提下,增加了数据信息的维度。
附图说明
图1为本发明的用户画像生成方法较佳实施例的流程图;
图2为本发明的获取组合特征数据的较佳实施例的流程图;
图3为本发明的筛选与所述第一方样本数据相匹配的第二方样本数据的方法较佳实施例的流程图;
图4为本发明的纵向联邦学习模型的原理示意图;
图5为本发明的联邦学习训练获得组合特征数据的流程示意图;
图6为本发明的用户画像生成系统的较佳实施例的结构示意图;
图7为本发明的电子装置的较佳实施例的结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
构建用户分析画像的过程中,由于数据信息维度单一、只能覆盖单一企业的主营业务特征,导致生成的用户画像不够全面、准确;如果想增加数据信息的维度,但是由于国家的数据保护条款和各企业自身对数据的严格规定,限制了数据信息的共享。
一种基于隐私保护的用户画像生成方法,通过增加用户画像数据的筛选过程提升联邦学习中的第二方数据集与第一方数据集的匹配度,将第一方、第二方和第三方经过联邦学习后,获得多方位、更全面的用户画像的组合特征用户数据,最终利用获得的组合特征用户数据获得更加精准的用户画像结果。
为了提高用户画像的全面性和精准度,本发明提供一种基于隐私保护的用户画像生成方法。图1示出了根据本发明的用户画像生成方法较佳实施例的流程。参照图1所示,该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
需要说明的是,用户画像的维度信息不是越多越好,而是要找到强相关的信息,比如通讹误场景强相关信息,或者同产品的目标客户的强相关信息。只有强相关信息才能帮助企业有效结合业务需求,即实现客户的精准定位,帮助了解客户的潜在需求,从而进一步开发需求产品,从而创造商业价值。
具体地说,基于联邦学习的用户画像生成方法包括步骤S110-步骤S130。
S110、通过纵向联邦学习模型获得目标用户的组合特征用户数据。
其中,是通过联邦学习的数据隔离的特点引入外部数据,从而提高数据集的完整性和有效性。
需要说明的是联邦学习(federated learning)是指通过联合不同的参与者(participant,或者party,也称为数据拥有者(data owner),)或者客户(client)进行机器学习的方法;在联邦学习中,参与者并不需要向其他参与者或者协调者,或者聚合服务器暴露自己拥有的数据,因而联邦学习可以很好地保护用户隐私和保障数据安全。而纵向联邦学习在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。纵向联邦学习即适用于两个数据集的用户(U1,U2,…)重叠部分较大,而用户特征(X1,X2,…)重叠部分较小的场景。也就是说,纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力。
图4示出了本发明的纵向联邦学习模型的原理。参照图4所示,企业A(主企业)根据自有客户特征的饱和度,将特征分为αA、βA指标集,αA指饱和度高的特征集、βA指饱和度低的特征集,是需要补全提升饱和度的特征集。一般选择饱和度低且是高维的特征为βA,以便于通过机器学习获得。
指标集
Figure BDA0002511326450000071
可将βa作为label。其空缺值,由企业A的部分指标αa与企业B的部分指标αb经过联邦学习(此用有监督的机器学习)预测得出补全,其中
Figure BDA0002511326450000072
αB是企业B所拥有的指标集。
下面以一个集团的产险子公司根据客户购买旅游险种的情况为例进行具体说明,产险子公司根据客户购买旅游险种情况,生成了部分样本“是否旅游达人”label标签数据。如果只根据自有的数据特征(年龄、性别、是否有车、产险相关指标等弱相关特征),是不足以训练模型生成标签的。通过上文方法,在用户隐私保护的前提下,产险子公司结合银行子公司的数据特征:支付购买火车票/机票次数、拖欠缴费记录、信贷违约记录、年/月平均消费金额,选择逻辑回归,联合训练模型,以得到更全面、精确地训练出“是否旅游达人”标签。
需要强调的是,为进一步保证上述组合特征用户数据的私密和安全性,上述组合特征用户数据还可以存储于一区块链的节点中。
图2示出了本发明的获取组合特征数据的较佳实施例的流程,如图2所示,步骤S110中通过纵向联邦学习模型获得目标用户的组合特征用户数据的方法包括步骤S210-步骤S230。
S210、利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
其中,需要说明的是,组成联邦学习的参与者企业A与企业B,要求他们的客户id的重叠度高(即数据集的用户部分重叠度高)。如果企业A为主企业(即经联邦训练后企业A获得其自有全部客户的某个label_1),则企业A自身需有部分客户已有某个label_1,以作为联邦学习的有监督样本。而企业B为第二公司,即配合主公司训练的公司,借助第二公司的第二方数据样本对第一方数据样本进行训练。
在具体的实施过程中,选择第一方数据样本(第一公司)的条件为,首先,要求第一公司自身需有部分客户以及客户的相关数据label_1,且label_1具备高维特征(例如个人收入等级)。其次,有部分高饱和的基础特征征α可以与第二公司进行特征组合,训练生成label_1,但仅仅靠基础特征征α集不足以生成label_1。选择确定第一公司A后,第一公司A准备该公司的样本特征数据及标签数据,如特征a1,特征a2,……,特征an,形成标签label。
选择第二方数据样本(第二公司)的条件为,首先,与第一公司的客户ID重叠度高;其次,与第一公司的经营范围不同,或者与第一公司客户的特征类别不同,从而可以实现数据的相互补充。如此选择,才能保证第一方数据样本与多个第二方数据样本的联邦训练后,获得全面、多方位的用户画像标签。也就是说,第二公司B准备该公司的样本特征数据,如特征b1,特征b2,……,特征bm。
图3示出了本发明的筛选与所述第一方样本数据相匹配的第二方样本数据的方法较佳实施例的流程,如图3所示,步骤S210中第三方筛选与所述第一方样本数据相匹配的第二方样本数据的方法包括步骤S310-步骤S330。
S310、第三方通过特征类别词典对所述特征组合进行规范标记,并获取第一方样本数据和候选第二方样本数据的类别饱和度信息。
具体地说,第三公司(即第三方)对第一公司(第一方样本数据)、候选第二公司(候选第二方样本数据)的特征,按照特征类别词典(如姓别、学历为基础信息类;是否有车、是否有房为财产类;消费记录、机票信息为消费类)对类别进行规范标记。第一公司、候选第二公司向第三公司提供各自的类别变量饱和度信息。第一公司向第三公司提供特征饱和度阈值X1、客户重合度阈值X2。
S320、第三方对第一方样本数据和候选第二方样本数据进行加密,并比对获得特征饱和度与客户重合度;即第三公司对第一公司、候选第二公司的客户id进行加密,并比对得出重合度。
S330、第三方筛选出特征饱和度大于特征饱和度阈值X1,且客户重合度大于客户重合度阈值X2的候选第二方样本数据,作为与所述第一方样本数据相匹配的第二方样本数据。
即第三公司选出与第一公司有不同特征类别、不同特征类别的特征饱和度大于X1,客户id重合度大于X2的候选第二公司作为第二公司。
需要说明的是,建模样本ID差集不向对方泄露,在合作之初需要进行用户匹配,需要找出用户的交集,但是不能泄露差集,因为这是企业最核心的资产。任何底层(X,Y)数据不向对方泄露,建模过程中如何保证数据不被泄露。通过RSA和Hash的机制,保证双方最终只用到交集部分,且差集部分不向对方泄露。采用同态加密技术,这个过程中,各方的原始数据,以及数据加密态都没有被传输。交互部分,双方通过损失中间结果,用同态加密的机制进行交互,模型训练完之后,会各自得到一个模型,各自的模型会部署在各自的一方,任何一方的模型都没法单独去应用,只有共同应用的时候,才能进行决策。
通过RSA和Hash的机制实现。其中,B方会作为公钥的生成方,会把公钥给到A方,A方基于Hash引用一个随机数,再交互传给B方,B方同时做Hash然后传给A方,A方会最后做一个结果的交集。整个过程中,没有任何一个明文数据传递过来,即使采用暴力或者碰撞的方式,依然解析不出原始的id。通过这套机制,保护了双方的差集部分。
同态加密技术,比如对两个数字进行加密,加密后两个数字的密文可以进行数学运算,比如加法,其结果依然是密文,对密文解密后得到的结果和它们明文的加法结果是一样的。
总的来说,第一公司可以借助第二公司(一个或者多个)的数据源,可获得全面、多方位的用户画像,为企业后期深入研究用户打下基础。
S220、将第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
具体地说,通过上述方法选择好第一方数据样本及第二方数据样本后,第一公司A选择一家第二公司B,组成“第一公司A+第二公司B+第三公司C”成联邦联盟。
第三方C把公钥分发给第一公司A和第二公司B,加密用户id及训练过程中需要交换的数据;根据加密的id对齐样本,即将某标签label所需的特征a、特征b,按照客户id对齐。
也就是说,各子公司使用自身的特征与标签数据,在本公司构建各自的模型A/B。对训练过程中得到的中间结果进行加密并交换。
S230、将所述联邦联盟进行联邦学习训练,获得目标用户的组合特征用户数据。
图5为本发明的联邦学习训练获得组合特征数据的流程;如图5所示,
第一公司A选择一家第二公司B,组成“第一公司A+第二公司B+第三公司C”成联邦联盟后,经联邦学习训练后(根据不同场景可以选择不同方法如逻辑回归、随机森林、神经网络等算法),若AUC<Y则重复上述组成联邦联盟并进行联邦学习的过程。直至AUC>Y,则第一公司获得其需要预测客户的labe_1。
其中,Y为第一公司提供的预设阈值,并将预设阈值Y作为联邦模型结果的评判标准依据。AUC(Area Under the Curve)被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间,即预设阈值Y为[0.5,1]。AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值。而梯形法和ROC AUCH法都是本领域技术人员的公知常识,在此不再赘述。
第一公司与多家第二公司经过上述训练模块,最终生成第一公司全面、多方位的用户画像标签。
在一个具体的实施例中,同时,集团协作者C不断汇总模型梯度与损失,回传更新模型A/B的参数。迭代,直至收敛,模型训练完成。训练过程中,仅仅通过加密交互了模型的中间结果及参数,未共享过任何用户数据。最后,子公司A根据得到的样本模型,借助子公司B的数据,预测其他对齐客户的标签label。将子公司B替换成另外一家子公司,同理,以协助子公司A获得对齐客户的相应标签。重复替换,直至子公司A利用完集团所有子公司的数据,生成子公司A的多方位用户画像标签。
总的来说,在确定共有用户群体后,就可以利用这些数据训练机器学习模型.为了保证训练过程中数据的保密性,需要借助第三方协作者C进行加密训练.以线性回归模型为例,训练过程为:协作者C把公钥分发给模型A和模型B,用以对训练过程中需要交换的数据进行加密;其次,对齐数据A和对齐数据B之间以加密形式交互用于计算梯度的中间结果;然后,对齐数据A和对齐数据B分别基于加密的梯度值进行计算,同时对齐数据B根据其标签数据计算损失,并把这些结果汇总给协作者C;协作者C通过汇总结果计算总梯度并将其解密。最后,协作者C将解密后的梯度分别回传给模型A和模型B;模型A和模型B根据梯度更新各自的参数。迭代上述步骤直至损失函数收敛,这样就完成了整个训练过程。在样本对齐及模型训练过程中,企业A和企业B各自的数据均保留在本地,且训练中的数据交互也不会导致数据隐私泄露。因此,双方在联邦学习的帮助下得以实现合作训练模型。
另外,联邦学习过程中,可以使用的模型算法多样,不局限于神经网络、随机森林等算法,因此可以满足不同的业务场景。
综上,企业A在本地建立模型A,使用数据特征αa,企业B在本机建立模型B,使用数据特征αb,借助第三方协作者C进行用户数据对齐、加密、参数传输、更新迭代等一系列的联邦学习训练过程,最后企业A得到补全的特征βa′。如前文所述,联邦学习过程中保证了各方企业数据的安全隐私性,传输的只是加密后的模型参数。
企业A得到能与企业B经过联邦学习后的其他特性βa′。
S120、对获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件;;
需要说明的是,这里所述的设定维度,主要是用于描述用户对物品的使用行为,包括使用时间、地点、使用方式以及使用的物品的类型等。
对通过联邦学习所获得的组合特征用户数据通过数据仓库进行数据集中,并筛选出强相关信息,对定量信息定性化,生成大数据平台所需要的数据文件。
S130、利用大数据平台对所述数据文件进行数据挖掘,以获得所述目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述所述目标用户的用户画像。
在本发明中为解决用户画像面临“数据稀疏”"和“隐私保护”的挑战,构建了一种针对大型企业集团,考虑隐私保护的用户画像生成方法。子公司之间凭借其用户重叠度高、多类信息数据相互补充、配合密切等的优势,并借助纵向联邦学习策略,对用户多方面的画像进行描绘勾勒。这种方法首先,在确保数据不交换、保护个人数据隐私的前提下,各方不披露底层数据共建模型,充分利用了集团各子公司的数据。其次,联邦学习过程中,可以使用的模型算法多样,不局限于神经网络、随机森林等算法,满足不同的业务场景。最后,企业可获得全面的用户画像,用以描述用户兴趣、特征、行为及偏好等,为企业后期深入研究用户打下基础。
图6为本发明的用户画像生成系统的较佳实施例的结构;参照图6所示,一种用户画像生成系统600,包括组合特征用户数据生成单元610、用户画像生成单元620;其中,
所述组合特征用户数据生成单元610,用于通过纵向联邦学习模型获得目标用户的组合特征用户数据;
所述用户画像生成单元620,对所获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件,利用大数据平台对数据文件进行数据挖掘,以获得目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述目标用户的用户画像。
进一步,需要强调的是,为进一步保证上述组合特征用户数据的私密和安全性,上述组合特征用户数据还可以存储于一区块链的节点中。
所述组合特征用户数据生成单元610包括特征组合生成模块611、联邦联盟生成模块612和组合特征用户数据生成模块613;其中,
所述特征组合生成模块611,用于利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
所述联邦联盟生成模块612,用于将所述目标用户的第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
所述组合特征用户数据生成模块613,用于将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据
本发明提供一种基于隐私保护的用户画像生成方法,应用于一种电子装置7。
图7示出了根据本发明基于隐私保护的用户画像生成方法较佳实施例的应用环境。
参照图7所示,在本实施例中,电子装置7可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置7包括:处理器72、存储器71、通信总线73及网络接口75。
存储器71包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器71等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置7的内部存储单元,例如该电子装置7的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置7的外部存储器71,例如所述电子装置7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器71的可读存储介质通常用于存储安装于所述电子装置7的用户画像生成程序70等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
处理器72在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器71中存储的程序代码或处理数据,例如执行用户画像生成程序70等。
通信总线73用于实现这些组件之间的连接通信。
网络接口74可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置7与其他电子设备之间建立通信连接。
图7仅示出了具有组件71-74的电子装置7,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置7还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置7还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置7中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置7还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图7所示的装置实施例中,作为一种计算机存储介质的存储器71中可以包括操作系统、以及用户画像生成程序70;处理器72执行存储器71中存储的用户画像生成程序70时实现如下步骤:S110、通过纵向联邦学习模型获得目标用户的组合特征用户数据;S120、对获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件;S130、利用大数据平台对所述数据文件进行数据挖掘,以获得所述目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述所述目标用户的用户画像。
在其他实施例中,用户画像生成程序70还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器71中,并由处理器72执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。用户画像生成程序70可以分为组合特征用户数据生成单元610、用户画像生成单元620。
此外,本发明还提出一种计算机可读存储介质,主要包括存储数据区和存储程序区,其中,存储数据区可存储根据区块链节点的使用所创建的数据等,存储程序区可存储操作系统、至少一个功能所需的应用程序,所述计算机可读存储介质中包括用户画像生成程序,所述用户画像生成程序被处理器执行时实现如基于隐私保护的用户画像生成方法的操作。
本发明之计算机可读存储介质的具体实施方式与上述基于隐私保护的用户画像生成方法、系统、电子装置的具体实施方式大致相同,在此不再赘述。
总的来说,本发明基于隐私保护的用户画像生成方法、系统、电子装置及计算机可读存储介质通过增加用户画像数据的筛选过程提升联邦学习中的第二方数据集与第一方数据集的匹配度,将第一方、第二方和第三方经过联邦学习后,获得多方位、更全面的用户画像的组合特征用户数据,最终利用获得的组合特征用户数据获得更加精准的用户画像结果,通过对数据集的提供者的筛选,增加联邦学习的效率,达到了提升用户画像数据的契合度的技术效果。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于隐私保护的用户画像生成方法,应用于电子装置,其特征在于,所述用户画像生成方法包括:
S110、通过纵向联邦学习模型获得目标用户的组合特征用户数据;
S120、对获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件;
S130、利用大数据平台对所述数据文件进行数据挖掘,以获得所述目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述所述目标用户的用户画像。
2.根据权利要求1所述的基于隐私保护的用户画像生成方法,其特征在于,所述组合特征用户数据存储于区块链中,在所述步骤S110中通过纵向联邦学习模型获得所述目标用户的组合特征用户数据的方法包括:
S210、利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
S220、将所述第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
S230、将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据。
3.根据权利要求2所述的基于隐私保护的用户画像生成方法,其特征在于,所述步骤S210中所述第三方筛选与所述第一方样本数据相匹配的第二方样本数据的方法包括:
S310、第三方通过特征类别词典对所述特征组合进行规范标记,并获取第一方样本数据和候选第二方样本数据的类别饱和度信息;
S320、第三方对第一方样本数据和候选第二方样本数据进行加密,并比对获得特征饱和度与客户重合度;
S330、第三方筛选出特征饱和度大于特征饱和度阈值X1,且客户重合度大于客户重合度阈值X2的候选第二方样本数据,作为与所述第一方样本数据相匹配的第二方样本数据。
4.根据权利要求2所述的基于隐私保护的用户画像生成方法,其特征在于,
在所述步骤S230中将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据的方法包括:
获取所述联邦联盟的AUC值,将所述AUC值与预设阈值Y进行比较;
若AUC值小于预设阈值Y,则重复组合成联邦联盟并进行联邦学习的步骤;
若AUC值大于联邦模型评判阈值Y,则将获得的数据作为组合特征用户数据。
5.根据权利要求4所述的基于隐私保护的用户画像生成方法,其特征在于,所述联邦联盟的AUC值通过ROC AUCH法获得。
6.一种用户画像生成系统,其特征在于,包括组合特征用户数据生成单元、用户画像生成单元;其中,
所述组合特征用户数据生成单元,用于通过纵向联邦学习模型获得目标用户的组合特征用户数据;
所述用户画像生成单元,对所获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件,利用大数据平台对数据文件进行数据挖掘,以获得目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述目标用户的用户画像。
7.根据权利要求6所述的用户画像生成系统,其特征在于,
所述组合特征用户数据存储于区块链中,
所述组合特征用户数据生成单元包括特征组合生成模块、联邦联盟生成模块和组合特征用户数据生成模块;其中,
所述特征组合生成模块,用于利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
所述联邦联盟生成模块,用于将所述目标用户的第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
所述组合特征用户数据生成模块,用于将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据。
8.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中存储有用户画像生成程序,所述用户画像生成程序被所述处理器执行时实现如下步骤:
S110、通过纵向联邦学习模型获得目标用户的组合特征用户数据;
S120、对获得的组合特征用户数据按照设定维度形成分类数据,将所述分类数据生成数据文件;
S130、利用大数据平台对所述数据文件进行数据挖掘,以获得目标用户的个体分析参数和全局参数,并根据所述个体分析参数和全局参数描述目标用户的用户画像。
9.根据权利要求8所述的电子装置,其特征在于,在所述步骤S110中通过纵向联邦学习模型获得组合特征用户数据的方法包括:
S210、利用预先选取的第三方筛选所述目标用户的第一方数据样本以及与所述第一方样本数据相匹配的第二方样本数据,将第一方数据样本与第二方数据样本进行特征组合;
S220、将所述目标用户的第一方数据样本、第二方数据样本与第三方组合成联邦联盟;
S230、将所述联邦联盟进行联邦学习训练,获得所述目标用户的组合特征用户数据。
10.一种计算机可读存储介质,其特征在于,包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有计算机程序,所述计算机程序包括用户画像生成程序,所述用户画像生成程序被处理器执行时,实现如权利要求1至5中任一项所述的基于隐私保护的用户画像生成方法的步骤。
CN202010462217.XA 2020-05-27 2020-05-27 基于隐私保护的用户画像生成方法、装置及存储介质 Pending CN111666460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010462217.XA CN111666460A (zh) 2020-05-27 2020-05-27 基于隐私保护的用户画像生成方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010462217.XA CN111666460A (zh) 2020-05-27 2020-05-27 基于隐私保护的用户画像生成方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111666460A true CN111666460A (zh) 2020-09-15

Family

ID=72384836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010462217.XA Pending CN111666460A (zh) 2020-05-27 2020-05-27 基于隐私保护的用户画像生成方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111666460A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150280A (zh) * 2020-10-16 2020-12-29 北京百度网讯科技有限公司 提升匹配效率的联邦学习方法及设备、电子设备和介质
CN112329940A (zh) * 2020-11-02 2021-02-05 北京邮电大学 一种结合联邦学习与用户画像的个性化模型训练方法及系统
CN112597542A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 目标资产数据的聚合方法及装置、存储介质、电子装置
CN112885337A (zh) * 2021-01-29 2021-06-01 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN113159918A (zh) * 2021-04-09 2021-07-23 福州大学 一种基于联邦团渗透的银行客户群体挖掘方法
CN113568973A (zh) * 2021-07-21 2021-10-29 湖南天河国云科技有限公司 基于区块链和联邦学习的金融征信数据共享方法及装置
CN113723652A (zh) * 2020-12-29 2021-11-30 京东城市(北京)数字科技有限公司 业务数据处理方法、装置、电子设备和存储介质
CN113901501A (zh) * 2021-10-20 2022-01-07 苏州斐波那契信息技术有限公司 一种基于联邦学习的私域用户画像拓展方法
CN113992694A (zh) * 2021-10-01 2022-01-28 浙商银行股份有限公司 一种基于联邦学习的区块链节点集群监控方法及设备
CN114021175A (zh) * 2021-11-19 2022-02-08 深圳市电子商务安全证书管理有限公司 用户画像的配置方法、装置、计算机设备及介质
CN117290612A (zh) * 2023-11-24 2023-12-26 深圳市华图测控系统有限公司 一种基于行为分析的预测匹配方法及系统

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112150280B (zh) * 2020-10-16 2023-06-30 北京百度网讯科技有限公司 提升匹配效率的联邦学习方法及设备、电子设备和介质
CN112150280A (zh) * 2020-10-16 2020-12-29 北京百度网讯科技有限公司 提升匹配效率的联邦学习方法及设备、电子设备和介质
CN112329940A (zh) * 2020-11-02 2021-02-05 北京邮电大学 一种结合联邦学习与用户画像的个性化模型训练方法及系统
CN112597542A (zh) * 2020-12-04 2021-04-02 光大科技有限公司 目标资产数据的聚合方法及装置、存储介质、电子装置
CN112597542B (zh) * 2020-12-04 2023-10-24 光大科技有限公司 目标资产数据的聚合方法及装置、存储介质、电子装置
CN113723652A (zh) * 2020-12-29 2021-11-30 京东城市(北京)数字科技有限公司 业务数据处理方法、装置、电子设备和存储介质
CN112885337A (zh) * 2021-01-29 2021-06-01 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN113159918A (zh) * 2021-04-09 2021-07-23 福州大学 一种基于联邦团渗透的银行客户群体挖掘方法
CN113159918B (zh) * 2021-04-09 2022-06-07 福州大学 一种基于联邦团渗透的银行客户群体挖掘方法
CN113568973A (zh) * 2021-07-21 2021-10-29 湖南天河国云科技有限公司 基于区块链和联邦学习的金融征信数据共享方法及装置
CN113568973B (zh) * 2021-07-21 2023-11-24 湖南天河国云科技有限公司 基于区块链和联邦学习的金融征信数据共享方法及装置
CN113992694A (zh) * 2021-10-01 2022-01-28 浙商银行股份有限公司 一种基于联邦学习的区块链节点集群监控方法及设备
CN113901501B (zh) * 2021-10-20 2022-11-08 苏州斐波那契信息技术有限公司 一种基于联邦学习的私域用户画像拓展方法
CN113901501A (zh) * 2021-10-20 2022-01-07 苏州斐波那契信息技术有限公司 一种基于联邦学习的私域用户画像拓展方法
CN114021175B (zh) * 2021-11-19 2022-08-02 深圳市电子商务安全证书管理有限公司 用户画像的配置方法、装置、计算机设备及介质
CN114021175A (zh) * 2021-11-19 2022-02-08 深圳市电子商务安全证书管理有限公司 用户画像的配置方法、装置、计算机设备及介质
CN117290612A (zh) * 2023-11-24 2023-12-26 深圳市华图测控系统有限公司 一种基于行为分析的预测匹配方法及系统
CN117290612B (zh) * 2023-11-24 2024-02-06 深圳市华图测控系统有限公司 一种基于行为分析的预测匹配方法及系统

Similar Documents

Publication Publication Date Title
CN111666460A (zh) 基于隐私保护的用户画像生成方法、装置及存储介质
Hughes et al. Beyond Bitcoin: What blockchain and distributed ledger technologies mean for firms
Maesa et al. Blockchain 3.0 applications survey
Liu et al. A blockchain-based framework of cross-border e-commerce supply chain
Grover et al. Diffusion of blockchain technology: Insights from academic literature and social media analytics
US10402784B2 (en) Dynamic notary system
CN110084377B (zh) 用于构建决策树的方法和装置
KR102502247B1 (ko) 안전하고 추적 가능한 제조 부품들
CN112132198B (zh) 数据处理方法、装置、系统和服务器
US9858426B2 (en) Computer-implemented system and method for automatically identifying attributes for anonymization
WO2017140248A1 (zh) 数据交换方法、数据交换装置及计算装置
Casino et al. An efficient blockchain-based privacy-preserving collaborative filtering architecture
CN110602248A (zh) 异常行为信息的识别方法、系统、装置、设备及介质
CN113449048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN113362048B (zh) 数据标签分布确定方法、装置、计算机设备和存储介质
CN112567716B (zh) 安全数据传输系统和方法
US10956909B2 (en) Systems and methods for identity atomization and usage
US20100262837A1 (en) Systems And Methods For Personal Digital Data Ownership And Vaulting
Kim et al. Developmental trajectories in blockchain technology using patent-based knowledge network analysis
Li Combination of blockchain and AI for music intellectual property protection
Victor et al. A taxonomy for distributed ledger analytics
CA3050487A1 (en) System and method for storing and distributing consumer information
CN112783847B (zh) 数据共享方法及装置
Alharbi et al. Blockchain-based identity management for personal data: A survey
Priya et al. A survey on privacy preserving voting scheme based on blockchain technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination