CN111460505A - 基于隐私保护的建模方法、装置、设备及存储介质 - Google Patents

基于隐私保护的建模方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111460505A
CN111460505A CN202010256055.4A CN202010256055A CN111460505A CN 111460505 A CN111460505 A CN 111460505A CN 202010256055 A CN202010256055 A CN 202010256055A CN 111460505 A CN111460505 A CN 111460505A
Authority
CN
China
Prior art keywords
modeling
privacy
model
user
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010256055.4A
Other languages
English (en)
Inventor
郑文琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010256055.4A priority Critical patent/CN111460505A/zh
Publication of CN111460505A publication Critical patent/CN111460505A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于隐私保护的建模方法、装置、设备及存储介质,所说方法包括:从预设的用户特征集合中获取试探特征;获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。本发明实现了最大化建模效果的同时尽可能大地保证用户隐私安全。

Description

基于隐私保护的建模方法、装置、设备及存储介质
技术领域
本发明涉及机器学习领域,尤其涉及一种基于隐私保护的建模方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
随着机器学习技术的发展,越来越多的应用场景中使用机器学习模型来进行预测和分类等各种各样的任务,例如,为提高广告的投放效果,建立广告的点击转化率预测模型,预测用户对某个广告的点击转化率,从而针对点击转化率高的用户进行广告投放。目前在机器学习模型的建模过程中,多采用所有可能的用户特征来进行建模,以最大化建模效果。然而,采用所有的用户特征进行建模,会一定程度泄露用户的隐私,因此现有的建模方式缺乏对用户隐私的保护。
发明内容
本发明的主要目的在于提供一种基于隐私保护的建模方法、装置、设备及存储介质,旨在解决现有的机器学习模型的建模方式,缺乏对用户隐私的保护的问题。
为实现上述目的,本发明提供一种基于隐私保护的建模方法,所述基于隐私保护的建模方法包括以下步骤:
从预设的用户特征集合中获取试探特征;
获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
可选地,所述对所述试探特征和预设的建模特征集合进行隐私泄露分析得到隐私泄露结果的步骤之后,还包括:
当所述隐私泄露结果表征隐私泄露程度大于或者等于预设程度时,将基于所述建模特征集合进行建模得到的模型作为目标模型。
可选地,所述当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型的步骤包括:
当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合;
采用更新后的建模特征集合对应的用户数据对待训练模型进行模型训练以更新模型参数;
基于更新后的模型参数检测所述待训练模型是否满足预设模型条件;
若确定所述待训练模型满足所述预设模型条件,则基于更新后的模型参数得到目标模型。
可选地,所述基于更新后的模型参数检测模型是否满足预设模型条件的步骤之后,还包括:
若确定所述待训练模型不满足所述预设模型条件,则基于更新后的建模特征集合和更新后的模型参数,再执行所述步骤:从预设的用户特征集合中获取试探特征。
可选地,所述采用更新后的建模特征集合对应的用户数据进行模型训练以更新模型参数的步骤包括:
获取更新后的建模特征集合对应的用户数据;
对所述用户数据进行差分隐私处理,并采用处理后的用户数据进行模型训练以更新模型参数。
可选地,所述从预设的用户特征集合中获取试探特征的步骤包括:
将各个用户特征分别同所述建模特征集合代入预设的隐私泄露函数进行计算,得到所述各个用户特征分别对应的隐私泄露值,其中,所述各个用户特征属于所述用户特征集合减去所述建模特征集合的集合;
从所述各个用户特征中筛选隐私泄露值最小的用户特征作为试探特征。可选地,所述当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型的步骤之后,还包括:
在建模得到所述目标模型之后,获取待评估用户的用户特征数据和待评估资源的资源特征数据;
将所述用户特征数据和所述资源特征数据输入所述目标模型,得到所述待评估用户对所述待评估资源的点击转化率预测结果。
为实现上述目的,本发明还提供一种基于隐私保护的建模装置,所述基于隐私保护的建模装置包括:
第一获取模块,用于从预设的用户特征集合中获取试探特征;
第二获取模块,用于获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
更新模块,用于当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
为实现上述目的,本发明还提供一种基于隐私保护的建模设备,所述基于隐私保护的建模设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于隐私保护的建模程序,所述基于隐私保护的建模程序被所述处理器执行时实现如上所述的基于隐私保护的建模方法的步骤。
此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于隐私保护的建模程序,所述基于隐私保护的建模程序被处理器执行时实现如上所述的基于隐私保护的建模方法的步骤。
本发明中,通过从用户特征集合中获取试探特征,并获取基于该试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果,实现根据隐私泄露结果判断是否可以将试探特征添加至建模特征集合,也即实现试探性地添加用户特征至用于建模的建模特征集合;当隐私泄露结果表征隐私泄露程度小于预设程度时,根据试探特征更新建模特征集合,并基于更新后的建模特征集合进行建模得到目标模型,实现了在隐私泄露的容忍范围内添加用户特征至用于建模的建模特征集合,使得建模过程能够采用更多的用户特征,从而达到最大化建模效果的同时尽可能大地保证用户隐私安全。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明基于隐私保护的建模方法第一实施例的流程示意图;
图3为本发明基于隐私保护的建模装置较佳实施例的功能示意图模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
需要说明的是,本发明实施例基于隐私保护的建模设备可以是智能手机、个人计算机和服务器等设备,在此不做具体限制。
如图1所示,该基于隐私保护的建模设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对基于隐私保护的建模设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于隐私保护的建模程序。其中,操作系统是管理和控制设备硬件和软件资源的程序,支持基于隐私保护的建模程序以及其它软件或程序的运行。
在图1所示的设备中,用户接口1003主要用于与客户端进行数据通信;网络接口1004主要用于与服务器建立通信连接;而处理器1001可以用于调用存储器1005中存储的基于隐私保护的建模程序,并执行以下操作:
从预设的用户特征集合中获取试探特征;
获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
进一步地,所述对所述试探特征和预设的建模特征集合进行隐私泄露分析得到隐私泄露结果的步骤之后,处理器1001还可以用于调用存储器1005中存储的基于隐私保护的建模程序,执行以下操作:
当所述隐私泄露结果表征隐私泄露程度大于或者等于预设程度时,将基于所述建模特征集合进行建模得到的模型作为目标模型。
进一步地,所述当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型的步骤包括:
当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合;
采用更新后的建模特征集合对应的用户数据对待训练模型进行模型训练以更新模型参数;
基于更新后的模型参数检测所述待训练模型是否满足预设模型条件;
若确定所述待训练模型满足所述预设模型条件,则基于更新后的模型参数得到目标模型。
进一步地,所述基于更新后的模型参数检测模型是否满足预设模型条件的步骤之后,处理器1001还可以用于调用存储器1005中存储的基于隐私保护的建模程序,执行以下操作:
若确定所述待训练模型不满足所述预设模型条件,则基于更新后的建模特征集合和更新后的模型参数,再执行所述步骤:从预设的用户特征集合中获取试探特征。
进一步地,所述采用更新后的建模特征集合对应的用户数据进行模型训练以更新模型参数的步骤包括:
获取更新后的建模特征集合对应的用户数据;
对所述用户数据进行差分隐私处理,并采用处理后的用户数据进行模型训练以更新模型参数。
进一步地,所述从预设的用户特征集合中获取试探特征的步骤包括:
将各个用户特征分别同所述建模特征集合代入预设的隐私泄露函数进行计算,得到所述各个用户特征分别对应的隐私泄露值,其中,所述各个用户特征属于所述用户特征集合减去所述建模特征集合的集合;
从所述各个用户特征中筛选隐私泄露值最小的用户特征作为试探特征。进一步地,所述当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型的步骤之后,还包括:
在建模得到所述目标模型之后,获取待评估用户的用户特征数据和待评估资源的资源特征数据;
将所述用户特征数据和所述资源特征数据输入所述目标模型,得到所述待评估用户对所述待评估资源的点击转化率预测结果。
基于上述的结构,提出基于隐私保护的建模方法的各个实施例。
参照图2,图2为本发明基于隐私保护的建模方法第一实施例的流程示意图。
本发明实施例提供了基于隐私保护的建模方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。本发明基于隐私保护的建模方法各个实施例的执行主体可以是智能手机、个人计算机和服务器等设备,为便于描述,以下各实施例中省略执行主体进行阐述。在本实施例中,基于隐私保护的建模方法包括:
步骤S10,从预设的用户特征集合中获取试探特征;
很多机器学习模型的建模过程中需要采用到用户特征来进行建模,根据模型训练任务不同,所能够采用的用户特征不同,例如,模型训练任务是预测用户购买意愿,采用的用户特征可能涉及用户的历史购买记录相关的特征,模型训练任务是预测用户对资源的点击转化率时,采用的用户特征可能涉及用户的喜好相关的特征。在本实施例中,可以预先根据模型训练任务,确定训练模型可以采用的用户特征,以及确定待训练模型的结构。根据不同的模型训练任务,可采用的模型结构不同,本实施例中,可以采用针对该模型训练任务所常采用的机器学习模型结构,例如,可采用神经网络模型、决策树模型等。待训练模型的模型结构中的参数,例如神经网络模型中的权重值,是初始化的,模型训练过程即是通过训练样本对模型进行迭代训练,更新模型的参数,直到得到训练完成的目标模型。
在确定训练模型可以采取的用户特征后,将这些用户特征作为用户特征集合。例如,采用F={f1,f2,…,fn}来表示用户特征集合,集合内的f1、f2、…、fn就是各个用户特征。其中,有一些用户特征是比较隐私的特征,例如存款金额、家庭成员等。可以理解的是,根据模型训练任务不同,隐私的用户特征可能不同。
从用户特征集合中获取试探特征。具体地,从用户特征集合中获取一个或多个用户特征作为试探特征。可以是随机地从用户特征集合中获取一个或多个用户特征,也可以是按照某个预设的规则。例如,预设规则可以是,将用户特征集合中的各个用户特征按照隐私程度进行排序,当需要多次从用户特征集合中获取试探特征时,各次获取是按照隐私程度从低到高的顺序进行获取。
步骤S20,获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
预先可以设置一个建模特征集合,建模特征集合内包括一些用户特征,这些用户特征也属于用户特征集合,也就是从用户特征集合中选择一些特征,试探性地加入建模特征集合,预备采用建模特征集合中的用户特征来进行建模。建模特征集合内的用户特征可以是根据经验从用户特征集合中选取的隐私程度很低甚至完全无需隐私保护的特征。需要说明的是,若是需要进行多次试探性地加入特征,则在第一次试探性地加入特征时,建模特征集合可以是初始化为空的,也即不包含任何用户特征。
也即,在建模特征集合中可能已经包含了一些隐私程度低的用户特征,采用当前建模特征集合中的用户特征进行建模是被允许的。为了使得建模效果更好,可以判断是否能够将从用户特征集合中选取的试探特征加入建模特征集合,并且加入后对用户隐私的泄露仍然在允许范围内。具体地,可以对试探特征和该建模特征集合进行隐私泄露分析得到隐私泄露结果,即分析建模特征集合内容的用户特征加上该试探特征后的隐私泄露程度,然后根据隐私泄露结果来确定是否可以将试探特征加入建模特征集合。具体地,隐私泄露分析的方法有多种。例如,可以预先根据用户特征集合中各个用户特征的隐私程度,设置各个用户特征的隐私值,以表格的形式进行记录这些隐私值;在分析时,从表格中查找试探特征对应的隐私值,以及查找建模特征集合中各个用户特征对应的隐私值,然后将试探特征对应的隐私值和用户特征对应的隐私值进行相加,将相加的结果作为隐私泄露结果,那么隐私泄露结果就是分值,表征隐私泄露的程度。
需要说明的是,当建模特征集合不为空时,从用户特征集合中获取到的试探特征可以是不属于建模特征集合的,也即,建模特征集合内已经有的用户特征,就不需再进行试探性地加入。
根据隐私泄露结果来确定是否可以将试探特征加入建模特征集合,具体可以是判断隐私泄露结果是否表征隐私泄露程度小于一个预设程度。
步骤S30,当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
当隐私泄露结果表征隐私泄露程度小于预设程度时,根据试探特征更新建模特征集合。具体地,当隐私泄露结果是一个分值时,可以预先根据对用户隐私泄露的容忍程度设置一个阈值,当该分值小于该阈值时,说明隐私泄露结果表征隐私泄露程度小于预设程度,也说明将试探特征和建模特征集合组合起来进行的建模的话,是在隐私泄露的容忍程度内的,那么可以根据试探特征更新建模特征集合,具体地可以将试探特征添加至建模特征集合,从而更新建模特征集合。
在更新建模特征集合后,可以基于更新后的建模特征集合进行建模得到目标模型。具体地,可以在更新后的建模特征集合的基础上,再次从用户特征集合中获取试探特征,进行试探性地加入,当满足一定的条件时,就停止加入,以最后的建模特征集合作为建模所需的特征集合。需要说明的是,基于特征集合进行建模的过程可采用常用的机器学习模型建模过程,在此不做详细赘述。
进一步地,所述步骤S20之后,还包括:
步骤S40,当所述隐私泄露结果表征隐私泄露程度大于或者等于预设程度时,将基于所述建模特征集合进行建模得到的模型作为目标模型。
进一步地,当隐私泄露结果表征隐私泄露程度大于或者等于预设程度时,具体地,当隐私泄露结果是一个分值,该分值大于或者等于预先设置的一个阈值时,说明隐私泄露结果表征隐私泄露程度大于或者等于预设程度,也说明将试探特征和建模特征集合组合起来进行建模的话,就超出了隐私泄露的容忍程度,那么此时就可以不将试探特征添加至建模特征集合,而是采用基于当前的建模特征集合进行建模得到的模型作为目标模型。
那么,本实施例中,可以初始化建模特征集合,初始化的建模特征集合为空,或者是包含一些隐私程度很低的用户特征;从全部特征集合中选取一个或多个用户特征作为试探特征,当检测到将试探特征加入建模特征集合是在隐私泄露程度容忍程度内时,就将试探特征添加入建模特征集合,建模特征集合得到了更新;再次从全部特征集合中选取一个或多个用户特征作为试探特征,当检测到将试探特征加入更新后的建模特征集合仍然是在隐私泄露程度容忍程度内时,再将该试探特征添加入建模特征集合;经过多次的试探,最终当检测到将试探特征加入建模特征集合后不在隐私泄露容忍程度内时,就不加入了,基于当前的那个建模特征集合进行建模,得到最终的目标模型。需要说明的是,每一次从全部特征集合中获取的试探特征最好是不重复的,这样可以减少试探的次数,从而提高建模效率。
在本实施例中,通过从用户特征集合中获取试探特征,并获取基于该试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果,实现根据隐私泄露结果判断是否可以将试探特征添加至建模特征集合,也即实现试探性地添加用户特征至用于建模的建模特征集合;当隐私泄露结果表征隐私泄露程度小于预设程度时,根据试探特征更新建模特征集合,并基于更新后的建模特征集合进行建模得到目标模型,实现了在隐私泄露的容忍范围内添加用户特征至用于建模的建模特征集合,使得建模过程能够采用尽可能多的用户特征,从而达到最大化建模效果的同时尽可能大地保证用户隐私安全。
进一步地,基于上述第一实施例,提出本发明基于隐私保护的建模方法第二实施例,在本实施例中,所述步骤S30包括:
步骤S301,当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合;
进一步地,在本实施例中,也可以是每一次往建模特征集合中添加入试探特征后,就采用更新后的建模特征集合对模型进行一次训练。
具体地,当隐私泄露结果表征隐私泄露程度小于预设程度时,根据试探特征更新建模特征集合。具体地,当隐私泄露结果是一个分值时,可以预先根据对用户隐私泄露的容忍程度设置一个阈值,当该分值小于该阈值时,说明隐私泄露结果表征隐私泄露程度小于预设程度,也说明将试探特征和建模特征集合组合起来进行的建模的话,是在隐私泄露的容忍程度内的,那么可以根据试探特征更新建模特征集合,具体地可以将试探特征添加至建模特征集合,从而更新建模特征集合。
步骤S302,采用更新后的建模特征集合对应的用户数据对待训练模型进行模型训练以更新模型参数;
采用更新后的建模特征集合对应的用户数据进行模型训练,以更新模型参数。具体地,预先采集了大量用户的用户数据,一个用户的用户数据包括各个用户特征下的数据,需要说明的是,虽然有些用户特征下的用户数据是能够采集得到的,但是在某种具体的领域,这些用户数据可能不允许被运用来进行建模。在确定建模特征集合后,就从用户的用户数据中获取建模特征集合内的用户特征下的数据。采用获取到的建模特征集合对应的用户数据进行模型训练的方式,可采取现有的有监督学习、半监督学习或强化学习等各种训练方式,根据模型训练任务不同,所采取的训练方式可能不同,在此不进行详细赘述。模型训练后,待训练模型的模型参数得到了更新。
步骤S303,基于更新后的模型参数检测待训练模型是否满足预设模型条件;
训练后,可以基于更新后的模型参数检测模型是否满足预设模型条件。其中,预设模型条件可以预先根据对模型性能的需求进行设置的条件,例如,当模型的预测准确率达到一定程度时就可以结束训练了,则预设模型条件可以是准确率大于一个预设的准确率,那么检测模型是否满足预设模型条件具体可以是,基于更新后的模型参数计算模型的预测准确率,然后检测预测准确率是否大于该预设的准确率。
步骤S304,若确定待训练模型满足所述预设模型条件,则基于更新后的模型参数得到目标模型。
若确定模型满足预设模型条件,则基于更新后的模型参数得到目标模型,也即,将更新后的模型参数确定为待训练模型的最终参数,将确定了最终参数的待训练模型作为目标模型。例如,当模型的预测准确率大于预设的准确率时,就可确定模型满足预设模型条件,否则确定模型不满足预设模型条件。
进一步地,所述步骤S303之后,还包括:
步骤S304,若确定模型不满足所述预设模型条件,则基于更新后的建模特征集合和更新后的模型参数,再执行所述步骤:从预设的用户特征集合中获取试探特征。
进一步地,若确定模型不满足预设模型条件,则基于更新后的建模特征集合和更新后的模型参数,再从全部特征集合中获取试探特征,然后获取基于试探特征和当前的建模特征集合进行隐私泄露分析得到的隐私泄露结果;若隐私泄露结果表征隐私泄露程度大于或者等于预设程度,则将基于当前的建模特征集合进行建模得到的模型作为目标模型,也即将采用当前的建模特征集合进行模型训练后更新的模型参数,作为待训练模型的最终参数,将确定了最终参数的待训练模型作为目标模型,然后结束建模过程;若隐私泄露结果表征隐私泄露程度小于预设程度时,将试探特征添加至建模特征集合,再采用更新后的建模特征集合对当前的待训练模型训练以更新模型参数,再检测模型是否满足预设模型条件;若满足,则基于更新后的模型参数得到目标模型;若不满足,则再次进行获取试探特征,像这样循环迭代,直到得到目标模型时,结束建模过程。
也即,循环迭代建模的过程中,有两种可能的循环结束的出口;一是获取的试探特征导致隐私泄露程度大于预设程度了,就将基于当前的建模特征集合进行建模得到的模型作为目标模型,结束建模;二是当将试探特征添加至建模特征集合,采用更新后的建模特征集合进行建模,得到满足预设模型条件的模型时,将满足预设模型条件的模型作为目标模型,结束建模。
在本实施例中,通过在每一次往建模特征集合中添加入试探特征后,就采用更新后的建模特征集合对模型进行一次训练以更新模型参数,并检测更新了模型参数的模型是否满足预设模型条件,即确定是否满足需要的模型性能,若检测到满足预设模型条件,则不再继续添加特征,也不再继续进行模型训练,使得最终得到的目标模型既满足性能需求,又在训练过程中尽量地保护了用户隐私安全。
进一步地,所述步骤S302包括:
步骤S3021,获取更新后的建模特征集合对应的用户数据;
步骤S3022,对所述用户数据进行差分隐私处理,并采用处理后的用户数据进行模型训练以更新模型参数。
为进一步地对用户隐私进行保护,在本实施例中,可以获取更新后的建模特征集合对应的用户数据,然后对用户数据进行差分隐私处理。差分隐私(DifferentialPrivacy)是一种数学技术,它能够在给数据添加噪声的同时,一直计算隐私提升的程度,从而使得增加“噪音”的过程变得更加严谨。具体地可采用常用的差分隐私处理方法对用户数据进行处理,给用户数据添加噪声,进而在建模过程中对用户数据进行进一步的隐私保护。
进一步地,所述步骤S10包括:
步骤S101,将各个用户特征分别同所述建模特征集合代入预设的隐私泄露函数进行计算,得到所述各个用户特征分别对应的隐私泄露值,其中,所述各个用户特征属于所述用户特征集合减去所述建模特征集合的集合;
进一步地,从全部特征集合中获取试探特征的方式还可以是:
可以是预先根据经验设置一个隐私泄露函数,这个隐私泄露函数可以输入用户特征的名称本身,或者是输入用户特征所对应的隐私值,输出结果可以是一个隐私泄露值。隐私泄露函数的结构可采用常用的线性函数,例如,线性函数的权重值可以是各个用户特征的隐私值。
将各个用户特征分别与建模特征集合中的用户特征一起代入隐私泄露函数,计算得到各个用户特征所分别对应的隐私泄露值。需要说明的是,各个用户特征可以是属于用户特征集合减去当前的建模特征集合所构成的集合,这样使得每次试探地加入特征时,获取的试探特征是不重复的。
步骤S102,从所述各个用户特征中筛选隐私泄露值最小的用户特征作为试探特征。
计算得到各个用户特征对应的隐私泄露值后,从各个用户特征中筛选处隐私泄露值最小的用户特征作为试探特征。也即,每一次试探地加入特征时,都期望加入特征后,让隐私泄露程度增长得最小,从而尽可能地保护用户隐私。
进一步地,所述基于隐私保护的建模方法还包括:
步骤S50,在建模得到所述目标模型之后,获取待评估用户的用户特征数据和待评估资源的资源特征数据;
进一步地,在本实施例中,模型训练任务可以是训练一个用于预测用户对资源的点击转化率的模型,其中,点击转化率可以是指用户对资源的内容感兴趣进行点击查看、实施购买的概率。其中,资源可以是公益广告、商业广告、重要的新闻资讯等资源,由于在这种应用场景中,可能会有不允许使用用户的隐私数据进行建模的相关规范,因此,在本实施例中,可采用第一实施例和第二实施例中所述的建模方法来进行点击转化率预测模型的构建,从而实现在建模过程中保护用户的隐私安全。
在建模得到预测点击转化率的目标模型后,可以采用目标模型来预测待评估用户对待评估资源的点击转化率。具体地,可以获取待评估用户的用户特征数据,用户特征数据可以是待评估用户在建模特征集合中各个用户特征下的数据,建模特征集合可以是最后确定的用于建模的建模特征集合。再获取待评估资源的资源特征数据,资源特征数据可以是包括资源内容的一些特征,例如,资源类型、资源受众类型等等。需要说明的是,在建模过程中,也需要采用各个资源的资源特征数据来进行建模,具体地,一条训练样本可以包括一个用户的用户数据、一个资源的资源特征数据以及该用户对该资源的真实点击转化率,可采用多条训练样本对待训练模型进行有监督训练,以真实点击转化率作为标签,来监督模型的输出。
步骤S60,将所述用户特征数据和所述资源特征数据输入所述目标模型,得到所述待评估用户对所述待评估资源的点击转化率预测结果。
将待评估用户的用户特征数据和待评估资源的资源特征数据输入目标模型,得到待评估用户对待评估资源的点击转化率预测结果,具体地,点击转化率预测结果可以是一个类别,表示用户是否会对资源进行点击转化,也可以是一个概率值,表示用户对资源进行点击转化的概率。
在本实施例中,通过对在资源的用户点击转化率预测模型的建模过程中,通过从用户特征集合中获取试探特征,并获取基于该试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果,实现根据隐私泄露结果判断是否可以将试探特征添加至建模特征集合,也即实现试探性地添加用户特征至用于建模的建模特征集合;当隐私泄露结果表征隐私泄露程度小于预设程度时,根据试探特征更新建模特征集合,并基于更新后的建模特征集合进行建模得到目标模型,实现了在隐私泄露的容忍范围内添加用户特征至用于建模的建模特征集合,使得建模过程能够采用更多的用户特征,从而达到最大化点击转化率预测模型的建模效果的同时尽可能大地保证用户隐私安全。
此外,此外本发明实施例还提出一种基于隐私保护的建模装置,参照图3,所述基于隐私保护的建模装置包括:
第一获取模块10,用于从预设的用户特征集合中获取试探特征;
第二获取模块20,用于获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
更新模块30,用于当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
进一步地,所述基于隐私保护的建模装置还包括:
确定模块,用于当所述隐私泄露结果表征隐私泄露程度大于或者等于预设程度时,将基于所述建模特征集合进行建模得到的模型作为目标模型。
进一步地,所述更新模块30包括:
更新单元,用于当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合;
训练单元,用于采用更新后的建模特征集合对应的用户数据对待训练模型进行模型训练以更新模型参数;
检测单元,用于基于更新后的模型参数检测待训练模型是否满足预设模型条件;
确定单元,用于若确定模型满足所述预设模型条件,则基于更新后的模型参数得到目标模型。
进一步地,所述更新模块30还包括:
循环单元,用于若确定模型不满足所述预设模型条件,则基于更新后的建模特征集合和更新后的模型参数,再执行所述步骤:从预设的用户特征集合中获取试探特征。
进一步地,所述训练单元包括:
获取单元,用于获取更新后的建模特征集合对应的用户数据;
差分隐私处理单元,用于对所述用户数据进行差分隐私处理,并采用处理后的用户数据进行模型训练以更新模型参数。
进一步地,所述第一获取模块10包括:
计算单元,用于将各个用户特征分别同所述建模特征集合代入预设的隐私泄露函数进行计算,得到所述各个用户特征分别对应的隐私泄露值,其中,所述各个用户特征属于所述用户特征集合减去所述建模特征集合的集合;
筛选单元,用于从所述各个用户特征中筛选隐私泄露值最小的用户特征作为试探特征。
进一步地,所述基于隐私保护的建模装置还包括:
第三获取模块,用于在建模得到所述目标模型之后,获取待评估用户的用户特征数据和待评估资源的资源特征数据;
输入模块,用于将所述用户特征数据和所述资源特征数据输入所述目标模型,得到所述待评估用户对所述待评估资源的点击转化率预测结果。
本发明基于隐私保护的建模装置的具体实施方式的拓展内容与上述基于隐私保护的建模方法各实施例基本相同,在此不做赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述存储介质上存储有基于隐私保护的建模程序,所述基于隐私保护的建模程序被处理器执行时实现如下所述的基于隐私保护的建模方法的步骤。
本发明基于隐私保护的建模设备和计算机可读存储介质的各实施例,均可参照本发明基于隐私保护的建模方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于隐私保护的建模方法,其特征在于,所述基于隐私保护的建模方法包括以下步骤:
从预设的用户特征集合中获取试探特征;
获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
2.如权利要求1所述的基于隐私保护的建模方法,其特征在于,所述获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果的步骤之后,还包括:
当所述隐私泄露结果表征隐私泄露程度大于或者等于预设程度时,将基于所述建模特征集合进行建模得到的模型作为目标模型。
3.如权利要求1所述的基于隐私保护的建模方法,其特征在于,所述当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型的步骤包括:
当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合;
采用更新后的建模特征集合对应的用户数据对待训练模型进行模型训练以更新模型参数;
基于更新后的模型参数检测所述待训练模型是否满足预设模型条件;
若确定所述待训练模型满足所述预设模型条件,则基于更新后的模型参数得到目标模型。
4.如权利要求3所述的基于隐私保护的建模方法,其特征在于,所述基于更新后的模型参数检测模型是否满足预设模型条件的步骤之后,还包括:
若确定所述待训练模型不满足所述预设模型条件,则基于更新后的建模特征集合和更新后的模型参数,再执行所述步骤:从预设的用户特征集合中获取试探特征。
5.如权利要求3所述的基于隐私保护的建模方法,其特征在于,所述采用更新后的建模特征集合对应的用户数据进行模型训练以更新模型参数的步骤包括:
获取更新后的建模特征集合对应的用户数据;
对所述用户数据进行差分隐私处理,并采用处理后的用户数据进行模型训练以更新模型参数。
6.如权利要求1所述的基于隐私保护的建模方法,其特征在于,所述从预设的用户特征集合中获取试探特征的步骤包括:
将各个用户特征分别同所述建模特征集合代入预设的隐私泄露函数进行计算,得到所述各个用户特征分别对应的隐私泄露值,其中,所述各个用户特征属于所述用户特征集合减去所述建模特征集合的集合;
从所述各个用户特征中筛选隐私泄露值最小的用户特征作为试探特征。
7.如权利要求1至6任一项所述的基于隐私保护的建模方法,其特征在于,所述当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型的步骤之后,还包括:
在建模得到所述目标模型之后,获取待评估用户的用户特征数据和待评估资源的资源特征数据;
将所述用户特征数据和所述资源特征数据输入所述目标模型,得到所述待评估用户对所述待评估资源的点击转化率预测结果。
8.一种基于隐私保护的建模装置,其特征在于,所述基于隐私保护的建模装置包括:
第一获取模块,用于从预设的用户特征集合中获取试探特征;
第二获取模块,用于获取基于所述试探特征和预设的建模特征集合进行隐私泄露分析得到的隐私泄露结果;
更新模块,用于当所述隐私泄露结果表征隐私泄露程度小于预设程度时,根据所述试探特征更新所述建模特征集合,以根据更新后的建模特征集合进行建模得到目标模型。
9.一种基于隐私保护的建模设备,其特征在于,所述基于隐私保护的建模设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于隐私保护的建模程序,所述基于隐私保护的建模程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于隐私保护的建模方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于隐私保护的建模程序,所述基于隐私保护的建模程序被处理器执行时实现如权利要求1至7中任一项所述的基于隐私保护的建模方法的步骤。
CN202010256055.4A 2020-04-02 2020-04-02 基于隐私保护的建模方法、装置、设备及存储介质 Pending CN111460505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010256055.4A CN111460505A (zh) 2020-04-02 2020-04-02 基于隐私保护的建模方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010256055.4A CN111460505A (zh) 2020-04-02 2020-04-02 基于隐私保护的建模方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111460505A true CN111460505A (zh) 2020-07-28

Family

ID=71684465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010256055.4A Pending CN111460505A (zh) 2020-04-02 2020-04-02 基于隐私保护的建模方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111460505A (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203787A1 (en) * 2009-10-09 2012-08-09 Nec Corporation Information management apparatus, data processing method and computer program
CN103327183A (zh) * 2013-06-13 2013-09-25 中国科学院信息工程研究所 基于标签的安卓用户隐私数据黑盒防护方法及系统
CN104009911A (zh) * 2014-06-13 2014-08-27 中国地质大学(武汉) 社交网络中的链接隐私保护方法及系统
US20150186660A1 (en) * 2012-06-14 2015-07-02 Google Inc. Enabling user privacy for changes of access to shared content
WO2016079973A1 (ja) * 2014-11-21 2016-05-26 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
US20180068126A1 (en) * 2015-03-06 2018-03-08 Nokia Technologies Oy Privacy management
CN108062363A (zh) * 2017-12-05 2018-05-22 南京邮电大学 一种面向有源配电网的数据过滤方法及系统
CN108830100A (zh) * 2018-05-30 2018-11-16 山东大学 基于多任务学习的用户隐私泄漏检测方法、服务器及系统
CN109446844A (zh) * 2018-11-15 2019-03-08 北京信息科技大学 一种面向大数据发布的隐私保护方法及系统
CN109726589A (zh) * 2018-12-22 2019-05-07 北京工业大学 一种面向众智云环境的隐私数据访问方法
US20190213336A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Cognitive widgets and ui components for preserving privacy and security

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203787A1 (en) * 2009-10-09 2012-08-09 Nec Corporation Information management apparatus, data processing method and computer program
US20150186660A1 (en) * 2012-06-14 2015-07-02 Google Inc. Enabling user privacy for changes of access to shared content
CN103327183A (zh) * 2013-06-13 2013-09-25 中国科学院信息工程研究所 基于标签的安卓用户隐私数据黑盒防护方法及系统
CN104009911A (zh) * 2014-06-13 2014-08-27 中国地质大学(武汉) 社交网络中的链接隐私保护方法及系统
WO2016079973A1 (ja) * 2014-11-21 2016-05-26 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体
US20180068126A1 (en) * 2015-03-06 2018-03-08 Nokia Technologies Oy Privacy management
CN107368752A (zh) * 2017-07-25 2017-11-21 北京工商大学 一种基于生成式对抗网络的深度差分隐私保护方法
CN108062363A (zh) * 2017-12-05 2018-05-22 南京邮电大学 一种面向有源配电网的数据过滤方法及系统
US20190213336A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Cognitive widgets and ui components for preserving privacy and security
CN108830100A (zh) * 2018-05-30 2018-11-16 山东大学 基于多任务学习的用户隐私泄漏检测方法、服务器及系统
CN109446844A (zh) * 2018-11-15 2019-03-08 北京信息科技大学 一种面向大数据发布的隐私保护方法及系统
CN109726589A (zh) * 2018-12-22 2019-05-07 北京工业大学 一种面向众智云环境的隐私数据访问方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
万文强等: "分布式环境下的隐私保护特征选择研究", 南京师范大学学报(工程技术版)》, vol. 12, no. 3, 30 September 2012 (2012-09-30), pages 1 - 2 *
原永滨;杨静;张健沛;于旭: "一种基于主成分分析的稀疏数据模式分类隐私保护算法", 科技导报, vol. 32, no. 012, 31 December 2014 (2014-12-31) *
叶明全: "基于粗糙集理论的隐私保护数据挖掘研究", 《中国知网博士学位论文全文库》, vol. 2014, no. 4, 15 April 2014 (2014-04-15), pages 5 *

Similar Documents

Publication Publication Date Title
WO2018103595A1 (zh) 一种授权策略推荐方法及装置、服务器、存储介质
CN110428127B (zh) 自动化分析方法、用户设备、存储介质及装置
US10956541B2 (en) Dynamic optimization of software license allocation using machine learning-based user clustering
CN111160624B (zh) 一种用户意向预测方法、用户意向预测装置及终端设备
CN110826071A (zh) 软件漏洞风险预测方法、装置、设备及存储介质
Korableva et al. Designing a Decision Support System for Predicting Innovation Activity.
CN111754044A (zh) 员工行为审计方法、装置、设备及可读存储介质
CN107807935B (zh) 应用推荐方法及装置
CN111274452A (zh) 一种数据分析建模方法、平台、服务器及可读存储介质
CN112686371A (zh) 网络结构搜索方法、装置、设备、存储介质及程序产品
MacCalman et al. Capturing experimental design insights in support of the model-based system engineering approach
CN112799785A (zh) 虚拟机集群迁移方法、装置、设备和介质
CN111814117A (zh) 模型解释方法、设备及可读存储介质
CN114519435A (zh) 模型参数更新方法、模型参数更新装置和电子设备
CN111783843A (zh) 一种特征选择方法、装置及计算机系统
CN110909888A (zh) 泛型决策树构建方法、装置、设备及可读存储介质
Ghafari et al. Improved Harris Hawks Optimizer with chaotic maps and opposition-based learning for task scheduling in cloud environment
CN117556160A (zh) 前端网页性能自动优化方法、装置、设备及可读存储介质
CN111783956A (zh) 特征维度重要性分析方法、装置、设备及可读存储介质
CN111460505A (zh) 基于隐私保护的建模方法、装置、设备及存储介质
CN117035482A (zh) 一种土地利用综合整治绩效评估方法及系统
CN115713216A (zh) 一种机器人调度方法及相关设备
CN112866358B (zh) 一种物联网服务重调度的方法、系统及装置
CN115600818A (zh) 多维评分方法、装置、电子设备和存储介质
CN112948257B (zh) 内核模糊测试用例生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination