CN110097111A - 一种确定目标用户的方法及装置 - Google Patents

一种确定目标用户的方法及装置 Download PDF

Info

Publication number
CN110097111A
CN110097111A CN201910342429.1A CN201910342429A CN110097111A CN 110097111 A CN110097111 A CN 110097111A CN 201910342429 A CN201910342429 A CN 201910342429A CN 110097111 A CN110097111 A CN 110097111A
Authority
CN
China
Prior art keywords
user
label
value
seed
participant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910342429.1A
Other languages
English (en)
Inventor
刘畅
郑琳琳
郑文琛
杨强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910342429.1A priority Critical patent/CN110097111A/zh
Publication of CN110097111A publication Critical patent/CN110097111A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Technology Law (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种确定目标用户的方法及装置,其中方法包括:联邦建模的第一参与方获取K个种子用户,并从预设对应关系表中获取K个种子用户对应的N个标签和K个种子用户对应的N个标签的值;进一步地,第一参与方从预设对应关系表中获取除K个种子用户以外的M‑K个用户对应的N个标签的值,并根据M‑K个用户对应的N个标签的值和K个种子用户对应的N个标签的值,从M‑K个用户中确定目标用户。本发明实施例中,通过采用联邦建模的方式对预设数据库中每个用户对应的每个标签的值进行填充,可以得到完整的预设数据库;相应地,基于完整的预设数据库进行人群扩散业务,可以提高确定得到的目标用户的准确性。

Description

一种确定目标用户的方法及装置
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种确定目标用户的方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融行业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。金融行业(比如银行)一般都会涉及到用户扩散业务,具体地说,银行可以基于种子用户确定与种子用户的特征相似的目标用户,从而可以通过向目标用户投放广告、推荐产品来拓展银行的用户渠道。由于金融行业的性质,需要尽可能地保证用户数据的准确性、安全性和不可丢失性,这就要求金融行业在确定目标用户时,需要尽可能地保证已有用户(比如种子用户)的数据的安全性。因此,如何在保证已有用户的数据的安全性的情况下尽可能地拓展更多的目标用户,对于金融行业的发展是非常重要的。
以金融行业的银行为例,现有技术为了保证用户数据的安全性,通常可以基于银行内部设置的预设数据库来执行人群扩散业务。具体地说,某一家银行接收到种子用户后,若需要对种子用户进行人群扩散,则可以获取该家银行内部设置的预设数据库中存储的多个用户,将多个用户与种子用户进行比较,从而可以从多个用户中选择与种子用户较为相似的用户作为目标用户。由此可知,在金融行业中,为了保证用户信息的安全性,每家银行均是基于银行内部设置的预设数据库进行人群扩散的,然而,单个银行内部设置的预设数据库中多个用户的信息通常是不全面的,比如可能缺乏某一个用户的血型信息、爱好信息等,因此,采用现有技术的方案预测得到的目标用户可能会不准确。
综上,目前亟需一种确定目标用户的方法,用以得到准确的目标用户。
发明内容
本发明实施例提供一种确定目标用户的方法及装置,用以得到准确的目标用户。
第一方面,本发明实施例提供的一种确定目标用户的方法,包括:
联邦建模的第一参与方获取K个种子用户,并从预设对应关系表中获取所述K个种子用户对应的N个标签和所述K个种子用户对应的N个标签的值;所述预设对应关系表包括M个用户、L个标签和所述M个用户中的每个用户对应的L个标签的值,所述M个用户包括所述K个种子用户,所述预设对应关系表为根据第一训练样本和第二训练样本得到的,所述第一训练样本为所述第一参与方提供,所述第二训练样本为所述联邦建模的第二参与方提供;进一步地,所述第一参与方从预设对应关系表中获取除所述K个种子用户以外的M-K个用户对应的所述N个标签的值,并根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户;其中,K、M、L、N为整数,K<M,L<N。
上述技术方案中,通过采用联邦建模的方式确定预设数据库中每个用户对应的每个标签的值,可以使用联邦建模的结果填充预设数据库,从而使得预设数据库中包括的多个用户、多个标签和多个用户对应的多个标签的值均是完整的;相应地,基于完整的预设数据库进行人群扩散业务,可以提高确定得到的目标用户的准确性。
可选地,所述第一训练样本中包括M个用户、L1个标签和所述M个用户对应的所述L1个标签中的一个或多个标签的值,所述第二训练样本中包括所述M个用户、L2个标签和所述M个用户对应的所述L2个标签中的一个或多个标签的值;针对于所述M个用户中的第一用户,通过如下方式确定所述预设对应关系表中所述第一用户对应的L个标签中的第一标签的值:所述第一参与方接收所述第二参与方发送的第一梯度,所述第一梯度为所述第二参与方使用所述第二训练样本中的所述第一用户对应的P个标签的值确定的;所述第一参与方根据所述第一训练样本中的所述第一用户对应的Q个标签的值和所述第一梯度,确定所述预设对应关系表中所述第一用户对应的第一标签的值;其中,P、Q为整数,P<L1,Q<L2
上述技术方案中,第一参与方与第二参与方可以在各自的模型训练过程中进行交互,即第二参与方可以将中间阶段得到的梯度发送给第一参与方,一方面,可以避免直接发送用户的数据所导致的数据泄露的技术问题,提高金融领域扩散人群业务的安全性;另一方面,通过结合第二参与方训练模型的中间结果(即梯度)和第一参与方已有的用户数据,可以预测得到用户的更多信息,从而可以填充第一参与方已有的预设数据库,提高基于预设数据库预测得到的目标用户的准确性。
可选地,所述根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户,包括:针对于所述M-K个用户中的任一用户,所述第一参与方根据所述用户对应的所述N个标签的值和所述K个种子用户对应的所述N个标签的值,确定所述用户与所述K个种子用户的相似分值;其中,每个用户对应的相似分值用于标识所述每个用户与所述种子用户的相似程度;进一步地,所述第一参与方从所述M-K个用户中选择相似分值最大的T个用户作为T个目标用户;其中,T≤M-K。
上述技术方案中,通过获取预设数据库中与种子用户具有相同标签的一个或多个用户,可以基于相同标签下一个或多个用户对应的值和种子用户对应的值,确定一个或多个用户与种子用户的相似程度;也就是说,通过相同标签对用户的相似程度进行预测,可以实现人群扩散业务,得到更加符合实际情况的目标用户。
第二方面,本发明实施例提供一种确定目标用户的装置,所述装置包括:
获取模块,获取K个种子用户;以及,从预设对应关系表中获取所述K个种子用户对应的N个标签和所述K个种子用户对应的N个标签的值;所述预设对应关系表包括M个用户、L个标签和所述M个用户中的每个用户对应的L个标签的值,所述M个用户包括所述K个种子用户,所述预设对应关系表为根据第一训练样本和第二训练样本得到的,所述第一训练样本为所述第一参与方提供,所述第二训练样本为所述联邦建模的第二参与方提供;
确定模块,用于从预设对应关系表中获取除所述K个种子用户以外的M-K个用户对应的所述N个标签的值,并根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户;其中,K、M、L、N为整数,K<M,L<N。
可选地,所述第一训练样本中包括M个用户、L1个标签和所述M个用户对应的所述L1个标签中的一个或多个标签的值,所述第二训练样本中包括所述M个用户、L2个标签和所述M个用户对应的所述L2个标签中的一个或多个标签的值;针对于所述M个用户中的第一用户,所述确定模块通过如下方式确定所述预设对应关系表中所述第一用户对应的L个标签中的第一标签的值:接收所述第二参与方发送的第一梯度,所述第一梯度为所述第二参与方使用所述第二训练样本中的所述第一用户对应的P个标签的值确定的;进一步地,根据所述第一训练样本中的所述第一用户对应的Q个标签的值和所述第一梯度,确定所述预设对应关系表中所述第一用户对应的第一标签的值;其中,P、Q为整数,P<L1,Q<L2
可选地,所述确定模块用于:针对于所述M-K个用户中的任一用户,根据所述用户对应的所述N个标签的值和所述K个种子用户对应的所述N个标签的值,确定所述用户与所述K个种子用户的相似分值;每个用户对应的相似分值用于标识所述每个用户与所述种子用户的相似程度;从所述M-K个用户中选择相似分值最大的T个用户作为T个目标用户,其中,T≤M-K。
第三方面,本发明实施例提供的一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述第一方面任意所述的确定目标用户的方法。
第四方面,本发明实施例提供的一种计算机程序产品,当其在计算机上运行时,使得计算机执行如上述第一方面任意所述的确定目标用户的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种人群扩散业务对应的系统架构示意图;
图2为本发明实施例提供的一种确定目标用户的方法对应的流程示意图;
图3为本发明实施例中提供的一种确定目标用户的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种人群扩散业务对应的系统架构示意图,如图1所示,人群扩散业务的执行主体可以为第一参与方,第一参与方的预设数据库中可以存储有至少一个用户的数据,比如用户101~用户109的数据。其中,第一参与方可以为一个公司,或者也可以为一个公司内部设置的营销部门,具体不作限定。
具体实施中,第一参与方若要确定进行人群扩散业务,则可以预先获取种子用户的数据。其中,若第一参与方为公司A,则种子用户的数据可以为第一参与方从第一参与方的预设数据库中获取的;若第一参与方为公司A中的营销部门,则种子用户的数据可以为第一参与方从公司A的预设数据库中获取的,或者也可以为通过与公司A中的其它部门进行通信得到的,具体不作限定。
以第一参与方为A公司内部设置的营销部门为例,具体实施中,若营销部门接收到A公司的其它部门(比如理财部门)发送的第一信息,则可以从第一信息中获取种子用户;进一步地,营销部门可以从预设数据库中选择与种子用户相似的目标用户,并可以向目标用户推荐相应的理财商品,从而可以拓展理财业务渠道、扩大理财用户的数量,并可以增加理财的收益。其中,理财商品可以是指产品,比如金属类理财产品、珠宝首饰等,也可以是指软件应用,比如股票应用、债券应用等,还可以是指服务,比如投资推荐、储蓄方式等,具体不做限定。
举例来说,若理财部门需要对高风险理财感兴趣的用户执行人群扩散业务,则理财部门可以从理财部门已执行的业务中获取对高风险理财商品感兴趣的种子用户,比如种子用户可以为曾经购买过高风险理财产品的用户,或者可以为下载过高风险理财应用的用户,或者可以为咨询过高风险理财收益的用户;进一步地,理财部门可以将种子用户的身份证号发送给营销部门。相应地,营销部门接收到种子用户的身份证号后,可以从预设数据库中存储的用户101~用户109中选择出与种子用户相似的目标用户,目标用户可以为与种子用户办理过相同业务的用户,或者也可以与种子用户的身体特征相似的用户,具体不作限定。如图1所示,营销部门若确定目标用户为用户102、用户105和用户106,则营销部门可以将用户102、用户105和用户106的数据发送给理财部门,以使理财部门向用户102、用户105和用户106推荐高风险理财商品;或者营销部门也可以直接向用户102、用户105和用户106推荐高风险理财商品。
本发明的下列实施例中以第一参与方为公司A为例描述确定目标用户的实现过程,可以理解地,若第一参与方为公司A中的营销部门,则确定目标用户的过程也可以参照第一参与方为公司A时的实现过程进行实施。
基于图1所示意的系统架构,图2为本发明实施例提供的一种确定目标用户的方法对应的流程示意图,该方法包括:
步骤201,第一参与方获取K个种子用户。
具体实施中,若第一参与方为A公司,则A公司可以从A公司的预设数据库中获取K个种子用户,其中,A公司的预设数据库中可以存储有在A公司办理过业务的历史用户,比如办理过保险业务的历史用户、办理过储蓄业务的历史用户等。以在A公司办理过保险业务的历史用户为例,这些历史用户可以为购买过A公司的保险的用户,或者也可以为曾经咨询过A公司的保险业务的用户,或者还可以为曾经下载过保险应用的用户,具体不作限定。举例来说,若需要对保险业务进行人群扩散,则A公司可以从预设数据库中获取在A公司办理过保险业务的K个(比如50个)历史用户,这50个历史用户即可以为50个种子用户。
步骤202,第一参与方从预设对应关系表中获取K个种子用户对应的N个目标标签和K个种子用户对应的N个目标标签的值。
此处,预设对应关系表中可以包括M个用户、L个标签以及M个用户中的每个用户对应的L个标签的值,其中,M个用户可以包括K个种子用户。其中,预设对应关系表可以为对第一训练样本和第二训练样本进行联邦建模得到的,其中,第一训练样本可以是由公司A提供的训练样本,第二训练样本可以是由公司B提供的训练样本。公司A和公司B通过基于第一训练样本和第二训练样本的联邦建模后,公司A的预设数据库中可以存储有第一预设对应关系表,公司B的预设数据库中可以存储有第二预设对应关系表。下面以公司A为例描述确定目标用户的实现过程。
在一个示例中,表1a为采用上述方式得到的第一对应关系表的一种示意表。
表1a:一种第一对应关系表的示意
如表1a所示,第一对应关系表中可以包括用户Id1~用户Id5中的每一个用户对应的标签label1~标签label3的值,每个用户对应的每个标签的值可以为[0,1]中的任意数值。比如,用户Id1对应的标签label2的值可以为0.2,用户Id2对应的标签label1的值可以为0.9。
具体实施中,若种子用户仅包括用户Id1,则公司A可以预先从第一对应关系表中获取用户Id1对应的多个标签和用户Id1对应的多个标签的值;如表1a所示,用户Id1对应的标签可以包括标签label1、标签label2和标签label3,用户Id1对应的标签label1的值可以为1,用户Id1对应的标签label2的值可以为0.2,用户Id1对应的标签label1的值可以为0.7。进一步地,公司A可以将标签label1、标签label2和标签label3中值大于预设阈值的标签作为用户Id1对应的目标标签,比如,若预设阈值为0.5,则用户Id1对应的目标标签可以包括标签label1和标签label3。
在另一个示例中,表1b为使用上述方式得到的第一对应关系表的另一种示意表。
表1b:另一种第一对应关系表的示意
如表1b所示,第一对应关系表中可以包括用户Id1~用户Id5中的每一个用户对应的标签label1~标签label3的值,每个用户对应的每个标签的值可以为0或1;。比如,用户Id1对应的标签label2的值可以为0,用户Id2对应的标签label1的值可以为1。
具体实施中,若种子用户仅包括用户Id1,则公司A可以预先从第一对应关系表中获取用户Id1对应的多个标签和用户Id1对应的多个标签的值;如表1b所示,用户Id1对应的标签可以包括标签label1、标签label2和标签label3,用户Id1对应的标签label1的值可以为1,用户Id1对应的标签label2的值可以为0,用户Id1对应的标签label1的值可以为1。进一步地,公司A可以将标签label1、标签label2和标签label3中值为1的标签作为用户Id1对应的目标标签,比如,用户Id1对应的目标标签可以包括标签label1和标签label3。
步骤203,第一参与方从预设对应关系表中确定目标用户。
本发明实施例中,公司A可以从第一预设对应关系表中获取除用户Id1以外的用户Id2~用户Id5分别对应的目标标签(即标签label1和标签label2)的值,并可以根据用户Id2~用户Id5分别对应的目标标签的值和用户Id1对应的目标标签的值,从用户Id2~用户Id5中确定目标用户。
具体实施中,确定目标用户的方式可以有多种,在一种可能的实现方式中,针对于用户Id2~用户Id5中的任一用户(比如用户Id2),公司A可以根据用户Id2对应的标签label1和标签label2的值和用户Id1对应的标签label1和标签label2的值,确定用户Id2与用户Id1的相似分值;进一步地,公司A可以从用户Id2~用户Id5中选择相似分值最大的多个用户作为目标用户。举例来说,若第一对应关系表为表1a,则用户Id1对应的标签label1的值为1,由于用户Id2对应的标签label1的值为0.9,即用户Id2与用户Id1对应的标签label1的值的第一差值为0.1;进一步地,用户Id1对应的标签label2的值为0.7,用户Id2对应的标签label2的值为1,即用户Id2与用户Id1对应的标签label2的值的第二差值为0.3;因此,公司A可以根据第一差值和第二差值确定用户Id2与用户Id1的相似值。
在一个示例中,相似值可以为第一差值与第二差值的平均值的倒数,则根据表1a所示意的内容,用户Id2与用户Id1的相似值可以为5,用户Id3与用户Id1的相似值可以为2.5,用户Id4与用户Id1的相似值可以为20,用户Id5与用户Id1的相似值可以为2.2。如此,用户Id2~用户Id5与用户Id1的相似值从大到小的排序可以为:用户Id4>用户Id2>用户Id3>用户Id5,若所需的目标用户为2个,则目标用户可以为用户Id4和用户Id2。
需要说明的是,上述方式描述了基于表1a所示意的第一预设对应关系表确定目标用户的过程,可以理解地,使用表1b所示意的第一预设对应关系表确定目标用户的过程可以参照上述过程进行实现,具体不再赘述。
在另一种可能的实现方式中,可以将种子用户(比如用户Id1)的数据作为正样本数据,将第一预设对应关系表中除种子用户以外的用户(即用户Id2~用户Id5)的数据作为无标记样本数据,并可以采用半监督学习的方式,将用户Id1的数据和用户Id2~用户Id5的数据输入半监督模型,训练得到目标模型。进一步地,可以使用目标模型对用户Id2~用户Id5进行预测,得到每个用户的预测分值,每个用户的预测分值可以用于标识每个用户与用户Id1的相似程度,如此,可以根据Id2~用户Id5的预测分值确定用户Id1对应的目标用户。比如,用户Id2~用户Id5的预测分值分别为0.8、0.6、0.9、0.2,需要获取的目标用户的数量为2,则目标用户可以为用户Id2和用户Id4。
本发明的上述实施例中描述了根据第一预设对应关系表确定种子用户对应的目标用户的过程,下面描述得到第一预设对应关系表的实现过程,可以理解地,得到第二预设对应关系表的过程可以参照得到第一预设对应关系表的过程进行实现,不再赘述。
在一个示例中,在执行联邦建模之前,公司A中存储的第一训练样本可以如表2a所示,公司B中存储的第二训练样本可以如表2b所示。
第一训练样本和第二训练样本中可以分别存储有用户Id1~用户Id5、标签label1~标签label3以及用户Id1~用户Id5对应的标签label1~标签label3中的一个或多个标签的值。如表2a所示,在第一训练样本中,用户Id1对应的标签label1的值可以为1,用户Id2对应的标签label3的值可以为1,用户Id3对应的标签label3的值可以为1,用户Id4对应的标签label3的值可以为1,用户Id5对应的标签label3的值可以为1;相应地,如表2b所示,在第二训练样本中,用户Id1对应的标签label3的值可以为1,用户Id2对应的标签label1的值可以为1,用户Id3对应的标签label2和标签label3的值可以均为1,用户Id4对应的标签label2的值可以为1,用户Id5对应的标签label2的值可以为1。
从应用角度来描述,以第一训练样本为例,第一训练样本可以为存储在公司A的预设数据库中的训练样本,即第一训练样本中可以包括在公司A中办理过业务的用户以及用户对应的标签。其中,标签可以用于将多个用户划分到两个区间范围,标签可以为多种类型,在一个示例中,标签可以为用户办理过的业务,比如买花的次数、购物的频率等;以标签label1为买花的次数为例,若用户Id1每个月买花的次数大于或等于5次,则用户Id1对应的标签label1的值可以为1,若用户Id1每个月买花的次数小于5次,则用户Id1对应的标签label1的值可以为0。在另一个示例中,标签可以为用户的身体特征,比如性别、身高、血液等;以标签label2为身高为例,若用户Id2的身高大于或等于165cm,则用户Id2对应的标签label2的值可以为1,若用户Id2的身高小于165cm,则用户Id2对应的标签label2的值可以为0。
在实际操作中,公司A(或公司B)可以在用户Id1~用户Id5办理公司A中的业务时,获取到用户Id1~用户Id5中与业务相关的信息,然而,这些信息通常是不完整的。比如,如表2a所示,公司A的预设数据库中可以保存有用户Id1对应的标签label1的值,却未保存有用户Id1对应的标签label2和标签label3的值;相应地,如表2b所示,公司B的预设数据库中可以保存有用户Id1对应的标签label3的值,却未保存有用户Id1对应的标签label1和标签label2的值。因此,若公司A和公司B分别基于各自存储的预设数据库得到种子数据对应的目标数据,通常会由于预设数据库的数据不完整导致得到的目标用户的准确性较低。然而,由于金融行业需要对用户的数据进行保密,因此,公司A和公司B之间无法通过传输用户数据的方式完善各自的训练数据,综上,为了提高确定得到的目标用户的准确性,目前亟需一种丰富训练数据的方法。
基于此,本发明实施例提供了一种丰富训练数据的方法,具体地说,可以采用联邦建模的方式预测得到训练数据中的缺失项。比如,第一训练数据中用户Id2对应的标签label2的值为缺失项,在一种可能的实现方式中,可以通过如下方式得到用户Id2对应的标签label2的值:
步骤a,公司A和公司B分别获取用户Id2的数据。
具体地说,公司A可以从第一训练数据中获取用户Id2对应的一个或多个标签(即label1)以及用户Id2对应的一个或多个标签的值,相应地,公司B可以从第二训练数据中获取用户Id2对应的一个或多个标签(即label3)以及用户Id2对应的一个或多个标签的值。
步骤b,公司B使用第二训练数据中用户Id2的数据训练模型,得到模型训练过程中的第一梯度,并将第一梯度发送给公司A。
此处,公司B可以使用第二训练数据中用户Id2对应的标签label3以及用户Id2对应的标签label3的值训练模型,得到第一梯度。其中,公司B训练的模型可以用于预测第二训练数据中用户Id2对应的标签label2的值。举例来说,若标签label2为性别,标签label3为买花的次数,则由于第二训练数据中用户Id2对应的标签label3的值为1,即用户Id2买花的次数较多,因此可以确定用户Id2为女性的可能性较大,此时,公司B使用用户Id2对应的标签label3的值训练模型的过程中得到的第一梯度的值可以相对较高。其中,第一梯度的值可以标识用户Id2对应的标签labe2的特征。
需要说明的是,上述仅是一种示例性的简单说明,其所列举的基于用户Id2对应的标签label3的值得到第一梯度仅是为了便于说明方案,并不构成对方案的限定,在具体实施中,也可以基于用户Id2对应的多个标签的值得到第一梯度,比如,若第二训练数据中包括用户Id2对应的标签label2和标签label3的值,则可以使用用户Id2对应的标签label2和标签label3的值得到第一梯度,具体不再赘述。
本发明实施例中,第一梯度可以是公司B在训练模型的过程中的任意时刻得到的,在一个示例中,公司B在训练模型的过程中可以接收公司A发送的第二梯度,并可以基于第二梯度训练模型得到第一梯度;也就是说,公司A和公司B可以分别基于对方公司训练模型的过程中得到的梯度值修正训练得到的模型。其中,公司A训练得到的模型可以用于预测第一训练数据中用户所Id2对应的标签label2的值,公司B训练得到的模型可以用于预测第二训练数据中用户所Id2对应的标签label2的值。
步骤c,公司A使用第一训练数据中用户Id2的数据和第一梯度训练模型,得到预测模型。
以预测模型的类型为多项式模型为例,在一个示例中,公司A可以预先获取初始多项式模型,并可以使用第一训练数据中用户Id2对应的标签label1的值和第一梯度对初始多项式模型进行拟合,得到目标参数值,从而基于目标参数值得到目标多项式模型。在另一个示例中,公司A可以预先获取初始多项式模型,并可以使用第一训练数据中用户Id2对应的标签label1的值对初始多项式模型进行拟合,得到初始参数值,进一步地,公司A可以使用第一梯度对得到的每个初始参数值进行修正,得到目标参数值,进而基于目标参数值得到目标多项式模型。其中,目标多项式模型可以用于对用户Id2对应的标签label2的值进行预测。
步骤d,公司A使用预测模型预测用户Id2对应的标签label2的值。
此处,预测模型预测得到的用户Id2对应的标签label2的值可以有多种可能,在一种可能的实现方式中(为便于描述,简称为实现方式一),预测得到的用户Id2对应的标签label2的值可以为预设范围内的值,其中,预设范围可以由本领域技术人员根据经验进行设置,比如可以为[0,1]中的任意数值,具体不作限定。以标签label2为性别为例,若用户的性别为女,则用户对应的标签label2的值可以为1,若用户的性别为男,则用户对应的标签label2的值可以为0;在该示例中,若预测模型预测得到的用户Id2对应的标签label2的值越大(即越接近于1),则说明用户Id2为女性的可能性越大,相应地,若预测模型预测得到的用户Id2对应的标签label2的值越小(即越接近于0),则说明用户Id2为男性的可能性越大。
在另一种可能的实现方式中(为便于描述,简称为实现方式二),预测得到的用户Id2对应的标签label2的值可以为第一指示值或第二指示值,其中,第一指示值和第二指示值可以由本领域技术人员根据经验进行设置,比如第一指示值可以为0,第二指示值可以为1,或者第一指示值可以为1,第二指示值可以为0,具体不作限定。仍以标签label2为性别为例,若预测模型预测得到的用户Id2对应的标签label2的值为1,则说明预测模型预测用户Id2为女性,相应地,若预测模型预测得到的用户Id2对应的标签label2的值为0,则说明预测模型预测用户Id2为男性。
本发明实施例中,通过使用步骤a~步骤d所述的方法确定第一训练数据中缺失的每个用户对应的每个标签的值,可以得到不包含缺失项的第一对应关系表。若采用实现方式一中的方式确定每个用户对应的每个标签的值,则可以得到表1a所示意的第一对应关系表;若采用实现方式二中的方式确定每个用户对应的每个标签的值,则可以得到表1b所示意的第一对应关系表。
本发明的上述实施例中,本发明的上述实施例中,联邦建模的第一参与方获取K个种子用户,并从预设对应关系表中获取K个种子用户对应的N个标签和K个种子用户对应的N个标签的值;其中,预设对应关系表包括M个用户、L个标签和M个用户中的每个用户对应的L个标签的值,M个用户包括K个种子用户,预设对应关系表为根据第一训练样本和第二训练样本得到的,第一训练样本为第一参与方提供,第二训练样本为联邦建模的第二参与方提供;进一步地,第一参与方从预设对应关系表中获取除K个种子用户以外的M-K个用户对应的N个标签的值,并根据M-K个用户对应的N个标签的值和K个种子用户对应的N个标签的值,从M-K个用户中确定目标用户。本发明实施例中,通过采用联邦建模的方式确定预设数据库中每个用户对应的每个标签的值,可以使用联邦建模的结果填充预设数据库,从而使得预设数据库中包括的多个用户、多个标签和多个用户对应的多个标签的值均是完整的;相应地,基于完整的预设数据库进行人群扩散业务,可以提高确定得到的目标用户的准确性。
针对上述方法流程,本发明实施例还提供一种确定目标用户装置,该装置的具体内容可以参照上述方法实施。
图3为本发明实施例提供的一种确定目标用户的装置的结构示意图,其特征在于,所述装置包括:
获取模块301,获取K个种子用户;以及,从预设对应关系表中获取所述K个种子用户对应的N个标签和所述K个种子用户对应的N个标签的值;所述预设对应关系表包括M个用户、L个标签和所述M个用户中的每个用户对应的L个标签的值,所述M个用户包括所述K个种子用户,所述预设对应关系表为根据第一训练样本和第二训练样本得到的,所述第一训练样本为所述第一参与方提供,所述第二训练样本为所述联邦建模的第二参与方提供;
确定模块302,用于从预设对应关系表中获取除所述K个种子用户以外的M-K个用户对应的所述N个标签的值,并根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户;其中,K、M、L、N为整数,K<M,L<N。
可选地,所述第一训练样本中包括M个用户、L1个标签和所述M个用户对应的所述L1个标签中的一个或多个标签的值,所述第二训练样本中包括所述M个用户、L2个标签和所述M个用户对应的所述L2个标签中的一个或多个标签的值;
针对于所述M个用户中的第一用户,所述确定模块302通过如下方式确定所述预设对应关系表中所述第一用户对应的L个标签中的第一标签的值:
接收所述第二参与方发送的第一梯度,所述第一梯度为所述第二参与方使用所述第二训练样本中的所述第一用户对应的P个标签的值确定的;
根据所述第一训练样本中的所述第一用户对应的Q个标签的值和所述第一梯度,确定所述预设对应关系表中所述第一用户对应的第一标签的值;其中,P、Q为整数,P<L1,Q<L2
可选地,所述确定模块302用于:
针对于所述M-K个用户中的任一用户,根据所述用户对应的所述N个标签的值和所述K个种子用户对应的所述N个标签的值,确定所述用户与所述K个种子用户的相似分值;每个用户对应的相似分值用于标识所述每个用户与所述种子用户的相似程度;
从所述M-K个用户中选择相似分值最大的T个用户作为T个目标用户,其中,T≤M-K。
从上述内容可以看出:本发明的上述实施例中,联邦建模的第一参与方获取K个种子用户,并从预设对应关系表中获取K个种子用户对应的N个标签和K个种子用户对应的N个标签的值;其中,预设对应关系表包括M个用户、L个标签和M个用户中的每个用户对应的L个标签的值,M个用户包括K个种子用户,预设对应关系表为根据第一训练样本和第二训练样本得到的,第一训练样本为第一参与方提供,第二训练样本为联邦建模的第二参与方提供;进一步地,第一参与方从预设对应关系表中获取除K个种子用户以外的M-K个用户对应的N个标签的值,并根据M-K个用户对应的N个标签的值和K个种子用户对应的N个标签的值,从M-K个用户中确定目标用户。本发明实施例中,通过采用联邦建模的方式确定预设数据库中每个用户对应的每个标签的值,可以使用联邦建模的结果填充预设数据库,从而使得预设数据库中包括的多个用户、多个标签和多个用户对应的多个标签的值均是完整的;相应地,基于完整的预设数据库进行人群扩散业务,可以提高确定得到的目标用户的准确性。
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如图2或图2任意所述的确定目标用户的方法。
基于同一发明构思,本发明实施例还提供一种计算机程序产品,其特征在于,当其在计算机上运行时,使得计算机执行如图2或图2任意所述的确定目标用户的方法。
本领域内的技术人员应明白,本发明的实施例可提供为方法、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种确定目标用户的方法,其特征在于,所述方法包括:
联邦建模的第一参与方获取K个种子用户;
所述第一参与方从预设对应关系表中获取所述K个种子用户对应的N个标签和所述K个种子用户对应的N个标签的值;所述预设对应关系表包括M个用户、L个标签和所述M个用户中的每个用户对应的L个标签的值,所述M个用户包括所述K个种子用户,所述预设对应关系表为根据第一训练样本和第二训练样本得到的,所述第一训练样本为所述第一参与方提供,所述第二训练样本为所述联邦建模的第二参与方提供;
所述第一参与方从预设对应关系表中获取除所述K个种子用户以外的M-K个用户对应的所述N个标签的值,并根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户;其中,K、M、L、N为整数,K<M,L<N。
2.根据权利要求1所述的方法,其特征在于,所述第一训练样本中包括M个用户、L1个标签和所述M个用户对应的所述L1个标签中的一个或多个标签的值,所述第二训练样本中包括所述M个用户、L2个标签和所述M个用户对应的所述L2个标签中的一个或多个标签的值;
针对于所述M个用户中的第一用户,通过如下方式确定所述预设对应关系表中所述第一用户对应的L个标签中的第一标签的值:
所述第一参与方接收所述第二参与方发送的第一梯度,所述第一梯度为所述第二参与方使用所述第二训练样本中的所述第一用户对应的P个标签的值确定的;
所述第一参与方根据所述第一训练样本中的所述第一用户对应的Q个标签的值和所述第一梯度,确定所述预设对应关系表中所述第一用户对应的第一标签的值;其中,P、Q为整数,P<L1,Q<L2
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户,包括:
针对于所述M-K个用户中的任一用户,所述第一参与方根据所述用户对应的所述N个标签的值和所述K个种子用户对应的所述N个标签的值,确定所述用户与所述K个种子用户的相似分值;每个用户对应的相似分值用于标识所述每个用户与所述种子用户的相似程度;
所述第一参与方从所述M-K个用户中选择相似分值最大的T个用户作为T个目标用户;其中,T≤M-K。
4.一种确定目标用户的装置,其特征在于,所述装置包括:
获取模块,获取K个种子用户;以及,从预设对应关系表中获取所述K个种子用户对应的N个标签和所述K个种子用户对应的N个标签的值;所述预设对应关系表包括M个用户、L个标签和所述M个用户中的每个用户对应的L个标签的值,所述M个用户包括所述K个种子用户,所述预设对应关系表为根据第一训练样本和第二训练样本得到的,所述第一训练样本为所述第一参与方提供,所述第二训练样本为所述联邦建模的第二参与方提供;
确定模块,用于从预设对应关系表中获取除所述K个种子用户以外的M-K个用户对应的所述N个标签的值,并根据所述M-K个用户对应的所述N个标签的值和所述K个种子用户对应的N个标签的值,从所述M-K个用户中确定目标用户;其中,K、M、L、N为整数,K<M,L<N。
5.根据权利要求4所述的装置,其特征在于,所述第一训练样本中包括M个用户、L1个标签和所述M个用户对应的所述L1个标签中的一个或多个标签的值,所述第二训练样本中包括所述M个用户、L2个标签和所述M个用户对应的所述L2个标签中的一个或多个标签的值;
针对于所述M个用户中的第一用户,所述确定模块通过如下方式确定所述预设对应关系表中所述第一用户对应的L个标签中的第一标签的值:
接收所述第二参与方发送的第一梯度,所述第一梯度为所述第二参与方使用所述第二训练样本中的所述第一用户对应的P个标签的值确定的;
根据所述第一训练样本中的所述第一用户对应的Q个标签的值和所述第一梯度,确定所述预设对应关系表中所述第一用户对应的第一标签的值;其中,P、Q为整数,P<L1,Q<L2
6.根据权利要求4或5所述的装置,其特征在于,所述确定模块用于:
针对于所述M-K个用户中的任一用户,根据所述用户对应的所述N个标签的值和所述K个种子用户对应的所述N个标签的值,确定所述用户与所述K个种子用户的相似分值;每个用户对应的相似分值用于标识所述每个用户与所述种子用户的相似程度;
从所述M-K个用户中选择相似分值最大的T个用户作为T个目标用户,其中,T≤M-K。
7.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至3任一项所述的方法。
8.一种计算机程序产品,其特征在于,当其在计算机上运行时,使得计算机执行如权利要求1至3任一项所述的方法。
CN201910342429.1A 2019-04-26 2019-04-26 一种确定目标用户的方法及装置 Pending CN110097111A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910342429.1A CN110097111A (zh) 2019-04-26 2019-04-26 一种确定目标用户的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910342429.1A CN110097111A (zh) 2019-04-26 2019-04-26 一种确定目标用户的方法及装置

Publications (1)

Publication Number Publication Date
CN110097111A true CN110097111A (zh) 2019-08-06

Family

ID=67445900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910342429.1A Pending CN110097111A (zh) 2019-04-26 2019-04-26 一种确定目标用户的方法及装置

Country Status (1)

Country Link
CN (1) CN110097111A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
US20180316502A1 (en) * 2017-04-27 2018-11-01 Factom Data Reproducibility Using Blockchains
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109167695A (zh) * 2018-10-26 2019-01-08 深圳前海微众银行股份有限公司 基于联邦学习的联盟网络构建方法、设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355449A (zh) * 2016-08-31 2017-01-25 腾讯科技(深圳)有限公司 用户选取方法和装置
US20180316502A1 (en) * 2017-04-27 2018-11-01 Factom Data Reproducibility Using Blockchains
CN109002861A (zh) * 2018-08-10 2018-12-14 深圳前海微众银行股份有限公司 联邦建模方法、设备及存储介质
CN109167695A (zh) * 2018-10-26 2019-01-08 深圳前海微众银行股份有限公司 基于联邦学习的联盟网络构建方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
Khalili-Damghani et al. A hybrid fuzzy multiple criteria group decision making approach for sustainable project selection
Ho et al. A fuzzy real option approach for investment project valuation
CN107730311A (zh) 一种推荐信息的推送方法、装置及服务器
CN106547767A (zh) 确定视频封面图片的方法及装置
CN108665366A (zh) 确定用户风险等级的方法、终端设备及计算机可读存储介质
CN108446978A (zh) 处理交易数据的方法及装置
CN106296669A (zh) 一种图像质量评价方法和装置
CN110415002A (zh) 客户行为预测方法及系统
CN110222880A (zh) 业务风险的确定方法、模型训练方法和数据处理方法
CN108305167A (zh) 一种基于深度增强学习算法的外汇交易方法及系统
CN104765751A (zh) 应用推荐方法及装置
CN103870541B (zh) 社交网络用户兴趣挖掘方法和系统
JPWO2018142753A1 (ja) ディープラーニングを用いる情報処理装置、情報処理方法及び情報処理プログラム
CN107533710A (zh) 用于全自动地定性规划、衡量、有效制定和资助商业策略和商业活动的方法与系统
CN105956122A (zh) 对象属性的确定方法和装置
CN109934700A (zh) 一种套现侦测的方法及装置
CN108764291A (zh) 电子装置、基于机器学习的股票择时方法及存储介质
Stavinova et al. Predictability classes for forecasting clients behavior by transactional data
CN108205525A (zh) 基于用户语音信息确定用户意图的方法和装置
Handoussa Economic transition in the Middle East: global challenges and adjustment strategies
CN109146680A (zh) 选股方法及系统
CN110264364B (zh) 一种投资方的推荐方法
CN110008880A (zh) 一种模型压缩方法及装置
Dhumras et al. On federated learning-oriented q-Rung picture fuzzy TOPSIS/VIKOR decision-making approach in electronic marketing strategic plans
CN110097111A (zh) 一种确定目标用户的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190806