CN114463063A - 数据处理方法及相关装置 - Google Patents
数据处理方法及相关装置 Download PDFInfo
- Publication number
- CN114463063A CN114463063A CN202210113212.5A CN202210113212A CN114463063A CN 114463063 A CN114463063 A CN 114463063A CN 202210113212 A CN202210113212 A CN 202210113212A CN 114463063 A CN114463063 A CN 114463063A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- processing
- service party
- task
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 194
- 238000000034 method Methods 0.000 claims abstract description 90
- 238000012549 training Methods 0.000 claims abstract description 56
- 230000014759 maintenance of location Effects 0.000 claims description 198
- 230000008569 process Effects 0.000 claims description 50
- 238000004590 computer program Methods 0.000 claims description 21
- 238000011156 evaluation Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 10
- 230000006399 behavior Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000033228 biological regulation Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/008—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols involving homomorphic encryption
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Computer Security & Cryptography (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提出一种数据处理方法及相关装置,该方法包括:获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的;获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的;在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。通过本申请,可以提高任务指标的准确性,从而优化广告拉新效果。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、一种数据处理装置、一种计算机设备、一种计算机可读存储介质及一种计算机程序产品。
背景技术
日常生活中,广告拉新是广告推荐场景中研究的一个热门话题,所谓广告拉新是指:第一业务方(例如广告主)通过投放广告数据的方式,为第二业务方(例如广告平台)拉来新的用户,以保持访问广告平台的用户数量持续增长的一种方式。
目前,优化广告拉新效果的常用方式为广告主利用自身所拥有的数据(例如用户的性别、年龄等属性数据)接入至广告平台,广告平台利用广告主所提供的数据预估广告数据的任务指标(如留存率指标,留存率指标可以用于反映广告平台保留用户的能力),从而实现优化广告拉新的效果。但是,由于考虑到数据隐私,广告主通过不会将完整的用户数据接入至广告平台,导致对广告数据的任务指标预估不准确,拉新效果不佳。因此,如何提高预测的任务指标的准确性是当前亟待解决的一个重要问题。
发明内容
本申请实施例提出了一种数据处理方法、装置、计算机设备、计算机可读存储介质及计算机程序产品,可以提高任务指标的准确性,从而优化广告拉新效果。
一方面,本申请实施例提供了一种数据处理方法,该方法包括:
获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据;
获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在所述预设时间段内被访问而产生的数据;
在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;
采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
一方面,本申请实施例提供了一种数据处理装置,该装置包括:
获取单元,用于获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据;
获取单元,还用于获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在所述预设时间段内被访问而产生的数据;
处理单元,用于在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;
处理单元,还用于采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
在一种可能的实现方式中,第一访问数据包括在预设时间段内访问第一业务方提供的广告数据的m个对象的属性数据;第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,在预设时间段内访问广告数据的n个对象的浏览数据;m、n均为正整数;处理单元还用于执行以下操作:
对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果;
其中,联邦加密求交处理结果用于指示第一业务方需从第一访问数据中筛选出p个对象的属性数据,并基于p个对象的属性数据生成第一特征数据;以及,联邦加密求交处理结果还用于指示第二业务方需从第二访问数据中筛选出p个对象的浏览数据,并基于p个对象的浏览数据生成第二特征数据;p为正整数,p≤m且p≤n。
在一种可能的实现方式中,处理单元对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果,用于执行以下操作:
对m个对象的属性数据进行加密处理,得到加密后的m个属性数据;
对n个对象的浏览数据进行加密处理,得到加密后的n个浏览数据;
根据加密后的m个属性数据和所述加密后的n个浏览数据,在加密空间对m个属性数据和n个浏览数据进行求交集处理,得到联邦加密求交处理结果。
在一种可能的实现方式中,第一业务方生成第一特征数据的流程包括:
分别对p个对象的属性数据进行特征提取处理,得到p个对象中各个对象的属性特征;
基于p个对象的属性特征,确定第一特征数据;以及,
第二业务方生成第二特征数据的流程包括:
分别对p个对象的浏览数据进行特征提取处理,得到p个对象中各个对象的浏览特征;
基于p个对象的浏览特征,确定第二特征数据。
在一种可能的实现方式中,处理单元在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据,用于执行以下操作:
在同态空间内对第一特征数据和第二特征数据进行同态加密运算,得到同态加密运算后的第三特征数据;
在同态空间内对第三特征数据进行同态解密处理,得到样本特征数据。
在一种可能的实现方式中,任务指标包括留存率指标;样本特征数据还包括p个对象中每个对象的k个留存率标签,p为正整数;处理单元采用样本特征数据对多任务模型进行联邦学习训练,用于执行以下操作:
将样本特征数据输入至多任务模型的全连接层中,输出p个对象中每个对象的k个预测留存率;
根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数。
在一种可能的实现方式中,每个对象的k个预测留存率包括第一预测留存率和第二预测留存率;每个对象的k个留存率标签包括第一标签和第二标签;
处理单元根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数,用于执行以下操作:
根据每个对象的第一预测留存率和每个对象的第一标签,计算多任务模型的第一损失;
根据每个对象的第二预测留存率和每个对象的第二标签,计算多任务模型的第二损失;
根据第一损失和第二损失确定目标损失,并基于目标损失调整多任务模型的模型参数。
在一种可能的实现方式中,处理单元还用于执行以下操作:
对训练好的多任务模型进行测试,以获取训练好的多任务模型的模型评价指标值;
若训练好的多任务模型的模型评价指标值满足模型评价指标条件,则调用训练好的多任务模型对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
在一种可能的实现方式中,处理单元还用于执行以下操作:
调用训练好的多任务模型对访问目标广告数据的目标对象进行预测处理,得到目标对象的k个预测留存率;
根据目标对象的k个预测留存率,确定向目标对象推送的目标广告数据的价值。
在一种可能的实现方式中,任务指标还包括活跃时长指标;处理单元还用于执行以下操作:
调用训练好的多任务模型对目标时间段内访问目标广告数据的对象集进行预测处理,得到对象集中每个对象的k个预测留存率和活跃时长;
在目标时间段内,向满足留存率阈值条件和活跃时长条件的目标对象推送附加广告数据。
一方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的数据处理方法。
一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。
一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。
本申请实施例中,首先,可以获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据。其次,还可以获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在预设时间段内被访问而产生的数据。然后,在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。最后,采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。可见,本申请实施例中既可以获取到第一业务方提供的第一特征数据,又可以获取到第二业务方提供的第二特征数据,因此多任务模型的训练样本更加丰富,可以提高多任务模型的准确性;进一步地,所确定的样本特征数据是在同态加密空间内进行的数据交互,因此不会泄露第一业务方和第二业务方双方的原始数据,从而保证了双方原始数据的安全性;另外,训练好的多任务模型可以对多个任务指标进行预测,从而可以提高预测的任务指标的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方案的原理示意图;
图2是本申请实施例提供的一种数据处理系统的结构示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的另一种数据处理方法的流程示意图;
图5是申请实施例提供的一种训练多任务模型的流程示意图;
图6是本申请实施例提供的一种特征提取处理的流程示意图;
图7是本申请实施例提供的一种多任务模型的应用场景示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
本申请实施例提出一种数据处理方案,该方案可以提高预测的目标广告数据对应的任务指标的准确性,该方案可以应用于诸如广告推荐、公众号推荐等各类推荐场景中,可以基于第一业务方提供的加密后的第一特征数据和第二业务方提供的加密后的第二特征数据,训练更加准确的多任务模型,进而优化目标广告数据的拉新效果。请参见图1,图1是本申请实施例提供的一种数据处理方案的原理图,如图1所示,该数据处理方案的大致原理如下:首先,获取第一业务方(例如广告主)提供的第一特征数据,其中,第一业务方拥有第一访问数据(可以包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据,例如用户的昵称、头像、性别、年龄等数据),第一业务方可以对第一访问数据进行同态加密处理后得到第一特征数据;其次,还可以获取第二业务方(例如广告平台)提供的第二特征数据,其中,第二业务方拥有第二访问数据(可以包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在预设时间段内被访问而产生的数据,例如用户的兴趣爱好、浏览行为等数据),第二业务方可以对第二访问数据进行同态加密处理后得到第一特征数据。接下来,还可以在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。最后,样本特征数据可以用于对多任务模型进行联邦学习训练。在一种可能的实现方式中,采用样本特征数据对多任务模型进行联邦学习训练可以是由第一业务方来执行,即如图1所示的广告主来执行对多任务模型的联邦学习训练;在另一种可能的实现方式中,采用样本特征数据对多任务模型进行联邦学习训练也可以是由第二业务方来执行,即图1所示的广告平台来执行对多任务模型的联邦学习训练;在又一种可能的实现方式中,还可以是由第三方联邦学习平台采用样本特征数据对多任务模型进行联邦学习训练,本申请实施例对此不做具体限定。可以理解的是,广告主和广告平台均可以调用训练好的多任务模型进行模型预测,例如,广告主可以调用训练好的多任务模型对广告主所提供的目标广告数据对应的一个或多个任务指标(例如留存率指标、活跃时长指标等等)进行预测。
由此可见,本申请实施例中,既可以获取到第一业务方提供的第一特征数据,又可以获取到第二业务方提供的第二特征数据,因此多任务模型的训练样本更加丰富,可以提高多任务模型的准确性;进一步地,所确定的样本特征数据是在同态加密空间内进行的数据交互,因此不会泄露第一业务方和第二业务方双方的原始数据,从而保证了双方原始数据的安全性;另外,训练好的多任务模型可以对多个任务指标进行预测,从而可以提高预测的任务指标的准确性。
接下来,结合本申请涉及的技术术语对上述提及的数据处理方案进行介绍:
一、人工智能:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在一种可能的实现方式中,本申请的数据处理方案可以与人工智能领域的机器学习技术相结合,具体来说,本申请的数据处理方案可以与机器学习技术中的联邦学习技术相结合。例如,可以利用联邦学习技术训练多任务模型等等。其中,所谓联邦学习(Federated machine learning/Federated Learning)又名联邦机器学习、联合学习、联盟学习,是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。根据数据的分布特点,可以将联邦学习分为横向联邦学习、纵向联邦学习以及联邦迁移学习三类。联邦学习作为分布式的机器学习范式,可以有效解决“数据孤岛”问题,让参与方在不共享数据的基础上联合建模,从而在技术上打破“数据孤岛”,实现AI协作。
二、区块链:
区块链(Blockchain)网络是一种由点对点网络(P2P网络)和区块链所构成的网络,而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块(或称为区块)。
在一种可能的实现方式中,本申请的数据处理方案可以与区块链技术相结合。例如,可将第一业务方提供的第一特征数据、第二业务方提供的第二特征数据、以及样本特征数据等上传至区块链网络的区块链中进行存储,以防止计算机设备的内部数据被篡改,从而提升日志数据的安全性和隐私性。
三、云技术:
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
在一种可能的实现方式中,在执行本申请的数据处理方案时,在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据,这个过程涉及较大规模计算,需要较大的算力和存储空间,因此在本申请中的一种可能的实现方式中,可以由计算机设备通过云计算技术获取足够算力和存储空间,进而执行本申请中所涉及的计算样本特征数据的步骤。
可以理解的是,本申请实施例提供的数据处理方案可以应用于诸如广告推荐、公众号推荐等各类推荐场景中。举例来说,以广告推荐场景为例,可以利用本申请实施例提供的数据处理方案,由广告主作为第一业务方,广告平台(例如媒体推荐平台)作为第二业务方,并基于广告主提供的第一特征数据和广告平台提供的第二特征数据,联合训练一个多任务模型,训练好的多任务模型可以用于对广告主提供的目标广告数据对应的一个或多个任务指标(例如留存率指标、活跃度指标等)进行预测。针对广告主而言,可以基于预测得到的任务指标对目标广告数据进行估价处理;针对广告平台而言,可以充分利用广告主和广告平台双方的数据进行广告数据的推荐,从而优化广告数据的推荐效果;针对用户而言,可以看到更符合自己兴趣的广告数据,提升用户体验感,有利于用户的活跃度以及留存率。
特别需要说明的是,在本申请的后续具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于以上描述,接下来,请参见图2,图2是本申请实施例提供的一种数据处理系统的结构示意图。如图2所示,该数据处理系统的结构示意图中可以包括:服务器240以及终端设备集群,其中,终端设备集群可以包括:终端设备210、终端设备220、...、终端设备230等。终端设备集群中的任一终端设备均可以与服务器240可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制;另外,终端设备集群中的任意两个终端设备的类型可以相同,也可以不相同,本申请在此同样不做限制。
图2所示的服务器240可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。
图2所示的终端设备210、终端设备220、终端设备230可以包括但不限于:手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(MID,mobile internet device)、智能语音交互设备、车载终端、路边设备、飞行器、可穿戴设备、智能家电、或者例如智能手表、智能手环、计步器等具有数据处理功能的可穿戴设备,等等。
在一种可能的实现方式中,在终端设备210、终端设备220和服务器240共同执行本申请中的数据处理方案时,终端设备210可以作为第一业务方所使用的终端设备,终端设备220可以作为第二业务方所使用的终端设备,服务器240可以作为第三方联邦学习平台。服务器240可以获取终端设备210提供的第一特征数据,其中,第一特征数据是终端设备210对其拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括终端设备210提供的广告数据在预设时间段内被访问而产生的数据。服务器240还可以获取终端设备220提供的第二特征数据,其中,第二特征数据是终端设备220对其拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括终端设备220提供的广告数据在预设时间段内被访问而产生的数据。接下来,服务器240可以在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;最后,服务器240可以采用样本特征数据对多任务模型进行联邦学习训练。其中,训练好的多任务模型可以用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
后续,服务器240可以将训练好的多任务模型发送至终端设备210和终端设备220。然后,终端设备210和终端设备220可以分别调用训练好的多任务模型进行预测操作,例如,终端设备210可以调用训练好的多任务模型对第一业务方提供的目标广告数据对应的留存率指标进行预测;又如,终端设备220可以调用训练好的多任务模型对第一业务方提供的目标广告数据对应的活跃度指标进行预测,等等。
应理解的是,上述只是示例性地说明了终端设备210、终端设备220和服务器240所负责执行的各个步骤,本申请实施例并不对此进行限定。在另一种可能的实现方式中,例如,获取终端设备210提供的第一特征数据,和获取终端设备220提供的第二特征数据;上述过程也可以由终端设备210或终端设备220来执行,然后终端设备210或终端设备220将第一特征数据和第二特征数据发送至服务器240,再由服务器240执行后续操作。又如,获取终端设备210提供的第一特征数据,和获取终端设备220提供的第二特征数据;在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;这几个过程都可以由终端设备210或终端设备220来执行,然后将样本特征数据发送至服务器240,由服务器240执行采用样本特征数据对多任务模型进行联邦学习训练的步骤。还如,获取终端设备210提供的第一特征数据,和获取终端设备220提供的第二特征数据;在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;采用样本特征数据对多任务模型进行联邦学习训练;这几个过程都可以由终端设备210或终端设备220来执行,等等。
进一步地,可以将图2所提供的数据处理系统部署在区块链的节点,例如可以将终端设备210、终端设备220和服务器240均当成区块链的节点设备,共同构成区块链网络。因此本申请中所涉及的数据处理流程可以在区块链上执行,这样既可以保证数据处理流程的公平公正化,同时可以使得数据处理流程具备可追溯性,从而提升数据处理流程的安全性。
可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述数据处理方案的相关描述,本申请实施例提出了一种数据处理方法。参见图3所示,图3是本申请实施例提供的一种数据处理方法的流程示意图,该数据处理方法可由终端设备或服务器执行,也可由上述所提及的终端设备和服务器共同执行。为便于阐述,后续均以计算机设备执行该数据处理方法为例进行说明。其中,该数据处理方法可包括如下步骤S301~S304:
S301:获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据。
本申请实施例中,第一业务方可以是指制作广告数据的广告主,第一访问数据可以包括广告主提供的广告数据在预设时间段内(例如一个月内)被对象(例如用户)访问而产生的数据。在一种可能的实现方式中,第一访问数据可以包括在预设时间段内访问第一业务方提供的广告数据的m个对象的属性数据,m为正整数。其中,每个对象的属性数据可以包括但不限于:对象的标识(Identity document,Id)、昵称、头像、性别、年龄等基本属性。本实施例中,访问广告数据的用户,均许可或同意被获取其用户信息,该用户信息包括但不限于用户的标识、昵称、头像、性别、年龄等等,且相关信息的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
在另一种可能的实现方式中,第一访问数据还可以包括m个对象中每个对象的留存率标签。其中,留存率可以包括但不限于:次日留存率(是指第i天访问广告主提供的广告数据的目标对象,在第i+1天仍然访问广告主提供的广告数据的概率)、二日留存率(是指第i天访问广告主提供的广告数据的目标对象,在第i+2天仍然访问广告主提供的广告数据的概率)、三日留存率是指第i天访问广告主提供的广告数据的目标对象,在第i+3天仍然访问广告主提供的广告数据的概率,等等。其中,i为正整数。那么,每个对象的留存率标签可以为1或者0。
另外,所谓预设时间段可以是指历史时间段,即从当前时刻开始往后回溯一段时间所对应的时间段,例如预设时间段可以为24小时、48小时等等,可以理解的是,预设时间段可以根据场景需求或者用户需求自定义设置,本申请实施例对此不做具体限定。举例来说,广告主所拥有的第一访问数据可以包括:在过去24小时内访问该广告主提供的广告数据的100个用户的属性数据。
S302:获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在预设时间段内被访问而产生的数据。
本申请实施例中,第二业务方可以是指曝光广告数据的广告平台。需要说明的是,第一业务方(例如广告主)可以负责定制或制作广告数据,然后广告主将所制作的广告数据通过实时应用程序接口(Real Time API,RTA)发送给广告平台,广告平台可以对广告主提供的广告数据进行曝光处理,从而用户可以通过访问广告平台以浏览广告主提供的广告数据。
其中,第二访问数据可以包括广告数据在第二业务方对应的平台(广告平台)曝光的过程中,广告数据在预设时间段内被访问而产生的数据。在一种可能的实现方式中,第二访问数据可以包括广告数据在第二业务方对应的平台曝光的过程中,在预设时间段内访问广告数据的n个对象的浏览数据,n为正整数。其中,每个对象的浏览数据可以包括但不限于:对象的浏览行为、点击行为、负反馈行为、兴趣爱好等画像数据。举例来说,广告平台所拥有的第二访问数据可以包括:广告数据在广告平台曝光的过程中,在过去24小时内访问广告数据的120个对象的浏览数据。
需要说明的是,本申请实施例中对获取第一特征数据和获取第二特征数据的顺序并无具体限定。具体来说,计算机设备可以先执行S301所示的“获取第一业务方提供的第一特征数据”的步骤,然后再执行S302所示的“获取第二业务方提供的第二特征数据”的步骤;也可以限先执行S302所示的“获取第二业务方提供的第二特征数据”的步骤,然后再执行S301所示的“获取第一业务方提供的第一特征数据”的步骤;还可以同时执行S301所示的“获取第一业务方提供的第一特征数据”和S301所示的“获取第二业务方提供的第二特征数据”的步骤,本申请实施例对此不做具体限定。
S303:在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。
由前述可知,第一特征数据和第二特征数据均是通过同态加密处理后得到的数据,其中,同态加密(Homomorphic Encryption)的原理包括:对经过同态加密的数据进行处理得到一个输出,将这一输出进行解密,其结果与用同一方法处理未加密的原始数据得到的输出结果是一样的。在本申请实施例中,在同态空间内对经过同态加密后的第一特征数据和经过同态加密后的第二特征数据所进行的运算处理可以包括但不限于:加法同态运算处理、乘法同态运算处理,等等。需要说明的是,同态加密可分为半同态加密和全同态加密两种,如果一个密码学算法只满足乘法同态或者加法同态,就称其为半同态加密(SHE(Somewhat Homomorphic Encryption)或PHE(Partially Homomorphic Encryption));而如果一个密码学算法既满足乘法同态又满足加法同态,就称其为全同态加密(FHE,FullyHomomorphic Encryption)。在本申请实施例中,可以使用满足加法性质的半同态加密技术来进行隐私运算,如Paillier同态加密方案、Okamoto-Uchiyama同态加密方案等。
在一种可能的实现方式中,在同态空间内计算机设备对第一特征数据和第二特征数据进行同态加密运算,得到同态加密运算后的第三特征数据;然后,计算机设备在同态空间内对第三特征数据进行同态解密处理,得到样本特征数据。
举例来说,本申请实施例可以由第一业务方和第二业务方联合训练多任务学习模型,在第一业务方和第二业务方联合训练多任务学习模型的过程中,如图1所示,第一业务方(例如广告主)可以负责多任务学习模型的guest侧模型,第二业务方(例如广告平台)可以负责多任务学习模型的host侧模型。其中,第一业务方提供的第一特征数据可以表示为:ENCRYPT(guest_embedding),第二业务方所提供的第二特征数据可以表示为:ENCRYPT(host_embedding)。那么,在同态空间内对第一特征数据(ENCRYPT(guest_embedding))和第二特征数据(ENCRYPT(host_embedding))进行运算处理,得到同态加密运算后的第三特征数据:ENCRYPT(host_embedding)+ENCRYPT(guest_embedding)。最后,在同态空间内对第三特征数据进行同态解密处理,得到样本特征数据:DECRYPT(ENCRYPT(host_embedding)+ENCRYPT(guest_embedding))=host_emb edding+guest_embedding。
通过上述方式,在同态空间内对第一特征数据和第二特征数据进行运算处理,就可以在不直接获取第一业务方所拥有的原始数据和第二业务方所拥有的原始数据的基础上,仅在同态加密空间进行计算,从而保证第一业务方所拥有的原始数据和第二业务方所拥有的原始数据的隐私性和安全性。
S304:采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
本申请实施例中,计算机设备采用样本特征数据对多任务模型进行联邦学习训练的具体场景,可以包括:在一种可能的实现方式中,第一业务方(例如广告主)采用样本特征数据对多任务模型进行联邦学习训练;在另一种可能的实现方式中,第二业务方采用样本特征数据对多任务模型进行联邦学习训练;在又一种可能的实现方式中,第一业务方将第一特征数据发送至第三方联邦学习平台,第二业务方将第二特征数据发送至第三方联邦学习平台,由第三方联邦学习平台采用样本特征数据对多任务模型进行联邦学习训练,本申请实施例对此不做具体限定。
可以理解的是,所谓的多任务模型是指在模型的训练过程中,模型的任务指标可以为一个或多个。那么,训练好的多任务模型即可用于对一个或多个任务指标进行预测。在一种可能的实现方式中,本申请实施例中训练多任务模型可以为基于多个留存率作为任务指标进行模型训练,例如,本申请实施例中采用样本特征数据所训练的多任务模型的任务指标可以包括但不限于:次日留存率、二日留存率、三日留存率等多个任务指标。在另一种可能的实现方式中,本申请实施例中训练多任务模型的任务指标还可以包括但不限于:曝光度、活跃时长、新增对象数量等等多个任务指标,其可以根据用户需求或者场景需求自定义设置相应的任务指标,本申请实施例并不对多任务模型的任务指标的类型和数量进行具体限定。后续,第一业务方和第二业务方均可以调用训练好的多任务模型进行模型预测,可以理解的是,若多任务模型的训练过程中所设置的任务指标为N个,则训练好的多任务模型即可用于预测N个相应的任务指标,N为正整数。例如,若所设置的多任务模型的训练过程中的任务指标为:次日留存率、二日留存率、三日留存率,那么,训练好的多任务模型即可用于预测目标对象所对应的次日留存率、二日留存率、三日留存率。
本申请实施例中,首先,可以获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据。其次,还可以获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在预设时间段内被访问而产生的数据。然后,在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。最后,采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。可见,本申请实施例中既可以获取到第一业务方提供的第一特征数据,又可以获取到第二业务方提供的第二特征数据,因此多任务模型的训练样本更加丰富,可以提高多任务模型的准确性;进一步地,所确定的样本特征数据是在同态加密空间内进行的数据交互,因此不会泄露第一业务方和第二业务方双方的原始数据,从而保证了双方原始数据的安全性;另外,训练好的多任务模型可以对多个任务指标进行预测,从而可以提高预测的任务指标的准确性。
基于图3实施例的描述,接下来请参见图4,图4是本申请实施例提供的另一种数据处理方法的流程示意图,该数据处理方法可由计算机设备执行。其中,该数据处理方法可包括如下步骤S401~S404:
S401:对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果。
其中,第一访问数据可以包括在预设时间段内访问第一业务方提供的广告数据的m个对象的属性数据;第二访问数据可以包括广告数据在第二业务方对应的平台曝光的过程中,在预设时间段内访问广告数据的n个对象的浏览数据。在一种可能的实现方式中,计算机设备对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果。其中,联邦加密求交处理结果用于指示第一业务方需从第一访问数据中筛选出p个对象的属性数据,并基于p个对象的属性数据生成第一特征数据;以及,联邦加密求交处理结果还用于指示第二业务方需从第二访问数据中筛选出p个对象的浏览数据,并基于所述p个对象的浏览数据生成第二特征数据;p为正整数,p≤m且p≤n。
具体来说,由于需要保护第一业务方和第二业务方双方的数据(即第一访问数据和第二访问数据)隐私安全,计算机设备可以对第一访问数据和第二访问数据进行联邦加密求交处理。举例来说,计算机设备可以采用隐私保护集合求交(Private SetIntersection,PSI)技术进行联邦加密求交处理,从而可以获取第一业务方所拥有的第一访问数据以及第二业务方所拥有的第二访问数据的交集。可以理解的是,本申请实施例所采用的联邦学习训练可以为纵向联邦学习训练,因此此处的数据交集可以是指基于对象进行求交处理,也就是说,计算机设备可以基于PSI隐私求交技术,确定出第一访问数据和第二访问数据中的共同对象。
在一种可能的实现方式中,计算机设备对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果,可以包括:计算机设备可以对m个对象的属性数据进行加密处理,得到加密后的m个属性数据;以及,计算机设备可以对n个对象的浏览数据进行加密处理,得到加密后的n个浏览数据。接下来,计算机设备根据加密后的m个属性数据和加密后的n个浏览数据,在加密空间对m个属性数据和n个浏览数据进行求交集处理,得到联邦加密求交处理结果。举例来说,计算机设备可以采用RSA非对称加密算法对m个对象的属性数据进行加密处理,以及采用RSA非对称加密算法对n个对象的浏览数据进行加密处理。可以理解的是,本申请实施例中,并不对加密算法进行具体限定,在其它可行的实施例中,也可以采用Elgamal算法(一种非对称加密算法)、Rabin算法(一种非对称加密算法)、Diddie-Hellman算法(一种非对称加密算法)、ECC算法(椭圆曲线加密算法),等等加密算法。通过这种方式,通过在加密空间对第一业务方的m个属性数据和第二业务方的n个浏览数据进行求交集处理,可以保证双方数据的隐私安全。
请参见图5,图5是申请实施例提供的一种训练多任务模型的流程示意图。如图5所示,第一业务方可以根据联邦加密求交处理结果,从第一访问数据中筛选出p个对象的属性数据(例如ID、昵称、头像、性别、年龄等数据),并基于p个对象的属性数据生成第一特征数据。具体来说,第一业务方生成第一特征数据的流程可以包括:首先,计算机设备分别对p个对象的属性数据进行特征提取处理,得到p个对象中各个对象的属性特征;然后,计算机设备基于p个对象的属性特征,确定第一特征数据。其中,特征提取处理可以包括词嵌入处理,词嵌入处理具体可以包括embedding处理,所谓embedding处理可以将大型稀疏矢量映射到低维空间,从而可以解决稀疏特征的特征表示问题,也就是说,可以基于embedding处理从对象的属性数据中提取出更加有效的特征(即属性特征)。
举例来说,本申请实施例中可以调用人工智能模型对每个对象的属性数据进行特征提取处理。请参见图6,图6是本申请实施例提供的一种特征提取处理的流程示意图。如图6所示,在对属性数据进行特征提取的场景中,输入数据(x1,x2,x3)可以为对象的属性数据,例如具体可以为对象的昵称“爱中国”。计算机设备在获取该对象的昵称后,对该对象的昵称进行预处理(例如分词处理),将预处理后的属性数据输入编解码结构的人工智能模型,利用编解码结构的人工智能模型对该对象的属性数据进行关键特征的提取处理,从而得到该对象的属性特征,如图6中所示输出的属性特征(y1,y2,y3)。
另外,在一种可能的实现方式中,计算机设备可以对p个对象的属性特征进行加权平均运算,得到加权平均后的p个对象的属性特征,然后对加权平均后的p个对象的属性特征进行同态加密处理,从而得到第一特征数据。举例来说,本申请实施例可以由第一业务方和第二业务方联合训练多任务学习模型,如图1所示,在第一业务方和第二业务方联合训练多任务学习模型的过程中,第一业务方(例如广告主)可以负责多任务学习模型的guest侧模型。那么,由第一业务方处理得到的加权平均后的p个对象的属性特征可以表示为:guest_embedding,那么,由第一业务方对guest_embedding进行同态加密处理后得到的第一特征数据可以表示为:ENCRYPT(guest_embedding)。
同理,第二业务方也可以根据联邦加密求交处理结果,从第二访问数据中筛选出p个对象的浏览数据(例如对象的浏览行为、点击行为、负反馈行为、兴趣爱好等画像数据),并基于p个对象的浏览数据生成第二特征数据。具体来说,第二业务方生成第二特征数据的流程可以包括:首先,计算机设备分别对p个对象的属浏览数据进行特征提取处理,得到p个对象中各个对象的浏览特征;然后,计算机设备基于p个对象的浏览特征,确定第二特征数据。其中,计算机设备同样可以基于embedding处理从对象的浏览数据中提取出浏览特征。另外,在一种可能的实现方式中,计算机设备可以对p个对象的浏览特征进行加权平均运算,得到加权平均后的p个对象的浏览特征,然后对加权平均后的p个对象的浏览特征进行同态加密处理,从而得到第二特征数据。举例来说,本申请实施例可以由第一业务方和第二业务方联合训练多任务学习模型,如图1所示,在第一业务方和第二业务方联合训练多任务学习模型的过程中,第二业务方(例如广告平台)可以负责多任务学习模型的host侧模型。那么,由第二业务方处理得到的加权平均后的p个对象的浏览特征可以表示为:host_embedding,那么,由第二业务方对host_embedding进行同态加密处理后得到的第二特征数据可以表示为:ENCRYPT(host_embedding)。
S402:在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。
在一种可能的实现方式中,在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据,可以包括:首先,计算机设备可以在同态空间内对第一特征数据和第二特征数据进行同态加密运算,得到同态加密运算后的第三特征数据;然后,计算机设备在同态空间内对第三特征数据进行同态解密处理,得到样本特征数据。
举例来说,如图5所示,第一业务方提供了第一特征数据和第二业务方提供了第二特征数据之后,则可以基于第三方联邦学习平台(如图5所示的联邦学习框架)对多任务模型进行联邦学习训练。可以理解的是,第一业务方和第二业务方之间进行数据交互的过程被精心地设计和全程加密,以使第一业务方不能够猜测到第二业务方的隐私数据内容,第二业务方同样不能够猜测到第一业务方的隐私数据内容。但却可以实现联合建模的目的,也就是说,除了最终产出的模型参数,上述过程中不应该泄露任何一方的数据信息,也不可以反推数据信息的中间结果。此外,本申请实施例提供的多任务模型具体可以是一个“去中心化”的系统架构,模型训练相关的数据经过加密算法加密后,在第一业务方和第二业务方之间直接通信而不依赖第三方参与“转发”,实现了“去中心化”,整个训练过程仅需要协调第一业务方和第二业务方的进度即可,因此能够增强实际应用中的安全性。
S403:将样本特征数据输入至多任务模型的全连接层中,输出p个对象中每个对象的k个预测留存率。
其中,多任务模型可以是指任意结构的神经网络模型,例如神经网络模型可以包括但不限于:DNN(Deep Neural Networks,深度神经网络)模型,LSTM(Long Short-TermMemory,长短期记忆网络)模型,GRU(Gated Recurrent Neural network,门控循环神经网络)模型等等。需要说明的是,本申请实施例对多任务模型的模型结构不作具体限定。在一种可能的实现方式中,考虑到模型的运行效率,本申请实施例可以采用DNN模型作为多任务模型的基本架构。
可以理解的是,在对多任务模型进行联邦学习训练的过程中,多任务模型的任务指标可以是针对第一业务方进行设置的任务指标;也可以是针对第二业务方进行设置的任务指标;还可以是基于第一业务方和第二业务方共同设置的任务指标。在一种可能的实现方式中,训练过程中多任务模型的任务指标可以包括基于留存率所构建的多任务的任务指标,该留存率可以是针对第一业务方(即广告主)所设置的任务指标。那么,第一业务方拥有的第一访问数据中还可以包括m个对象中每个对象的k个留存率标签,在经过前述的PSI隐私求交处理以及同态加密处理之后,所得到的样本特征数据中可以包括p个对象中每个对象的k个留存率标签。其中,k个留存率标签具体可以包括但不限于:次日留存率(是指第i天访问广告主提供的广告数据的目标对象,在第i+1天仍然访问广告主提供的广告数据的概率)、二日留存率(是指第i天访问广告主提供的广告数据的目标对象,在第i+2天仍然访问广告主提供的广告数据的概率)、三日留存率是指第i天访问广告主提供的广告数据的目标对象,在第i+3天仍然访问广告主提供的广告数据的概率,等等。其中,i为正整数。那么,每个对象的留存率标签可以为1或者0。
接下来,p个对象中每个对象的k个留存率标签和样本特征数据均可以作为多任务模型的训练数据,那么,多任务模型也可以预测得到p个对象中每个对象的k个预测留存率。
S404:根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数。
在一种可能的实现方式中,每个对象的k个预测留存率包括第一预测留存率和第二预测留存率;每个对象的k个留存率标签包括第一标签和第二标签。计算机设备根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数,可以包括:首先,计算机设备可以根据每个对象的第一预测留存率和每个对象的第一标签,计算多任务模型的第一损失;以及,计算机设备还可以根据每个对象的第二预测留存率和每个对象的第二标签,计算多任务模型的第二损失。然后,计算机设备根据第一损失和第二损失确定目标损失,并基于目标损失调整多任务模型的模型参数。
举例来说,如图1所示,本申请实施例中可以为多任务模型设置次日留存率、七日留存率这两个任务指标。那么,每个对象的第一标签可以为次日留存率标签(1或者0),第二标签可以为七日留存率标签(1或者0);以及将样本特征数据输入至多任务模型的全连接层中,可以输出p个对象中每个对象的次日预测留存率(第一预测留存率)和七日预测留存率(第二预测留存率)。在一种可能的实现方式中,本申请实施例中针对不同的任务(每个任务对应一个任务指标,例如任务1可以对应次日留存率;任务2可以对应七日留存率)可以设置不同的损失函数,例如,针对任务指标1,设置的损失函数可以为绝对值损失函数(absoluteloss function);又如,针对任务指标2,设置的损失函数可以为平方损失函数(quadraticloss function)。然后,计算机设备可以根据各自损失函数计算loss(损失),即计算机设备可以根据每个对象的次日预测留存率和每个对象的次日留存率标签,得到多任务模型的第一损失;以及,计算机设备可以根据每个对象的七日预测留存率和每个对象的七日留存率标签,得到多任务模型的第二损失。接下来,多任务模型反向传播梯度的时候,可以对每个任务的loss进行运算得到汇总的loss(即目标损失),其中,此处的运算可以包括但不限于:加和运算或者加权平均计算。最后,计算机设备可以基于目标损失更新多任务模型的模型参数。
在一种可能的实现方式中,当调整后的多任务模型满足模型收敛条件时,停止对多任务模型的训练。其中,所谓模型收敛条件可以包括但不限于:当多任务模型的训练次数达到预设训练阈值时,例如100次,则可以认为多任务模型满足模型收敛条件。或者,当模型预测得到的预测留存率和留存率标签之间的差异数据小于误差阈值时,则可以认为多任务模型满足模型收敛条件。再或者,当多任务模型相邻两次训练得到的预测留存率之间的变化小于变化阈值时,则可以认为多任务模型满足模型收敛条件。
在一种可能的实现方式中,如图5所示,在对多任务模型训练之后,计算机设备还可以对训练好的多任务模型进行测试,以获取训练好的多任务模型的模型评价指标值,例如多任务模型的模型评价指标值可以包括ROC曲线下的面积(Area Under Curve,AUC),其中,AUC可以用于评价多任务模型的训练效果,AUC=1时,可以认为多任务模型是一个完美的多任务模型(理想状态下)。若训练好的多任务模型的模型评价指标值满足模型评价指标条件,则计算机设备可以调用训练好的多任务模型对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。其中,模型评价指标条件可以包括指标阈值,若训练好的多任务模型的模型评价指标值(例如0.9)大于或者等于该指标阈值(0.88),则可以确定训练好的多任务模型的模型评价指标值满足模型评价指标条件。可以理解的是,此处的指标阈值可以是人工自定义设置,也可以是计算机设备根据经验值进行获取,本申请实施例对此不做具体限定。
在一种可能的实现方式中,多任务模型的任务指标可以包括任务指标包括留存率指标,留存率指标可以包括k个留存率,k个留存率可以包括第一留存率(例如次日留存率)和第二留存率(例如七日留存率),计算机设备可以调用训练好的多任务模型对访问目标广告数据的目标对象进行预测处理,得到目标对象的第一预测留存率和第二预测留存率。然后,计算机设备可以根据目标对象的第一预测留存率和第二预测留存率,确定向目标对象推送的目标广告数据的价值。
举例来说,请参见图7,图7是本申请实施例提供的一种多任务模型的应用场景示意图。多任务模型的应用场景中包括目标对象所使用的终端设备以及服务器。在一种可能的实现方式中,图7所示的服务器可以为广告主所在的服务器(后续可称为计算机设备),然后广告主可以通过服务器对广告主提供的目标广告数据的一个或多个业务指标进行预测,得到多任务模型的预测结果。本申请实施例中,第一业务方可以为广告主,第二业务方可以为广告平台。那么,第一业务方和第二业务方联邦学习训练一个多任务模型之后,广告主可以调用训练好的多任务模型对访问广告主提供的目标广告数据的目标对象的留存率(例如次日留存率和七日留存率)进行预测,得到该目标对象的次日留存预测率(例如为0.9)和该目标对象的七日留存预测率(例如为0.85)。需要说明的是,广告主可以将目标广告数据通过RTA接口的方式发送给广告平台,广告平台可以对广告主提供的目标广告数据进行曝光处理,从而目标对象可以通过访问广告平台以浏览广告主提供的目标广告数据。其中,广告主所提供的目标广告数据可以包括但不限于:体育类型的广告数据、美食类型的广告数据、美妆类型的广告数据等等,本申请实施例对目标广告数据的类型不做具体限定。那么,基于本申请实施例所训练的模型,广告主可以调用训练好的多任务模型预测得到目标对象的次日留存预测率(例如为0.9)和该目标对象的七日留存预测率(例如为0.85)。进一步地,计算机设备基于目标对象的次日留存预测率(例如为0.9)和该目标对象的七日留存预测率(例如为0.85),确定目标广告数据的价值,可以包括:例如该目标对象的次日留存预测率(例如为0.9)高于次日留存率阈值(例如0.88),并且该目标对象的七日留存预测率(例如为0.85)高于次日留存率阈值(例如0.80),那么可以确定该目标对象对目标广告数据感兴趣程度较高。
可以理解的是,目标对象可以是指:某一时间段内(例如一天)广告主通过RTA接口向广告平台所投放的目标广告数据所带来的任一新增用户。在这一时间段内,次日留存预测率大于次日留存率阈值、或者七日留存预测率大于七日留存预测率阈值的目标对象的数量达到阈值,则可以确定广告主所投放的目标广告数据宣传效果较好,用户接受度和认可度较高,后续则可以提高目标广告数据的价值,从而为广告主带来更高的收益。
在另一种可能的实现方式中,多任务模型的任务指标可以包括留存率指标(第一留存率和第二留存率)和活跃时长指标。计算机设备可以调用训练好的多任务模型对目标时间段内访问目标广告数据的对象集进行预测处理,得到对象集中每个对象的k个预测留存率和活跃时长;在目标时间段内向满足留存率阈值条件和活跃时长条件的目标对象推送附加广告数据。
举例来说,基于前述描述,可以按照场景需求设置更多的任务指标,例如还可以包括对象的活跃时长指标。然后调用训练好的多任务模型对目标时间段内(例如一周)内访问目标广告数据的对象集(可以包括q个对象)中的每个对象的次日留存率和七日留存率进行预测,以及还可以预测每个对象的活跃时长。后续,可以在一周内向满足留存率阈值条件和活跃时长条件(例如预测的活跃时长可以达到时长阈值等)的一个或多个目标对象推送额外的广告数据,进一步提高广告主的收益以及增加广告平台的访客数量。需要说明的是,若任务指标包括留存率指标,留存率指标的数量为k个,那么此处的留存率阈值条件可以包括:通过多任务模型预测得到的k个预测留存率中的每个预测留存率均需要大于等于相应的留存率阈值;具体来说,留存率指标的数量为3个(次日留存率、三日留存率、七日留存率),那么,若通过多任务模型预测得到的次日预测留存率需要大于或者等于次日留存率阈值,通过多任务模型预测得到的三日预测留存率需要大于或者等于三日留存率阈值,以及通过多任务模型预测得到的次七日预测留存率需要大于或者等于七日留存率阈值,则确定满足留存率阈值条件。
需要说明的是,若留存率指标包括次日留存率,则留存率阈值条件可以包括:目标对象的次日预测留存率大于或者等于次日留存率阈值;若留存率指标包括次日留存率和七日留存率,则留存率阈值条件可以包括:目标对象的次日预测留存率大于或者等于次日留存率阈值,并且目标对象的七日预测留存率大于或者等于七日留存率阈值。并且,多任务模型的任务指标可以按照场景需求自定义设置;另外,当多任务指标包括留存率指标时,留存率指标的数量同样可以按照场景需求自定义设置,本申请实施例对此不做具体限定。
综上所述,本申请实施例中,可以基于广告主提供的第一特征数据和广告平台提供的第二特征数据联邦学习训练多任务模型,广告主和广告平台均可以调用训练好的多任务模型对任务指标进行预测。对用户而言,用户可以看到更符合自己兴趣的广告数据,可以提升用户体验感,有利于用户的活跃度以及留存;对广告平台而言,本申请实施例可以有效解决数据孤立的问题,在保护广告主和广告平台双方数据隐私和安全的基础上,充分利用双方数据共同优化广告数据的推荐效果;对广告主而言,广告数据的推荐效果更加精准,可以降低广告主的投放成本,以及提高用户的留存率。
请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置800可应用于上述实施例对应的计算机设备。数据处理装置800可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置800为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。该数据处理装置800可包括:
获取单元801,用于获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据;
获取单元801,还用于获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在所述预设时间段内被访问而产生的数据;
处理单元802,用于在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;
处理单元802,还用于采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
在一种可能的实现方式中,第一访问数据包括在预设时间段内访问第一业务方提供的广告数据的m个对象的属性数据;第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,在预设时间段内访问广告数据的n个对象的浏览数据;m、n均为正整数;处理单元802还用于执行以下操作:
对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果;
其中,联邦加密求交处理结果用于指示第一业务方需从第一访问数据中筛选出p个对象的属性数据,并基于p个对象的属性数据生成第一特征数据;以及,联邦加密求交处理结果还用于指示第二业务方需从第二访问数据中筛选出p个对象的浏览数据,并基于p个对象的浏览数据生成第二特征数据;p为正整数,p≤m且p≤n。
在一种可能的实现方式中,处理单元802对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果,用于执行以下操作:
对m个对象的属性数据进行加密处理,得到加密后的m个属性数据;
对n个对象的浏览数据进行加密处理,得到加密后的n个浏览数据;
根据加密后的m个属性数据和所述加密后的n个浏览数据,在加密空间对m个属性数据和n个浏览数据进行求交集处理,得到联邦加密求交处理结果。
在一种可能的实现方式中,第一业务方生成第一特征数据的流程包括:
分别对p个对象的属性数据进行特征提取处理,得到p个对象中各个对象的属性特征;
基于p个对象的属性特征,确定第一特征数据;以及,
第二业务方生成第二特征数据的流程包括:
分别对p个对象的浏览数据进行特征提取处理,得到p个对象中各个对象的浏览特征;
基于p个对象的浏览特征,确定第二特征数据。
在一种可能的实现方式中,处理单元802在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据,用于执行以下操作:
在同态空间内对第一特征数据和第二特征数据进行同态加密运算,得到同态加密运算后的第三特征数据;
在同态空间内对第三特征数据进行同态解密处理,得到样本特征数据。
在一种可能的实现方式中,任务指标包括留存率指标;样本特征数据还包括p个对象中每个对象的k个留存率标签,p为正整数;处理单元802采用样本特征数据对多任务模型进行联邦学习训练,用于执行以下操作:
将样本特征数据输入至多任务模型的全连接层中,输出p个对象中每个对象的k个预测留存率;
根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数。
在一种可能的实现方式中,每个对象的k个预测留存率包括第一预测留存率和第二预测留存率;每个对象的k个留存率标签包括第一标签和第二标签;
处理单元802根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数,用于执行以下操作:
根据每个对象的第一预测留存率和每个对象的第一标签,计算多任务模型的第一损失;
根据每个对象的第二预测留存率和每个对象的第二标签,计算多任务模型的第二损失;
根据第一损失和第二损失确定目标损失,并基于目标损失调整多任务模型的模型参数。
在一种可能的实现方式中,处理单元802还用于执行以下操作:
对训练好的多任务模型进行测试,以获取训练好的多任务模型的模型评价指标值;
若训练好的多任务模型的模型评价指标值满足模型评价指标条件,则调用训练好的多任务模型对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
在一种可能的实现方式中,处理单元802还用于执行以下操作:
调用训练好的多任务模型对访问目标广告数据的目标对象进行预测处理,得到目标对象的k个预测留存率;
根据目标对象的k个预测留存率,确定向目标对象推送的目标广告数据的价值。
在一种可能的实现方式中,任务指标还包括活跃时长指标;处理单元802还用于执行以下操作:
调用训练好的多任务模型对目标时间段内访问目标广告数据的对象集进行预测处理,得到对象集中每个对象的k个预测留存率和活跃时长;
在目标时间段内,向满足留存率阈值条件和活跃时长条件的目标对象推送附加广告数据。
本申请实施例中,首先,可以获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据。其次,还可以获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在预设时间段内被访问而产生的数据。然后,在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。最后,采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。可见,本申请实施例中既可以获取到第一业务方提供的第一特征数据,又可以获取到第二业务方提供的第二特征数据,因此多任务模型的训练样本更加丰富,可以提高多任务模型的准确性;进一步地,所确定的样本特征数据是在同态加密空间内进行的数据交互,因此不会泄露第一业务方和第二业务方双方的原始数据,从而保证了双方原始数据的安全性;另外,训练好的多任务模型可以对多个任务指标进行预测,从而可以提高预测的任务指标的准确性。
请参见图9,图9是本申请实施例提供的一种计算机设备的结构示意图。该计算机设备900用于执行前述方法实施例中计算机设备所执行的步骤,该计算机设备900包括:一个或多个处理器910;一个或多个输入设备920,一个或多个输出设备930和存储器940。上述处理器910、输入设备920、输出设备930和存储器940通过总线950连接。存储器940用于存储计算机程序,所述计算机程序包括程序指令,处理器910用于调用存储器940存储的程序指令,执行以下操作:
获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据;
获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在所述预设时间段内被访问而产生的数据;
在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据;
采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
在一种可能的实现方式中,第一访问数据包括在预设时间段内访问第一业务方提供的广告数据的m个对象的属性数据;第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,在预设时间段内访问广告数据的n个对象的浏览数据;m、n均为正整数;处理器910还用于执行以下操作:
对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果;
其中,联邦加密求交处理结果用于指示第一业务方需从第一访问数据中筛选出p个对象的属性数据,并基于p个对象的属性数据生成第一特征数据;以及,联邦加密求交处理结果还用于指示第二业务方需从第二访问数据中筛选出p个对象的浏览数据,并基于p个对象的浏览数据生成第二特征数据;p为正整数,p≤m且p≤n。
在一种可能的实现方式中,处理器910对第一访问数据和第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果,用于执行以下操作:
对m个对象的属性数据进行加密处理,得到加密后的m个属性数据;
对n个对象的浏览数据进行加密处理,得到加密后的n个浏览数据;
根据加密后的m个属性数据和所述加密后的n个浏览数据,在加密空间对m个属性数据和n个浏览数据进行求交集处理,得到联邦加密求交处理结果。
在一种可能的实现方式中,第一业务方生成第一特征数据的流程包括:
分别对p个对象的属性数据进行特征提取处理,得到p个对象中各个对象的属性特征;
基于p个对象的属性特征,确定第一特征数据;以及,
第二业务方生成第二特征数据的流程包括:
分别对p个对象的浏览数据进行特征提取处理,得到p个对象中各个对象的浏览特征;
基于p个对象的浏览特征,确定第二特征数据。
在一种可能的实现方式中,处理器910在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据,用于执行以下操作:
在同态空间内对第一特征数据和第二特征数据进行同态加密运算,得到同态加密运算后的第三特征数据;
在同态空间内对第三特征数据进行同态解密处理,得到样本特征数据。
在一种可能的实现方式中,任务指标包括留存率指标;样本特征数据还包括p个对象中每个对象的k个留存率标签,p为正整数;处理器910采用样本特征数据对多任务模型进行联邦学习训练,用于执行以下操作:
将样本特征数据输入至多任务模型的全连接层中,输出p个对象中每个对象的k个预测留存率;
根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数。
在一种可能的实现方式中,每个对象的k个预测留存率包括第一预测留存率和第二预测留存率;每个对象的k个留存率标签包括第一标签和第二标签;
处理器910根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整多任务模型的模型参数,用于执行以下操作:
根据每个对象的第一预测留存率和每个对象的第一标签,计算多任务模型的第一损失;
根据每个对象的第二预测留存率和每个对象的第二标签,计算多任务模型的第二损失;
根据第一损失和第二损失确定目标损失,并基于目标损失调整多任务模型的模型参数。
在一种可能的实现方式中,处理器910还用于执行以下操作:
对训练好的多任务模型进行测试,以获取训练好的多任务模型的模型评价指标值;
若训练好的多任务模型的模型评价指标值满足模型评价指标条件,则调用训练好的多任务模型对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
在一种可能的实现方式中,处理器910还用于执行以下操作:
调用训练好的多任务模型对访问目标广告数据的目标对象进行预测处理,得到目标对象的k个预测留存率;
根据目标对象的k个预测留存率,确定向目标对象推送的目标广告数据的价值。
在一种可能的实现方式中,任务指标还包括活跃时长指标;处理器910还用于执行以下操作:
调用训练好的多任务模型对目标时间段内访问目标广告数据的对象集进行预测处理,得到对象集中每个对象的k个预测留存率和活跃时长;
在目标时间段内,向满足留存率阈值条件和活跃时长条件的目标对象推送附加广告数据。
本申请实施例中,首先,可以获取第一业务方提供的第一特征数据,第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,第一访问数据包括第一业务方提供的广告数据在预设时间段内被访问而产生的数据。其次,还可以获取第二业务方提供的第二特征数据,第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,第二访问数据包括广告数据在第二业务方对应的平台曝光的过程中,广告数据在预设时间段内被访问而产生的数据。然后,在同态空间内对第一特征数据和第二特征数据进行运算处理,得到样本特征数据。最后,采用样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。可见,本申请实施例中既可以获取到第一业务方提供的第一特征数据,又可以获取到第二业务方提供的第二特征数据,因此多任务模型的训练样本更加丰富,可以提高多任务模型的准确性;进一步地,所确定的样本特征数据是在同态加密空间内进行的数据交互,因此不会泄露第一业务方和第二业务方双方的原始数据,从而保证了双方原始数据的安全性;另外,训练好的多任务模型可以对多个任务指标进行预测,从而可以提高预测的任务指标的准确性。
此外,这里需要指出的是:本申请实施例还提供了一种计算机存储介质,且计算机存储介质中存储有计算机程序,且该计算机程序包括程序指令,当处理器执行上述程序指令时,能够执行前文所对应实施例中的方法,因此,这里将不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可以被部署在一个计算机设备上,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可以执行前文所对应实施例中的方法,因此,这里将不再进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (14)
1.一种数据处理方法,其特征在于,包括:
获取第一业务方提供的第一特征数据,所述第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,所述第一访问数据包括所述第一业务方提供的广告数据在预设时间段内被访问而产生的数据;
获取第二业务方提供的第二特征数据,所述第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,所述第二访问数据包括所述广告数据在所述第二业务方对应的平台曝光的过程中,所述广告数据在所述预设时间段内被访问而产生的数据;
在同态空间内对所述第一特征数据和所述第二特征数据进行运算处理,得到样本特征数据;
采用所述样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对所述第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
2.如权利要求1所述的方法,其特征在于,所述第一访问数据包括在预设时间段内访问所述第一业务方提供的广告数据的m个对象的属性数据;所述第二访问数据包括所述广告数据在所述第二业务方对应的平台曝光的过程中,在所述预设时间段内访问所述广告数据的n个对象的浏览数据;m、n均为正整数;所述方法还包括:
对所述第一访问数据和所述第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果;
其中,所述联邦加密求交处理结果用于指示所述第一业务方需从所述第一访问数据中筛选出p个对象的属性数据,并基于所述p个对象的属性数据生成所述第一特征数据;以及,所述联邦加密求交处理结果还用于指示所述第二业务方需从所述第二访问数据中筛选出所述p个对象的浏览数据,并基于所述p个对象的浏览数据生成所述第二特征数据;p为正整数,p≤m且p≤n。
3.如权利要求2所述的方法,其特征在于,所述对所述第一访问数据和所述第二访问数据进行联邦加密求交处理,得到联邦加密求交处理结果,包括:
对所述m个对象的属性数据进行加密处理,得到加密后的m个属性数据;
对所述n个对象的浏览数据进行加密处理,得到加密后的n个浏览数据;
根据所述加密后的m个属性数据和所述加密后的n个浏览数据,在加密空间对所述m个属性数据和所述n个浏览数据进行求交集处理,得到联邦加密求交处理结果。
4.如权利要求2所述的方法,其特征在于,所述第一业务方生成所述第一特征数据的流程包括:
分别对所述p个对象的属性数据进行特征提取处理,得到所述p个对象中各个对象的属性特征;
基于所述p个对象的属性特征,确定所述第一特征数据;以及,
所述第二业务方生成所述第二特征数据的流程包括:
分别对所述p个对象的浏览数据进行特征提取处理,得到所述p个对象中各个对象的浏览特征;
基于所述p个对象的浏览特征,确定所述第二特征数据。
5.如权利要求1-4任一项所述的方法,其特征在于,所述在同态空间内对所述第一特征数据和所述第二特征数据进行运算处理,得到样本特征数据,包括:
在同态空间内对所述第一特征数据和所述第二特征数据进行同态加密运算,得到同态加密运算后的第三特征数据;
在同态空间内对所述第三特征数据进行同态解密处理,得到样本特征数据。
6.如权利要求5所述的方法,其特征在于,所述任务指标包括留存率指标;所述样本特征数据还包括p个对象中每个对象的k个留存率标签,p为正整数;所述采用所述样本特征数据对多任务模型进行联邦学习训练,包括:
将所述样本特征数据输入至所述多任务模型的全连接层中,输出所述p个对象中每个对象的k个预测留存率;
根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整所述多任务模型的模型参数。
7.如权利要求6所述的方法,其特征在于,每个对象的k个预测留存率包括第一预测留存率和第二预测留存率;每个对象的k个留存率标签包括第一标签和第二标签;
所述根据每个对象的k个预测留存率和每个对象的k个留存率标签,调整所述多任务模型的模型参数,包括:
根据每个对象的第一预测留存率和每个对象的第一标签,计算所述多任务模型的第一损失;
根据每个对象的第二预测留存率和每个对象的第二标签,计算所述多任务模型的第二损失;
根据所述第一损失和所述第二损失确定目标损失,并基于所述目标损失调整所述多任务模型的模型参数。
8.如权利要求7所述的方法,其特征在于,所述方法还包括:
对所述训练好的多任务模型进行测试,以获取所述训练好的多任务模型的模型评价指标值;
若所述训练好的多任务模型的模型评价指标值满足模型评价指标条件,则调用训练好的多任务模型对所述第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
调用训练好的多任务模型对访问所述目标广告数据的目标对象进行预测处理,得到所述目标对象的k个预测留存率;
根据所述目标对象的k个预测留存率,确定向所述目标对象推送的所述目标广告数据的价值。
10.如权利要求8所述的方法,其特征在于,所述任务指标还包括活跃时长指标;所述方法还包括:
调用训练好的多任务模型对目标时间段内访问所述目标广告数据的对象集进行预测处理,得到所述对象集中每个对象的k个预测留存率和活跃时长;
在所述目标时间段内,向满足留存率阈值条件和活跃时长条件的目标对象推送附加广告数据。
11.一种数据处理装置,其特征在于,包括:
获取单元,用于获取第一业务方提供的第一特征数据,所述第一特征数据是对第一业务方拥有的第一访问数据进行同态加密处理后得到的,所述第一访问数据包括所述第一业务方提供的广告数据在预设时间段内被访问而产生的数据;
所述获取单元,还用于获取第二业务方提供的第二特征数据,所述第二特征数据是对第二业务方拥有的第二访问数据进行同态加密处理后得到的,所述第二访问数据包括所述广告数据在所述第二业务方对应的平台曝光的过程中,所述广告数据在所述预设时间段内被访问而产生的数据;
处理单元,用于在同态空间内对所述第一特征数据和所述第二特征数据进行运算处理,得到样本特征数据;
所述处理单元,还用于采用所述样本特征数据对多任务模型进行联邦学习训练,训练好的多任务模型用于对所述第一业务方提供的目标广告数据对应的一个或多个任务指标进行预测。
12.一种计算机设备,其特征在于,包括:存储装置和处理器;
存储器,所述存储器中存储一条或多条计算机程序;
处理器,用于加载所述一条或多条计算机程序实现如权利要求1-10任一项所述的数据处理方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-10任一项所述的数据处理方法。
14.一种计算机程序产品,其特征在于,所述计算程序产品包括计算机程序,所述计算机程序适于被处理器加载并执行如权利要求1-10任一项所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113212.5A CN114463063A (zh) | 2022-01-29 | 2022-01-29 | 数据处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113212.5A CN114463063A (zh) | 2022-01-29 | 2022-01-29 | 数据处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463063A true CN114463063A (zh) | 2022-05-10 |
Family
ID=81411987
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210113212.5A Pending CN114463063A (zh) | 2022-01-29 | 2022-01-29 | 数据处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463063A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701972A (zh) * | 2023-08-09 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 业务数据处理方法、装置、设备以及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897904A (zh) * | 2017-02-24 | 2017-06-27 | 北京金山安全软件有限公司 | 产品生命周期建模方法、装置及电子设备 |
CN108596652A (zh) * | 2018-03-28 | 2018-09-28 | 麒麟合盛网络技术股份有限公司 | 活跃用户数预测方法及装置 |
CN111709051A (zh) * | 2020-05-28 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、系统、计算机存储介质及电子设备 |
CN112215348A (zh) * | 2020-09-09 | 2021-01-12 | 广州小迈网络科技有限公司 | 广告投放信息处理方法 |
CN112613077A (zh) * | 2021-01-22 | 2021-04-06 | 支付宝(杭州)信息技术有限公司 | 保护隐私的多方数据处理的方法、装置和系统 |
CN113269370A (zh) * | 2021-06-18 | 2021-08-17 | 腾讯科技(成都)有限公司 | 一种活跃用户预测方法、装置、电子设备及可读存储介质 |
-
2022
- 2022-01-29 CN CN202210113212.5A patent/CN114463063A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897904A (zh) * | 2017-02-24 | 2017-06-27 | 北京金山安全软件有限公司 | 产品生命周期建模方法、装置及电子设备 |
CN108596652A (zh) * | 2018-03-28 | 2018-09-28 | 麒麟合盛网络技术股份有限公司 | 活跃用户数预测方法及装置 |
CN111709051A (zh) * | 2020-05-28 | 2020-09-25 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、系统、计算机存储介质及电子设备 |
CN112215348A (zh) * | 2020-09-09 | 2021-01-12 | 广州小迈网络科技有限公司 | 广告投放信息处理方法 |
CN112613077A (zh) * | 2021-01-22 | 2021-04-06 | 支付宝(杭州)信息技术有限公司 | 保护隐私的多方数据处理的方法、装置和系统 |
CN113269370A (zh) * | 2021-06-18 | 2021-08-17 | 腾讯科技(成都)有限公司 | 一种活跃用户预测方法、装置、电子设备及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701972A (zh) * | 2023-08-09 | 2023-09-05 | 腾讯科技(深圳)有限公司 | 业务数据处理方法、装置、设备以及介质 |
CN116701972B (zh) * | 2023-08-09 | 2023-11-24 | 腾讯科技(深圳)有限公司 | 业务数据处理方法、装置、设备以及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110189192B (zh) | 一种信息推荐模型的生成方法及装置 | |
CN110245510B (zh) | 用于预测信息的方法和装置 | |
Qi et al. | Model aggregation techniques in federated learning: A comprehensive survey | |
CN112085159B (zh) | 一种用户标签数据预测系统、方法、装置及电子设备 | |
CN113505882B (zh) | 基于联邦神经网络模型的数据处理方法、相关设备及介质 | |
CN113127916B (zh) | 数据集合处理方法、数据处理方法、装置及存储介质 | |
CN111428887B (zh) | 一种基于多个计算节点的模型训练控制方法、装置及系统 | |
CN112347500B (zh) | 分布式系统的机器学习方法、装置、系统、设备及存储介质 | |
Liu et al. | Keep your data locally: Federated-learning-based data privacy preservation in edge computing | |
CN114401079A (zh) | 多方联合信息价值计算方法、相关设备及存储介质 | |
CN113449048B (zh) | 数据标签分布确定方法、装置、计算机设备和存储介质 | |
CN113362048B (zh) | 数据标签分布确定方法、装置、计算机设备和存储介质 | |
EP4208808A1 (en) | Privacy preserving machine learning using secure multi-party computation | |
CN112529101B (zh) | 分类模型的训练方法、装置、电子设备及存储介质 | |
CN111753324B (zh) | 私有数据的处理方法、计算方法及所适用的设备 | |
CN111553744A (zh) | 联邦产品推荐方法、装置、设备及计算机存储介质 | |
CN113297175A (zh) | 数据处理方法、装置、系统和可读存储介质 | |
WO2022076826A1 (en) | Privacy preserving machine learning via gradient boosting | |
Bi et al. | Edge-cooperative privacy-preserving object detection over random point cloud shares for connected autonomous vehicles | |
CN111553742A (zh) | 联邦产品推荐方法、装置、设备及计算机存储介质 | |
CN114463063A (zh) | 数据处理方法及相关装置 | |
CN115719094B (zh) | 基于联邦学习的模型训练方法、装置、设备及存储介质 | |
CN117709444B (zh) | 基于去中心化联邦学习的差分隐私模型更新方法以及系统 | |
CN116304644B (zh) | 一种基于联邦学习的数据处理方法、装置、设备及介质 | |
CN118333105B (zh) | 数据处理方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |