CN113256335A - 数据筛选方法、多媒体数据的投放效果预测方法及装置 - Google Patents
数据筛选方法、多媒体数据的投放效果预测方法及装置 Download PDFInfo
- Publication number
- CN113256335A CN113256335A CN202110587755.6A CN202110587755A CN113256335A CN 113256335 A CN113256335 A CN 113256335A CN 202110587755 A CN202110587755 A CN 202110587755A CN 113256335 A CN113256335 A CN 113256335A
- Authority
- CN
- China
- Prior art keywords
- channel
- sample
- training
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000694 effects Effects 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012216 screening Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 350
- 238000011156 evaluation Methods 0.000 claims description 46
- 238000012937 correction Methods 0.000 claims description 21
- 238000013145 classification model Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 abstract description 10
- 238000012360 testing method Methods 0.000 description 43
- 238000009826 distribution Methods 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 17
- 238000012986 modification Methods 0.000 description 10
- 230000004048 modification Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000013103 analytical ultracentrifugation Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000002716 delivery method Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据筛选方法、多媒体数据的投放效果预测方法及装置,涉及人工智能、区块链、云技术及多媒体技术领域。该方法包括:获取多个渠道对应的训练数据集,对于多个渠道中各候选渠道的每个样本,基于其样本输入,确定将该样本作为目标投放渠道的样本时对于训练多媒体数据投放模型的贡献度,并根据该贡献度对其标签进行修正;对于每个候选渠道,根据该渠道的各修正后的标签及目标投放渠道的各标签,确定该渠道与目标投放渠道间的数据偏移;根据各候选渠道对应的数据偏移,从各候选渠道中筛选目标渠道,将目标投放渠道的数据集和目标渠道的数据集作为模型的训练数据集。基于该方案筛选出的训练数据集,能够有效提高投放模型的性能。
Description
技术领域
本申请涉及人工智能、区块链及多媒体技术领域,具体而言,本申请涉及一种数据筛选方法、多媒体数据的投放效果预测方法及装置。
背景技术
在多媒体数据(如广告)投放的应用场景中,为了预测潜在用户的投放效果,会采用多媒体数据投放模型(如广告投放模型)来预测某个或某些用户关键指标。而为了提高数据的利用率和模型的泛化能力,在模型训练时常会使用来自不同渠道的训练数据,但模型部署时一般只会面向某个特定的渠道(可以称为目标投放渠道),因此,训练数据的分布与目标投放渠道的数据分布是存在差异的,模型训练会面临数据偏移的问题。
现有技术中,对于上述问题,一种处理方式是假定不同渠道的数据分布之间不存在数据偏移,训练时不对不同渠道的样本数据进行区分,虽然该方式虽然非常容易实现和落地,但是与真实情况往往不符,会导致模型的预测结果存在较大偏差。另一种方式则是假设不同渠道之间的数据分布之间的数据偏移都属于某一种特定的偏移,并针对该特定偏移在训练时进行一些数据调整,该方式虽然能够实现对一定程度的调整,但是由于假设也是过于武断,通常也是不符合实际情况的,训练得到的模型的效果也仍需改进。
发明内容
本申请的目的旨在提供一种数据筛选方法、多媒体数据的投放效果预测方法及装置,以筛选出更加适用于多媒体数据投放模型的训练数据集,提高模型的能力。为了实现上述目的,本申请提供的技术方案如下:
一方面,本申请提供了一种数据筛选方法,该方法包括:
获取多个渠道各自对应的训练数据集,该多个渠道包括多媒体数据的目标投放渠道和至少一个候选渠道,训练数据集中的每个样本包括样本输入和标签,样本输入为样本对象的特征数据,标签表征了样本对象对应于多媒体数据的真实投放效果,候选渠道为非目标投放渠道;
对于各候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,并根据该贡献度对该样本的标签进行修正;
对于每个候选渠道,根据该渠道的各样本修正后的标签、以及目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移;
根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道,将目标投放渠道的训练数据集和各目标渠道的训练数据集作为模型的训练数据集。
另一方面,本申请还提供了一种多媒体数据投放效果预测方法,该方法包括:
获取多媒体数据的候选投放对象的特征数据,该候选投放对象为属于多媒体数据的目标投放渠道的对象;
将对象特征数据输入至训练好的多媒体数据投放模型中,得到候选投放对象对应于多媒体数据的预测投放效果;其中,该模型的训练数据集是采用本申请提供的数据筛选方法得到的。
再一方面,本申请还提供了一种数据筛选装置,该装置包括:
数据集获取模块,用于获取多个渠道各自对应的训练数据集,该多个渠道包括多媒体数据的目标投放渠道和至少一个候选渠道,训练数据集中的每个样本包括样本输入和标签,样本输入为样本对象的特征数据,标签表征了样本对象对应于多媒体数据的真实投放效果,候选渠道为非目标投放渠道;
数据集修正模块,用于对于各候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,并根据该贡献度对该样本的标签进行修正;
数据偏移确定模块,用于对于每个候选渠道,根据该渠道的各样本修正后的标签、以及目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移;
渠道筛选模块,用于根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道,将目标投放渠道的训练数据集和各目标渠道的训练数据集作为模型的训练数据集。
可选的,对于各候选渠道的每个样本,数据集修正模块在确定该样本对于训练多媒体数据投放模型的贡献度时可以用于:
基于该样本的样本输入,预测该样本对应的第一概率和第二概率;基于该样本对应的第一概率和第二概率的比值,确定为该样本对应的贡献度;其中,第一概率为该样本所属的渠道为目标投放渠道的概率,第二概率为该样本所属的渠道是其真实所属的候选渠道的概率。
可选的,对于各候选渠道的每个样本,数据集修正模块可以用于:
基于该样本的样本输入,通过多分类模型预测该样本所属的渠道是多个渠道中各个渠道的概率,第一概率为预测得到多个概率中对应于目标投放渠道的概率,第二概率为多个概率中对应于该样本真实所属渠道的概率。
可选的,对于各候选渠道的每个样本,数据集修正模块在根据该样本的贡献度对该样本的标签进行修正时用于:
将该样本对应的贡献度作为权重,对该样本对应的标签进行加权,得到修正后的标签。
可选的,对于每个候选渠道,数据偏移确定模块在确定该渠道与目标投放渠道之间的数据偏移时用于:
根据该渠道的各样本修正后的标签,确定该渠道对应的整体投放效果;根据目标投放渠道的各样本的标签,确定目标投放渠道对应的整体投放效果;根据该渠道对应的整体投放效果和目标投放渠道对应的整体投放效果之间的差异,确定该渠道与目标投放渠道之间的数据偏移。
可选的,渠道筛选模块在根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道时用于:
按照各候选渠道对应的数据偏移由小到大的顺序,依次对各候选渠道执行以下操作,直至当前候选渠道对应的模型性能评价指标不满足预设条件,并将数据偏移小于当前候选渠道对应的数据偏移的各候选渠道作为各目标渠道:
基于当前候选渠道的训练数据集对第一模型进行训练,直至满足训练结束条件,并确定当前训练后的模型的性能评价指标,若当前训练后的模型的性能评价指标满足预设条件,则将下一个候选渠道作为新的当前候选渠道;
其中,第一模型为以下任一项:
初始的多媒体数据投放模型;对初始的多媒体数据投放模型进行预训练得到的预训练后的模型;上一次操作对应的训练后的模型。
可选的,渠道筛选模块在基于当前候选渠道的训练数据集对第一模型进行训练时用于:
基于当前候选渠道的训练数据集和第一数据集,对第一模型进行训练,其中,第一数据集包括以下至少一项:
目标投放渠道对应的训练数据集;各第一渠道中的至少一个渠道对应的训练数据集,第一渠道是指数据偏移小于当前候选渠道对应的数据偏移的候选渠道。
可选的,渠道筛选模块在基于当前候选渠道的训练数据集和第一数据集,对第一模型进行训练时可以用于:
基于当前候选渠道的训练数据集和第一数据集对第一模型重复执行以下操作,直至模型对应的训练损失值满足训练结束条件:
将当前候选渠道的训练数据集和第一数据集中的各样本的样本输入分别输入至第一模型中,得到各样本各自对应的预测投放效果;
对于当前候选渠道的训练数据集和第一数据集中的每个样本,基于该样本的标签和该样本对应的预测投放效果,确定该样本对应的训练损失值,其中,若该样本属于非目标投放渠道的每个样本,则基于该样本对应的贡献度对该样本对应的训练损失值进行加权,将加权后的损失值作为该样本最终的训练损失值;
基于各样本的训练损失值,确定第一模型对应的训练损失值;
若训练损失值不满足训练结束条件,对第一模型的模型参数进行调整。
可选的,渠道筛选模块在确定当前训练后的模型的性能评价指标时用于:
获取目标投放渠道对应的测试数据集,采用测试数据集对当前训练后的模型进行效果测试,得到测试数据集中各测试样本对应的测试结果;基于各测试样本对应的测试结果,确定当前训练后的模型的性能评价指标。
可选的,渠道筛选模块还可以用于:
采用目标投放渠道对应的训练数据集对初始的多媒体数据投放模型进行预训练,得到预训练后的模型;确定预训练后的模型的性能评价指标,并将该指标作为参考指标;
其中,当前训练后的模型的性能评价指标满足预设条件,包括以下至少一项:
当前训练后的模型的性能评价指标不低于参考指标;
当前训练后的模型的性能评价指标与参考指标的差异小于或等于设定值。
又一方面,本申请还提供了一种多媒体数据投放效果预测装置,该装置包括:
对象数据获取模块,用于获取多媒体数据的候选投放对象的特征数据,候选投放对象为属于多媒体数据的目标投放渠道的对象;
投放效果预测模块,用于将对象特征数据输入至训练好的多媒体数据投放模型中,得到候选投放对象对应于多媒体数据的预测投放效果;其中,该模型的训练数据集是采用本申请提供的数据筛选方法得到的。
另一方面,本申请提供了一种电子设备,该电子设备包括存储器和处理器,其中,该存储器中存储有计算机程序,处理器在运行该计算机程序时用于执行本申请任一方面的可选实施例中提供的方法。
另一方面,本申请提供了计算机可读存储介质,该存储介质中存储有计算机程序,计算机程序在处理器中运行时,处理器用于执行本申请任一方面的可选实施例中提供的方法。
另一方面,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的方法。
本申请提供的技术方案带来的有益效果如下:
本申请所提供的数据筛选方法,在从至少一个候选渠道对应的训练数据集中筛选适用于多媒体数据投放模型训练的数据集时,会依据候选渠道的每个样本对于训练多媒体数据投放模型的贡献度,对候选渠道的样本数据进行修正,通过该处理方式,可以实现对不同渠道的数据集中由于自变量(样本输入)差异所引起的因变量(样本的标签)差异的修正,即实现了由于候选渠道和目标投放渠道的特征数据之间的差异,所导致的两者之间的样本标签差异的修正。基于本申请实施例提供的该方法,以目标投放渠道为基准,实现了候选渠道的训练数据集向目标投放渠道视角下的修正,从而可以基于修正后的候选渠道数据集相对于目标投放渠道的数据偏移,从各候选渠道的训练数据集中更加准确的筛选出适用于模型训练的数据集,以基于筛选出的目标渠道的训练数据集和目标投放渠道的训练数据集训练得到性能更好的多媒体数据投放模型,提高模型用于预测多媒体数据投放效果时的预测准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种数据筛选方法的流程示意图;
图2为本申请实施例提供的一种多媒体数据投放效果预测方法的流程示意图;
图3为本申请实施例提供的一种广告投放系统的结构示意图;
图4为本申请实施例提供的一种广告投放方法的流程示意图;
图5为本申请实施例提供的一种目标渠道的筛选原理示意图;
图6为本申请实施例提供的一种目标渠道筛选方法的流程示意图;
图7为本申请实施例提供的一种数据筛选装置的结构示意图;
图8为本申请实施例提供的一种多媒体数据投放效果预测装置的结构示意图;
图9为本申请实施例提供的一种的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本申请是针对现有采用多渠道的训练数据对多媒体数据投放模型进行训练的方式,所导致的模型的性能不佳的问题,而提出的一种数据筛选方法,基于该方法能够筛选出更加合适的用于模型训练的数据,从而能够有效提升模型的训练效果,提升模型的预测准确性。
本申请实施例所提供的方案中的一些可选实施方式或实施步骤,是能够基于人工智能技术实现的。本申请实施例提供的方案涉及到人工智能的自然语言理解技术。例如,在确定非目标投放渠道即候选渠道的各样本对应的贡献度时(将在后文中展开说明),可以采用多分类模型实现,该模型可以采用机器学习方式训练得到的。本申请实施例中所描述的多媒体数据投放模型也是需要基于训练数据集进行训练的神经网络模型,通过该模型可以预测多媒体数据的投放效果。
人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案中所涉及的数据的处理(包括但不限于数据计算)可以基于云技术实现,如可以采用云计算方式计算各候选渠道的每个样本对应的贡献度,基于贡献度进行样本标签的修正,以及计算候选渠道与目标投放渠道之间的数据偏移等等。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云计算(cloudcomputing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
本申请实施例提供的数据筛选方法中所涉及的多个渠道对应的训练数据集,可以保存于区块链上。
本申请实施例所提供的方案中的多媒体数据可以是广告,多媒体数据投放模型可以是广告模型。可选的,多媒体数据可以是游戏广告(即关于游戏的广告,如可以是某个游戏的推广信息),候选投放对象可以是游戏应用的潜在用户,该潜在用户可以是目标投放渠道上的用户,可以通过训练好的广告模型可以预测各潜在用户对应的广告投放效果,并从潜在用户中确定出目标用户,通过各目标用户的终端设备将游戏广告提供给这些用户。其中,上述游戏可以包括但不限于云游戏。
为了更好的理解及说明书本申请实施例所提供的方案,下面首先对本申请实施例中所涉及的一些技术用语进行说明。
多媒体数据投放渠道:也可以简称为渠道或投放渠道,是指在多媒体数据投放场景中,能够最终将多媒体数据曝光给用户的媒体,如应用程序,可以通过应用程序的客户端界面将多媒体数据展示给用户。
广告渠道即广告投放渠道:在广告投放场景中,能够触达最终广告曝光用户的媒体。
转化率(conversion rate,CVR):广告曝光用户成功转化的概率,成功转化通常指完成对目标商品的购买等行为,转化率的估计通常是广告优化的重要模块。
点击率(clickthrough rate,CTR):广告曝光用户点击广告的概率,点击率的估计通常是广告优化的重要模块。
多媒体数据投放模型,在多媒体数据投放场景中,用于预测潜在用户关键指标的模型,如在广告投放场景中,该模型通常称为广告模型,用户关键指标可以包括但不限于转化率、点击率等,如果指标是转化率,广告模型可以称为转化率模型,如果指标是点击率,广告模型可以称为点击率模型。
数据偏移(datasetshift):泛指训练集和测试集的数据分布不一致的情形,即P train (x,y)≠P test (x,y),x和y分别表示训练集和测试集中样本的自变量和因变量。在本申请实施例中,数据偏移还可以是指不同投放渠道之间的数据分布不一致的情形,如目标投放渠道和非目标投放渠道之间的训练数据分布不一致的情形。
协变量偏移(covariateshift):一种数据偏移的简单情形,具体地,训练集和测试集自变量分布不一致,即P train (x)≠P test (x),但因变量相对自变量的条件分布在训练集和测试集中保持一致,即P train (y|x)=P test (y|x)。
密度比率加权混合:一种通过加权的方式缓解协变量偏移问题的方法,主要思想是对用户样本x的相应的损失函数乘以P train (x)/P test (x),使得模型优化倾向于测试集的分布而非训练集的分布,从而缓解协变量偏移问题。
组合爆炸(combination explosion):问题的解空间规模随指数增长的现象,是通过暴力方式搜索问题最优解时经常面临的问题。
在工业界广告投放场景中,针对目标投放渠道(广告最终的投放渠道)训练点击率、转化率等广告模型的时候,为了提高数据的利用效率,会混合多个渠道的数据训练广告投放模型,常见的混合方式是直接混合和基于样本密度比率加权混合。但是直接混合的假设与实际相差很大,训练得到的模型的效果较差,难以实现有效的预测。而基于样本密度比率加权混合的处理方式,是认为不同渠道间的数据偏移都属于协变量偏移,认为不同渠道间的样本标签分布存在差异的原因是用户样本特征(即样本用户的特征数据)的分布不同,也就是说,不同渠道间存在数据偏移的原因与渠道无关。但是该方式依然是对数据的分布进行了假设,当不同渠道间的数据偏移不是协变量偏移时,基于该方式也会难以实现有效的模型训练。
针对上述问题,需要对不同渠道的数据进行筛选,筛选出合适的渠道训练数据。作为一种可选方式,可以采用暴力搜索的方式进行数据的筛选,具体的,假设存在N个渠道的训练数据集,对于N个渠道,选或不选,一共有2N-1种组合方式,组合数量是指数级的。针对这么多种组合训练并验证模型的有效性,会造成巨大的时间开销和机器开销。例如,渠道数量为10时,有1023种组合方式,每次模型训练和验证假设耗时2小时,那么完成这么多种组合的验证需要85天,显然难以在实际生产中实现。
为了解决上述各方式中存在的问题,本申请实施例提供的一种数据筛选方法,基于该方能够高效的筛选出适用于多媒体数据投放模型的训练数据集,且基于该数据集训练得到的模型的性能相比于现有技术具有明显提升,能够有效提高多媒体数据投放效果预测的准确性。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请实施例提供的一种数据筛选方法的流程示意图,如图1中所示,该方法可以包括以下步骤:
步骤S110:获取多个渠道各自对应的训练数据集,多个渠道包括多媒体数据的目标投放渠道和至少一个候选渠道,训练数据集中的每个样本包括样本输入和标签,样本输入为样本对象的特征数据,标签表征了样本对象对应于多媒体数据的真实投放效果,候选渠道为非目标投放渠道;
其中,多媒体数据的具体形式及类型本申请不做限定,可以是包含任意一种或多种形式信息的数据,如可以包括但不限于文字、图片、视频、照片、声音、动画等信息中的一种或多种。可选的,多媒体数据可以是广告,如游戏广告。另外,需要说明的是,上述多媒体数据是一个泛指的概念,可以是某个多媒体数据,也可以是某一类型的多媒体数据。
目标投放渠道是指多媒体数据的最终投放渠道,即多媒体数据最终是要曝光给的这个渠道上的对象。比如,上述多个渠道包括应用A、应用B、应用C以及应用D,应用A是多媒体数据投放模型训练好之后最终所要应用在的应用,即该模型在训练好之后是用于预测在A应用中投放多媒体数据时,候选投放对象即潜在对象对应的投放效果,该示例中应用A则为目标投放渠道,应用B、C和D为非目标投放渠道,也就是候选渠道。
本申请实施例中所描述的对象可以是用户。为了描述方便,后文的一些实施例描述中会以用户替代对象进行描述。
对于上述多个渠道中的任一渠道,该渠道对应的训练数据集,是指这个训练数据集中的训练样本(即上述样本)是属于这个渠道的对象所对应的样本,即样本对象是这个渠道上的对象,如上述示例中,应用A对应的训练数据集的每个样本的样本输入是应用A中的对象的特征数据,该样本的标签是该对象对应于多媒体数据的真实投放效果,比如,多媒体数据是某个广告,投放效果是广告的转化率,一个样本的标签则表示将该广告投放(即曝光)给该样本对应的样本对象时,该对象会点击这个广告的真实概率。
其中,对于任一对象,该对象的特征数据是指该对象的相关信息中与多媒体数据的投放效果有关的信息,比如,多媒体数据是某个类型的多媒体数据,对象的特征数据可以包括但不限于对象的年龄、性别以及与这种类型的多媒体数据有关的一些信息,如对于游戏广告,这些信息可以包括该对象的游戏年龄、该对象感兴趣的游戏类型、该对象在玩游戏过程中的消费信息(如购买游戏道具的付费信息)等。
对于每个渠道对应的训练数据集的来源,本申请实施例不做限定,可选到的,可以是在对象授权的情况下,从各个渠道收集的各对象的历史相关信息,基于收集的历史相关信息得到各样本,比如,可以通过收集某多媒体数据投放场景中多个渠道中累计一定时长的真实相关数据得到训练数据集。
步骤S120:对于各候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,并根据该贡献度对该样本的标签进行修正;
步骤S130:对于每个候选渠道,根据该渠道的各样本修正后的标签、以及目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移;
步骤S140:根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道,将目标投放渠道的训练数据集和各目标渠道的训练数据集作为模型的训练数据集。
由于训练好的多媒体数据投放模型最终是应用于目标投放渠道中,而候选渠道的训练数据集与目标投放渠道的训练数据集是存在差异的,即不同渠道的训练数据集之间是存在数据偏移的,如果该数据偏移与渠道无关,只与样本相关,则可以基于密度比率加权的方式对候选渠道的数据进行修正,也就是说,候选渠道中各样本的特征数据的分布和目标投放渠道中各样本的特征数据的分布存在差异,即,但不同渠道的训练数据集中样本标签的分布情况只与对象的特征数据有关,与渠道无关,即,其中,表示N个渠道中第i个渠道的训练数据集中样本对象的特征数据的分布情况,其中,表示第i个的训练数据集中样本的标签相对于对象的特征数据的条件分布。
但由前文的描述可知,在实际应用中,不同渠道的训练数据集间的数据偏移并不一定都是协变量偏移,如果不对多个候选渠道的训练数据集进行筛选,而是直接采用上述多个候选渠道的训练数据集进行模型训练,或者是对各渠候选道的训练数据集采用密度比率加权混合的方式进行处理,训练得到的模型的效果是无法预测的,无法保证训练得到的模型的性能。因此,需要对多个候选渠道的训练数据集进行筛选,从中筛选出有效的、能够提升模型性能的训练数据集。
由于模型最终是应用于目标投放渠道,因此,可以通过将各候选渠道的训练数据集与目标投放渠道的训练数据集比对,从中筛选出更加适用于模型训练的候选渠道的训练数据集,但是,由于目标投放渠道的训练数据集和候选渠道的训练数据集是来源于两种不同渠道的数据,两个渠道对应的训练数据集如果直接进行比对是不具有可比性的。针对该问题,本申请实施例提供的方案,通过对候选渠道的样本进行修正,将各候选渠道的训练数据集中各样本的标签修正至目标投放渠道视角下,从而实现了候选渠道和目标投放渠道的可比性。
具体的,由前文描述可知,对于不同渠道的样本,假设一个候选渠道与目标投放渠道之间对应的数据偏移是协变量偏移,则该偏移是由该候选渠道和目标投放渠道的样本的输入部分即特征数据引起的,在这种假设下,如果将由于特征数据的不同所导致的数据差异进行消除,则该候选渠道与目标投放渠道之间应几乎不存在数据差异或者数据差异很小。基于此,本申请实施例提供的该方案,对于每个候选渠道的每个样本,基于该样本对应的特征数据即样本输入,确定将该样本作为所述目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,即该样本相对于目标投放渠道的贡献度,并基于该贡献度对该样本的标签进行修正,以实现对由于该候选渠道与目标投放渠道的特征数据的差异所引起的标签的差异的修正,使候选渠道和目标渠道的标签的分布具有可比性。
其中,对于一个样本,该样本对应的贡献度表征了在采用该样本对模型进行训练时,相对于目标渠道的样本而言该样本的重要性,也就是将该样本作为目标投放渠道的样本使用时该样本的权重,即该样本相对于目标投放渠道对训练模型所能够起到的作用的重要程度。
对于每个候选渠道的样本,确定其所对应的贡献度的具体方式本申请不做限定,只要是能够确定出在将该样本作为投放模型的训练样本时,该样本对于训练模型所起的作用相对于目标投放渠道的样本而言的重要性即可。比如,对于候选渠道的一个样本,可以基于该样本的特征数据的特征与目标投放渠道的类别特征之间的匹配程度,确定该样本对应的贡献度,其中,类别特征是指将目标投放渠道作为一个类别,能够用于表征属于这一类别的特征数据对应的特征。可以理解的是,上述该样本的特征数据的特征和类别特征是对应于同一特征空间的特征。
在确定出每个候选渠道的各样本对应的贡献度之后,则可以基于每个样本对应的贡献度对其样本标签进行修正,并根据每个候选渠道的各样本修正后的标签和目标投放渠道的各样本的标签,确定出各候选渠道与目标投放渠道之间的数据偏移,即对候选渠道的训练数据集进行修正,候选渠道与目标投放之间的数据偏移,由于此时的数据偏移已经是消除了由于渠道间的样本输入的不同所引起的样本标签的差异,因此,此时的数据偏移是可以用于衡量候选渠道的样本分布与目标投放渠道的样本分布之间的数据偏移符合分布假设的程度的,即候选渠道的训练数据集与目标投放渠道的训练数据集之间的数据偏移与协变量偏移的符合程度。之后则可以基于各候选渠道对应的数据偏移,从各候选渠道中筛选出训练数据集适用于投放模型训练的目标渠道,以基于目标渠道的训练数据集和目标投放渠道的训练数据集训练得到性能更佳的模型,提高模型的泛化能力和预测准确性。
本申请的可选实施例中,上述步骤S120中,对于各所述候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,可以包括:
基于该样本的样本输入,预测该样本对应的第一概率和第二概率,其中,第一概率为该样本所属的渠道为目标投放渠道的概率,第二概率为该样本所属的渠道是其真实所属的候选渠道的概率;
基于该样本对应的第一概率和第二概率的比值,确定为该样本对应的贡献度。
可选的,对于各候选渠道的每个样本,基于该样本的样本输入,预测该样本对应的第一概率和第二概率,包括:
基于该样本的样本输入,通过多分类模型预测该样本所属的渠道是多个渠道中各个渠道的概率,第一概率为预测得到多个概率中对应于目标投放渠道的概率,第二概率为多个概率中对应于该样本真实所属渠道的概率。
可选的,确定上述贡献度的方案可以通过神经网络模型实现,可以采用好的分类模型,该模型的可以是二分类模型,也可以是多分类模型。如果采用二分类模型,二分类模型可以有多个,一个候选渠道对应一个二分类模型,二分类模型对应的两个类别为目标投放渠道和该模型对应的候选渠道,对于每个候选渠道,可以采用该候选渠道对应的二分类模型,预测属于该渠道的每个样本对应的第一概率和第二概率。如果采用多分类模型,该模型可以是一个,该模型对应的多个类别的数量等于目标渠道和各候选渠道的数量之和,每个类别对应一个渠道,通过该模型可以预测各候选渠道中每个样本对应于目标渠道和各候选渠道中每个渠道的概率。分类模型的输入为每个样本的样本输入即特征数据,输出为该样本是目标渠道和各候选渠道中每个渠道的样本的概率,即该样本所属的渠道为每个渠道的概率。
其中,对于多分类模型或二分类模型的具体模型架构本申请实施例不做限定,可以是任意的具有预测样本属于每个渠道的样本的概率的机器学习模型,分类模型的架构可以包括但不限于逻辑回归、决策树、随机森林、梯度决策树等模型。多分类模型的训练方式本申请实施例不做限定,可选的,可以获取带有类别标签(也就是真实渠道标识)的上述多个渠道中各个渠道的对象的样本特征数据,一个样本特征数据的类别标签表征了其真实所属的渠道,可以基于这些样本特征数据作为多分类模型的训练样本对模型进行有监督的训练,得到训练好的多分类模型。
可选的,上述基于该样本对应的第一概率和第二概率的比值,确定为该样本对应的贡献度,可以是将该比值直接作为该样本对应的贡献度,也可以是对该比值进行一定的预处理后的结果作为该样本对应的贡献度。比如,可以是在确定出各候选渠道的所有样本对应的上述比值后,对这些比值进行数据简化处理,如归一化处理,将简化后的数值作为样本对应的贡献度。
对于候选渠道的一个样本而言,由于上述第一概率和第二概率分别代表了该样本隶属于目标投放渠道的概率,以及该样本隶属于其真实所属的候选渠道,因此,两者的比值可以表征将该候选渠道的该样本作为目标投放渠道的样本使用时,该样本相对于目标投放渠道的样本的权重即贡献度。在采用多分类模型预测每个样本对应于多个渠道中每个渠道的概率时,一个样本对应于各个渠道的概率之和为1,对于一个渠道而言,一个样本对应于该渠道的概率可以理解为该样本对应于该渠道的概率密度,相应的,该样本对应的贡献度则可以理解为该样本相对于目标投放渠道的密度比率。可选的,假设一个候选渠道c的样本对应的第一概率和第二概率分别为p t 和p c,则该样本相对于目标投放渠道t的样本密度比率γ t 可以表示为:γ t =p t /p c 。
本申请的可选实施例中,对于各所述候选渠道的每个样本,所述根据该贡献度对该样本的标签进行修正,包括:
将该样本对应的贡献度作为权重,对该样本对应的标签进行加权,得到修正后的标签。
在确定出各候选渠道的所有样本对应的贡献度之后,按照样本的修正后的标签与该样本对应的贡献度呈正相关的方式对该样本的标签进行修正。其中,修正的方式可以包括但不限于上述可以直接将样本对应的贡献度作为权重对其标签进行加权修正的方式。对于每个候选渠道的样本,通过修正处理,实现了将该渠道的样本的标签面向目标投放渠道的调整,以使得候选渠道和目标投放渠道之间的样本标签的可比性。
本申请的可选实施例中,上述步骤S130中,对于每个非目标投放渠道,对于每个候选渠道,根据该渠道的各样本修正后的标签、以及目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移,包括:
根据该渠道的各样本修正后的标签,确定该渠道对应的整体投放效果;
根据目标投放渠道的各样本的标签,确定目标投放渠道对应的整体投放效果;
根据该渠道对应的整体投放效果和目标投放渠道对应的整体投放效果之间的差异,确定该渠道的与目标投放渠道之间的数据偏移。
对于任一渠道而言,该渠道对应的整体投放效果表征了多媒体数据在该渠道进行投放时的真实投放效果,以多媒体数据为广告、投放效果为点击率为例,假设一个渠道对应的整体投放效果为0.6,则说明在这个渠道进行该广告投放时,该广告被点击的概率为0.6。
其中,每个渠道对应的整体投放效果,可以通过计算该渠道的所有样本的修正后的标签的均值得到,即该渠道的所有样本修正后的真实投放效果的均值代表了该渠道对应的整体投放效果。
可选的,对于每个候选渠道,上述该渠道对应的整体投放效果和目标投放渠道对应的整体投放效果之间的差异,确定该渠道与目标投放渠道之间的数据偏移,可以包括:
确定该渠道对应的整体投放效果和所述目标投放渠道对应的整体投放效果的差值;
将差值的绝对值与目标投放渠道对应的整体投放效果的比值,确定为该该渠道与目标投放渠道之间的数据偏移。
当然,对于每个候选渠道,也可以直接将该渠道对应的上述差值的绝对值作为该渠道与目标渠道之间的数据偏移。
在确定出每个候选渠道对应的上述数据偏移之后,则可以各候选渠道对应的数据偏移,从各候选渠道中筛选出一个或多个目标渠道。由于数据偏移越大,说明该偏移对应的候选渠道与目标投放渠道之间由于渠道不同所引起的数据差异越大,因此,可以按照各候选渠道所对应的数据偏移由小至大的顺序,从各候选渠道中筛选目标渠道。比如,可以直接将对应的数据偏移小于设定阈值的候选渠道作为目标渠道,或者是按照上述排序,将排序靠前的设定个数的候选渠道作为目标渠道。
为了更好的保证最终训练得到的多媒体数据投放模型的性能,本申请的可选实施例中,上述根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道,可以包括:
按照各候选渠道对应的数据偏移由小到大的顺序,依次对各候选渠道执行以下操作,直至当前候选渠道对应的模型性能评价指标不满足预设条件,并将数据偏移小于当前候选渠道对应的数据偏移的各候选渠道作为各目标渠道:
基于当前候选渠道的训练数据集对第一模型进行训练,直至满足训练结束条件,并确定当前训练后的模型的性能评价指标,若当前训练后的模型的性能评价指标满足预设条件,则将下一个候选渠道作为新的当前候选渠道;
其中,第一模型可以为以下任一项:
初始的多媒体数据投放模型;
对初始的多媒体数据投放模型进行预训练得到的预训练后的模型;
上一次上述操作对应的训练后的模型。
第一模型为预训练后的模型,或上一次操作对应的训练后的模型。
本申请的该可选方式,在进行目标渠道的筛选时,会基于候选渠道的训练数据集对应的模型的性能评价指标,来判断该候选渠道是否可以作为目标渠道,从而保证了基于该方式筛选出的各目标渠道的训练数据集对模型进行训练时,不会对模型造成不好的影响,保证了最终训练得到的模型的性能。其中,每一次上述操作所对应的训练结束条件可以相同,也可以不同。比如,训练结束条件可以是预配置的损失函数收敛,损失函数的值表征了训练模型时所采用的训练数据集中各样本的标签与通过模型预测得到的各样本对应的投放效果之间的差异,即各样本对应的真实投放效果与预测投放效果之间的差异。
可选的,在基于候选渠道的训练数据集对第一模型进行训练之前,该方法还可以包括:
对初始的多媒体数据投放模型进行预训练,得到预训练后的模型;
此时,上述第一模型可以是预训练后的模型或者是上一次上述操作对应的训练后的模型。
通过对初始的多媒体数据模型进行预训练后再执行上述操作,可以有效减少每次上述操作的耗时,提高处理效率。其中,对初始的多媒体数据投放模型进行预训练,得到预训练后的模型的具体方式,本申请实施例不做限定。可选的,可以基于目标投放渠道的训练数据集对初始的投放模型进行预训练。
其中,上述预设条件可以根据实际需求进行配置,本申请实施例不做限定,如可以是一个或多个模型评估指标的阈值,如可以包括AUC(Area Under Curve,ROC(receiveroperating characteristic curve,接收者操作特征曲线)下的面积)指标的阈值。如果候选渠道对应的性能评价指标均不小于或等于各指标对应点的阈值,则该候选渠道可以作为目标渠道。
本申请的可选实施例中,上述基于当前候选渠道的训练数据集对第一模型进行训练,包括:
基于当前候选渠道的训练数据集和第一数据集,对第一模型进行训练,其中,第一数据集包括以下至少一项:
目标投放渠道对应的训练数据集;
各第一渠道中的至少一个渠道对应的训练数据集,第一渠道是指数据偏移小于当前候选渠道对应的数据偏移的候选渠道。
在基于当前候选渠道对应的训练数据集对第一模型进行训练时,可以是仅采用该渠道的训练数据集对第一模型进行训练,也可以是采用该渠道的训练数据集和上述第一数据集的混合数据集进行训练。其中,采用混合数据集进行训练的方式时,在基于该混合数据集训练得到满足训练结束条件的模型后,由于该第一数据集是目标投放渠道的训练数据集或者是已经确定出的目标渠道的训练数据集,因此,此时确定出的训练后的模型的性能评价指标除了能够反映当前候选渠道的训练数据集对于提升模型性能的作用之外,还能够反映出如果将该当前候选渠道作为目标渠道,该渠道的训练数据集和上述第一数据集在整体上对于综合提升模型性能的作用的,由于最终确定的各目标渠道对应的训练数据集和目标投放渠道的训练数据集是作为最终的训练数据集进行对投放模型进行训练的,因此,采用该方式所确定出的性能评价指标在一定程度上是反映了最终筛选出的多个渠道的训练数据集对于提升投放模型的性能的作用的,在目标渠道的筛选过程中即可以看出各渠道的训练数据集对于模型所起到的训练作用。
作为一种可选方式,在按照各候选渠道对应的数据偏移由小到大的顺序,对候选渠道依次执行上述操作时,对于当前候选渠道,第一模型可以是上一次上述操作对应的训练后的模型,即排序位于当前候选渠道之前的候选渠道所对应的训练后的模型。对于排序后的第一个候选渠道而言,第一模型可以是采用目标投放渠道的训练数据集对初始的多媒体数据投放模型进行训练得到预训练后的模型,在对第一个候选渠道执行上述操作时,可以是基于该渠道的训练数据集和目标投放渠道的训练数据集对预训练后的模型进行训练,直至满足训练结束条件,得到第二模型,对于排序后的第二个候选渠道而言,可以是基于该渠道的训练数据集、上述第一个候选渠道的训练数据集以及目标投放渠道的训练数据集,对第二模型继续进行训练,以此类推。在采用该种可选方式时,可以将最后一个筛选出的目标渠道对应的训练后的模型作为训练好的多媒体数据投放模型,当然,也可以是在确定出各目标渠道之后,基于各目标渠道的训练数据集和目标投放渠道的训练数据集对初始的多媒体数据投放模型、预训练后的模型或者是最后一个确定的目标渠道对应的训练后的模型再次进行训练,直至满足训练结束条件,得到训练好的多媒体数据投放模型,此时训练的训练结束条件和确定目标渠道时所采用的训练结束条件可以相同,也可以不同。
其中,上述基于当前候选渠道对应的训练数据集,对于第一模型进行训练的具体训练方式,本申请实施例不做限定,可以采用任意的训练方式。
作为一可选方式,基于当前候选渠道的训练数据集和第一数据集,对第一模型进行训练,可以包括:
基于当前候选渠道的训练数据集和第一数据集对第一模型重复执行以下操作,直至模型对应的训练损失值满足训练结束条件:
将当前候选渠道的训练数据集和第一数据集中的各样本的样本输入分别输入至第一模型中,得到各样本各自对应的预测投放效果;
对于当前候选渠道的训练数据集和第一数据集中的每个样本,基于该样本的标签和该样本对应的预测投放效果,确定该样本对应的训练损失值,其中,若该样本属于非目标投放渠道的每个样本,则基于该样本对应的贡献度对该样本对应的训练损失值进行加权,将加权后的损失值作为该样本最终的训练损失值;
基于各样本的训练损失值,确定第一模型对应的训练损失值;
若训练损失值不满足训练结束条件,对第一模型的模型参数进行调整。
该可选方案中,可以采用基于密度比率加权混合的训练方式对第一模型进行训练,以缓解由于非目标投放渠道的训练数据集与目标投放渠道的训练数据集之间的数据偏移问题。具体的,由前文的描述可知,对于非目标投放渠道而言,在将该渠道的样本作为目标投放渠道的样本使用时,不同候选渠道的不同样本对应训练模型的贡献度很可能是不同的,因此,在对第一模型进行训练时,对于属于非目标投放渠道即候选渠道的各样本(包括当前候选渠道的各样本以及第一数据集中属于候选渠道的各样本),可以采用各样本对应的贡献度对其训练损失值进行加权修正,并将非目标投放渠道的各样本对应的加权后的训练损失值和目标投放渠道的各样本(第一数据集包括目标投放渠道的训练数据集时)对应的训练损失值相加得到模型对应的此次训练的训练损失值,并基于该损失值判断是否需要对模型参数进行调整后继续训练。本申请的可选实施例中,上述确定当前训练后的模型的性能评价指标,包括:
获取目标投放渠道对应的测试数据集;
采用该测试数据集对当前训练后的模型进行效果测试,得到该测试数据集中各测试样本对应的测试结果;
基于各测试样本对应的测试结果,确定当前训练后的模型的性能评价指标。
其中,测试数据集的来源本申请实施例不做限定,可选的,可以将目标投放渠道的训练数据集作为该测试数据集。
对于任一当前候选渠道,在基于该渠道对应的训练数据集对第一模型多次训练且满足训练结束条件时,为了确定该渠道所对应的模型的性能评价指标,可以采用目标投放渠道的测试数据集对此时训练得到的模型进行预测效果测试,基于测试结果,得到该渠道对应的性能评价指标。
本申请的可选实施例中,该数据筛选方法还可以包括:
采用目标投放渠道对应的训练数据集对初始的多媒体数据投放模型进行预训练,得到预训练后的模型;
确定预训练后的模型的性能评价指标,并将该指标作为参考指标;
其中,当前训练后的模型的性能评价指标满足预设条件,包括以下至少一项:
当前训练后的模型的性能评价指标不低于参考指标;
当前训练后的模型的性能评价指标与参考指标的差异小于或等于设定值。
基于该可选方式,可以基于目标投放渠道的训练数据集对初始的多媒体数据投放模型进行预先训练,直至满足一定的条件,将此时训练得到的模型作为一个参考模型,将模型对应的性能评价指标作为一个参考指标,用于评价候选渠道对应的模型的性能评价指标是否满足设定条件。采用该方式,可以使得基于筛选出的目标渠道的训练数据集和目标投放渠道的训练数据集所训练得到的投放模型的性能得到保障。可选的,上述预训练后的模型的性能评价指标也可以是将目标投放渠道的测试数据集(如训练数据集)作为测试数据集,对该模型进行测试,基于测试结果得到对应的性能评价指标。
基于本申请所提供的数据筛选方法,本申请实施例还提供了一种多媒体数据投放效果预测方法,如图2所示,该方法可以包括:
步骤S210:获取多媒体数据对应的候选投放对象的特征数据,该候选投放对象为属于多媒体数据的目标投放渠道的对象;
步骤S220:将特征数据输入至训练好的多媒体数据投放模型中,得到该候选投放对象对应于多媒体数据的预测投放效果。
其中,上述多媒体数据投放模型的训练数据集是采用本申请任一可选实施例中提供的数据筛选方法得到的。
在采用多渠道的训练数据集进行多媒体数据投放模型的训练时,采用本申请可选实施例提供的数据筛选方法,能够在多个候选渠道对应的训练数据集中筛选出更加适用于多媒体数据投放模型训练的目标渠道的训练数据集,从而能够基于筛选出的目标渠道的训练数据集和目标投放渠道的训练数据集,训练得到具有更好的泛化能力的模型,能够基于该模型更加准确的预测出候选投放对象对应于多媒体数据的投放效果。
可选的,上述候选投放对象可以是候选对象集包含的每个对象,候选对象集为包含上述多媒体数据在目标投放渠道上的多个候选投放对象的集合,该方法还可以包括:
基于候选对象集中各候选投放对象对应的预测投放效果,从候选对象集中确定出目标对象集,以将多媒体数据投放给目标对象集中的各对象。
为了更好的说明和理解本申请实施例所提供的方法及其有益效果,下面结合一个具体的应用场景实施例对本申请所适用的一种多媒体数据投放系统进行说明。本应用场景为游戏广告投放场景,即多媒体数据为游戏广告,多媒体数据投放模型为广告模型,模型训练好之后所应用在的目标投放渠道为应用A,即模型用于预测在应用A上投放游戏广告时,潜在用户的用户指标,如将该游戏广告曝光给应用A的某个用户时,该用户可能点击这个广告的概率(即点击率),或者这个用户可能会下载该游戏广告对应的游戏程序的概率、或者是用户会玩该游戏广告对应的游戏的概率等,该实施例中投放效果以点击率为例进行说明。
图3中示出了本申请实施例提供的一种广告投放系统的结构示意图,如图3中所示,该系统包括应用A的应用客户端100、应用A的服务器端即图3中所示的应用服务器200、投放服务器300和模型训练设备400。其中,模型训练设备400可以用于执行本申请实施例所提供的数据筛选方法,从多个非目标投放渠道的训练数据集中筛选出目标数据集,并基于目标数据集和目标投放渠道的训练数据集对广告模型进行训练,得到训练好的广告模型。训练好的广告模型可以部署于投放服务器300中,投放服务器300可以用于执行本申请实施例所提供的多媒体数据投放效果预测方法,基于训练好的广告模型预测应用A中的候选投放用户(即图3中所示的候选投放对象)对应于要投放的游戏广告的转化率。
下面结合图3所示的广告投放系统,对基于本申请实施例所提供的方案的一种广告投放方法的流程进行说明,如图4中所示,该方法可以包括如下步骤S100至步骤S400。
步骤S100:筛选广告模型的训练数据集。
该步骤可以由模型训练设备400执行,该步骤的目的是从多个候选渠道对筛选目标渠道,以混合目标投放渠道的训练数据集和各目标渠道的训练数据集对广告模型进行训练,得到训练好的广告模型。假设包括目标投放渠道在内的渠道数量共N个,该步骤的输入则是N个渠道的训练数据集,输出是目标投放渠道和N-1个候选渠道中的至少一个渠道。图5中示出了该步骤的一种可选实施方式的原理示意图,如图5中所示,该实施方式可以包括密度估计、渠道排序和渠道筛选3个阶段,下面结合图5和图6中所示的一种可选的目标渠道筛选方法的流程示意图,对该步骤S100进行介绍。
如图6中所示,该步骤的可选实施方式可以包括步骤S101至步骤S104。
步骤S101:获取各投放渠道对应的训练数据集;
上述N个渠道的标识可以分别记为1,2,…,N,目标投放渠道为记为目标渠道t,t∈{1,2,…,N},标识为1至N的N个渠道的训练数据集分别为图3中所示的训练数据集1、训练数据集2、…、训练数据集N。
每个训练数据集中都包含多个训练样本(即前文中的样本),对于任一渠道,从这个渠道上收集的训练数据集中的一个训练样本可以表示为D c ={(x,y) i },其中,c是渠道标识,i为用户标识(样本对象标识),(x,y) i 表示用户i的特征(即特征数据)为x i ,预测目标即标签是y i 。
对于游戏广告,用户特征通常可以包括但不限于付费、标签、年龄、性别等字段,其中,付费字段可以代表该用户在玩游戏过程中的花费情况,标签可以是表征该用户与游戏有关的一些标签,如游戏年龄、设定时长内玩游戏的平均次数等等。预测目标则由具体任务而定,例如,对于点击率或转化率估计,y的取值是0或1,0表示不会点击或不会被转化,1表示一定会点击或者被转化。
步骤S102:确定候选渠道的每个样本的样本密度比率;
该步骤对应于图5中所示的密度估计阶段,可选的,该阶段可以通过渠道多分类模块和密度比率计算模块执行,对于各候选渠道的每个样本,渠道多分类模块可以采用多分类模型预测样本隶属于N个渠道中各个渠道的概率,并由密度比率计算模块根据多渠道分类模块的预测结果,确定各候选渠道的每个样本的密度比率。
多分类模型可以表示为F:X→[0,1]N,F表示模型,X表示模型的输入,[0,1]N表示模型的输出,在本应用场景中,模型的输出包括N个取值范围在0到1之间的概率,每个概率对应一个渠道,对于任一样本的用户的特征x i ,通过该模型可以预测该用户属于N个渠道中每个渠道的用户的概率,可以记为,表示该用户是渠道k的用户的概率,也就是样本是属于渠道k的样本的概率。利用模型F,可以对各候选渠道的每个训练样本进行分类判断,得到每个样本对应的分类结果,以渠道c的样本输入x i 为例,其分类结果可以表示为:
得到各候选渠道的每个样本的上述分类结果之后,则可以由密度比率计算模块计算每个样本相对于目标渠道t的密度比率,给定一个渠道c的样本的分类结果,该样本相对于目标渠道t的密度比率γ t 可以按如下公式计算:
该公式度量了当把来自于渠道c的样本当成t渠道样本使用时的权重。一个特例是,如果目标渠道t和来源渠道c所属同一个渠道,此时γ t =1计算结果与实际情况相符。
作为一个示例,假设有5个渠道,来自第4个渠道的用户u的特征(即样本输入)基于多分类模型F的预测分类结果是(0.1,0.1,0.1,0.4,0.3),意味着该用户来自第1到第5个渠道上的概率分别是0.1、0.1、0.1、0.4、0.3。如果目标投放渠道是第1个渠道,那么这个用户对应的样本密度比率为0.1/0.4=0.25,而如果目标投放渠道是第4个渠道,那么样本密度比率为0.4/0.4=1。
步骤S103:渠道排序,该步骤用于对各候选渠道的样本进行修正,并基于修正后的样本确定各候选渠道相对于目标投放渠道的数据偏移;
该步骤对应于图5中所示的渠道排序模块,可以由指标修改模块和误差排序模块执行,具体的,指标修改模块用于根据步骤S102计算得到的样本密度比率,计算得到一个修正的指标。具体地,给定目标渠道t、任一候选渠道c、以及候选渠道c上所有的用户的数据{(y,γ t )}其中,y表示样本的标签,与具体任务有关,可以是用户的点击与否或转化与否,那么渠道c修正后的指标(可以简称为修正指标,也就是渠道c的整体投放效果)可以表示为:
其中,本质上是预测目标的加权的均值。以投放效果为用户点击率预测为例,该修正指标是所有样本加权的用户点击率。本申请实施例提供的该修正方式,是采用样本密度比率对样本标签进行加权修正的方式候选渠道的投放效果(也就是预测目标、标签)面向目标渠道的调整,该修正方式可以称为密度比率加权指标修正。如果渠道t和渠道c满足协变量偏移的假设,那么应该与相同,其中,是目标渠道t上的预测目标的平均值(如点击率或转化率),也就是目标投放渠道对应的整体投放效果,可以是目标投放渠道的所有样本的标签(即真实投放效果)的均值。
作为一个示例,以广告的投放效果是点击率为例,渠道c上有3个用户,点击情况y分别是0、1、1,样本密度比率分别是0.5、2、0.3,那么渠道c的修正指标。若目标渠道t的平均点击率,那么渠道c相对于渠道t的误差是。
在得到N-1个候选渠道相对于目标渠道t的误差之后,误差排序模块可以按误差从小到大排列,得到渠道的筛选顺序。
步骤S104:渠道筛选,即从各候选渠道中确定目标渠道;
该步骤对应于图5中所示的渠道筛选阶段,可以由贪心筛选模块,该模块可以基于各候选渠道与目标渠道t的误差,从各候选渠道中筛选出目标渠道。具体的,贪心筛选模块可以基于各候选渠道的排序结果,贪心地去验证渠道数据的有效性,从而实现高效的渠道筛选。该步骤的输入是各个候选渠道的数据和基于误差排序的渠道顺序,对应N-1个候选渠道中排序处于第k个的渠道,模型可接受最低效果E(即模型的性能评价指标需要满足的预设条件,如指标阈值),输出是有效渠道集合,即前X个渠道。
本申请提供的一种可选的渠道数据筛选策略的实施步骤如下:
上述可接受最低效果E可以根据实际应用需求配置和调整。
其中,在利用训练模型M时,具体的训练方式本申请实施例不做限定,可以用任意训练方式训练模型,如可以用直接混合中各渠道的训练样本的方式训练模型,也可以是采样基于样本密度比率加权混合的方式进行模型训练,即对于候选渠道的训练样本,其对应的训练损失值需要乘以该样本对应的样本密度比率。
步骤S200:采用多渠道数据训练广告模型。
该步骤可以由模型训练设备400基于步骤S100确定出的集合中各渠道的训练数据集和目标投放渠道的训练数据集对广告模型进行训练,得到训练好的广告模型。该步骤的训练方式本申请实施例也不做限定,如可以采用密度比率加权混合的方式进行训练。
需要说明的是,在实际应用中,上述步骤S100和步骤S200可以由同一电子设备执行,也可以由不同的电子设备执行。
步骤S300:基于训练好的广告模型进行广告投放效果预测。
在得到训练好的广告模型之后,可以将该广告模型部署于投放服务器300上,由投放服务器300基于获取的应用A上的候选投放用户的特征数据,预测用户对应的投放效果,如点击率。通过该步骤,可以从应用A的候选投放用户集中筛选出目标投放用户(即图3中的目标投放对象),如将预测的点击率或转化率高于设定值的候选投放用户确定为目标投放用户,通过应用服务器200将游戏广告提供该这些目标投放用户的用户终端,以通过这些用户的应用客户端100将游戏广告曝光给这些用户。
当前,训练好的广告模型也可以是部署于目标应用服务器200上,由该服务器基于广告模型进行广告的投放效果的预测。
步骤S400:更新模型。
投放服务器300可以通过与应用服务器200通信,收集应用A上一定时长内各用户的特征数据和真实的广告投放效果(图3中所示的实际投放相关数据),并将这些提供给模型训练设备400,该设备可以将这些数据作为训练数据对广告模型进行再训练,实现模型的更新,并以再训练后的模型对投放服务器300上的模型进行更新,提升模型的性能。
基于本申请实施例提供的方案,能够有效提高广告模型的预测准确性。为了证明本申请所提供的方案的效果,对基于本申请实施例所提供的数据筛选方法的效果进行了实验,该实验采用了某广告投放场景中累计一周的数据作为训练集,包含14种渠道的数据,目标渠道是其中一种,预测任务(即投放效果)是用户转化率的估计。
首先基于密度比率加权指标的方法,获得渠道的排序,并先利用目标投放渠道的数据训练模型,得到预训练后的模型,将该模型的性能作为一个可以参考的模型性能,发现其AUC是0.8447。然后按渠道顺序依次基于各候选渠道的数据训练模型,并测试性能,发现排序前3的3个渠道(排除目标渠道)的AUC分别是0.8694、0.8532、0.8398,第3个渠道已经明显低于参考性能指标0.8447,因此筛选停止,只选择前两个渠道,即目标渠道为这两个渠道。
上述筛选流程中,单个模型的训练与验证平均耗时是0.5小时,总耗时为2小时,而如果采用暴力搜索的方法,耗时为0.5×(214-1)≈340天,采用本申请实施例提供的方法,极大地减少了渠道筛选的耗时,耗时缩短为了原来的万分之二。
基于与本申请所提供的数据筛选方法相同的原理,本申请还提供了一种数据筛选装置,如图7所示,该数据筛选装置110可以包括数据集获取模块111、数据集修正模块112、数据偏移确定模块113和渠道筛选模块114,其中:
数据集获取模块111,用于获取多个渠道各自对应的训练数据集,多个渠道包括多媒体数据的目标投放渠道和至少一个候选渠道,训练数据集中的每个样本包括样本输入和标签,样本输入为样本对象的特征数据,标签表征了样本对象对应于多媒体数据的真实投放效果,候选渠道为非目标投放渠道;
数据集修正模块112,用于对于各候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,并根据该贡献度对该样本的标签进行修正;
数据偏移确定模块113,用于对于每个候选渠道,根据该渠道的各样本修正后的标签、以及目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移;
渠道筛选模块114,用于根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道,将目标投放渠道的训练数据集和各目标渠道的训练数据集作为模型的训练数据集。
可选的,对于各候选渠道的每个样本,数据集修正模块112在确定该样本对于训练多媒体数据投放模型的贡献度时可以用于:
基于该样本的样本输入,预测该样本对应的第一概率和第二概率,其中,第一概率为该样本所属的渠道为目标投放渠道的概率,第二概率为该样本所属的渠道是其真实所属的候选渠道的概率;
基于该样本对应的第一概率和第二概率的比值,确定为该样本对应的贡献度。
可选的,对于各候选渠道的每个样本,数据集修正模块112可以用于:
基于该样本的样本输入,通过多分类模型预测该样本所属的渠道是多个渠道中各个渠道的概率,第一概率为预测得到多个概率中对应于目标投放渠道的概率,第二概率为多个概率中对应于该样本真实所属渠道的概率。
可选的,对于各候选渠道的每个样本,数据集修正模块112在根据该样本的贡献度对该样本的标签进行修正时用于:
将该样本对应的贡献度作为权重,对该样本对应的标签进行加权,得到修正后的标签。
可选的,对于每个候选渠道,数据偏移确定模块113在确定该渠道与目标投放渠道之间的数据偏移时用于:
根据该渠道的各样本修正后的标签,确定该渠道对应的整体投放效果;
根据目标投放渠道的各样本的标签,确定目标投放渠道对应的整体投放效果;
根据该渠道对应的整体投放效果和目标投放渠道对应的整体投放效果之间的差异,确定该渠道与目标投放渠道之间的数据偏移。
可选的,渠道筛选模块114在根据各候选渠道对应的数据偏移,从至少一个候选渠道中确定出至少一个目标渠道时用于:
按照各候选渠道对应的数据偏移由小到大的顺序,依次对各候选渠道执行以下操作,直至当前候选渠道对应的模型性能评价指标不满足预设条件,并将数据偏移小于当前候选渠道对应的数据偏移的各候选渠道作为各目标渠道:
基于当前候选渠道的训练数据集对第一模型进行训练,直至满足训练结束条件,并确定当前训练后的模型的性能评价指标,若当前训练后的模型的性能评价指标满足预设条件,则将下一个候选渠道作为新的当前候选渠道;
其中,第一模型为以下任一项:
初始的多媒体数据投放模型;对初始的多媒体数据投放模型进行预训练得到的预训练后的模型;上一次操作对应的训练后的模型。
可选的,渠道筛选模块114在基于当前候选渠道的训练数据集对第一模型进行训练时用于:
基于当前候选渠道的训练数据集和第一数据集,对第一模型进行训练,其中,第一数据集包括以下至少一项:
目标投放渠道对应的训练数据集;
各第一渠道中的至少一个渠道对应的训练数据集,第一渠道是指数据偏移小于当前候选渠道对应的数据偏移的候选渠道。
可选的,渠道筛选模块114在基于当前候选渠道的训练数据集和第一数据集,对第一模型进行训练时可以用于:
基于当前候选渠道的训练数据集和第一数据集对第一模型重复执行以下操作,直至模型对应的训练损失值满足训练结束条件:
将当前候选渠道的训练数据集和第一数据集中的各样本的样本输入分别输入至第一模型中,得到各样本各自对应的预测投放效果;
对于当前候选渠道的训练数据集和第一数据集中的每个样本,基于该样本的标签和该样本对应的预测投放效果,确定该样本对应的训练损失值,其中,若该样本属于非目标投放渠道的每个样本,则基于该样本对应的贡献度对该样本对应的训练损失值进行加权,将加权后的损失值作为该样本最终的训练损失值;
基于各样本的训练损失值,确定第一模型对应的训练损失值;
若训练损失值不满足训练结束条件,对第一模型的模型参数进行调整。
可选的,渠道筛选模块114在确定当前训练后的模型的性能评价指标时用于:
获取目标投放渠道对应的测试数据集,采用测试数据集对当前训练后的模型进行效果测试,得到测试数据集中各测试样本对应的测试结果;
基于各测试样本对应的测试结果,确定当前训练后的模型的性能评价指标。
可选的,渠道筛选模块114还可以用于:
采用目标投放渠道对应的训练数据集对初始的多媒体数据投放模型进行预训练,得到预训练后的模型;
确定预训练后的模型的性能评价指标,并将该指标作为参考指标;
其中,当前训练后的模型的性能评价指标满足预设条件,包括以下至少一项:
当前训练后的模型的性能评价指标不低于参考指标;
当前训练后的模型的性能评价指标与参考指标的差异小于或等于设定值。
基于与本申请所提供的多媒体数据投放效果预测相同的原理,本申请还提供了一种多媒体数据投放效果预测装置,如图8所示,该投放效果预测装置210可以包括对象数据获取模块211和投放效果预测模块212,其中:
对象数据获取模块211,用于获取候选投放对象的特征数据,候选投放对象为属于多媒体数据的目标投放渠道的对象;
投放效果预测模块212,用于将特征数据输入至训练好的多媒体数据投放模型中,得到候选投放对象对应于多媒体数据的预测投放效果;其中,该模型的训练数据集是采用本申请任一可选实施例中提供的数据筛选方法得到的。
基于本申请实施例所提供的方法,本申请实施例还提供了一种电子设备,该电子设备包括存储器和处理器,其中,存储器中存储有计算机程序,所述处理器在运行所述计算机程序时用于执行本申请任一可选实施例中提供的数据筛选方法或者多媒体数据投放效果预测方法。
作为一个可选实施例,图9示出了本申请实施例提供的一种电子设备的结构示意图,如图9所示,该电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(FieldProgrammable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscReadOnly Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现本申请前述方法实施例所示的内容。
本申请实施例还提供了一种计算机可读存储介质,该存储介质中存储有计算机程序,该计算机程序在处理器中运行时,所述处理器用于用于执行本申请任一可选实施例中提供的数据筛选方法或者多媒体数据投放效果预测方法。
基于与本申请实施例提供的方法相同的原理,本申请实施例还提供了一种本计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述本申请任一可选实施例中提供的数据处理方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (13)
1.一种数据筛选方法,其特征在于,包括:
获取多个渠道各自对应的训练数据集,所述多个渠道包括多媒体数据的目标投放渠道和至少一个候选渠道,所述训练数据集中的每个样本包括样本输入和标签,所述样本输入为样本对象的特征数据,所述标签表征了样本对象对应于多媒体数据的真实投放效果,所述候选渠道为非目标投放渠道;
对于各所述候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为所述目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,并根据该贡献度对该样本的标签进行修正;
对于每个所述候选渠道,根据该渠道的各样本修正后的标签、以及所述目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移;
根据各所述候选渠道对应的数据偏移,从所述至少一个候选渠道中确定出至少一个目标渠道,将所述目标投放渠道的训练数据集和各所述目标渠道的训练数据集作为所述模型的训练数据集。
2.根据权利要求1所述的方法,其特征在于,对于各所述候选渠道的每个样本,所述基于该样本的样本输入,确定将该样本作为所述目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,包括:
基于该样本的样本输入,预测该样本对应的第一概率和第二概率,其中,所述第一概率为该样本所属的渠道为所述目标投放渠道的概率,所述第二概率为该样本所属的渠道是其真实所属的候选渠道的概率;
基于该样本对应的第一概率和第二概率的比值,确定为该样本对应的贡献度。
3.根据权利要求2所述的方法,其特征在于,所述基于该样本的样本输入,预测该样本对应的第一概率和第二概率,包括:
基于该样本的样本输入,通过多分类模型预测该样本所属的渠道是所述多个渠道中各个渠道的概率,所述第一概率为预测得到多个概率中对应于所述目标投放渠道的概率,所述第二概率为所述多个概率中对应于该样本真实所属渠道的概率。
4.根据权利要求2所述的方法,其特征在于,对于各所述候选渠道的每个样本,所述根据该贡献度对该样本的标签进行修正,包括:
将该样本对应的贡献度作为权重,对该样本对应的标签进行加权,得到修正后的标签。
5.根据权利要求1所述的方法,其特征在于,对于每个所述候选渠道,所述根据该渠道的各样本修正后的标签、以及所述目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移,包括:
根据该渠道的各样本修正后的标签,确定该渠道对应的整体投放效果;
根据所述目标投放渠道的各样本的标签,确定所述目标投放渠道对应的整体投放效果;
根据该渠道对应的整体投放效果和所述目标投放渠道对应的整体投放效果之间的差异,确定该渠道与目标投放渠道之间的数据偏移。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述根据各所述候选渠道对应的数据偏移,从所述至少一个候选渠道中确定出至少一个目标渠道,包括:
按照各所述候选渠道对应的数据偏移由小到大的顺序,依次对各所述候选渠道执行以下操作,直至当前候选渠道对应的模型性能评价指标不满足预设条件,并将数据偏移小于当前候选渠道对应的数据偏移的各候选渠道作为各目标渠道:
基于当前候选渠道的训练数据集对第一模型进行训练,直至满足训练结束条件,并确定当前训练后的模型的性能评价指标,若当前训练后的模型的性能评价指标满足预设条件,则将下一个候选渠道作为新的当前候选渠道;
其中,所述第一模型为以下任一项:
初始的多媒体数据投放模型;
对初始的多媒体数据投放模型进行预训练得到的预训练后的模型;
上一次所述操作对应的训练后的模型。
7.根据权利要求6所述的方法,其特征在于,所述基于当前候选渠道的训练数据集对第一模型进行训练,包括:
基于所述当前候选渠道的训练数据集和第一数据集,对所述第一模型进行训练,其中,所述第一数据集包括以下至少一项:
所述目标投放渠道对应的训练数据集;
各第一渠道中的至少一个渠道对应的训练数据集,所述第一渠道是指数据偏移小于所述当前候选渠道对应的数据偏移的候选渠道。
8.根据权利要求7所述的方法,其特征在于,所述基于所述当前候选渠道的训练数据集和第一数据集,对所述第一模型进行训练,包括:
基于所述当前候选渠道的训练数据集和第一数据集对所述第一模型重复执行以下操作,直至模型对应的训练损失值满足训练结束条件:
将所述当前候选渠道的训练数据集和所述第一数据集中的各样本的样本输入分别输入至所述第一模型中,得到各样本各自对应的预测投放效果;
对于所述当前候选渠道的训练数据集和所述第一数据集中的每个样本,基于该样本的标签和该样本对应的预测投放效果,确定该样本对应的训练损失值,其中,若该样本属于非目标投放渠道的每个样本,则基于该样本对应的贡献度对该样本对应的训练损失值进行加权,将加权后的损失值作为该样本最终的训练损失值;
基于各所述样本的训练损失值,确定所述第一模型对应的训练损失值;
若所述训练损失值不满足训练结束条件,对所述第一模型的模型参数进行调整。
9.一种多媒体数据投放效果预测方法,其特征在于,包括:
获取多媒体数据的候选投放对象的特征数据,所述候选投放对象为属于所述多媒体数据的目标投放渠道的对象;
将所述特征数据输入至训练好的多媒体数据投放模型中,得到所述候选投放对象对应于所述多媒体数据的预测投放效果;
其中,所述模型的训练数据集是采用权利要求1至8中任一项所述的方法得到的。
10.一种数据筛选装置,其特征在于,包括:
数据集获取模块,用于获取多个渠道各自对应的训练数据集,所述多个渠道包括多媒体数据的目标投放渠道和至少一个候选渠道,所述训练数据集中的每个样本包括样本输入和标签,所述样本输入为样本对象的特征数据,所述标签表征了样本对象对应于多媒体数据的真实投放效果,所述候选渠道为非目标投放渠道;
数据集修正模块,用于对于各所述候选渠道的每个样本,基于该样本的样本输入,确定将该样本作为所述目标投放渠道的样本时,该样本对于训练多媒体数据投放模型的贡献度,并根据该贡献度对该样本的标签进行修正;
数据偏移确定模块,用于对于每个所述候选渠道,根据该渠道的各样本修正后的标签、以及所述目标投放渠道的各样本的标签,确定该渠道与目标投放渠道之间的数据偏移;
渠道筛选模块,用于根据各所述候选渠道对应的数据偏移,从所述至少一个候选渠道中确定出至少一个目标渠道,将所述目标投放渠道的训练数据集和各所述目标渠道的训练数据集作为所述模型的训练数据集。
11.一种多媒体数据投放效果预测装置,其特征在于,包括:
对象数据获取模块,用于获取多媒体数据的候选投放对象的特征数据,所述候选投放对象为属于多媒体数据的目标投放渠道的对象;
投放效果预测模块,用于将所述特征数据输入至训练好的多媒体数据投放模型中,得到所述候选投放对象对应于所述多媒体数据的预测投放效果;其中,所述模型的训练数据集是采用权利要求1至8中任一项所述的方法得到的。
12.一种电子设备,其特征在于,包括存储器和处理器,其中,所述存储器中存储有计算机程序,所述处理器在运行所述计算机程序时用于执行权利要求1至8中任一项所述的方法,或者执行权利要求9中所述的方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,所述计算机程序在处理器中运行时,所述处理器用于执行权利要求1至8中任一项所述的方法,或者执行权利要求9中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587755.6A CN113256335B (zh) | 2021-05-27 | 2021-05-27 | 数据筛选方法、多媒体数据的投放效果预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110587755.6A CN113256335B (zh) | 2021-05-27 | 2021-05-27 | 数据筛选方法、多媒体数据的投放效果预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113256335A true CN113256335A (zh) | 2021-08-13 |
CN113256335B CN113256335B (zh) | 2021-10-12 |
Family
ID=77184885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110587755.6A Active CN113256335B (zh) | 2021-05-27 | 2021-05-27 | 数据筛选方法、多媒体数据的投放效果预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113256335B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113986535A (zh) * | 2021-10-19 | 2022-01-28 | 北京三快在线科技有限公司 | 算力资源的调节方法、装置、存储介质和电子设备 |
CN115796959A (zh) * | 2022-12-02 | 2023-03-14 | 嘉兴凌巨网络科技有限公司 | 基于数据采集和分析的广告投放效果检测方法 |
CN115907868A (zh) * | 2022-12-21 | 2023-04-04 | 中山市征途文化传播有限公司 | 一种广告投放分析方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106227724A (zh) * | 2016-03-08 | 2016-12-14 | 上海晶赞科技发展有限公司 | 一种同构数据集特征质量可视化方法 |
CN109345302A (zh) * | 2018-09-27 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN110189152A (zh) * | 2018-02-23 | 2019-08-30 | 北京国双科技有限公司 | 渠道的归因方法和装置 |
US10402853B1 (en) * | 2012-11-19 | 2019-09-03 | Integral Ad Science, Inc. | Methods, systems, and media for managing online advertising campaigns based on causal conversion metrics |
CN110570093A (zh) * | 2019-08-13 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种业务拓展渠道自动管理的方法和装置 |
CN110619548A (zh) * | 2019-09-20 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 媒体内容投放策略的确定方法、装置、设备及存储介质 |
CN111681112A (zh) * | 2020-04-28 | 2020-09-18 | 上海淇馥信息技术有限公司 | 一种管理投放策略的方法、装置和电子设备 |
CN112270569A (zh) * | 2020-11-02 | 2021-01-26 | 创新奇智(成都)科技有限公司 | 广告投放方法及装置、电子设备、存储介质 |
CN112465573A (zh) * | 2021-02-03 | 2021-03-09 | 北京淇瑀信息科技有限公司 | 一种多渠道智能广告投放方法、装置和电子设备 |
CN112667907A (zh) * | 2021-01-04 | 2021-04-16 | 深圳市华通易点信息技术有限公司 | 一种多平台信息投放和数据统计系统及方法 |
-
2021
- 2021-05-27 CN CN202110587755.6A patent/CN113256335B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10402853B1 (en) * | 2012-11-19 | 2019-09-03 | Integral Ad Science, Inc. | Methods, systems, and media for managing online advertising campaigns based on causal conversion metrics |
CN106227724A (zh) * | 2016-03-08 | 2016-12-14 | 上海晶赞科技发展有限公司 | 一种同构数据集特征质量可视化方法 |
CN110189152A (zh) * | 2018-02-23 | 2019-08-30 | 北京国双科技有限公司 | 渠道的归因方法和装置 |
CN109345302A (zh) * | 2018-09-27 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN110570093A (zh) * | 2019-08-13 | 2019-12-13 | 阿里巴巴集团控股有限公司 | 一种业务拓展渠道自动管理的方法和装置 |
CN110619548A (zh) * | 2019-09-20 | 2019-12-27 | 腾讯科技(深圳)有限公司 | 媒体内容投放策略的确定方法、装置、设备及存储介质 |
CN111681112A (zh) * | 2020-04-28 | 2020-09-18 | 上海淇馥信息技术有限公司 | 一种管理投放策略的方法、装置和电子设备 |
CN112270569A (zh) * | 2020-11-02 | 2021-01-26 | 创新奇智(成都)科技有限公司 | 广告投放方法及装置、电子设备、存储介质 |
CN112667907A (zh) * | 2021-01-04 | 2021-04-16 | 深圳市华通易点信息技术有限公司 | 一种多平台信息投放和数据统计系统及方法 |
CN112465573A (zh) * | 2021-02-03 | 2021-03-09 | 北京淇瑀信息科技有限公司 | 一种多渠道智能广告投放方法、装置和电子设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113986535A (zh) * | 2021-10-19 | 2022-01-28 | 北京三快在线科技有限公司 | 算力资源的调节方法、装置、存储介质和电子设备 |
CN115796959A (zh) * | 2022-12-02 | 2023-03-14 | 嘉兴凌巨网络科技有限公司 | 基于数据采集和分析的广告投放效果检测方法 |
CN115907868A (zh) * | 2022-12-21 | 2023-04-04 | 中山市征途文化传播有限公司 | 一种广告投放分析方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113256335B (zh) | 2021-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113256335B (zh) | 数据筛选方法、多媒体数据的投放效果预测方法及装置 | |
CN110147551B (zh) | 多类别实体识别模型训练、实体识别方法、服务器及终端 | |
CN109345302A (zh) | 机器学习模型训练方法、装置、存储介质和计算机设备 | |
CN112380449B (zh) | 信息推荐方法、模型训练方法及相关装置 | |
CN114418035A (zh) | 决策树模型生成方法、基于决策树模型的数据推荐方法 | |
CN110825969A (zh) | 数据处理方法、装置、终端和存储介质 | |
CN111783873A (zh) | 基于增量朴素贝叶斯模型的用户画像方法及装置 | |
CN113128478A (zh) | 模型训练方法、行人分析方法、装置、设备及存储介质 | |
CN113159213A (zh) | 一种业务分配方法、装置及设备 | |
CN111444930B (zh) | 一种确定二分类模型的预测效果的方法及装置 | |
Chen et al. | Efficient online ml api selection for multi-label classification tasks | |
CN114090401B (zh) | 处理用户行为序列的方法及装置 | |
CN114693993A (zh) | 一种图像处理和图像分类方法、装置、设备及存储介质 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN113850669A (zh) | 用户分群方法、装置、计算机设备及计算机可读存储介质 | |
CN111191059B (zh) | 图像处理方法、装置、计算机存储介质及电子设备 | |
CN115131052A (zh) | 一种数据处理方法、计算机设备和存储介质 | |
CN111325578A (zh) | 预测模型的样本确定方法及装置、介质和设备 | |
CN114092162B (zh) | 推荐质量确定方法、推荐质量确定模型的训练方法及装置 | |
CN110717037A (zh) | 对用户分类的方法和装置 | |
CN115878891A (zh) | 直播内容生成方法、装置、设备以及计算机存储介质 | |
CN115577797A (zh) | 一种基于本地噪声感知的联邦学习优化方法及系统 | |
CN114463590A (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
CN115700550A (zh) | 标签分类模型训练和对象筛选方法、设备及存储介质 | |
CN109308565B (zh) | 人群绩效等级识别方法、装置、存储介质及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40050649 Country of ref document: HK |