CN116975319A - 数据处理方法、装置、设备、可读存储介质及程序产品 - Google Patents

数据处理方法、装置、设备、可读存储介质及程序产品 Download PDF

Info

Publication number
CN116975319A
CN116975319A CN202210390031.7A CN202210390031A CN116975319A CN 116975319 A CN116975319 A CN 116975319A CN 202210390031 A CN202210390031 A CN 202210390031A CN 116975319 A CN116975319 A CN 116975319A
Authority
CN
China
Prior art keywords
vector
data
media
association
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210390031.7A
Other languages
English (en)
Inventor
赵振岐
周永超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210390031.7A priority Critical patent/CN116975319A/zh
Publication of CN116975319A publication Critical patent/CN116975319A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • G06F16/437Administration of user profiles, e.g. generation, initialisation, adaptation, distribution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备、可读存储介质及程序产品,涉及多媒体领域的深度神经网络学习技术,该方法包括:获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;对初始对象向量与初始媒体向量进行m次关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。采用本申请,可以更加精准的确定对象数据与媒体数据之间的数据关系,提高对预测媒体数据的准确性。

Description

数据处理方法、装置、设备、可读存储介质及程序产品
技术领域
本申请涉及多媒体技术领域,尤其涉及一种数据处理方法、装置、设备、可读存储介质及程序产品。
背景技术
随着数字化时代的来临,越来越多的场合会应用到媒体数据预测技术,人们对于媒体数据预测的准确性有着越来越高的要求。媒体数据与对象数据之间的关系预测一般基于模型中的向量映射点积的阈值进行实现,也就是,依靠阈值过滤实现对媒体数据的预测与召回,过滤条件是向量映射点积。而向量映射点积是对媒体数据与对象数据转换的预估结果,再加上模型本身预测可能带来的误差,导致预测与召回的准确性较低。
发明内容
本申请实施例提供一种数据处理方法、装置、设备、可读存储介质及程序产品,可以更加精准的确定对象数据与媒体数据之间的数据关系,提高对预测媒体数据的准确性。
本申请实施例一方面提供了一种数据处理方法,包括:
获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;
将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;
根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
进一步地,采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数,包括:
对n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;
根据n个第一向量随机参数,分别对初始对象向量进行向量转换,得到n个对象转换向量;
对n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数;
根据n个第二向量随机参数,分别对初始媒体向量进行向量转换,得到n个媒体转换向量。
进一步地,采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数,包括:
将初始对象向量输入第i个对象向量转换子网络;第i个对象向量转换子网络包括m个对象卷积层;i为小于或等于n的正整数,m为正整数;
在第i个对象向量转换子网络中,对第i个对象向量转换子网络所包括的m个对象卷积层分别进行神经元丢弃处理,得到m个对象卷积层分别包括的有效对象神经元;
采用第i个对象向量转换子网络中的第一向量转换参数及有效对象神经元,对初始对象向量进行卷积处理,得到初始对象向量在第i个对象向量转换子网络中所对应的对象转换向量,直至得到n个对象向量转换子网络分别对应的对象转换向量;
将初始媒体向量输入第i个媒体向量转换子网络;第i个媒体向量转换子网络包括m个媒体卷积层;
在第i个媒体向量转换子网络中,对第i个媒体向量转换子网络所包括的m个媒体卷积层分别进行神经元丢弃处理,得到m个媒体卷积层分别包括的有效媒体神经元;
采用第i个媒体向量转换子网络中的第二向量转换参数及有效媒体神经元,对媒体对象向量进行卷积处理,得到初始媒体向量在第i个媒体向量转换子网络中所对应的媒体转换向量,直至得到n个媒体向量转换子网络分别对应的媒体转换向量。
进一步地,根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,包括:
根据m个预测关联度的均值,确定对象数据与媒体数据之间的目标关联度;
根据m个预测关联度的偏离程度,确定对象数据与媒体数据之间的关联置信度。
进一步地,根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,包括:
根据m个预测关联度生成分布函数,获取分布函数的均值及方差;
将分布函数的均值确定为对象数据与媒体数据之间的目标关联度,根据分布函数的方差确定对象数据与媒体数据之间的关联置信度。
进一步地,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,包括:
若目标关联度大于或等于关联度阈值,且关联置信度大于或等于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据关联关系;
若目标关联度小于关联度阈值,或关联置信度小于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据独立关系。
本申请实施例一方面提供了另一种数据处理方法,包括:
获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;
根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
本申请实施例一方面提供了又一种数据处理方法,包括:
获取样本对象数据,获取样本媒体数据,获取样本对象数据的初始样本对象向量,获取样本媒体数据的初始样本媒体向量,获取样本标签;
在初始关联预测模型中,采用初始关联预测模型中的n个第一初始向量转换参数分别对初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用初始关联预测模型中的n个初始第二向量转换参数分别对初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数;
将n个样本对象转换向量与n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个样本向量对分别对应的样本预测关联度,m为正整数;
根据m个样本预测关联度,确定样本对象数据与样本媒体数据之间的样本目标关联度,以及样本对象数据与样本媒体数据之间的样本关联置信度;
根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,生成损失函数;
根据损失函数,对初始关联预测模型进行参数调整,得到关联预测模型;关联预测模型包括n个第一向量转换参数及n个第二向量转换参数,n个第一向量转换参数是对n个第一初始向量转换参数进行参数调整得到的,n个第二向量转换参数是对n个第二初始向量转换参数进行参数调整得到的。
本申请实施例一方面提供了一种数据处理装置,包括:
第一向量获取模块,用于获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
向量转换模块,用于采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;
向量组合模块,用于将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;
第一关联度确定模块,用于根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
第一关系确定模块,用于基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
其中,向量转换模块包括:
第一参数丢弃单元,用于对n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;
第一向量转换单元,用于根据n个第一向量随机参数,分别对初始对象向量进行向量转换,得到n个对象转换向量;
第二参数丢弃单元,用于对n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数;
第二向量转换单元,用于根据n个第二向量随机参数,分别对初始媒体向量进行向量转换,得到n个媒体转换向量。
其中,向量转换模块还包括:
对象向量输入单元,用于将初始对象向量输入第i个对象向量转换子网络;第i个对象向量转换子网络包括m个对象卷积层;i为小于或等于n的正整数,m为正整数;
对象丢弃单元,用于在第i个对象向量转换子网络中,对第i个对象向量转换子网络所包括的m个对象卷积层分别进行神经元丢弃处理,得到m个对象卷积层分别包括的有效对象神经元;
对象卷积单元,用于采用第i个对象向量转换子网络中的第一向量转换参数及有效对象神经元,对初始对象向量进行卷积处理,得到初始对象向量在第i个对象向量转换子网络中所对应的对象转换向量,直至得到n个对象向量转换子网络分别对应的对象转换向量;
媒体向量输入单元,用于将初始媒体向量输入第i个媒体向量转换子网络;第i个媒体向量转换子网络包括m个媒体卷积层;
媒体丢弃单元,用于在第i个媒体向量转换子网络中,对第i个媒体向量转换子网络所包括的m个媒体卷积层分别进行神经元丢弃处理,得到m个媒体卷积层分别包括的有效媒体神经元;
媒体卷积单元,用于采用第i个媒体向量转换子网络中的第二向量转换参数及有效媒体神经元,对媒体对象向量进行卷积处理,得到初始媒体向量在第i个媒体向量转换子网络中所对应的媒体转换向量,直至得到n个媒体向量转换子网络分别对应的媒体转换向量。
其中,第一关联度确定模块,包括:
关联度确定单元,用于根据m个预测关联度的均值,确定对象数据与媒体数据之间的目标关联度;
第一置信度确定单元,用于根据m个预测关联度的偏离程度,确定对象数据与媒体数据之间的关联置信度。
其中,第一关联度确定模块,还包括:
函数获取单元,用于根据m个预测关联度生成分布函数,获取分布函数的均值及方差;
第二置信度确定单元,用于将分布函数的均值确定为对象数据与媒体数据之间的目标关联度,根据分布函数的方差确定对象数据与媒体数据之间的关联置信度。
其中,第一关系确定模块,包括:
关联关系确定单元,用于若目标关联度大于或等于关联度阈值,且关联置信度大于或等于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据关联关系;
独立关系确定单元,用于若目标关联度小于关联度阈值,或关联置信度小于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据独立关系。
本申请实施例一方面提供了一种数据处理装置,包括:
第二向量获取模块,用于获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
关联预测模块,用于采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;
第二关联度确定模块,用于根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
第二关系确定模块,用于基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
本申请实施例一方面提供了一种数据处理装置,包括:
样本获取模块,用于获取样本对象数据,获取样本媒体数据,获取样本对象数据的初始样本对象向量,获取样本媒体数据的初始样本媒体向量,获取样本标签;
样本转换模块,用于采用n个初始第一向量转换参数分别对初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用n个初始第二向量转换参数分别对初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数;
样本组合模块,用于将n个样本对象转换向量与n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个样本向量对分别对应的样本预测关联度,m为正整数;
样本关联度确定模块,用于根据m个样本预测关联度,确定样本对象数据与样本媒体数据之间的样本目标关联度,以及样本对象数据与样本媒体数据之间的样本关联置信度;
损失函数获取模块,用于根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,得到针对初始第一向量转换参数与初始第二向量转换参数的损失函数;
模型获取模块,用于根据损失函数,对初始第一向量转换参数与初始第二向量转换参数进行参数调整,得到向量转换模型;向量转换模型模型包括n个第一向量转换参数及n个第二向量转换参数。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
本申请实施例中,获取对象数据与媒体数据,获取对象数据的初始对象向量与媒体数据的初始媒体向量;通过向量转换,得到n个对象转换向量与n个媒体转换向量,n为正整数,将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。本申请实施例引入了对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,通过目标关联度可以得到预测结果,根据关联置信度对预测结果进行评估,使得得到的数据关系是基于该预测结果及针对该预测结果的评估结果得到的,从而使得该数据关系的可信度较高,进而提高关联预测的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种用于关联预测的场景示意图;
图3a是本申请实施例提供的一种数据处理方法的流程示意图;
图3b是本申请实施例提供的一种基于多模型关联预测的场景示意图;
图4a是本申请实施例提供的一种数据处理方法的流程示意图;
图4b是本申请实施例提供的一种用于关联预测的结构示意图;
图4c是本申请实施例提供的一种关于参数丢弃的结构示意图;
图4d是本申请实施例提供的一种关于神经元丢弃的结构示意图;
图5a是本申请实施例提供的一种关于数据处理方法的流程示意图;
图5b是本申请实施例提供的一种关于数据处理方法的流程示意图;
图6是本申请实施例提供的一种用于判定关联置信度的数据结构图;
图7是本申请实施例提供的一种用于训练关联预测模型的结构示意图;
图8a是本申请实施例提供的一种关于关联置信度的场景示意图;
图8b是本申请实施例提供的一种关于广告系统的数据结构图;
图9a是本申请实施例提供的一种数据处理装置的结构示意图;
图9b是本申请实施例提供的一种数据处理装置的结构示意图;
图9c是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,若在本申请中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集XXXX数据,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。
其中,本申请涉及人工智能领域的深度学习技术,通过该深度学习技术,实现对对象实体与对象实体之间的关联关系的预测,以及对关系预测模型的训练等。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。
深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
请参见图1,图1是本申请实施例提供的一种系统架构示意图。如图1所示,该系统可以包括计算机设备100以及终端集群,终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、…、终端设备200n,可以理解的是,上述系统可以包括一个或者多个终端设备,本申请不对终端设备的数量进行限制。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。
其中,本申请中所提及的计算机设备可以是服务器或终端设备,也可以是由服务器和终端设备所组成的系统。
其中,终端集群之间可以存在通信连接,例如终端设备200a与终端设备200b之间存在通信连接,终端设备200a与终端设备200c之间存在通信连接。同时,终端集群中的任一终端设备可以与业务服务器100存在通信连接,例如终端设备200a与业务服务器100之间存在通信连接,其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其它方式,本申请在此不做限制。
应当理解,如图1所示的终端集群中的每个终端设备均可以安装有传输对象数据与媒体数据功能的应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的计算机设备100之间进行数据交互,即上述的通信连接。其中,该应用客户端可以为短视频应用、视频应用、直播应用、社交应用、即时通信应用、游戏应用、音乐应用、购物应用、小说应用、浏览器等具有针对对象数据与媒体数据进行传输与播放的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。
其中,对象数据可以是与用户相关的数据,例如用户的配置信息,用户的信息储存地址等数据。媒体数据可以用于进行传输与播放的数据,例如广告数据,媒体数据可以包括视频数据、音频数据、文本数据、以及视频、音频或文本等中至少两个结合的混合数据等。计算机设备可以从任意一个终端设备或计算机设备自身中获取需要预测的对象数据与媒体数据,对对象数据与媒体数据进行预测,确定对象数据与媒体数据之间的数据关系;或者,从任意一个终端设备或计算机设备自身中获取用于进行模型训练的样本对象数据与样本媒体数据,基于获取到的样本对象数据与样本媒体数据进行模型训练,得到关联预测模型。
为便于后续理解和说明,请一并参见图2,图2是本申请实施例提供的一种用于关联预测的场景示意图。在图2中,计算机设备300可以获取对象数据与媒体数据,通过关联预测模型,得到对象数据与媒体数据之间的预测关联度。根据预测关联度,得到对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据的关联置信度。根据对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据的关联置信度,确定对象数据与媒体数据之间的数据关系。具体的,关联预测模型可以经过模型训练得到,计算机设备300可以获取样本对象数据与样本媒体数据,对样本对象数据与样本媒体数据进行向量提取,得到样本对象数据对应的初始样本对象向量,与样本媒体数据对应的初始样本媒体向量。计算机设备300可以对初始样本对象向量与初始样本媒体向量,进行初始关联预测模型中的向量转换处理,得到样本对象转换向量与样本媒体转换向量。计算机设备300可以对样本对象转换向量与样本媒体转换向量,进行初始关联预测模型中的向量组合处理,得到样本向量对。获取针对样本向量对的样本预测关联度,根据样本预测关联度,确定样本对象数据与样本媒体数据之间的样本目标关联度,以及样本对象数据与样本媒体数据之间的样本关联置信度。根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,生成损失函数;根据损失函数,对初始关联预测模型进行参数调整,得到关联预测模型。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。其中,终端设备和计算机设备可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
可以理解的是,上述系统架构可适用于广告推荐系统等场景,这里将不对具体的业务场景进行一一列举。
进一步地,请参见图3a,图3a是本申请实施例提供的一种数据处理方法的流程示意图。如图3a所示,该数据处理方法至少可以包括以下步骤S101-步骤S104。
步骤S101,获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
具体的,对象数据与媒体数据可以分开进行获取,具体的,可以获取待预测对象(如用户等)的对象数据,例如,通过对待预测对象进行关联搜索,获取对象数据,或者,获取由待预测对象所提供或授权的对象数据。其中,该媒体数据可以是音频数据(如音乐或朗诵等)、视频数据(如影视作品或短视频等)、文本数据(如诗词或文章等),或者可以是音频、视频与文本中任意的至少两个结合的混合数据(如有声电影或带有音乐的幻灯片等),或者可以是业务数据(如广告数据等)。具体的,可以将对象数据与媒体数据分别进行特征提取,得到对象数据对应的初始对象向量,与媒体数据对应的初始媒体向量。
其中,可以对对象数据进行向量映射,得到初始对象向量,该向量映射方式可以包括但不限于向量嵌入方式(embedding)、词向量转换方式(word2vec)等。
或者,可以采用深度神经网络对对象数据或媒体数据进行特征提取,得到该对象数据所对应的初始对象向量与该媒体数据所对应的初始媒体向量。通过深度神经网络对对象数据进行卷积处理,得到初始对象向量;通过深度神经网络对媒体数据进行卷积处理,得到初始媒体向量。可选的,一种可能的情况下,该深度神经网络可以包括卷积层及池化层等,可以通过卷积层对对象数据进行卷积处理,得到对象数据对应的对象卷积特征,通过池化层对对象卷积特征进行池化处理,得到初始对象向量;通过卷积层对媒体数据进行卷积处理,得到媒体数据对应的媒体卷积特征,通过池化层对媒体卷积特征进行池化处理,得到初始媒体向量。可选的,一种可能的情况下,该深度神经网络可以包括卷积层、标准化层、激活层、池化层以及过滤层。通过卷积层对对象数据进行卷积处理,得到对象数据对应的待标准化对象卷积特征,将待标准化对象卷积特征输入到标准化层;通过标准化层对待标准化对象卷积特征进行标准化处理,得到待激活对象卷积特征,将待激活对象卷积特征输入到激活层;通过激活层对待激活对象卷积特征进行激活处理,得到待池化对象卷积特征,将待池化对象卷积特征输入到池化层;通过池化层对待池化对象卷积特征进行池化处理,得到待过滤对象卷积特征,将待过滤对象卷积特征输入到过滤层;通过过滤层对待过滤对象卷积特征进行过滤处理,得到对象数据对应的初始对象特征(即初始对象向量)。同理,可以通过卷积层、标准化层、激活层、池化层以及过滤层对媒体数据进行特征提取,得到媒体数据对应的初始媒体特征(即初始媒体向量)。其中,以上仅为例举的几种可能的深度神经网络的架构,在实际的向量获取过程中,该深度神经网络也可以采用其他的架构实现,在此不做限制。
步骤S102,对初始对象向量与初始媒体向量进行m次关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;
具体的,对初始对象向量与初始媒体向量进行的m次关联预测可以是独立的,m次关联预测间可以是互相没有任何影响的,通过m次关联预测获取m个对象数据与媒体数据直接的预测关联度。
一种预测关联度获取方式下,可以采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数。
一种预测关联度获取方式下,可以采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数。具体的,可以存在m个预测模型,将初始对象向量与初始媒体向量输入到该m个预测模型中,采用m个预测模型中的模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度。
具体的,请一并参见图3b,图3b是本申请实施例提供的一种基于多模型关联预测的场景示意图。在图3b中,可以通过预测模型1对初始对象向量与初始媒体向量进行关联预测,得到预测关联度1;可以通过预测模型2对初始对象向量与初始媒体向量进行关联预测,得到预测关联度2;……;可以通过预测模型m对初始对象向量与初始媒体向量进行关联预测,得到预测关联度m。
步骤S103,根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
具体的,目标关联度可以指对象数据与媒体数据之间的关联关系,关联置信度可以指对象数据与媒体数据之间的预测关系与真实关系之间的误差。进一步的,预测关联度越高,对象数据与媒体数据之间的目标关联度越高。可以对m个预测关联度进行综合分析,例如,可以获取m个预测关联度的方差,或者获取m个预测关联度的平均绝对误差率。通过对m个预测关联度进行综合分析,可以得到对象数据与媒体数据之间的关联置信度。
一种目标关联度与关联置信度的确定方式下,根据m个预测关联度的均值,确定对象数据与媒体数据之间的目标关联度;根据m个预测关联度的偏离程度,确定对象数据与媒体数据之间的关联置信度。
其中,根据m个预测关联度的均值,可以得到对象数据与媒体数据之间存在关联关系的预估值,根据对象数据与媒体数据之间存在关联关系的预估值,确定对象数据与媒体数据之间的目标关联度。由于该m个预测关联度均为对对象数据与媒体数据之间的关联性的预测结果,因此,可以获取m个预测关联度的均值,基于均值确定对象数据与媒体数据之间的目标关联度,以使得得到的目标关联度的可信度提高,其中,该均值可以是算术平均值、几何平均值、平方平均值(均方根平均值,rms)、调和平均值或加权平均值等,在此不做限制。可选的,还可以删除m个预测关联度中离散度大于或等于关联离散阈值的预测关联度,得到有效预测关联度,根据有效预测关联度的均值,确定对象数据与媒体数据之间的目标关联度,例如,m个预测关联度包括(0.1,0.9,0.85,0.82),可以得到预测关联度“0.1”的离散度大于或等于关联离散阈值,因此,可以得到有效预测关联度(0.9,0.85,0.82),通过这一方式,可以剔除掉具有明显异常的数据,进一步提高关联预测的准确性。根据m个预测关联度的偏离程度,确定对象数据与媒体数据之间的关联置信度。
一种目标关联度与关联置信度的确定方式下,根据m个预测关联度生成分布函数,获取分布函数的均值及方差;将分布函数的均值确定为对象数据与媒体数据之间的目标关联度,根据分布函数的方差确定对象数据与媒体数据之间的关联置信度。
其中,分布函数可以是高斯分布,高斯分布的均值可以表示对象数据与媒体数据之间的目标关联度的预估值,高斯分布的均值越大,则对象数据与媒体数据之间的目标关联度越大。高斯分布的方差可以表示对象数据与媒体数据之间的关联置信度,其中,高斯分布的方差越小,则对象数据与媒体数据之间的关联置信度越高;高斯分布的方差越大,则对象数据与媒体数据之间的关联置信度越低。
步骤S104,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
具体的,根据目标关联度与关联置信度,可以得出准确的对象数据与媒体数据之间的数据关系。数据关系可以包括数据关联关系与数据独立关系。数据关联关系可以指数据之间的关联性大于或等于关联性阈值,数据独立关系可以指数据之间的关联性小于关联性阈值,此时,可以将数据之间的关系判定为彼此独立,即数据彼此之间不存在相关性。
具体的,若目标关联度大于或等于关联度阈值,且关联置信度大于或等于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据关联关系;若目标关联度小于关联度阈值,或关联置信度小于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据独立关系。其中,目标关联度小于关联度阈值时,可以认为本身预测得到的对象数据与媒体数据之间的数据关系为数据独立关系,而关联置信度小于置信度阈值,则表示目标关联度的可信程度较低。因此,在目标关联度小于关联度阈值,或关联置信度小于置信度阈值时,可以认为对象数据与媒体数据之间的数据关系为数据独立关系。也就是说,只要满足目标关联度小于关联度阈值与关联置信度小于置信度阈值中的任意一个条件,即可以认为对象数据与媒体数据之间的数据关系为数据独立关系。可选的,若需要增加媒体数据的受众,则可以基于双重否定,即在目标关联度小于关联度阈值,且关联置信度小于置信度阈值时,也认为对象数据与媒体数据之间的数据关系为数据关联关系,此时,由于放宽了对数据关联关系的确定条件,使得可以得到更多的与媒体数据之间存在数据关联关系的对象数据。
本申请实施例中,获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;对初始对象向量与初始媒体向量进行m次关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。采用本申请,可以得到根据特征维度的变化,对漏洞属性类别的预测结果的影响程度。采用本申请,可以得到对象数据与媒体数据之间的m个预测关联度,根据m个预测关联度,得到对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,通过关联置信度,可以更加精准的确定对象数据与媒体数据之间的数据关系,提高对预测媒体数据的准确性。
进一步地,请参见图4a,图4a是本申请实施例提供的一种数据处理方法的流程示意图。如图4a所示,该数据处理方法至少可以包括以下步骤S201-步骤S205。
步骤S201,获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
本步骤的具体过程可以参见上述图3a所对应实施例中的步骤S101的具体描述,这里不再进行赘述。
步骤S202,采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;
具体的,第一向量转换参数可以是用于初始对象向量进行向量转换的参数,第二向量转换参数可以是用于初始媒体向量进行向量转换的参数。通过向量转换处理,可以将初始对象向量或初始媒体向量进行规则化处理,得到通用格式的模型转换向量。采用随机丢弃方式,基于n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量;采用随机丢弃方式,基于n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量。
举例来说,参见图4b,图4b是本申请实施例提供的一种用于关联预测的结构示意图。如图4b所示,该关联预测模型包括n个对象向量转换子网络及n个媒体向量转换子网,其中,每个对象向量转换子网络包括第一向量转换参数,每个媒体向量转换子网络包括第二向量转换参数。将对象数据所对应的初始对象向量输入n个对象向量转换子网络,在第i个对象向量转换子网络中,基于第i个对象向量转换子网络的第一向量转换参数及随机丢弃方式,对初始对象向量进行向量转换,得到第i个对象转换向量,同理,可以得到该初始对象向量在n个对象向量转换子网络中分别对应的对象转换向量。
应该理解的是,将媒体数据所对应的初始媒体向量输入n个媒体向量转换子网络,在第i个媒体向量转换子网络中,基于第i个媒体向量转换子网络的第二向量转换参数及随机丢弃方式,对初始媒体向量进行向量转换,得到第i个媒体转换向量,同理,可以得到该初始媒体向量在n个媒体向量转换子网络中分别对应的媒体转换向量。
可选的,该随机丢弃方式可以包括参数丢弃方式及神经元丢弃方式等。
其中,一种向量转换方式下,对n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;根据n个第一向量随机参数,分别对初始对象向量进行向量转换,得到n个对象转换向量;对n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数;根据n个第二向量随机参数,分别对初始媒体向量进行向量转换,得到n个媒体转换向量。n个对象向量转换子网络及n个媒体向量转换子网络,每个对象向量转换子网络包括第一向量转换参数,每个媒体向量转换子网络包括第二向量转换参数。
其中,参数可以是针对第一向量转换参数或第二向量转换参数的神经元表现形式,神经元可以是针对第一向量转换参数或第二向量转换参数进行分解的最小单位。对n个第一向量转换参数分别进行随机丢弃可以针对第一向量转换参数的参数权重进行随机丢弃,n次关联预测中的参数可以是不同的,向量转换参数可以包括第一向量转换参数与第二向量转换参数,可以将未经过随机丢弃的向量转换参数(即全连接的向量转换参数)作为完整的参数,通过随机选择的方式针对第一向量转换参数的参数进行n次丢弃,得到n个第一向量随机参数。同理,可以针对第二向量转换参数的参数进行随机丢弃,得到n个第二向量随机参数。
具体的,请一并参见图4c,图4c是本申请实施例提供的一种关于参数丢弃的结构示意图。在图4c中,计算机设备300可以获取将要进行随机丢弃的向量转换参数(如第一向量转换参数或第二向量转换参数),全连接的向量转换参数(如未经过随机丢弃的第一向量转换参数或未经过随机丢弃的第二向量转换参数)可以如图4c中400所示,其中,圆形可以代表神经元,箭头可以表示神经元之间的连接关系与运行先后顺序,可以表示向量转换参数(如第一向量转换参数或第二向量转换参数等),运行顺序为顺着箭头方向运行,被箭头指向的神经元可以是在箭头的另一端神经元之后运行。在对向量转换参数进行随机丢弃后,可以得到该向量转换参数所对应的向量随机参数,可以参见图4c中500所示,箭头连接表示经过随机丢弃后留下的参数。图4c中500相比于图4c中400少的箭头连接即为随机丢弃掉的参数。
应该理解的是,如图4c中500列举的经过随机丢弃后的参数的结构示意图为部分经过随机丢弃后的参数的结构示意图,并不限制其他的经过随机丢弃后的参数的结构示意图。通过图4c的示意,可以对n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;可以对n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数。
一种向量转换方式下,可以认为存在n个对象向量转换子网络及n个媒体向量转换子网络。具体的,可以将初始对象向量输入第i个对象向量转换子网络;第i个对象向量转换子网络包括m个对象卷积层;i为小于或等于n的正整数,m为正整数;在第i个对象向量转换子网络中,对第i个对象向量转换子网络所包括的m个对象卷积层分别进行神经元丢弃处理,得到m个对象卷积层分别包括的有效对象神经元;采用第i个对象向量转换子网络中的第一向量转换参数及有效对象神经元,对初始对象向量进行卷积处理,得到初始对象向量在第i个对象向量转换子网络中所对应的对象转换向量,直至得到n个对象向量转换子网络分别对应的对象转换向量;将初始媒体向量输入第i个媒体向量转换子网络;第i个媒体向量转换子网络包括m个媒体卷积层;在第i个媒体向量转换子网络中,对第i个媒体向量转换子网络所包括的m个媒体卷积层分别进行神经元丢弃处理,得到m个媒体卷积层分别包括的有效媒体神经元;采用第i个媒体向量转换子网络中的第二向量转换参数及有效媒体神经元,对媒体对象向量进行卷积处理,得到初始媒体向量在第i个媒体向量转换子网络中所对应的媒体转换向量,直至得到n个媒体向量转换子网络分别对应的媒体转换向量。
其中,每个对象卷积层就是卷积层,对象卷积层与媒体卷积层,是为了区分初始对象向量的卷积层与初始媒体向量的卷积层。
具体的,请一并参见图4d,图4d是本申请实施例提供的一种关于神经元丢弃的结构示意图。在图4d中,计算机设备300可以获取将要进行神经元丢弃的向量转换参数(如第一向量转换参数或第二向量转换参数),全连接的向量转换参数(即包括未经过随机丢弃的第一向量转换参数与第二向量转换参数)可以如图4d中400所示,其中,圆形可以代表神经元,箭头可以表示神经元之间的连接关系与运行先后顺序,运行顺序为顺着箭头方向运行,被箭头指向的神经元可以是在箭头的另一端神经元之后运行。神经元丢弃后得到的向量转换参数(如第一向量转换参数与第二向量转换参数)可以如图4d中600所示,箭头连接表示经过神经元丢弃后留下的参数,“”用于表示被丢弃的神经元,“○”用于表示除被丢弃的神经元之外的神经元,即有效神经元。如图4d所示,是一种综合的描述,对于初始媒体向量的神经元丢弃,或对于初始对象向量的神经元丢弃,均可以参见图4d所示。采用第i个对象向量转换子网络中的第一向量转换参数及有效对象神经元,或第i个媒体向量转换子网络中的第二向量转换参数及有效媒体神经元(即神经元丢弃后的参数),对分别对应的初始对象向量或初始媒体向量进行卷积处理,得到分别对应的初始对象向量或初始媒体向量在第i个对象向量转换子网络或媒体向量转换子网络中所对应的对象转换向量或媒体转换向量。
应该理解的是,如图4d中600列举的经过神经元丢弃后的参数的结构示意图为部分经过神经元丢弃后的参数的结构示意图,并不限制其他的经过神经元丢弃后的参数的结构示意图。
可选的,可以将如图4c中的参数丢弃与如图4d中的神经元丢弃进行结合丢弃。可以根据结合丢弃后的向量转换参数(即包括第一向量转换参数与第二向量转换参数)进行卷积处理,得到对象转换向量或媒体转换向量。
步骤S203,将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;
其中,可以将n个对象转换向量与n个媒体转换向量进行点积处理,得到的m个点积结果即为m个向量对分别对应的预测关联度。其中,可以根据一一对应的关系,对n个对象转换向量与n个媒体转换向量进行组合,得到n个向量对,此时,m等于n将n个对象转换向量与n个媒体转向量进行点积处理,此时得到的m个点积结果即为n个点积结果。可选的,可以将n个对象转换向量与n个媒体转换向量随机组合,可以得到m个向量对,此时,m为小于或等于n*(n-1)/2的正整数,其中,当将n个对象转换向量与n个媒体转换向量全部进行组合时,m等于n*(n-1)/2,即,一个对象转换向量与n个媒体转换向量均对应一个向量对,或者说,一个媒体转换向量与n个对象转换向量均对应一个向量对。可选的,还可以有选择的将n个对象转换向量与n个媒体转换向量进行点击处理,得到的m个点积结果可以是大于等于n个点积结果,且小于等于n*(n-1)/2个点积结果m小于n。可选的,获取m个向量对,一般m取大于或等于n,且小于或等于n*(n-1)/2的正整数,以获取足够多且全面的用于预测的向量对,以提高关联预测的准确性。
步骤S204,根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度。
具体的,可以对m个基于对象转换向量与媒体转换向量进行点积得到的点积结果进行数据分析,根据m个点积结果的数据分析,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度。
本步骤的具体过程可以参见上述图3a所对应实施例中的步骤S103的具体描述,这里不再进行赘述。
步骤S205,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
本步骤的具体过程可以参见上述图3a所对应实施例中的步骤S104的具体描述,这里不再进行赘述。
本申请实施例中,获取对象数据与媒体数据,获取对象数据的初始对象向量与媒体数据的初始媒体向量;通过向量转换,得到n个对象转换向量与n个媒体转换向量,n为正整数,将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。本申请实施例引入了根据m个向量对分别对应的预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,根据对象数据与媒体数据之间的数据关系,对媒体数据进行预测以及召回方案。通过向量转换参数进行向量转换,通过向量组合,可以快速得到关联性强的向量对,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
进一步地,请参见图5a,图5a是本申请实施例提供的一种数据处理方法的流程示意图。如图5a所示,该数据处理方法至少可以包括以下步骤S301-步骤S304。
步骤S301,获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
本步骤的具体过程可以参见上述图3a所对应实施例中的步骤S101的具体描述,这里不再进行赘述。
步骤S302,采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;
具体的,m个模型可以是相同的模型,也可以是不同的模型。m个模型可以包括双塔模型、神经网络模型以及卷积模型等。分别用m个模型参数,对初始对象向量与初始媒体向量进行关联预测,可以得到m次关联预测的预测结果,通过m次独立的关联预测,可以得到精准的对象数据与媒体数据之间的m个预测关联度。
步骤S303,根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
其中,m个模型的预测关联度的均值可以表示对象数据与媒体数据之间的目标关联度,m个模型的离散程度可以表示对象数据与媒体数据之间的关联置信度,m个模型的对象数据与媒体数据之间的关联置信度可以表示不确定性(uncertainty),具体可以参见公式①所示:
其中,pi表示第i个模型的预测关联度,表示第i个模型的对象数据与媒体数据之间的目标关联度,/>表示对象数据与媒体数据之间的不确定性。可选的,可以将默认置信度与不确定性的差值,确定为关联置信度。
步骤S304,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
本步骤的具体过程可以参见上述图4a所对应实施例中的步骤S205的具体描述,这里不再进行赘述。
进一步,请一并参见图3b,计算机设备300可以获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量。采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度。根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度。基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
获取对象数据与媒体数据,获取对象数据的初始对象向量与媒体数据的初始媒体向量;采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
本申请实施例引入了根据m个模型参数分别对应的预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,根据对象数据与媒体数据之间的数据关系,对媒体数据进行预测以及召回方案。通过目标关联度与关联置信度,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
进一步地,请参见图5b,图5b是本申请实施例提供的一种数据处理方法的流程示意图。如图5b所示,该数据处理方法至少可以包括以下步骤S401-步骤S406。
步骤S401,获取样本对象数据,获取样本媒体数据,获取样本对象数据的初始样本对象向量,获取样本媒体数据的初始样本媒体向量,获取样本标签。
本步骤的具体过程可以参见上述图3a所对应实施例中的步骤S101的具体描述,这里不再进行赘述。
步骤S402,在初始关联预测模型中,采用初始关联预测模型中的n个第一初始向量转换参数分别对初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用初始关联预测模型中的n个初始第二向量转换参数分别对初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数.
本步骤的具体过程可以参见上述图4a所对应实施例中的步骤S202的具体描述,这里不再进行赘述。
步骤S403,将n个样本对象转换向量与n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个样本向量对分别对应的样本预测关联度,m为正整数。
本步骤的具体过程可以参见上述图4a所对应实施例中的步骤S203的具体描述,这里不再进行赘述。
步骤S404,根据m个样本预测关联度,确定样本对象数据与样本媒体数据之间的样本目标关联度,以及样本对象数据与样本媒体数据之间的样本关联置信度。
本步骤的具体过程可以参见上述图4a所对应实施例中的步骤S204的具体描述,这里不再进行赘述。
步骤S405,根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,生成损失函数;
具体的,训练过程中,生成的损失函数可以是交叉熵损失函数,交叉熵损失函数L,具体可以参见公式②所示:
L=-∑P(x)log(P(x)) ②
其中,P(x)可以表示样本目标关联度与样本关联置信度的概率函数,log(P(x))可以表示目标关联度与样本关联置信度的概率函数的权重,-∑P(x)log(P(x))即为根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,生成的交叉熵损失函数。
步骤S406,根据损失函数,对初始关联预测模型进行参数调整,得到关联预测模型;关联预测模型包括n个第一向量转换参数及n个第二向量转换参数,n个第一向量转换参数是对n个第一初始向量转换参数进行参数调整得到的,n个第二向量转换参数是对n个第二初始向量转换参数进行参数调整得到的。
具体的,模型参数的随机丢弃训练,使得n个向量转换子网络训练得到的参数,即n个第一/第二向量转换参数不完全相同。
本申请实施例引入了根据m个模型参数分别对应的预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,通过模型训练,得到用于进行参数调整的。通过目标关联度与关联置信度,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
请一并参见图4b,计算机设备300可以获取对象数据,获取媒体数据。计算机设备300可以将对象数据进行向量提取处理,得到对象数据对应的初始对象向量,将媒体数据进行向量提取处理,得到媒体数据对应的初始媒体向量。计算机设备300可以将n个初始对象向量与n个初始媒体向量进行如图4a,步骤S202中的向量转换,得到n个对象转换向量与n个媒体转换向量。计算机设备300可以将n个对象转换向量与n个媒体转换向量进行如图4a,步骤S203中的向量组合,得到m个向量对分别对应的预测关联度,根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度。其中,输入n个初始对象向量与n个初始媒体向量,直到得到对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度之间的过程即为m次关联预测的过程。基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
可选的,得到对象数据对应的初始对象向量与媒体数据对应的初始媒体向量之后,计算机设备300可以进行以下步骤,如图5a,步骤S302中采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度的。如图5a,步骤S303中根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度。基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
可选的,计算机设备300进行m次关联预测的步骤可以是如图3a,步骤S102中的对初始对象向量与初始媒体向量进行m次关联预测,得到对象数据与媒体数据之间的m个预测关联度。根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度。基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
请参见图6,图6是本申请实施例提供的一种用于判定关联置信度的数据结构图。其中,如图6所示,可以得到广告转化率预估后验预估指标(pCVR_bias)与不确定性之间为成正比例关系,可以用广告转化率预估后验预估指标表示对象数据与媒体数据之间的不确定性。
请参见图7,图7是本申请实施例提供的一种用于训练关联预测模型的结构示意图。其中,如图7所示,获取样本对象数据,获取样本媒体数据。对样本对象数据进行向量提取处理,得到样本对象数据对应的初始样本对象向量。对样本媒体数据进行向量提取处理,得到样本媒体数据对应的初始样本媒体数据。将初始样本对象数据与初始样本媒体数据进行如图4a,步骤S205的相关过程,以进行模型训练,可以得到用于调整初始关联预测模型的交叉熵损失函数,根据交叉熵损失函数对初始关联预测模型进行参数调整,可以得到关联预测模型。
在本申请实施例中,进行了关联预测模型的训练。通过采用本申请,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
请一并参见图8a,图8a是本申请实施例提供的一种关于关联置信度的场景示意图。如图8a中所示,以图像分类模型举例,计算机设备300可以获取图像类型的媒体数据800,图像类型的媒体数据800对应的分类结果为狗。增加0.007倍权重的图像类型的媒体数据801,图像类型的媒体数据801对应的分类结果为噪音,得到图像类型的媒体数据802,对图像类型的媒体数据802进行预测,预测的分类结果为狮子,且媒体数据802与其对应的分类结果的关联置信度为99.3%。但实际上,预测后的媒体数据802的分类结果应对应为狗。由此可见,通过不确定性对关联预测进行限制,可以提高预测的准确度。
进一步地,本申请可以用于进行数据推荐等。例如,该目标对象的数量为k,k为正整数,可以获取与媒体数据之间存在数据关联关系的目标对象,将与媒体数据之间存在数据关联关系的目标对象确定为待推荐对象,将媒体数据发送至待推荐对象。或者,该目标对象的数量为k,将关联置信度小于置信度阈值的目标对象进行删除,得到候选对象,基于候选对象所对应的目标关联度,对候选对象进行排序,从排序后的候选对象中获取待推荐对象,将媒体数据发送至待推荐对象。
请一并参见图8b,图8b是本申请实施例提供的一种关于广告系统的数据结构图。如图8b中所示,媒体数据为广告数据,可以观看广告的对象为目标对象。可选的,当广告数据与目标对象之间进行一对一推荐时,若广告数据与目标对象之间的关系为数据独立关系,则不会将广告数据向目标对象推荐;若广告数据与目标对象之间的关系为数据关联关系,则将广告数据向目标对象推荐。若目标对象为k个,基于本申请进行关联置信度筛选或排序,得到待推荐对象,把广告数据推送到待推荐对象。本申请可以根据目标关联度进行广告数据推广或推荐,可以获取广告数据和目标对象的目标关联度,将广告数据推广或推荐到目标关联度较高的目标对象,广告转化率可以提高。通过广告数据进行推送,根据推送的转换数据可以得到页面访问点击率(Page Click-through Rate,pCTR),广告转化率预估(Probability Conversion Model,pCVR),从而降低广告转化的不确定性。如图8b中所示,根据广告数据的实验组转换指标、对照组转换指标、实验组超收比与对照组超收比,可以表明广告数据与目标对象的关联置信度,与广告转化率指标之间成反比,广告数据与目标对象的关联置信度越强,广告转化率指标越小。其中,实验组是指本申请中的方案,对照组是指现有的方案,由图8b可见,本申请具有明显进步。
例如,当媒体数据是广告数据时,可以将千次网页展示效益(Effective Cost PerMille,eCMP)作为广告系统在排序中对象数据与媒体数据的相关的关联指标,eCMP=bid*pCTR*pCVR,其中,bid可以表示网页展示的次数,默认为一千次,网页展示的次数可以根据对象需求进行调整,页面访问点击率(Page Click-through Rate,pCTR),广告转化率预估(Probability Conversion Model,pCVR)可以表示对象数据与媒体数据之间的目标关联度,pCVR后验衡量指标(pCVR_bias)可以表示对象数据与媒体数据之间的关联置信度,pCVR_bias=sum(pCVR)/sum(conversion)-1,其中转化率(conversion)可以从广告系统中直接获取到数据。根据pCVR与pCVR_bias,可以得出对象数据与媒体数据之间的数据关系。可以基于关联置信度进行筛选,置信度低的不要了,保留高的置信度,将保留的高的置信度对应的媒体数据基于目标关联度进行排序,从排序中获取待推荐的对象,把媒体数据推送给待推荐对象,假设媒体数据是广告数据,通过本申请,所推荐的媒体数据可以提高广告系统的pCTR,强相关,转化率提高,提高pCVR。
进一步地,请参见图9a,图9a是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9a所示,该数据处理装置1可以包括:第一向量获取模块11、向量转换模块12、向量组合模块13、第一关联度确定模块14以及第一关系确定模块15。
第一向量获取模块11,用于获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
向量转换模块12,用于采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;
向量组合模块13,用于将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;
第一关联度确定模块14,用于根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
第一关系确定模块15,用于基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
其中,第一向量获取模块11、向量转换模块12、向量组合模块13、第一关联度确定模块14以及第一关系确定模块15的具体功能实现方式可以参见上述图4a对应实施例中的步骤S201-步骤S205,这里不再进行赘述。
再请参见图9a,其中,向量转换模块12包括:
第一参数丢弃单元121,用于对n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;
第一向量转换单元122,用于根据n个第一向量随机参数,分别对初始对象向量进行向量转换,得到n个对象转换向量;
第二参数丢弃单元123,用于对n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数;
第二向量转换单元124,用于根据n个第二向量随机参数,分别对初始媒体向量进行向量转换,得到n个媒体转换向量。
其中,第一参数丢弃单元121、第一向量转换单元122、第二参数丢弃单元123以及第二向量转换单元124的具体功能实现方式可以参见上述图4a对应实施例中的步骤S202,这里不再进行赘述。
再请参见图9a,其中,向量转换模块12还包括:
对象向量输入单元125,用于将初始对象向量输入第i个对象向量转换子网络;第i个对象向量转换子网络包括m个对象卷积层;i为小于或等于n的正整数,m为正整数;
对象丢弃单元126,用于在第i个对象向量转换子网络中,对第i个对象向量转换子网络所包括的m个对象卷积层分别进行神经元丢弃处理,得到m个对象卷积层分别包括的有效对象神经元;
对象卷积单元127,用于采用第i个对象向量转换子网络中的第一向量转换参数及有效对象神经元,对初始对象向量进行卷积处理,得到初始对象向量在第i个对象向量转换子网络中所对应的对象转换向量,直至得到n个对象向量转换子网络分别对应的对象转换向量;
媒体向量输入单元128,用于将初始媒体向量输入第i个媒体向量转换子网络;第i个媒体向量转换子网络包括m个媒体卷积层;
媒体丢弃单元129,用于在第i个媒体向量转换子网络中,对第i个媒体向量转换子网络所包括的m个媒体卷积层分别进行神经元丢弃处理,得到m个媒体卷积层分别包括的有效媒体神经元;
媒体卷积单元1210,用于采用第i个媒体向量转换子网络中的第二向量转换参数及有效媒体神经元,对媒体对象向量进行卷积处理,得到初始媒体向量在第i个媒体向量转换子网络中所对应的媒体转换向量,直至得到n个媒体向量转换子网络分别对应的媒体转换向量。
其中,对象向量输入单元125、对象丢弃单元126、对象卷积单元127、媒体向量输入单元128、媒体丢弃单元129以及媒体卷积单元1210的具体功能实现方式可以参见上述图4a对应实施例中的步骤S202,这里不再进行赘述。
再请参见图9a,其中,第一关联度确定模块14,包括:
关联度确定单元141,用于根据m个预测关联度的均值,确定对象数据与媒体数据之间的目标关联度;
第一置信度确定单元142,用于根据m个预测关联度的偏离程度,确定对象数据与媒体数据之间的关联置信度。
其中,关联度确定单元141以及置信度确定单元142的具体功能实现方式可以参见上述图4a对应实施例中的步骤S204,这里不再进行赘述。
再请参见图9a,其中,第一关联度确定模块14,还包括:
函数获取单元143,用于根据m个预测关联度生成分布函数,获取分布函数的均值及方差;
第二置信度确定单元144,用于将分布函数的均值确定为对象数据与媒体数据之间的目标关联度,根据分布函数的方差确定对象数据与媒体数据之间的关联置信度。
其中,函数获取单元143以及第二置信度确定单元144的具体功能实现方式可以参见上述图4a对应实施例中的步骤S204,这里不再进行赘述。
再请参见图9a,其中,第一关系确定模块15,包括:
关联关系确定单元151,用于若目标关联度大于或等于关联度阈值,且关联置信度大于或等于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据关联关系;
独立关系确定单元152,用于若目标关联度小于关联度阈值,或关联置信度小于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据独立关系。
其中,关联关系确定单元151以及独立关系确定单元152的具体功能实现方式可以参见上述图4a对应实施例中的步骤S205,这里不再进行赘述。
本申请实施例中,获取对象数据与媒体数据,获取对象数据的初始对象向量与媒体数据的初始媒体向量;通过向量转换,得到n个对象转换向量与n个媒体转换向量,n为正整数,将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。本申请实施例引入了根据m个向量对分别对应的预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,根据对象数据与媒体数据之间的数据关系,对媒体数据进行预测以及召回方案。通过目标关联度与关联置信度,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
进一步地,请参见图9b,图9b是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9b所示,该数据处理装置2可以包括:第二向量获取模块21、关联预测模块22、第二关联度确定模块23以及第二关系确定模块24。
第二向量获取模块21,用于获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;
关联预测模块22,用于采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;
第二关联度确定模块23,用于根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;
第二关系确定模块24,用于基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
其中,第二向量获取模块21、关联预测模块22、第二关联度确定模块23以及第二关系确定模块24的具体功能实现方式可以参见上述图5a对应实施例中的步骤S301-步骤S304,这里不再进行赘述。
在本申请实施例中,引入了根据m个向量对分别对应的预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,根据对象数据与媒体数据之间的数据关系,对媒体数据进行预测以及召回方案。通过目标关联度与关联置信度,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
进一步地,请参见图9c,图9c是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9c所示,该数据处理装置3可以包括:样本获取模块31、样本转换模块32、样本组合模块33、样本关联度确定模块34、损失函数获取模块35以及模型获取模块36。
样本获取模块31,用于获取样本对象数据,获取样本媒体数据,获取样本对象数据的初始样本对象向量,获取样本媒体数据的初始样本媒体向量,获取样本标签;
样本转换模块32,用于采用n个初始第一向量转换参数分别对初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用n个初始第二向量转换参数分别对初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数;
样本组合模块33,用于将n个样本对象转换向量与n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个样本向量对分别对应的样本预测关联度,m为正整数;
样本关联度确定模块34,用于根据m个样本预测关联度,确定样本对象数据与样本媒体数据之间的样本目标关联度,以及样本对象数据与样本媒体数据之间的样本关联置信度;
损失函数获取模块35,用于根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,得到针对初始第一向量转换参数与初始第二向量转换参数的损失函数;
模型获取模块36,用于根据损失函数,对初始第一向量转换参数与初始第二向量转换参数进行参数调整,得到向量转换模型;向量转换模型模型包括n个第一向量转换参数及n个第二向量转换参数。
其中,样本获取模块31、样本转换模块32、样本组合模块33、样本关联度确定模块34、损失函数获取模块35以及模型获取模块36的具体功能实现方式可以参见上述图4a对应实施例中的步骤S205,这里不再进行赘述。
在本申请实施例中,引入了根据m个向量对分别对应的预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度,基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系,根据对象数据与媒体数据之间的数据关系,对媒体数据进行预测以及召回方案。通过目标关联度与关联置信度,可以增加对象数据与媒体数据直接数据关系的预测来源数据,提高对对象数据与媒体数据直接数据关系预测的准确率。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;将n个对象转换向量与n个媒体转换向量进行组合,得到m个向量对,获取m个向量对分别对应的预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
在一个实施例中,处理器1001在将采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量时,还执行以下步骤:
对n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;根据n个第一向量随机参数,分别对初始对象向量进行向量转换,得到n个对象转换向量;对n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数;根据n个第二向量随机参数,分别对初始媒体向量进行向量转换,得到n个媒体转换向量。
在一个实施例中,处理器1001在将采用n个第一向量转换参数分别对初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对初始媒体向量进行向量转换,得到n个媒体转换向量时,还执行以下步骤:
将初始对象向量输入第i个对象向量转换子网络;第i个对象向量转换子网络包括m个对象卷积层;i为小于或等于n的正整数,m为正整数;在第i个对象向量转换子网络中,对第i个对象向量转换子网络所包括的m个对象卷积层分别进行神经元丢弃处理,得到m个对象卷积层分别包括的有效对象神经元;采用第i个对象向量转换子网络中的第一向量转换参数及有效对象神经元,对初始对象向量进行卷积处理,得到初始对象向量在第i个对象向量转换子网络中所对应的对象转换向量,直至得到n个对象向量转换子网络分别对应的对象转换向量;将初始媒体向量输入第i个媒体向量转换子网络;第i个媒体向量转换子网络包括m个媒体卷积层;在第i个媒体向量转换子网络中,对第i个媒体向量转换子网络所包括的m个媒体卷积层分别进行神经元丢弃处理,得到m个媒体卷积层分别包括的有效媒体神经元;采用第i个媒体向量转换子网络中的第二向量转换参数及有效媒体神经元,对媒体对象向量进行卷积处理,得到初始媒体向量在第i个媒体向量转换子网络中所对应的媒体转换向量,直至得到n个媒体向量转换子网络分别对应的媒体转换向量。
在一个实施例中,处理器1001在将根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度时,还执行以下步骤:
根据m个预测关联度的均值,确定对象数据与媒体数据之间的目标关联度;根据m个预测关联度的偏离程度,确定对象数据与媒体数据之间的关联置信度。
在一个实施例中,处理器1001在将根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度时,还执行以下步骤:
根据m个预测关联度生成分布函数,获取分布函数的均值及方差;将分布函数的均值确定为对象数据与媒体数据之间的目标关联度,根据分布函数的方差确定对象数据与媒体数据之间的关联置信度。
在一个实施例中,处理器1001在将基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系时,还执行以下步骤:
若目标关联度大于或等于关联度阈值,且关联置信度大于或等于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据关联关系;若目标关联度小于关联度阈值,或关联置信度小于置信度阈值,则确定对象数据与媒体数据之间的数据关系为数据独立关系。
在一个实施例中,处理器1001获取对象数据,获取媒体数据,获取对象数据的初始对象向量,获取媒体数据的初始媒体向量;采用m个模型参数,分别对初始对象向量与初始媒体向量进行关联预测,得到对象数据与媒体数据之间的m个预测关联度,m为正整数;根据m个预测关联度,确定对象数据与媒体数据之间的目标关联度,以及对象数据与媒体数据之间的关联置信度;基于目标关联度及关联置信度,确定对象数据与媒体数据之间的数据关系。
在一个实施例中,处理器1001获取样本对象数据,获取样本媒体数据,获取样本对象数据的初始样本对象向量,获取样本媒体数据的初始样本媒体向量,获取样本标签;在初始关联预测模型中,采用初始关联预测模型中的n个第一初始向量转换参数分别对初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用初始关联预测模型中的n个初始第二向量转换参数分别对初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数;将n个样本对象转换向量与n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个样本向量对分别对应的样本预测关联度,m为正整数;根据m个样本预测关联度,确定样本对象数据与样本媒体数据之间的样本目标关联度,以及样本对象数据与样本媒体数据之间的样本关联置信度;根据样本目标关联度、样本关联置信度与样本标签的样本关联关系,生成损失函数;根据损失函数,对初始关联预测模型进行参数调整,得到关联预测模型;关联预测模型包括n个第一向量转换参数及n个第二向量转换参数,n个第一向量转换参数是对n个第一初始向量转换参数进行参数调整得到的,n个第二向量转换参数是对n个第二初始向量转换参数进行参数调整得到的。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2、图3a、图3b、图4a、图4b、图4c、图4d、图5a、图5b、图6、图7、图8a以及图8b所对应实施例中对数据处理方法的描述,也可执行前文图9a所对应实施例中对数据处理装置1的描述,也可执行前文图9b所对应实施例中对数据处理装置2的描述,也可执行前文图9c所对应实施例中对数据处理装置3的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2、图3a、图3b、图4a、图4b、图4c、图4d、图5a、图5b、图6、图7、图8a以及图8b中各个步骤所提供的数据处理方法,具体可参见上述图2、图3a、图3b、图4a、图4b、图4c、图4d、图5a、图5b、图6、图7、图8a以及图8b各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2、图3a、图3b、图4a、图4b、图4c、图4d、图5a、图5b、图6、图7、图8a以及图8b所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例的说明书和权利要求书及附图中的术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取对象数据,获取媒体数据,获取所述对象数据的初始对象向量,获取所述媒体数据的初始媒体向量;
采用n个第一向量转换参数分别对所述初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对所述初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;
将所述n个对象转换向量与所述n个媒体转换向量进行组合,得到m个向量对,获取m个所述向量对分别对应的预测关联度,m为正整数;
根据m个预测关联度,确定所述对象数据与所述媒体数据之间的目标关联度,以及所述对象数据与所述媒体数据之间的关联置信度;
基于所述目标关联度及所述关联置信度,确定所述对象数据与所述媒体数据之间的数据关系。
2.根据权利要求1所述的方法,其特征在于,所述采用n个第一向量转换参数分别对所述初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对所述初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数,包括:
对所述n个第一向量转换参数分别进行随机丢弃,得到n个第一向量随机参数;
根据所述n个第一向量随机参数,分别对所述初始对象向量进行向量转换,得到n个对象转换向量;
对所述n个第二向量转换参数分别进行随机丢弃,得到n个第二向量随机参数;
根据所述n个第二向量随机参数,分别对所述初始媒体向量进行向量转换,得到n个媒体转换向量。
3.根据权利要求1所述的方法,其特征在于,所述采用n个第一向量转换参数分别对所述初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对所述初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数,包括:
将所述初始对象向量输入第i个对象向量转换子网络;所述第i个对象向量转换子网络包括m个对象卷积层;i为小于或等于n的正整数,m为正整数;
在所述第i个对象向量转换子网络中,对所述第i个对象向量转换子网络所包括的所述m个对象卷积层分别进行神经元丢弃处理,得到所述m个对象卷积层分别包括的有效对象神经元;
采用所述第i个对象向量转换子网络中的第一向量转换参数及所述有效对象神经元,对所述初始对象向量进行卷积处理,得到所述初始对象向量在所述第i个对象向量转换子网络中所对应的对象转换向量,直至得到n个对象向量转换子网络分别对应的对象转换向量;
将所述初始媒体向量输入第i个媒体向量转换子网络;所述第i个媒体向量转换子网络包括m个媒体卷积层;
在所述第i个媒体向量转换子网络中,对所述第i个媒体向量转换子网络所包括的所述m个媒体卷积层分别进行神经元丢弃处理,得到所述m个媒体卷积层分别包括的有效媒体神经元;
采用所述第i个媒体向量转换子网络中的第二向量转换参数及所述有效媒体神经元,对所述媒体对象向量进行卷积处理,得到所述初始媒体向量在所述第i个媒体向量转换子网络中所对应的媒体转换向量,直至得到n个媒体向量转换子网络分别对应的媒体转换向量。
4.根据权利要求1所述的方法,其特征在于,所述根据m个预测关联度,确定所述对象数据与所述媒体数据之间的目标关联度,以及所述对象数据与所述媒体数据之间的关联置信度,包括:
根据m个预测关联度的均值,确定所述对象数据与所述媒体数据之间的目标关联度;
根据所述m个预测关联度的偏离程度,确定所述对象数据与所述媒体数据之间的关联置信度。
5.根据权利要求1所述的方法,其特征在于,所述根据m个预测关联度,确定所述对象数据与所述媒体数据之间的目标关联度,以及所述对象数据与所述媒体数据之间的关联置信度,包括:
根据m个预测关联度生成分布函数,获取所述分布函数的均值及方差;
将所述分布函数的均值确定为所述对象数据与所述媒体数据之间的目标关联度,根据所述分布函数的方差确定所述对象数据与所述媒体数据之间的关联置信度。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标关联度及所述关联置信度,确定所述对象数据与所述媒体数据之间的数据关系,包括:
若所述目标关联度大于或等于关联度阈值,且所述关联置信度大于或等于置信度阈值,则确定所述对象数据与所述媒体数据之间的数据关系为数据关联关系;
若所述目标关联度小于所述关联度阈值,或所述关联置信度小于所述置信度阈值,则确定所述对象数据与所述媒体数据之间的数据关系为数据独立关系。
7.一种数据处理方法,其特征在于,包括:
获取对象数据,获取媒体数据,获取所述对象数据的初始对象向量,获取所述媒体数据的初始媒体向量;
采用m个模型参数,分别对所述初始对象向量与所述初始媒体向量进行关联预测,得到所述对象数据与所述媒体数据之间的m个预测关联度,m为正整数;
根据所述m个预测关联度,确定所述对象数据与所述媒体数据之间的目标关联度,以及所述对象数据与所述媒体数据之间的关联置信度;
基于所述目标关联度及所述关联置信度,确定所述对象数据与所述媒体数据之间的数据关系。
8.一种数据处理方法,其特征在于,包括:
获取样本对象数据,获取样本媒体数据,获取所述样本对象数据的初始样本对象向量,获取所述样本媒体数据的初始样本媒体向量,获取样本标签;
在初始关联预测模型中,采用所述初始关联预测模型中的n个第一初始向量转换参数分别对所述初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用所述初始关联预测模型中的n个初始第二向量转换参数分别对所述初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数;
将所述n个样本对象转换向量与所述n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个所述样本向量对分别对应的样本预测关联度,m为正整数;
根据m个样本预测关联度,确定所述样本对象数据与所述样本媒体数据之间的样本目标关联度,以及所述样本对象数据与所述样本媒体数据之间的样本关联置信度;
根据所述样本目标关联度、所述样本关联置信度与所述样本标签的样本关联关系,生成损失函数;
根据所述损失函数,对所述初始关联预测模型进行参数调整,得到关联预测模型;所述关联预测模型包括n个第一向量转换参数及n个第二向量转换参数,所述n个第一向量转换参数是对所述n个第一初始向量转换参数进行参数调整得到的,所述n个第二向量转换参数是对所述n个第二初始向量转换参数进行参数调整得到的。
9.一种数据处理装置,其特征在于,包括:
第一向量获取模块,用于获取对象数据,获取媒体数据,获取所述对象数据的初始对象向量,获取所述媒体数据的初始媒体向量;
向量转换模块,用于采用n个第一向量转换参数分别对所述初始对象向量进行向量转换,得到n个对象转换向量,采用n个第二向量转换参数分别对所述初始媒体向量进行向量转换,得到n个媒体转换向量,n为正整数;
向量组合模块,用于将所述n个对象转换向量与所述n个媒体转换向量进行组合,得到m个向量对,获取m个所述向量对分别对应的预测关联度,m为正整数;
第一关联度确定模块,用于根据m个预测关联度,确定所述对象数据与所述媒体数据之间的目标关联度,以及所述对象数据与所述媒体数据之间的关联置信度;
第一关系确定模块,用于基于所述目标关联度及所述关联置信度,确定所述对象数据与所述媒体数据之间的数据关系。
10.一种数据处理装置,其特征在于,包括:
第二向量获取模块,用于获取对象数据,获取媒体数据,获取所述对象数据的初始对象向量,获取所述媒体数据的初始媒体向量;
关联预测模块,用于采用m个模型参数,分别对所述初始对象向量与所述初始媒体向量进行关联预测,得到所述对象数据与所述媒体数据之间的m个预测关联度,m为正整数;
第二关联度确定模块,用于根据所述m个预测关联度,确定所述对象数据与所述媒体数据之间的目标关联度,以及所述对象数据与媒体数据之间的关联置信度;
第二关系确定模块,用于基于所述目标关联度及所述关联置信度,确定所述对象数据与所述媒体数据之间的数据关系。
11.一种数据处理装置,其特征在于,包括:
样本获取模块,用于获取样本对象数据,获取样本媒体数据,获取所述样本对象数据的初始样本对象向量,获取所述样本媒体数据的初始样本媒体向量,获取样本标签;
样本转换模块,用于采用n个初始第一向量转换参数分别对所述初始样本对象向量进行向量转换,得到n个样本对象转换向量,采用n个初始第二向量转换参数分别对所述初始样本媒体向量进行向量转换,得到n个样本媒体转换向量,n为正整数;
样本组合模块,用于将所述n个样本对象转换向量与所述n个样本媒体转换向量进行组合,得到m个样本向量对,获取m个所述样本向量对分别对应的样本预测关联度,m为正整数;
样本关联度确定模块,用于根据m个所述样本预测关联度,确定所述样本对象数据与所述样本媒体数据之间的样本目标关联度,以及所述样本对象数据与所述样本媒体数据之间的样本关联置信度;
损失函数获取模块,用于根据所述样本目标关联度、所述样本关联置信度与所述样本标签的样本关联关系,得到针对所述初始第一向量转换参数与所述初始第二向量转换参数的损失函数;
模型获取模块,用于根据所述损失函数,对所述初始第一向量转换参数与所述初始第二向量转换参数进行参数调整,得到向量转换模型;所述向量转换模型包括n个第一向量转换参数及n个第二向量转换参数。
12.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-6任一项所述的方法,或执行权利要求7所述的方法,或执行权利要求8所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-6任一项所述的方法,或执行权利要求7所述的方法,或执行权利要求8所述的方法。
14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-6所述方法的步骤,或执行权利要求7所述方法的步骤,或执行权利要求8所述方法的步骤。
CN202210390031.7A 2022-04-14 2022-04-14 数据处理方法、装置、设备、可读存储介质及程序产品 Pending CN116975319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210390031.7A CN116975319A (zh) 2022-04-14 2022-04-14 数据处理方法、装置、设备、可读存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210390031.7A CN116975319A (zh) 2022-04-14 2022-04-14 数据处理方法、装置、设备、可读存储介质及程序产品

Publications (1)

Publication Number Publication Date
CN116975319A true CN116975319A (zh) 2023-10-31

Family

ID=88478245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210390031.7A Pending CN116975319A (zh) 2022-04-14 2022-04-14 数据处理方法、装置、设备、可读存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN116975319A (zh)

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN110569377B (zh) 一种媒体文件的处理方法和装置
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN113850162B (zh) 一种视频审核方法、装置及电子设备
WO2023040506A1 (zh) 一种基于模型的数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品
CN112215171B (zh) 目标检测方法、装置、设备及计算机可读存储介质
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN111680147A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
CN116861995A (zh) 多模态预训练模型的训练及多模态数据处理方法和装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN111783903A (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN115130711A (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN115080836A (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN114282059A (zh) 视频检索的方法、装置、设备及存储介质
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN114419514B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN117014693A (zh) 视频处理方法、装置、设备以及存储介质
CN115546554A (zh) 敏感图像的识别方法、装置、设备和计算机可读存储介质
CN116975319A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN114357301A (zh) 数据处理方法、设备及可读存储介质
WO2021147084A1 (en) Systems and methods for emotion recognition in user-generated video(ugv)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination