CN115860856A - 一种数据处理方法、装置、电子设备及存储介质 - Google Patents
一种数据处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115860856A CN115860856A CN202211447519.5A CN202211447519A CN115860856A CN 115860856 A CN115860856 A CN 115860856A CN 202211447519 A CN202211447519 A CN 202211447519A CN 115860856 A CN115860856 A CN 115860856A
- Authority
- CN
- China
- Prior art keywords
- behavior data
- user
- probability
- online behavior
- computing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 20
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 24
- 230000003993 interaction Effects 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000006399 behavior Effects 0.000 claims description 91
- 238000004364 calculation method Methods 0.000 claims description 39
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000010207 Bayesian analysis Methods 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013477 bayesian statistics method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质,该方法包括:获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据;基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率;根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据;将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率。根据本申请的实施例,能够提升预测效率。
Description
技术领域
本申请属于互联网技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展,消费者行为分析的研究日益兴起。在许多应用中,以评分形式出现的显式反馈通常不易收集,因此数量往在较为有限。此时,利用等隐式反馈行为数据进行用户偏好学习和个性化推荐,就变得非常重要。但是隐式反馈通常不能代表用户的绝对偏好。
因此,目前的推荐算法无法准确高效地确定用户对该物品的喜欢或满意程度。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及存储介质,能够解决目前推荐算法的预测准确性低的问题。
第一方面,本申请实施例提供一种数据处理方法,该方法包括:
获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据;
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率;
根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据;
将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率。
第二方面,本申请实施例提供一种数据处理装置,数据处理装置包括:
第一转换模块,用于获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据;
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率;
根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据;
将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率。
第三方面,本申请实施例提供了一种电子设备,该设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时,实现如第一方面或者第一方面的任一可能实现方式中的方法。
第四方面,本申请实施例提供了一种可读存储介质,该计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面的任一可能实现方式中的方法。
本申请实施例中,通过获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据,基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率,这里,能够初步预测用户对第一对象的正反馈程度,根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据,能够实现数据清洗,减少后续需要进行预测处理的数据量,降低预测成本,提升预测效率。最后,将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率,能够快速准确地预测用户对第二对象产生正反馈的目标概率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种数据处理方法的流程图;
图2是本申请实施例提供的一种数据处理装置的结构示意图;
图3是本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本申请,并不被配置为限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
下面对本申请涉及到的技术术语进行简要介绍。
隐式反馈通常称为单类反馈,因此,基于隐式反馈的推荐问题又称为单类协同过滤(One Class Collaborative Filtering,OCCF)问题。
基于贝叶斯后验优化的个性化排序算法(Bayesian Personalized Ranking,BPR),是一种排序算法,并且使用隐式反馈,如点击行为信息,收藏行为信息等,通过对问题进行贝叶斯分析得到的最大后验概率来对对象进行排序,进而产生推荐。
贝叶斯统计,不同于一般的统计方法,其不仅利用模型信息和数据信息,而且充分利用先验信息。通过实证分析的方法,将贝叶斯预测模型与普通回归预测模型的预测结果进行比较,结果表明贝叶斯预测模型具有明显的优越性。BPR算法将用户对物品的评分(显示反馈“1”,隐式反馈“0”)处理为一个pair对的集合<i,j>,其中i为评分为1的物品,j为评分为0的物品。假设某用户有M个“1”的评分,N个“0”的评分,则该用户共有M*N个pair对。这样数据集就由三元组<u,i,j>表示,该三元组的物理含义为:相对于物品“j”,用户“u”更喜欢物品“i”。
本申请实施例提供的数据处理方法至少可以应用于下述应用场景中,下面进行说明。
近年来,随着大数据的兴起,消费者行为分析的研究方兴未艾,数据库与数据挖掘、信息系统与信息管理、图像处理与计算机视觉、社会网络分析、电子商务等很多领域的学者加人消费者行为研究的队伍。
同时,这一研究领域也受到了电子商务、社交网络等数字经济形态下的企业的高度关注。在这些新兴的领域,消费者行为研究被称为消费者画像,同时在社会计算等研究领域中占有重要的地位。
传统的矩阵分解使用显示反馈通过对用户对物品的评分矩阵进行分解从而预测到用户对于未评分物品的得分,根据这个得分进行推荐。在实际中显示反馈有着较高的准确率,但它往往难以收集,有时候只能使用隐式反馈,它可以通过日志文件很方便的得到。
在许多应用中,以评分形式出现的显式反馈通常不易收集,因此数量往在较为有限。此时,利用购买等隐式反馈行为数据进行用户偏好学习和个性化推荐,就变得非常重要。隐式反馈通常不能代表用户的绝对偏好,例如,一个用户未购买某个物品不一定表示该用户不喜欢这个物品。
又比如,对于一个用户,有的样本是关于他看了什么视频,除了这些视频,剩下的视频不知道他有没有看。不知道不代表用户没有看,也许用户在别的网站看了,也许用户在电视上看了。
因此,目前的推荐算法无法准确高效地确定用户对该物品的喜欢程度或满意程度。
图1是本申请实施例提供的一种数据处理方法的流程图。
如图1所示,该数据处理方法可以包括步骤110-步骤140,该方法应用于数据处理装置,具体如下所示:
步骤110,获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据。
步骤120,基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率。
步骤130,根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据。
步骤140,将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率。
本申请实施例中,通过获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据,基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率,这里,能够初步预测用户对第一对象的正反馈程度,根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据,能够实现数据清洗,减少后续需要进行预测处理的数据量,降低预测成本,提升预测效率。最后,将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率,能够快速准确地预测用户对第二对象产生正反馈的目标概率。
下面,对步骤110-步骤140的内容分别进行描述:
涉及步骤110。
获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据。
其中,线上行为数据包括用户与多个第一对象在线上交互产生的数据,具体可以包括:浏览第一对象产生的数据、评论第一对象产生的数据、收藏第一对象产生的数据和购买第一对象产生的数据等。
涉及步骤120。
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率。
其中,通过基于矩阵分解的方法又称贝叶斯个性化排序算法,来预测用户对未知物品,即第一对象的偏好概率。同时,采用贝叶斯预测模型预测三元组参数来代替随机采样参数的优化BPR算法。
一种可能的实施例中,步骤120,具体可以包括以下步骤:
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象的类别与预设对象的类别一致的第一概率;
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象的类别与预设对象的类别不一致的第二概率;
根据第一概率和第二概率,确定预测信息。
其中,预设对象可以为用户偏好的对象,第一对象的类别与预设对象的类别一致的第二概率是R1,即用户偏好第一对象的概率是R1,第一对象的类别与预设对象的类别不一致的第二概率是R2,即用户不偏好第一对象的概率是R2。
提取出的监测指标特征值表示为:T={t1,t2,t3,……}用户U对未交互物品j评分数据。根据条件概率公式,在满足特征值T的条件下,第一对象的类别与预设对象的类别一致的第一概率为:
其中,P(T|R1)表示在样本集中的偏好子集中出现特征值T的概率,P(T|R1)表示整个样本集中的用户偏好子集所占的比重。
同理,在出现特征值T的条件下疑似偏好被判为R2的概率即第一对象的类别与预设对象的类别不一致的第二概率可以表示为:
其中,P(T|R2)表示在样本集中的正常子集中出现特征值T的概率,P(T|R2)表示整个样本集中的用户不偏好子集所占的比重。
最后,根据第一概率P(R1|T)和第二概率P(R2|T),确定预测信息。
涉及步骤130。
根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据。
一种可能的实施例中,步骤130,具体可以包括以下步骤:
在第一概率大于第二概率的情况下,确定线上行为数据为第二对象对应的线上行为数据。
由于贝叶斯的思想,每一个特征值之间是相互独立的,根据相对独立事件概率的计算出疑似偏好被判为第一概率和第二概率的概率后,比较两个概率的大小,如果P(R1|T)大于P(R2|T),就认为所分析用户U对未交互物品j评分数据偏好;即在第一概率大于第二概率的情况下,确定线上行为数据为第二对象对应的线上行为数据。
如果P(R1|T)不大于P(R2|T),就认为所分析用户U对未交互物品j评分数据不偏好。即在第一概率不大于第二概率的情况下,可以推测用户对第二对象不偏好。
即在第一概率大于第二概率的情况下,可以推测用户对第二对象偏好,在第一概率不大于第二概率的情况下,可以推测用户对第二对象不偏好。
由此,可以将第一概率大于第二概率的第二对象的线上行为数据筛选出来,实现数据清洗的作用,可以将不太可能受到用户偏好的对象的线上行为数据筛选出去,减少后续的预测处理的数据量,降低预测成本,提升预测效率。
涉及步骤140。
将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率。
在将第二对象对应的线上行为数据,输入至预先训练的预测模型中之前,可以先构建预测模型。构建预测模型具体可通过下述步骤实现:
首先,构建偏好假设与预测公式为BPR算法三元数组提供初始参数关系。
将数据库中定义在同一用户的2个第二对象上的成对偏好数据放入公式:
其中,若rui>ruj,则意味着用户u很可能喜欢一个其交互过的物品i∈τu,胜于一个其未交互过的物品j∈τ\τu。与逐点偏好假设中的绝对偏好相比,成对偏好假设中的相对偏好通常更加合理。这种成对偏好假设往往能比逐点偏好假设生成更好的推荐结果。
其次,成对偏好的似然与优化目标为BPR算法三元数组目标函数进行精确与优化。其中,BPR算法优化目标括表示为:
其中,fuij表示定义在一个三元组(u,i,j)上的目标函数(包括损失函数和正则化项);
接着,计算梯度、更新公式与算法流程,以用于为BPR算法三元数组提供必要的运算参数。
有了以上梯度,可以根据如下规则来更新参数:
BPR算法流程,具体可以包括:随机挑选一对(u,i)∈R,随机从j\ju中挑选一个物品j,用预测模型获得的评分偏好j代替随机采用j,并且根据公式5计算梯度,以及根据公式6更新模型参数。
最后,进行参数初始化与超参设置。
具体可以根据数据的统计特征来初始化参数:
Vik=(r-0.5)×0.01,k=1,2,…,d
Uuk=(r-0.5)×0.01,k=1,2,…,d
其中,r是一个随机数,0<=r<1。
一种可能的实施例中,预先训练的预测模型设置于预设服务器,步骤140之前,还可以包括以下步骤:
获取工作线程的饱和度、计算任务饱和度、计算任务的缓冲队列增长速率;工作线程为多个第一设备到预设服务器之间的线程,计算任务中包括至少一个第二对象对应的线上行为数据;
基于预设权重系数,对工作线程的饱和度、计算任务饱和度和缓冲队列增长速率进行加权计算,得到线程池负荷度;
在线程池负荷度大于预设负荷度的情况下,调整工作线程的工作状态信息。
其中,基于预设权重系数,对工作线程的饱和度、计算任务饱和度和缓冲队列增长速率进行加权计算,得到线程池负荷度,具体可以根据下述方式确定:
其中,N是线程池运行时工作线程数,Nmax是设置的最大线程数,描述工作线程的饱和度;Tcur是当前采集时间窗口的任务数,Tpre是上一采集时间窗口的任务数,Q是任务缓冲队列大小,描述当前任务饱和度,描述任务缓冲队列增长速率;ξ是预设权重系数。
对比计算得到的线程池负荷度和预设负荷度ω',在线程池负荷度大于预设负荷度的情况下,调整工作线程的工作状态信息,比如,将负荷不了的计算任务分配至其他线程。在线程池负荷度不大于预设负荷度的情况下,则跳过当前采集时间窗口,即不需要调整工作线程。
在一种可能的实施例中,可以根据第一对象对应的预测信息,为计算任务匹配高频和工作线程,其中,预测信息用于描述用户对第一对象产生正反馈的概率。
这里,通过对未购买物品的偏好概率,即第一对象对应的预测信息从高到低与计算得到的空闲线程多到少的顺序,分配工作线程,用于将第一对象对应的预测信息传递给预测模型进行训练。
这里,可以将用户偏好概率高的对象优先训练,以用于提升训练效率。
一种可能的实施例中,预设服务器包括多个计算节点,步骤140之前,还可以包括以下步骤:
获取多个计算节点的算力信息和时延信息;
根据预测信息、算力信息和时延信息,为计算任务匹配计算节点。
这里,通过第一对象对应的预测信息,计算节点的算力信息和计算节点的时延信息,为计算任务匹配计算节点,能够根据预测信息表示的用户对未知物品偏好概率高低匹配不同空闲算力的计算节点,优化现有BPR算法收敛运算速度慢的问题,并且可以防止任务消耗的算力超过计算节点的空闲算力的情况发生。而且,可以将用户偏好概率高的对象对应的计算任务优先训练,以用于提升训练效率。
其中,上述涉及到的获取多个计算节点的算力信息和时延信息,包括:
获取计算节点的冗余算力、映射比例系数和映射函数;
根据冗余算力、映射比例系数和映射函数,计算算力信息。
其中,根据冗余算力、映射比例系数和映射函数,计算得到算力信息,具体可以根据下述方式确定:
式中,Cbr为总的算力需求,即算力信息;f(x)是映射函数;a、B和y为映射比例系数;q为冗余算力。
以并行计算能力为例,假设有b1、b2、b3;3种不同类型的并行计算芯片资源,则f(bj)表示第j个并行计算芯片b可提供的并行计算能力的映射函数,q2表示并行计算的冗余算力。
这里,能够分别计算每个计算节点的算力信息,以用于为计算任务合理分配计算节点。
其中,多个计算节点包括:边缘计算节点和云数据中心计算节点,其中,上述涉及到的获取多个计算节点的算力信息和时延信息,包括:
获取第一设备到边缘计算节点的第一传输时延、边缘计算节点的处理时延、边缘计算节点和云数据中心计算节点的第二传输时延,以及云数据中心计算节点的计算时延;
根据第一传输时延、处理时延、第二传输时延和计算时延,计算时延信息。
一个计算任务的总时延包括第一设备到边缘计算节点的第一传输时延、边缘计算节点的处理时延、边缘计算节点和云数据中心计算节点的第二传输时延,以及云数据中心计算节点的计算时延,即计算任务在系统中的总时延为:
下面分别进行说明:
涉及第一设备到边缘计算节点的第一传输时延。
假设用户通过无线信道的通信传输接入边缘计算节点。设无线通信链路的数据传输带宽为B,由香农定理可知在有限带宽、噪声干扰的信道环境下,用户i到边缘计算节点的传输时延为:
其中,pi是第i个设备的发送功率;hk,i是第i个用户终端到第k个边缘节点的信道增益,是一个随机的独立同分布变量;σ2是加性高斯白噪声功率。
涉及边缘计算节点的处理时延。
用户任务可根据对计算、网络资源的不同需求,对计算任务进行调度,即一部分放在边缘计算节点进行计算,另一部分卸载到云数据中心计算。λi表示第个用户的计算任务分配给其对应边缘计算节点的比例,λi[0,1]。则1﹣λi,比例的计算任务卸载到云数据中心,用表示第k个边缘计算节点分配给用户i的算力资源。
因此,任务i的边缘计算时延为:
涉及边缘计算节点和云数据中心计算节点的第二传输时延。
假设云数据中心为第k个边缘节点的任务i提供带宽为Wk,i(bit/s)的连接服务,那么边缘节点到云数据中心的传输时延可表示为:
涉及云数据中心计算节点的计算时延。
数据中心分配fi c的计算资源用干计算第i个用户的计算任务,则云数据中心的计算时延表示为:
在无线时域中,时延是衡量系统性能的重要特性之一,可通过云、网、边、端中各段的任务队列长度之和来度量系统的时延特性。考虑边缘节点、云数据中心节点的动态队列特性,系统的平均时延可表示为:
其中,SK(t)为时刻卸载到云数据中心服务器端的计算任务队列。
QK(t)边缘计算节点上存在的任务队列。t表示第t个决策时间。
计算获得算力网络节点到当前模型所在网络节点时延,并分配时延最短且空闲算力多的节点进行模型运算。防止任务消耗的算力超过计算节点空闲算力的情况发生。
本申请提供的数据处理方法中,通过获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据,基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率,这里,能够初步预测用户对第一对象的正反馈程度,根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据,能够实现数据清洗,减少后续需要进行预测处理的数据量,降低预测成本,提升预测效率。最后,将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率,能够快速准确地预测用户对第二对象产生正反馈的目标概率。
基于上述图1所示的数据处理方法,本申请实施例还提供一种数据处理装置,如图2所示,该数据处理装置200可以包括:
获取模块210,用于获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据;
第一确定模块220,用于基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率;
筛选模块230,用于根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据;
第二确定模块240,用于将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率。
在一种可能的实施例中,第一确定模块220,具体用于:
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象的类别与预设对象的类别一致的第一概率;
基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象的类别与预设对象的类别不一致的第二概率;
根据第一概率和第二概率,确定预测信息。
在一种可能的实施例中,筛选模块230,具体用于:
在第一概率大于第二概率的情况下,确定线上行为数据为第二对象对应的线上行为数据。
在一种可能的实施例中,预先训练的预测模型设置于预设服务器,该数据处理装置200还可以包括:
第一获取模块,用于获取工作线程的饱和度、计算任务饱和度、计算任务的缓冲队列增长速率;工作线程为多个第一设备到预设服务器之间的线程,计算任务中包括至少一个第二对象对应的线上行为数据;
加权模块,用于基于预设权重系数,对工作线程的饱和度、计算任务饱和度和缓冲队列增长速率进行加权计算,得到线程池负荷度;
调整模块,用于在线程池负荷度大于预设负荷度的情况下,调整工作线程的工作状态信息。
在一种可能的实施例中,预设服务器包括多个计算节点,该数据处理装置200还可以包括:
第二获取模块,用于获取多个计算节点的算力信息和时延信息;
匹配模块,用于根据预测信息、算力信息和时延信息,为计算任务匹配计算节点。
在一种可能的实施例中,第二获取模块,具体用于:
获取计算节点的冗余算力、映射比例系数和映射函数;
根据冗余算力、映射比例系数和映射函数,计算算力信息。
在一种可能的实施例中,多个计算节点包括:边缘计算节点和云数据中心计算节点,第二获取模块,具体用于:
获取第一设备到边缘计算节点的第一传输时延、边缘计算节点的处理时延、边缘计算节点和云数据中心计算节点的第二传输时延,以及云数据中心计算节点的计算时延;
根据第一传输时延、处理时延、第二传输时延和计算时延,计算时延信息。
本申请实施例,通过获取用户的线上行为数据,线上行为数据包括用户与多个第一对象在线上交互产生的数据,基于贝叶斯个性化排序算法对线上行为数据进行计算,确定第一对象对应的预测信息,预测信息用于描述用户对第一对象产生正反馈的概率,这里,能够初步预测用户对第一对象的正反馈程度,根据预测信息,从线上行为数据中筛选出第二对象对应的线上行为数据,能够实现数据清洗,减少后续需要进行预测处理的数据量,降低预测成本,提升预测效率。最后,将第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定用户对第二对象产生正反馈的目标概率,能够快速准确地预测用户对第二对象产生正反馈的目标概率。
图3示出了本申请实施例提供的一种电子设备的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。在特定实施例中,存储器302包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现图所示实施例中的任意一种数据处理方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以执行本申请实施例中的数据处理方法,从而实现结合图2描述的数据处理方法。
另外,结合上述实施例中的数据处理方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现图1的数据处理方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种数据处理方法,其特征在于,应用于第一设备,所述方法包括:
获取用户的线上行为数据,所述线上行为数据包括所述用户与多个第一对象在线上交互产生的数据;
基于贝叶斯个性化排序算法对所述线上行为数据进行计算,确定所述第一对象对应的预测信息,所述预测信息用于描述所述用户对第一对象产生正反馈的概率;
根据所述预测信息,从所述线上行为数据中筛选出第二对象对应的线上行为数据;
将所述第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定所述用户对所述第二对象产生正反馈的目标概率。
2.根据权利要求1所述的方法,其特征在于,所述基于贝叶斯个性化排序算法对所述线上行为数据进行计算,确定所述第一对象对应的预测信息,包括:
基于所述贝叶斯个性化排序算法对所述线上行为数据进行计算,确定所述第一对象的类别与预设对象的类别一致的第一概率;
基于所述贝叶斯个性化排序算法对所述线上行为数据进行计算,确定所述第一对象的类别与预设对象的类别不一致的第二概率;
根据所述第一概率和所述第二概率,确定所述预测信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述预测信息,从所述线上行为数据中筛选出第二对象对应的线上行为数据,包括:
在所述第一概率大于所述第二概率的情况下,确定所述线上行为数据为所述第二对象对应的线上行为数据。
4.根据权利要求1所述的方法,其特征在于,所述预先训练的预测模型设置于预设服务器,在所述将所述第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定所述用户对所述第二对象产生正反馈的目标概率之前,所述方法还包括:
获取工作线程的饱和度、计算任务饱和度、所述计算任务的缓冲队列增长速率;所述工作线程为多个所述第一设备到所述预设服务器之间的线程,所述计算任务中包括至少一个所述第二对象对应的线上行为数据;
基于预设权重系数,对所述工作线程的饱和度、所述计算任务饱和度和所述缓冲队列增长速率进行加权计算,得到线程池负荷度;
在所述线程池负荷度大于预设负荷度的情况下,调整所述工作线程的工作状态信息。
5.根据权利要求4所述的方法,其特征在于,所述预设服务器包括多个计算节点,在所述将所述第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定所述用户对所述第二对象产生正反馈的目标概率之前,所述方法还包括:
获取所述多个计算节点的算力信息和时延信息;
根据所述预测信息、所述算力信息和所述时延信息,为所述计算任务匹配计算节点。
6.根据权利要求5所述的方法,其特征在于,所述获取多个计算节点的算力信息和时延信息,包括:
获取所述计算节点的冗余算力、映射比例系数和映射函数;
根据所述冗余算力、所述映射比例系数和所述映射函数,计算所述算力信息。
7.根据权利要求5所述的方法,其特征在于,所述多个计算节点包括:边缘计算节点和云数据中心计算节点,所述获取多个计算节点的算力信息和时延信息,包括:
获取所述第一设备到所述边缘计算节点的第一传输时延、所述边缘计算节点的处理时延、所述边缘计算节点和所述云数据中心计算节点的第二传输时延,以及所述云数据中心计算节点的计算时延;
根据所述第一传输时延、所述处理时延、所述第二传输时延和所述计算时延,计算所述时延信息。
8.一种数据处理装置,其特征在于,应用于第一设备,所述数据处理装置包括:
获取模块,用于获取用户的线上行为数据,所述线上行为数据包括所述用户与多个第一对象在线上交互产生的数据;
第一确定模块,用于基于贝叶斯个性化排序算法对所述线上行为数据进行计算,确定所述第一对象对应的预测信息,所述预测信息用于描述所述用户对第一对象产生正反馈的概率;
筛选模块,用于根据所述预测信息,从所述线上行为数据中筛选出第二对象对应的线上行为数据;
第二确定模块,用于将所述第二对象对应的线上行为数据,输入至预先训练的预测模型中,确定所述用户对所述第二对象产生正反馈的目标概率。
9.一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现如权利要求1-7任一项所述数据处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任一项所述数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211447519.5A CN115860856A (zh) | 2022-11-18 | 2022-11-18 | 一种数据处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211447519.5A CN115860856A (zh) | 2022-11-18 | 2022-11-18 | 一种数据处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115860856A true CN115860856A (zh) | 2023-03-28 |
Family
ID=85664143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211447519.5A Pending CN115860856A (zh) | 2022-11-18 | 2022-11-18 | 一种数据处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860856A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739202A (zh) * | 2023-08-15 | 2023-09-12 | 深圳华越南方电子技术有限公司 | 一种电力选路方法、系统、设备及存储介质 |
-
2022
- 2022-11-18 CN CN202211447519.5A patent/CN115860856A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739202A (zh) * | 2023-08-15 | 2023-09-12 | 深圳华越南方电子技术有限公司 | 一种电力选路方法、系统、设备及存储介质 |
CN116739202B (zh) * | 2023-08-15 | 2024-01-23 | 深圳华越南方电子技术有限公司 | 一种电力选路方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Time-aware cloud service recommendation using similarity-enhanced collaborative filtering and ARIMA model | |
CN109902708B (zh) | 一种推荐模型训练方法及相关装置 | |
US11551239B2 (en) | Characterizing and modifying user experience of computing environments based on behavior logs | |
CN111226238B (zh) | 一种预测方法及终端、服务器 | |
US20190294975A1 (en) | Predicting using digital twins | |
US10031945B2 (en) | Automated outlier detection | |
US11775412B2 (en) | Machine learning models applied to interaction data for facilitating modifications to online environments | |
CN107590243A (zh) | 基于随机游走和多样性图排序的个性化服务推荐方法 | |
US11621892B2 (en) | Temporal-based network embedding and prediction | |
US9269055B2 (en) | Data classifier using proximity graphs, edge weights, and propagation labels | |
CN110263824A (zh) | 模型的训练方法、装置、计算设备及计算机可读存储介质 | |
CN111814056A (zh) | 基于信息处理的供应商推荐方法及相关设备 | |
CN111783810A (zh) | 用于确定用户的属性信息的方法和装置 | |
CN112131274B (zh) | 时间序列异常点的检测方法、装置、设备及可读存储介质 | |
CN114925270B (zh) | 一种会话推荐方法和模型 | |
Xie et al. | Item similarity learning methods for collaborative filtering recommender systems | |
CN115860856A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN118043802A (zh) | 一种推荐模型训练方法及装置 | |
CN111510473B (zh) | 访问请求处理方法、装置、电子设备和计算机可读介质 | |
Almomani et al. | Selecting a good stochastic system for the large number of alternatives | |
Sagaama et al. | Automatic parameter tuning for big data pipelines with deep reinforcement learning | |
CN115730152A (zh) | 基于用户画像分析的大数据处理方法及大数据处理系统 | |
CN112541129B (zh) | 处理交互事件的方法及装置 | |
US11481267B2 (en) | Reinforcement learning approach to root cause analysis | |
CN114329231A (zh) | 对象特征处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |