CN117874321A - 一种预测模型的确定方法和相关装置 - Google Patents

一种预测模型的确定方法和相关装置 Download PDF

Info

Publication number
CN117874321A
CN117874321A CN202211213604.5A CN202211213604A CN117874321A CN 117874321 A CN117874321 A CN 117874321A CN 202211213604 A CN202211213604 A CN 202211213604A CN 117874321 A CN117874321 A CN 117874321A
Authority
CN
China
Prior art keywords
click
historical
model
scene
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211213604.5A
Other languages
English (en)
Inventor
陈煜钊
罗达
黄春振
林康熠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202211213604.5A priority Critical patent/CN117874321A/zh
Publication of CN117874321A publication Critical patent/CN117874321A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种预测模型的确定方法和相关装置,涉及人工智能、机器学习等领域,将场景偏好对预测点击概率的影响分散到点击率预估主模型和偏差步骤辅模型中,在实际预测过程中,可以利用承载部分场景偏好信息影响的点击率预估主模型进行点击概率的计算,而不采用承载另一部分场景偏好信息影响的偏差捕捉辅模型的预测结果,得到的点击概率保留了部分场景偏好信息的影响,实现了对场景偏好信息的纠偏,更好的实现基于对象的内容进行点击概率预测,且不会忽视场景偏好信息对点击概率的影响,能够得到更好的匹配用户点击意向的预测结果,提高点击概率的准确性。

Description

一种预测模型的确定方法和相关装置
技术领域
本申请涉及数据处理领域,特别是涉及一种预测模型的确定方法和相关装置。
背景技术
随着基于互联网技术的电子商务、社交媒体平台的快速发展,推荐系统已经成为很多企业不可或缺的工具。如何从海量的待推荐对象中挖掘具有用户最可能感兴趣的内容的对象,提升内容推荐的准确性成为对象推荐的核心问题,待推荐对象可以为文章、视频等。
目前的推荐系统,可以基于用户的消费行为确定推荐系统,利用推荐系统为用户推荐合适的对象,构成“系统推荐-用户点击行为-后台记录数据-系统推荐”的闭环,实际上,针对不同用户,其对待推荐对象的场景类别具有不同的偏好,例如对来自公众号类别的文章具有较大的兴趣,而对来自视频号类别的视频具有较小的兴趣,这种场景偏好在一定程度上影响对象的推荐结果,使用户偏好的场景类别获得等多的推荐流量,而在前述的闭环中,这种场景偏好特性将被记录并放大,容易导致推荐算法学习到有偏的点击预测结果,而降低对象的内容对推荐结果的影响。
发明内容
为了解决上述技术问题,本申请提供了一种预测模型的确定方法和相关装置,在进行对象推荐时,保留部分场景偏好信息,缓解场景偏好特性被积累放大的问题,提高对象推荐的准确性。
本申请实施例公开了如下技术方案:
一方面,本申请提供一种预测模型的确定方法,所述方法包括:
获取样本数据和所述样本数据的标签,所述样本数据包括历史对象的对象特征和历史用户的场景偏好信息,所述样本数据的标签用于指示所述历史用户对所述历史对象的点击信息;
将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,将所述历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到所述历史用户对所述历史对象的第二点击概率;
根据所述第一点击概率和所述第二点击概率,确定所述历史用户针对所述历史对象的预测点击概率;
基于所述预测点击概率和所述样本数据的标签构建损失函数;
利用所述损失函数对所述点击率预估主模型和所述偏差捕捉辅模型进行训练,使所述点击率预估主模型转化为预测模型,所述预测模型用于针对目标数据进行点击概率的计算。
另一方面,本申请提供一种预测模型的确定装置,所述装置包括:
数据获取单元,用于获取样本数据和所述样本数据的标签,所述样本数据包括历史对象的对象特征和历史用户的场景偏好信息,所述样本数据的标签用于指示所述历史用户对所述历史对象的点击信息;
模型计算控制单元,用于将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,将所述历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到所述历史用户对所述历史对象的第二点击概率;
概率计算单元,用于根据所述第一点击概率和所述第二点击概率,确定所述历史用户针对所述历史对象的预测点击概率;
损失函数构建单元,用于基于所述预测点击概率和所述样本数据的标签构建损失函数;
训练单元,用于利用所述损失函数对所述点击率预估主模型和所述偏差捕捉辅模型进行训练,使所述点击率预估主模型转化为预测模型,所述预测模型用于针对目标数据进行点击概率的计算。
可选的,所述偏差捕捉辅模型包括全连接层,所述全连接层的总层数小于所述点击率预估主模型的总层数。
可选的,所述偏差捕捉辅模型包括一层全连接层。
可选的,所述场景偏好信息包括多个场景类别对应的场景点击信息,所述多个场景类别包括所述历史对象对应的场景类别,所述场景点击信息根据历史用户在第一预设时间段内分别对多个场景类别对应的对象的点击信息确定。
可选的,所述历史对象的对象特征包括所述历史对象的场景类别,或所述历史对象的对象特征包括所述历史对象的场景类别和所述历史对象的内容特征,所述历史对象对应的场景类别用于指示所述历史对象所属内容平台的类别;
所述样本数据还包括所述历史用户的内容偏好信息、所述历史对象的综合点击信息、所述历史对象所属内容平台的综合点击信息中的至少一个;所述历史对象的综合点击信息根据所述历史对象在第二预设时间段内的点击信息确定,所述历史对象所属内容平台的综合点击信息根据所述历史对象所属内容平台发出的对象在第二预设时间段内的点击信息确定。
可选的,所述样本数据具有统一数据位;
所述历史对象的内容特征置于所述统一数据位中与所述内容特征对应的第一数据位,所述历史对象对应的场景类别置于所述统一数据位中与所述场景类别对应的第二数据位,所述历史用户的内容偏好信息置于所述统一数据位中与所述内容偏好信息对应的第三数据位,所述历史对象的综合点击信息置于所述统一数据位中与对象点击信息对应的第四数据位,所述历史对象所属内容平台的综合点击信息置于第五数据位中与所述历史物品对应的场景类别对应的子数据位,所述第五数据位为所述统一数据位中与平台点击信息对应的数据位,所述历史用户的场景偏好信息置于所述统一数据位中与场景偏好信息对应的第六数据位。
可选的,所述装置还包括:
预测数据获取单元,用于获取分别与多个待推荐对象对应的多个所述目标数据;
预测概率计算单元,用于通过所述预测模型分别得到多个所述目标数据对应的多个点击概率;
展示顺序确定单元,用于基于多个所述目标数据对应的多个点击概率,确定多个所述目标数据对应的待推荐对象的展示顺序。
可选的,所述装置还包括:
更新数据获取单元,用于根据所述目标用户对展示的所述多个待推荐对象中的目标对象的点击行为,得到更新的样本数据和更新的样本数据的标签;
模型更新单元,用于通过所述更新的样本数据和所述更新的样本数据的标签,基于包括所述点击率预估主模型和所述偏差捕捉辅模型的模型结构,更新所述预测模型。
可选的,所述历史对象的对象特征包括所述历史对象对应的场景类别,所述历史对象对应的场景类别用于指示所述历史对象所属内容平台的类别或所述历史对象的内容表现类别,所述历史对象所属内容平台的类别包括公众号类别或视频号类别,所述历史对象的内容表现类别包括文章类别或视频类别。
另一方面,本申请提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行上述方面所述的预测模型的确定方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的预测模型的确定方法。
另一方面,本申请实施例提供了一种包括计算机程序的计算机程序产品,当其在计算机设备上运行时,使得所述计算机设备执行所述的预测模型的确定方法。
由上述技术方案可以看出,通过获取样本数据和样本数据的标签,样本数据包括历史对象的对象特征和历史用户的场景偏好信息,样本数据的标签用于指示历史用户对历史对象的点击信息,利用包含场景偏好信息的样本数据作为点击率预估主模型的输入数据,点击率预估主模型根据样本数据确定第一点击概率,利用场景偏好信息作为偏差捕捉辅模型的输入数据,偏差捕捉辅模型根据历史用户的信息源偏好确定第二点击概率,利用第一点击概率和第二点击概率得到预测点击概率,由于历史用户的场景偏好信息同时被输入到点击率预估主模型和偏差捕捉辅模型,从而将场景偏好对预测点击概率的影响分散到点击率预估主模型和偏差步骤辅模型中,使点击率预估主模型承载部分场景偏好信息影响,偏差捕捉辅模型承载部分场景偏好信息影响。
之后利用预测点击概率和样本数据的标签构建损失函数,并基于损失函数对点击率预估主模型和偏差捕捉辅模型进行训练,训练完成后,点击率预估主模型转化为预测模型,预测模型具有场景偏好信息的运算能力,这样在实际预测过程中,可以利用承载部分场景偏好信息影响的点击率预估主模型进行点击概率的计算,而不采用承载另一部分场景偏好信息影响的偏差捕捉辅模型的预测结果,得到的点击概率保留了部分场景偏好信息的影响,相比于保留全部偏好信息的影响而言降低了场景偏好信息的积累,实现了对场景偏好信息的纠偏,更好的实现基于对象的内容进行点击概率预测,相比于不保留场景偏好信息的影响而言,不会忽视场景偏好信息对点击概率的影响,能够得到更好的匹配用户点击意向的预测结果,提高点击概率的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种预测模型的确定方法的应用场景示意图;
图2为本申请实施例提供的一种预测模型的确定方法的流程图;
图3为本申请实施例提供的一种样本数据的示意图;
图4为本申请实施例提供的一种模型结构的示意图;
图5为本申请实施例提供的一种实际预测过程示意图;
图6为本申请实施例提供的一种模型更新示意图;
图7为本申请实施例提供的一种预测模型的确定装置的结构框图;
图8为本申请实施例提供的一种终端设备的结构图;
图9为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
目前,用户的场景偏好在一定程度上影响对象的推荐结果,基于消费行为确定的推荐系统中,用户的场景偏好特性被记录并放大,容易导致推荐算法学习到有偏的点击概率预测结果,而降低对象的内容对推荐结果的影响。
为了解决上述技术问题,本申请实施例提供了一种预测模型的确定方法和相关装置,将场景偏好对预测点击概率的影响分散到点击率预估主模型和偏差步骤辅模型中,使点击率预估主模型承载部分场景偏好信息影响,偏差捕捉辅模型承载部分场景偏好信息影响。在实际预测过程中,可以利用承载部分场景偏好信息影响的点击率预估主模型进行预测点击概率的计算,而不采用承载另一部分场景偏好信息影响的偏差捕捉辅模型的预测结果,得到的预测点击概率保留了部分场景偏好信息的影响,更好的实现基于对象的内容进行点击概率预测,且得到的点击概率较好的匹配用户点击意向,具有更高的准确性。
本申请实施例提供的一种预测模型的确定方法是基于人工智能(ArtificialIntelligence,AI)实现的,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述机器学习/深度学习等方向。例如,可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network,ANN)。
本申请实施例所提供的预测模型的确定方法可以通过计算机设备实施,该计算机设备可以是终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该具有数据处理的计算机设备具备机器学习能力,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、车联网、自动驾驶、智慧交通等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
可以理解的是,在本申请的具体实施方式中,涉及到用户的场景偏好信息、内容偏好信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
为了便于理解本申请提供的技术方案,接下来,将结合一种实际应用场景,对本申请实施例提供的一种预测模型的确定方法进行介绍。
参见图1,图1为本申请实施例提供的一种预测模型的确定方法的应用场景示意图。在图1所示的应用场景中,包括服务器10,用于确定预测模型,预测模型用于进行点击概率的计算。
服务器10可以获取样本数据和样本数据的标签,样本数据包括历史对象的对象特征和历史用户的场景偏好信息,历史对象的对象特征用于描述历史对象的内容和属性的至少一种,样本数据的标签用于指示历史用户对历史对象的点击信息。
服务器10在获取样本数据和样本数据的标签之后,可以利用包含场景偏好信息的样本数据作为点击率预估主模型的输入数据,点击率预估主模型根据样本数据确定第一点击概率,并利用场景偏好信息作为偏差捕捉辅模型的输入数据,偏差捕捉辅模型根据历史用户的信息源偏好确定第二点击概率。之后可以利用第一点击概率和第二点击概率得到预测点击概率,由于历史用户的场景偏好信息同时被输入到点击率预估主模型和偏差捕捉辅模型,从而将场景偏好对预测点击概率的影响分散到点击率预估主模型和偏差步骤辅模型中,使点击率预估主模型承载部分场景偏好信息影响,偏差捕捉辅模型承载部分场景偏好信息影响。
之后,服务器10可以利用预测点击概率和样本数据的标签构建损失函数,并基于损失函数对包括点击率预估主模型和偏差捕捉辅模型的模型结构进行训练,训练完成后,点击率预估主模型转化为预测模型,预测模型具有场景偏好信息的运算能力,这样在实际预测过程中,可以利用承载部分场景偏好信息影响的点击率预估主模型进行点击概率的计算,而不采用承载另一部分场景偏好信息影响的偏差捕捉辅模型的预测结果,得到的点击概率保留了部分场景偏好信息的影响,相比于保留全部偏好信息的影响而言降低了场景偏好信息的积累,更好的实现基于对象的内容进行对象点击概率预测,相比于不保留场景偏好信息的影响而言,不会忽视场景偏好信息对点击概率的影响,能够得到更符合用户点击意向的预测结果,提高点击概率的准确性。
接下来,将结合附图,对本申请实施例提供的一种预测模型的确定方法进行介绍。
参见图2,图2为本申请实施例提供的一种预测模型的确定方法的流程图,该方法包括:
S101,获取样本数据和样本数据的标签。
本申请实施例中,可以利用预测模型进行点击概率的计算,具体的,可以根据待推荐对象的信息和目标用户的信息,计算目标用户对待推荐对象的点击概率,该点击概率越高,目标用户点击待推荐对象的可能性越大,则点击概率较高的待推荐对象可以被推荐给目标用户,且可以位于推荐对象列表的靠前位置,而点击概率较低的待推荐对象可以不被推荐给目标用户,或者位于推荐对象列表的末尾位置。推荐对象列表可以通过订阅号消息盒子、推送的消息卡片等形式显示。
待推荐对象可以为文章或视频等,文章中可以具有文字、图像、链接和视频等中的至少一种,视频中可以具有文字、链接等。待推荐对象具有对应的场景类别,待推荐对象对应的场景类别用于指示待推荐对象所属内容平台的类别或待推荐对象的内容表现类别,具体的,待推荐对象对应的场景类别为待推荐所属内容平台的类别或待推荐对象的内容表现类别,待推荐对象所属内容平台例如某一公众号或某一视频号等,相应的待推荐对象所属内容平台的类别例如公众号类别或视频号类别等,待推荐对象的内容表现类别例如文章类别或视频类别等。
举例来说,公众号A作为属于公众号类别的内容平台,发布的名称为“aaa”的文章可以作为待推荐对象,该待推荐对象所属内容平台为公众号A,该待推荐对象所属内容平台的类别为公众号类别,该待推荐对象的内容表现类别为文章类别,则该待推荐对象对应的场景类别为公众号类别或文章类别;视频号B作为属于视频号类别的内容平台,发布的名称为“bbb”的视频可以作为待推荐对象,该待推荐对象所属内容平台为视频号B,该待推荐对象所属内容平台的类别为视频号类别,该待推荐对象的内容表现类别为视频类别,则该待推荐对象对应的场景类别为视频号类别或视频类别。
由于不同用户针对同一场景类别可以有不同的偏好,同一用户针对不同场景类别也可以有不同的偏好,因此待推荐对象对应的场景类别,影响目标用户对待推荐对象的点击概率的计算,则用于对待推荐对象的点击概率进行预测的预测模型,可以基于用户的场景偏好信息进行训练。
本申请实施例中,可以获取样本数据和样本数据的标签,样本数据和样本数据的标签可以作为训练数据进行模型训练以得到预测模型,其中样本数据可以作为模型输入,样本数据的标签用于构建损失函数。具体的,样本数据的标签用于指示历史用户对历史对象的点击信息,历史用户对历史对象的点击信息包括历史用户对历史对象存在点击行为或不存在点击行为,存在点击行为时样本数据的标签可以为第一标识,不存在点击行为时样本数据的标签可以为第二标识,第一标识例如可以为“1”,第二标识例如可以为“0”。
具体的,样本数据包括历史对象的对象特征和历史用户的场景偏好信息,历史对象可以为文章或视频等,文章中可以具有文字、图像、链接和视频等中的至少一种,视频中可以具有文字、链接等。历史对象的对象特征用于描述历史对象的内容和属性中的至少一个,历史用户的场景偏好信息可以体现历史用户对历史对象对应的场景类别的偏好程度。
历史对象可以具有对应的场景类别,作为历史对象的属性,则历史对象的对象特征可以包括历史对象对应的场景类别,历史对象对应的场景类别用于指示历史对象所属内容平台的类别或历史对象的内容表现类别,历史对象所属内容平台的类别例如公众号类别或视频号类别,历史对象的内容表现类别例如文章类别或视频类别等。具体的,历史对象对应的场景类别为历史所属内容平台的类别或历史对象的内容表现类别,历史对象所属内容平台例如某一公众号或某一视频号等,相应的历史对象所属内容平台的类别例如公众号类别或视频号类别等,历史对象的内容表现类别例如文章类别或视频类别等。举例来说,公众号C作为公众号类别的内容平台,发布的名称为“ccc”的文章可以作为历史对象,该历史对象所属内容平台为公众号C,该历史对象所属内容平台的类别为公众号类别,该历史对象的内容表现类别为文章类别,则该历史对象对应的场景类别为公众号类别或文章类别。
历史用户的场景偏好信息可以体现历史用户对历史对象对应的场景类别的偏好程度,例如历史用户的场景偏好信息包括历史用户对历史对象对应的场景类别的偏好值,或历史用户的场景偏好信息包括多个场景类别对应的场景点击信息,多个场景类别包括历史对象对应的场景类别,场景点击信息根据历史用户在第一预设时间段内分别对多个场景类别对应的对象的点击信息确定,这样多个场景类别对应的场景点击信息可以体现历史用户的场景偏好。
其中,以上点击信息例如点击次数(Clicks)、点击率(Click Through Rate,CTR)、点击天数和阅读时长中的至少一个,点击次数越多、点击率越高、点击天数越多、阅读时长越长,说明历史用户对该场景类别的偏好程度越高。第一预设时间段可以为过去28天、一周、一月、90天等。其中点击率可以通过点击次数和曝光次数(Impressions)体现,即点击信息可以包括点击次数和曝光次数从而体现点击率,具体的,点击率=点击次数/曝光量*100%。点击率还可以通过点击天数和曝光天数体现,即点击信息可以包括点击天数和曝光天数从而体现点击率,具体的,点击率=点击天数/曝光天数*100%。
历史用户对某场景类别的偏好程度可以根据该场景类别的点击信息与历史用户对各个场景类别的点击信息确定,例如可以为该场景类别的点击次数与历史用户对各个场景类别的总点击次数的比值。举例来说,第一预设时间段为过去一个月,历史用户对公众号类别的点击次数为30,对视频号类别的点击次数为10,则可以认为历史用于对公众号类别的偏好程度为30/(30+10)=75%,历史用户对视频号类别的偏好程度为10/(30+10)=25%。
此外,样本数据还可以包括历史用户的内容偏好信息,用于体现历史用户对历史对象的内容的偏好程度,内容偏好信息可以包括历史用户感兴趣的兴趣标签,例如“体育”、“新闻”等,或者内容偏好信息可以利用兴趣标签和偏好程度表示,例如兴趣标签“新闻”对应的偏好程度为80%,兴趣标签“体育”对应的偏好程度为20%。历史对象的对象特征还可以包括历史对象的内容特征,表征历史对象的内容,即历史对象的对象特征可以包括历史对象对应的场景类别,或历史对象的对象特征可以包括历史对象的场景类别和历史对象的内容特征,历史对象的内容特征例如“体育”、“新闻”等,在历史用户的内容偏好信息和历史对象的内容特征匹配时,历史用户对历史对象的兴趣较高,历史用户对历史对象的点击概率较高。
样本数据还可以包括历史对象的综合点击信息和历史对象所属内容平台的综合点击信息中的至少一个,历史对象的综合点击信息用于体现历史对象的热度,可以一定程度上反应历史对象的价值,历史对象所属内容平台的综合点击信息用于体现历史对象所属内容平台的热度,可以在一定程度上反应历史对象所属内容平台的热度。历史对象所属内容平台的类别通过历史物品对应的场景类别所指示,历史对象的综合点击信息根据历史对象在第二预设时间段内的点击信息确定,历史对象所属内容平台的综合点击信息根据历史对象所属内容平台发出的对象在第二预设时间段内的点击信息确定。
其中,以上点击信息例如点击次数、点击率、点击天数和阅读时长中的至少一个,第二预设时间段可以为过去28天、一周、一月、90天等。其中点击率可以通过点击次数和曝光次数(Impressions)体现,即点击信息可以包括点击次数和曝光次数从而体现点击率,具体的,点击率=点击次数/曝光量*100%。点击率还可以通过点击天数和曝光天数体现,即点击信息可以包括点击天数和曝光天数从而体现点击率,具体的,点击率=点击天数/曝光天数*100%。以历史对象为公众号C发出的文章“ccc”为例,历史对象所属内容平台为公众号C,第二预设时间段为过去一个月,文章“ccc”的综合点击信息根据文章“ccc”在过去一个月之内的点击率确定,公众号C的综合点击信息根据公众号C发出的对象在过去一个月之内的点击率确定。
此外,样本数据中还可以包括历史用户的用户标识和历史对象的对象标识中的至少一种,历史用户的用户标识用于唯一标识历史用户,历史对象的对象标识用于唯一标识历史对象,历史用户的用户标识例如历史用户的用户ID,历史对象的对象标识例如历史对象的对象ID。
本申请实施例中,样本数据可以具有统一数据位,该统一数据位适用于多个样本数据,样本数据的各项内容对应有数据位,使该部分内容可以填充到统一数据位中的相应的数据位,利于来自不同内容平台的历史对象对应的样本数据被统一处理。在历史对象的对象特征包括历史对象的内容特征时,历史对象的内容特征可以置于统一数据位中与内容特征对应的第一数据位;在历史对象的对象特征包括历史对象的场景类别时,历史对象对应的场景类别可以置于统一数据位中与场景类别对应的第二数据位;历史用户的内容偏好信息可以置于统一数据位中与内容偏好信息对应的第三数据位;在样本数据包括历史对象的综合点击信息时,历史对象的综合点击信息可以置于统一数据位中与对象点击信息对应的第四数据位;在样本数据包括历史对象所属内容平台的综合点击信息时,历史对象所属内容平台的综合点击信息可以置于第五数据位中与历史物品对应的场景类别对应的子数据位,第五数据位为统一数据位中与平台点击信息对应的数据位;历史用户的场景偏好信息可以置于统一数据位中与场景偏好信息对应的第六数据位。此外,历史用户的用户ID可以置于统一数据位中与用户ID对应的第七数据位,历史对象的对象ID可以置于统一数据位中与对象ID对应的第八数据位。
其中,历史用户的场景偏好信息包括多个场景类别对应的场景点击信息时,各个场景类别对应的场景点击信息可以分别置于第六数据位中与各个场景类别对应的子数据位。此外,在样本数据包括历史对象所属内容平台的综合点击信息时,第五数据位还包括其他场景类别对应的子数据位,其他场景类别为与历史物品对应的场景类别不同的场景类别,其他场景类别对应的子数据位可以具有预设填充数据,预设填充数据例如为全零数据。
需要说明的是,以上“第一数据位”、“第二数据位”、“第三数据位”、“第四数据位”、“第五数据位”和“第六数据位”可以具有任意顺序,例如第三数据位可以位于第一数据位之前,也可以位于第一数据位之后,等等。
举例来说,样本数据包括历史对象的对象特征、历史用户的内容偏好信息、历史用户的场景偏好信息和历史对象所属内容平台的综合点击信息,其中历史对象的对象特征包括历史对象对应的场景类别,则样本数据的统一数据位包括场景类别对应的第二数据位、内容偏好信息对应的第三数据位、平台点击信息对应的第五数据位和场景偏好信息对应的第六数据位,分别用于放置历史对象的场景类别、历史对象的内容偏好信息、历史对象所属平台的综合点击信息和历史对象的场景偏好信息的相关数据。以场景类别包括公众号类别和视频号类别为例,第五数据位包括与公众号类别对应的第一子数据位和与视频号类别对应的第二子数据位,第六数据位包括与公众号类别对应的第三子数据位和与视频号类别对应的第四子数据位。
参考图3所示,为本申请实施例提供的一种样本数据的示意图,其中依次包括内容偏好信息对应的第三数据位、平台点击信息对应的第五数据位、场景偏好信息对应的第六数据位和场景类别对应的第二数据位,其中第五数据位中具有与公众号类别对应的第一子数据位和与视频号类别对应的第二子数据位,第六数据位包括与公众号类别对应的第三子数据位和与视频号类别对应的第四子数据位。历史用户的内容偏好信息例如为“体育”,则“体育”对应的数据可以置于第三数据位;历史用户的场景偏好信息中,针对公众号类别的点击次数例如“20”可以置于第三子数据位,针对视频号类别的点击次数例如“5”可以置于第四子数据位;历史物品的场景类别“公众号类别”的标识数据可以置于第二数据位;历史物品的场景类别为公众号类别时,历史物品所属内容平台(例如公众号C)的点击率例如80%可以置于第一子数据位,第二子数据位被置零。当然,图3中各个数据位中的内容仅作为一种示例,实际上,可以根据实际情况而对其形式和内容有所调整。
S102,将样本数据作为输入数据,通过点击率预估主模型得到历史用户对历史对象的第一点击概率,将历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到历史用户对历史对象的第二点击概率。
在基于用户的消费行为确定推荐系统,利用推荐系统为用户推荐合适的对象时,可以形成“系统推荐-用户点击行为-后台记录数据-系统推荐”的闭环,若推荐系统包括单个模型,而该模型利用样本数据和样本数据的标签作为训练数据,则该推荐系统中场景偏好信息将被记录和放大,容易导致推荐算法学习到有偏的点击预估结果,而降低待推荐对象的内容的影响。具体来说,用户对特定场景类别的偏好(或厌恶)会被数据记录而进一步被模型捕捉,使得特定场景类别的对象被赋予更多(或更少)推荐流量,而且这种偏差会随着时间推移而加剧,长此以往,当另一场景出现更优质对象时,模型对该对象的预估点击率分数仍会很低,从而在整个系统中失去为用户推荐更多样化、更优质内容的对象的机会。
基于此,可以利用点击率预估主模型进行样本数据中除场景偏好信息之外的其他数据的处理得到点击概率预测结果,设置额外的偏差捕捉辅模型来单独处理场景偏好信息,基于场景偏好信息输出点击概率预测结果,使点击率预估主模型不承载场景偏好信息影响,而只有偏差捕捉辅模型承载场景偏好信息影响,之后将两个模型输出的点击概率预测结果相加得到最终的预估结果,结合最终的预估结构和样本数据的标签构建损失函数,基于该损失函数训练点击率预估主模型和偏差捕捉辅模型。在实际预测过程中,仅利用点击率预估主模型进行点击概率预测,而不使用偏差捕捉辅模型的预估结果,这样可以实现场景偏好信息的去除,消除了场景偏好信息的积累导致的场景偏差,更好的基于对象的内容进行点击概率预测。然而如果简单的去除承载场景偏好信息影响的偏差捕捉辅模型的预估结果,只保留不承载场景偏好信息影响的点击率预估主模型的预估结果,会导致场景偏好信息的缺失,不能更好的匹配用户的偏好,降低点击概率的预测准确性。
本申请实施例中,可以构建包括点击率预估主模型和偏差捕捉辅模型的模型结构,参考图4,为本申请实施例提供的一种模型结构的示意图。其中,点击率预估主模型可以为机器学习模型,具体的可以为神经网络模型,例如因子分解机(Factorization Machine,FM),特征域感知因子分解机(Field-aware Factorization Machines,FFM),深度神经网络(Deep Neural Network,DNN)及其演化改进模型等。
本申请实施例中,可以将样本数据作为输入数据,通过点击率预估主模型得到历史用户对历史对象的第一点击概率,将历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到历史用户对历史对象的第二点击概率,参考图4,由于历史用户的场景偏好信息同时被输入到点击率预估主模型和偏差捕捉辅模型,从而将场景偏好对预测点击概率的影响分散到点击率预估主模型和偏差步骤辅模型中,使点击率预估主模型承载部分场景偏好信息影响,偏差捕捉辅模型承载部分场景偏好信息影响。
样本数据作为点击率预估主模型的输入数据,则点击率预估主模型可以对样本数据进行处理得到第一点击概率,第一点击概率记为pCTR,是历史用户基于历史对象的内容和场景类别对历史对象进行点击的可能性。具体的,将样本数据作为输入数据,可以通过点击率预估主模型对包括历史对象的对象特征的稀疏特征(sparse features)进行嵌入(embedding)映射,得到第一连续特征(dense embeddings),对第一连续特征和包括历史用户的场景偏好信息的第二连续特征(dense features)进行拼接,得到完整连续特征,之后,根据完整连续特征得到历史用户对历史对象的第一点击概率,参考图4。稀疏特征例如可以包括用户ID、对象ID、历史对象的内容特征、历史对象对应的场景类别、历史用户的内容偏好信息等,第二连续特征还可以包括历史对象的综合点击信息、历史对象所属内容平台的综合点击信息、历史用户的场景偏好信息等。第一连续特征和第二连续特征均为实数域的数值型特征,第一连续特征为低维特征。点击率预估主模型可以包括多隐层(hiddenlayers),多隐层的输入可以为完整连续特征,多隐层的输入可以为第一点击概率,参考图4。
将历史用户的场景偏好信息作为输入数据,则偏差捕捉辅模型可以对场景偏好信息进行处理,得到历史用户对历史对象的第二点击概率,第二点击概率记为biasCTR,是历史用户仅由于场景偏好(与历史对象的内容无关)而对历史对象进行点击的可能性。具体的,偏差捕捉辅模型可以包括全连接层,全连接层的总层数小于点击率预估主模型的总层数。由于全连接层的层数较少,可以增加输入场景偏好信息对最终预测概率的影响权重,将场景偏好信息影响更多的偏向偏差捕捉辅模型,降低整体模型对这部分特征的过拟合风险。具体实施时,偏差捕捉辅模型的层数可以小于或等于点击率预估主模型的总层数的三分之一,以更好的分散场景偏好信息影响。例如偏差捕捉辅模型可以包括一层全连接层,参考图4,进一步增加输入场景偏好信息对最终预测概率的影响权重,降低整体模型对这部分特征的过拟合风险。
S103,根据第一点击概率和第二点击概率,确定历史用户针对历史对象的预测点击概率。
由于第一点击概率是历史用户基于历史对象的内容和场景类别对历史对象进行点击的可能性,第二点击概率是历史用户仅由于场景偏好而对历史对象进行点击的可能性,根据第一点击概率和第二点击概率可以确定历史用户针对历史对象的预测点击概率,参考图4,预测点击概率记为CTR。其中预测点击概率可以为第一点击概率和第二点击概率之和,即预测点击概率CTR=第一点击概率pCTR+第二点击概率biasCTR;或者,可以为第一点击概率确定第一权重,为第二点击概率确定第二权重,将第一点击概率与第一权重的乘积作为第一结果,将第二点击概率和第二权重的乘积作为第二结果,将第一结果和第二结果之和作为预测点击概率。
S104,基于预测点击概率和样本数据的标签构建损失函数。
由于历史用户针对历史对象的预测点击概率是模型结构基于样本数据进行预测得到的,而样本数据的标签指示历史用户对历史对象的点击信息,则预测点击概率与样本数据的标签所指示的点击信息越匹配,说明模型结构的点击概率预测越准确,因此可以基于历史用户针对历史对象的预测点击概率和样本数据的标签构建损失函数,损失函数体现预测点击概率和点击信息的差异。具体的,可以将历史用户针对历史物品的预测点击概率和样本数据的标签的交叉熵作为损失函数。
S105,利用损失函数对点击率预估主模型和偏差捕捉辅模型进行训练,使点击率预估主模型转化为预测模型,预测模型用于针对目标数据进行点击概率的计算。
由于损失函数可以体现预测点击概率和点击信息的差异,则可以利用损失函数对点击率预估主模型和偏差捕捉辅模型进行训练,以最小化损失函数,该训练过程可以为基于反向传播算法的同步训练。在完成训练后,说明模型结构具有较准确的点击概率预测能力,此时点击率预估主模型转化为预测模型,预测模型具有场景偏好信息的运算能力,这样在实际预测过程中,可以利用承载部分场景偏好信息影响的点击率预估主模型进行点击概率的计算,而不采用承载另一部分场景偏好信息影响的偏差捕捉辅模型的预测结果,得到的点击概率保留了部分场景偏好信息的影响,更好的权衡了“去除场景偏差”和“记忆用户的场景偏好”两者的关系,相比于保留全部偏好信息的影响而言降低了场景偏好信息的积累,实现了对场景偏好信息的纠偏,更好的实现基于对象的内容进行点击概率预测,相比于不保留场景偏好信息的影响而言,不会忽视场景偏好信息对点击概率的影响,能够得到更好的匹配用户点击意向的预测结果,提高点击概率的准确性。
具体的,在实际预测过程中,可以将目标数据输入预测模型,得到目标用户对待推荐对象的点击概率,其中目标数据可以包括待推荐对象对应的场景类别和目标用户的场景偏好信息,参考图5,为本申请实施例提供的一种实际预测过程示意图,目标用户的场景偏好信息在实际预测过程中可获取,因此可以作为目标数据的一部分。
本申请实施例中,可以获取分别与多个待推荐对象对应的多个目标数据,通过预测模型分别得到多个目标数据对应的多个点击概率,基于多个目标数据对应的多个点击概率,确定多个目标数据对应的待推荐对象的展示顺序。待推荐对象的展示顺序可以用户待推荐对象的展示,靠前展示的待推荐对象被点击的可能性最高,从而更好的命中目标用户的需求。对待推荐对象的展示可以通过与服务器连接的终端设备实现,终端设备获取待推荐对象的展示顺序,进而对待推荐对象进行展示,终端设备还可以获取目标用户对展示的多个待推荐对象的点击行为。
本申请实施例中,根据目标用户对展示的多个待推荐对象中的目标对象的点击行为,得到更新的样本数据和更新的样本数据的标签,通过更新的样本数据和更新的样本数据的标签,基于包括点击率预估主模型和偏差捕捉辅模型的模型结构,更新预测模型。这样利用样本数据进行模型训练得到预测模型,利用预测模型得到目标用户对待推荐对象的点击概率,基于目标用户对待推荐对象的点击概率展示待推荐对象,获取目标用户对展示的待推荐对象的点击行为,基于点击行为更新样本数据,进而更新预测模型,参考图6,为本申请实施例提供的一种模型更新示意图,使预测系统构成“系统推荐-用户点击行为-后台记录数据-系统推荐”的闭环,预测模型被更新后,这样能够更加匹配目标用户的需求。
本申请实施例中,基于预测模型进行概率计算方式应用于订阅号消息中的对象排序时,取得了相比现网最优模型更好的性能表现。模型上线后,在140万实验用户的实验组A/对照组B测试中,视频号类别有效点击次数提升1.38%,包含视频号类别在内的整体信息流曝光点击率提升0.49%。
基于本申请实施例提供的一种预测模型的确定方法,本申请实施例还提供了一种预测模型的确定装置,参考图7所示,为本申请实施例提供的一种预测模型的确定装置的结构框图,预测模型的确定装置1300包括:
数据获取单元1301,用于获取样本数据和所述样本数据的标签,所述样本数据包括历史对象的对象特征和历史用户的场景偏好信息,所述样本数据的标签用于指示所述历史用户对所述历史对象的点击信息;
模型预测单元1302,用于将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,将所述历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到所述历史用户对所述历史对象的第二点击概率;
概率计算单元1303,用于根据所述第一点击概率和所述第二点击概率,确定所述历史用户针对所述历史对象的预测点击概率;
损失函数构建单元1304,用于基于所述预测点击概率和所述样本数据的标签构建损失函数;
训练单元1305,用于利用所述损失函数对所述点击率预估主模型和所述偏差捕捉辅模型进行训练,使所述点击率预估主模型转化为预测模型,所述预测模型用于针对目标数据进行点击概率的计算。
可选的,所述模型预测单元1304包括:
第一模型预测子单元,用于将所述样本数据作为输入数据,通过所述点击率预估主模型,对包括所述历史对象的对象特征的稀疏特征进行嵌入映射,得到第一连续特征;并对所述第一连续特征和包括所述历史用户的场景偏好信息的第二连续特征进行拼接,得到完整连续特征;并根据所述完整连续特征得到所述历史用户对所述历史对象的第一点击概率。
可选的,所述偏差捕捉辅模型包括全连接层,所述全连接层的总层数小于所述点击率预估主模型的总层数。
可选的,所述偏差捕捉辅模型包括一层全连接层。
可选的,所述场景偏好信息包括多个场景类别对应的场景点击信息,所述多个场景类别包括所述历史对象对应的场景类别,所述场景点击信息根据历史用户在第一预设时间段内分别对多个场景类别对应的对象的点击信息确定。
可选的,所述历史对象的对象特征包括所述历史对象的场景类别,或所述历史对象的对象特征包括所述历史对象的场景类别和所述历史对象的内容特征,所述历史对象对应的场景类别用于指示所述历史对象所属内容平台的类别;
所述样本数据还包括所述历史用户的内容偏好信息、所述历史对象的综合点击信息、所述历史对象所属内容平台的综合点击信息中的至少一个;所述历史对象的综合点击信息根据所述历史对象在第二预设时间段内的点击信息确定,所述历史对象所属内容平台的综合点击信息根据所述历史对象所属内容平台发出的对象在第二预设时间段内的点击信息确定。
可选的,所述样本数据具有统一数据位;
所述历史对象的内容特征置于所述统一数据位中与所述内容特征对应的第一数据位,所述历史对象对应的场景类别置于所述统一数据位中与所述场景类别对应的第二数据位,所述历史用户的内容偏好信息置于所述统一数据位中与所述内容偏好信息对应的第三数据位,所述历史对象的综合点击信息置于所述统一数据位中与对象点击信息对应的第四数据位,所述历史对象所属内容平台的综合点击信息置于第五数据位中与所述历史物品对应的场景类别对应的子数据位,所述第五数据位为所述统一数据位中与平台点击信息对应的数据位,所述历史用户的场景偏好信息置于所述统一数据位中与场景偏好信息对应的第六数据位。
可选的,所述装置还包括:
预测数据获取单元,用于获取分别与多个待推荐对象对应的多个所述目标数据;
预测概率计算单元,用于通过所述预测模型分别得到多个所述目标数据对应的多个点击概率;
展示顺序确定单元,用于基于多个所述目标数据对应的多个点击概率,确定多个所述目标数据对应的待推荐对象的展示顺序。
可选的,所述装置还包括:
更新数据获取单元,用于根据所述目标用户对展示的所述多个待推荐对象中的目标对象的点击行为,得到更新的样本数据和更新的样本数据的标签;
模型更新单元,用于通过所述更新的样本数据和所述更新的样本数据的标签,基于包括所述点击率预估主模型和所述偏差捕捉辅模型的模型结构,更新所述预测模型。
可选的,所述历史对象的对象特征包括所述历史对象对应的场景类别,所述历史对象对应的场景类别用于指示所述历史对象所属内容平台的类别或所述历史对象的内容表现类别,所述历史对象所属内容平台的类别包括公众号类别或视频号类别,所述历史对象的内容表现类别包括文章类别或视频类别。
由此可见,通过获取样本数据和样本数据的标签,样本数据包括历史对象的对象特征和历史用户的场景偏好信息,样本数据的标签用于指示历史用户对历史对象的点击信息,利用包含场景偏好信息的样本数据作为点击率预估主模型的输入数据,点击率预估主模型根据样本数据确定第一点击概率,利用场景偏好信息作为偏差捕捉辅模型的输入数据,偏差捕捉辅模型根据历史用户的信息源偏好确定第二点击概率,利用第一点击概率和第二点击概率得到预测点击概率,由于历史用户的场景偏好信息同时被输入到点击率预估主模型和偏差捕捉辅模型,从而将场景偏好对预测点击概率的影响分散到点击率预估主模型和偏差步骤辅模型中,使点击率预估主模型承载部分场景偏好信息影响,偏差捕捉辅模型承载部分场景偏好信息影响。
之后利用预测点击概率和样本数据的标签构建损失函数,并基于损失函数对点击率预估主模型和偏差捕捉辅模型进行训练,训练完成后,点击率预估主模型转化为预测模型,预测模型具有场景偏好信息的运算能力,这样在实际预测过程中,可以利用承载部分场景偏好信息影响的点击率预估主模型进行点击概率的计算,而不采用承载另一部分场景偏好信息影响的偏差捕捉辅模型的预测结果,得到的点击概率保留了部分场景偏好信息的影响,相比于保留全部偏好信息的影响而言降低了场景偏好信息的积累,实现了对场景偏好信息的纠偏,更好的实现基于对象的内容进行点击概率预测,相比于不保留场景偏好信息的影响而言,不会忽视场景偏好信息对点击概率的影响,能够得到更好的匹配用户点击意向的预测结果,提高点击概率的准确性。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,可以包括终端设备或服务器,前述的预测模型的确定装置可以配置在该计算机设备中。下面结合附图对该计算机设备进行介绍。
若该计算机设备为终端设备,请参见图8所示,本申请实施例提供了一种终端设备,以终端设备为手机为例:
图8示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图8,手机包括:射频(Radio Frequency,简称RF)电路1410、存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、无线保真(简称WiFi)模块1470、处理器1480、以及电源1490等部件。本领域技术人员可以理解,图8中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对手机的各个构成部件进行具体的介绍:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1480处理;另外,将设计上行的数据发送给基站。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1430可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1430可包括触控面板1431以及其他输入设备1432。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1440可包括显示面板1441。
手机还可包括至少一种传感器1450,比如光传感器、运动传感器以及其他传感器。
音频电路1460、扬声器1461,传声器1462可提供用户与手机之间的音频接口。
WiFi属于短距离无线传输技术,手机通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。
处理器1480是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行手机的各种功能和处理数据。
手机还包括给各个部件供电的电源1490(比如电池)。
在本实施例中,该终端设备所包括的处理器1480还具有以下功能:
获取样本数据和所述样本数据的标签,所述样本数据包括历史对象的对象特征和历史用户的场景偏好信息,所述样本数据的标签用于指示所述历史用户对所述历史对象的点击信息;
将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,将所述历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到所述历史用户对所述历史对象的第二点击概率;
根据所述第一点击概率和所述第二点击概率,确定所述历史用户针对所述历史对象的预测点击概率;
基于所述预测点击概率和所述样本数据的标签构建损失函数;
利用所述损失函数对所述点击率预估主模型和所述偏差捕捉辅模型进行训练,使所述点击率预估主模型转化为预测模型,所述预测模型用于针对目标数据进行点击概率的计算。
若计算机设备为服务器,本申请实施例还提供一种服务器,请参见图9所示,图9为本申请实施例提供的服务器的结构图,服务器1500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器1522,如中央处理器(Central Processing Units,简称CPU),存储器1532,一个或一个以上存储应用程序1542或数据1544的存储介质1530(例如一个或一个以上海量存储设备)。其中,存储器1532和存储介质1530可以是短暂存储或持久存储。存储在存储介质1530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,处理器1522可以设置为与存储介质1530通信,在服务器1500上执行存储介质1530中的一系列指令操作。
服务器1500还可以包括一个或一个以上电源1526,一个或一个以上有线或无线网络接口1550,一个或一个以上输入输出接口1558,和/或,一个或一个以上操作系统1541,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于图9所示的服务器结构。
另外,本申请实施例还提供了一种存储介质,所述存储介质用于存储计算机程序,所述计算机程序用于执行上述实施例提供的方法。
本申请实施例还提供了一种包括指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例提供的方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。而且本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (15)

1.一种预测模型的确定方法,其特征在于,所述方法包括:
获取样本数据和所述样本数据的标签,所述样本数据包括历史对象的对象特征和历史用户的场景偏好信息,所述样本数据的标签用于指示所述历史用户对所述历史对象的点击信息;
将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,将所述历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到所述历史用户对所述历史对象的第二点击概率;
根据所述第一点击概率和所述第二点击概率,确定所述历史用户针对所述历史对象的预测点击概率;
基于所述预测点击概率和所述样本数据的标签构建损失函数;
利用所述损失函数对所述点击率预估主模型和所述偏差捕捉辅模型进行训练,使所述点击率预估主模型转化为预测模型,所述预测模型用于针对目标数据进行点击概率的计算。
2.根据权利要求1所述的方法,其特征在于,所述将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,包括:
将所述样本数据作为输入数据,通过所述点击率预估主模型,对包括所述历史对象的对象特征的稀疏特征进行嵌入映射,得到第一连续特征;
通过所述点击率预估主模型,对所述第一连续特征和包括所述历史用户的场景偏好信息的第二连续特征进行拼接,得到完整连续特征;
通过所述点击率预估主模型,根据所述完整连续特征得到所述历史用户对所述历史对象的第一点击概率。
3.根据权利要求1所述的方法,其特征在于,所述偏差捕捉辅模型包括全连接层,所述全连接层的总层数小于所述点击率预估主模型的总层数。
4.根据权利要求3所述的方法,其特征在于,所述偏差捕捉辅模型包括一层全连接层。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述场景偏好信息包括多个场景类别对应的场景点击信息,所述多个场景类别包括所述历史对象对应的场景类别,所述场景点击信息根据历史用户在第一预设时间段内分别对多个场景类别对应的对象的点击信息确定。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述历史对象的对象特征包括所述历史对象的场景类别,或所述历史对象的对象特征包括所述历史对象的场景类别和所述历史对象的内容特征,所述历史对象对应的场景类别用于指示所述历史对象所属内容平台的类别;
所述样本数据还包括所述历史用户的内容偏好信息、所述历史对象的综合点击信息、所述历史对象所属内容平台的综合点击信息中的至少一个;所述历史对象的综合点击信息根据所述历史对象在第二预设时间段内的点击信息确定,所述历史对象所属内容平台的综合点击信息根据所述历史对象所属内容平台发出的对象在第二预设时间段内的点击信息确定。
7.根据权利要求6所述的方法,其特征在于,所述样本数据具有统一数据位;
所述历史对象的内容特征置于所述统一数据位中与所述内容特征对应的第一数据位,所述历史对象对应的场景类别置于所述统一数据位中与所述场景类别对应的第二数据位,所述历史用户的内容偏好信息置于所述统一数据位中与所述内容偏好信息对应的第三数据位,所述历史对象的综合点击信息置于所述统一数据位中与对象点击信息对应的第四数据位,所述历史对象所属内容平台的综合点击信息置于第五数据位中与所述历史物品对应的场景类别对应的子数据位,所述第五数据位为所述统一数据位中与平台点击信息对应的数据位,所述历史用户的场景偏好信息置于所述统一数据位中与场景偏好信息对应的第六数据位。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取分别与多个待推荐对象对应的多个所述目标数据;
通过所述预测模型分别得到多个所述目标数据对应的多个点击概率;
基于多个所述目标数据对应的多个点击概率,确定多个所述目标数据对应的待推荐对象的展示顺序。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
根据所述目标用户对展示的所述多个待推荐对象中的目标对象的点击行为,得到更新的样本数据和更新的样本数据的标签;
通过所述更新的样本数据和所述更新的样本数据的标签,基于包括所述点击率预估主模型和所述偏差捕捉辅模型的模型结构,更新所述预测模型。
10.根据权利要求1-4任一项所述的方法,其特征在于,所述历史对象的对象特征包括所述历史对象对应的场景类别,所述历史对象对应的场景类别用于指示所述历史对象所属内容平台的类别或所述历史对象的内容表现类别,所述历史对象所属内容平台的类别包括公众号类别或视频号类别,所述历史对象的内容表现类别包括文章类别或视频类别。
11.一种预测模型的确定装置,其特征在于,所述装置包括:
数据获取单元,用于获取样本数据和所述样本数据的标签,所述样本数据包括历史对象的对象特征和历史用户的场景偏好信息,所述样本数据的标签用于指示所述历史用户对所述历史对象的点击信息;
模型预测单元,用于将所述样本数据作为输入数据,通过点击率预估主模型得到所述历史用户对所述历史对象的第一点击概率,将所述历史用户的场景偏好信息作为输入数据,通过偏差捕捉辅模型得到所述历史用户对所述历史对象的第二点击概率;
概率计算单元,用于根据所述第一点击概率和所述第二点击概率,确定所述历史用户针对所述历史对象的预测点击概率;
损失函数构建单元,用于基于所述预测点击概率和所述样本数据的标签构建损失函数;
训练单元,用于利用所述损失函数对所述点击率预估主模型和所述偏差捕捉辅模型进行训练,使所述点击率预估主模型转化为预测模型,所述预测模型用于针对目标数据进行点击概率的计算。
12.根据权利要求11所述的装置,其特征在于,所述模型预测单元包括:
第一模型预测子单元,用于将所述样本数据作为输入数据,通过所述点击率预估主模型,对包括所述历史对象的对象特征的稀疏特征进行嵌入映射,得到第一连续特征;并对所述第一连续特征和包括所述历史用户的场景偏好信息的第二连续特征进行拼接,得到完整连续特征;并根据所述完整连续特征得到所述历史用户对所述历史对象的第一点击概率。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
所述处理器用于根据所述计算机程序中的指令执行权利要求1-10中任意一项所述的预测模型的确定方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-10中任意一项所述的预测模型的确定方法。
15.一种包括计算机程序的计算机程序产品,其特征在于,当其在计算机设备上运行时,使得所述计算机设备执行权利要求1-10中任意一项所述的预测模型的确定方法。
CN202211213604.5A 2022-09-30 2022-09-30 一种预测模型的确定方法和相关装置 Pending CN117874321A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211213604.5A CN117874321A (zh) 2022-09-30 2022-09-30 一种预测模型的确定方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211213604.5A CN117874321A (zh) 2022-09-30 2022-09-30 一种预测模型的确定方法和相关装置

Publications (1)

Publication Number Publication Date
CN117874321A true CN117874321A (zh) 2024-04-12

Family

ID=90593399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211213604.5A Pending CN117874321A (zh) 2022-09-30 2022-09-30 一种预测模型的确定方法和相关装置

Country Status (1)

Country Link
CN (1) CN117874321A (zh)

Similar Documents

Publication Publication Date Title
US11531867B2 (en) User behavior prediction method and apparatus, and behavior prediction model training method and apparatus
CN108595494B (zh) 答复信息的获取方法及装置
CN108280115B (zh) 识别用户关系的方法及装置
CN110597962B (zh) 搜索结果展示方法、装置、介质及电子设备
CN107688605B (zh) 跨平台数据匹配方法、装置、计算机设备和存储介质
CN112801719A (zh) 用户行为预测方法、用户行为预测装置、存储介质及设备
CN110956505B (zh) 一种广告库存的预估方法以及相关装置
CN111008335A (zh) 一种信息处理方法、装置、设备及存储介质
CN112269943B (zh) 一种信息推荐系统及方法
CN115358807A (zh) 物品的推荐方法和装置、存储介质及电子设备
CN114119123A (zh) 信息推送的方法和装置
CN110852338A (zh) 用户画像的构建方法及装置
CN111291868A (zh) 网络模型训练方法、装置、设备及计算机可读存储介质
CN116634008A (zh) 信息推送方法、装置、计算机设备和存储介质
CN117874321A (zh) 一种预测模型的确定方法和相关装置
CN114638308A (zh) 一种获取对象关系的方法、装置、电子设备和存储介质
CN115017362A (zh) 数据处理方法、电子设备及存储介质
CN113672816A (zh) 帐号特征信息的生成方法、装置和存储介质及电子设备
CN116205686A (zh) 一种多媒体资源推荐的方法、装置、设备和存储介质
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN115345635A (zh) 推荐内容的处理方法、装置、计算机设备和存储介质
CN112905892A (zh) 应用于用户画像挖掘的大数据处理方法及大数据服务器
CN113886674A (zh) 资源推荐方法、装置、电子设备及存储介质
CN114417944B (zh) 识别模型训练方法及装置、用户异常行为识别方法及装置
CN116166870A (zh) 一种数据处理方法、计算机设备以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination