CN112148994B - 信息推送效果评估方法、装置、电子设备及存储介质 - Google Patents

信息推送效果评估方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112148994B
CN112148994B CN202011149093.6A CN202011149093A CN112148994B CN 112148994 B CN112148994 B CN 112148994B CN 202011149093 A CN202011149093 A CN 202011149093A CN 112148994 B CN112148994 B CN 112148994B
Authority
CN
China
Prior art keywords
user
pushing
history
push
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011149093.6A
Other languages
English (en)
Other versions
CN112148994A (zh
Inventor
王韵陶
陈炳文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011149093.6A priority Critical patent/CN112148994B/zh
Publication of CN112148994A publication Critical patent/CN112148994A/zh
Application granted granted Critical
Publication of CN112148994B publication Critical patent/CN112148994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/55Push-based network services

Abstract

本申请实施例提供了一种信息推送效果评估方法、装置、电子设备及存储介质,涉及人工智能技术领域。该方法包括:获取待推送信息对应的候选推送用户集合、以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征;根据各用户的用户初始画像特征,确定候选推送用户集合的用户群的画像特征;基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。本申请技术方案,基于候选推送用户集合对应于待推送信息的用户群的画像特征,预测候选推送用户集合的推送效果评估结果,利用用户群的画像特征对候选推送用户集合的推送效果预先进行评估,以调整信息推送策略,可以使得信息推送更加精准。

Description

信息推送效果评估方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机及人工智能技术领域,具体而言,本申请涉及一种信息推送效果评估方法、装置、电子设备及存储介质。
背景技术
随着计算机技术和通信技术的发展,互联网得到了广泛应用,改变了人们传统的生活方式。用户可以通过互联网浏览新闻、娱乐、购物、办理各种业务、在社交平台发布信息等,提高了日常生活的便利性和丰富性。
随着云时代的来临,大数据也吸引了越来越多的关注。基于大数据对用户进行信息推送已经得到了普遍应用,在进行信息推送时,如果推送的信息是用户不需要的,则推送效果不好,用户体验差。因此,如何提升信息推送的准确性、以提升用户的使用感知是一直有待改进的技术问题。
发明内容
本申请提供了一种信息推送效果评估方法、装置及电子设备,可以解决现有技术中存在的问题。
本申请实施例提供的具体技术方案如下:
一方面,本申请实施例提供了一种信息推送效果评估方法,该方法包括:
获取待推送信息对应的候选推送用户集合、以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征;
根据各用户的用户初始画像特征,确定候选推送用户集合的用户群的画像特征;
基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。
另一方面,本发明实施例还提供了一种信息推送效果评估装置,该装置包括:
获取模块,用于获取待推送信息对应的候选推送用户集合、以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征;
确定模块,用于根据各用户的用户初始画像特征,确定候选推送用户集合的用户群的画像特征;
评估模块,用于基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。
本发明实施例还提供了一种电子设备,该电子设备包括一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被配置用于执行如本申请的第一方面所示的方法。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行如本申请的第一方面所示的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种信息推送效果评估方法、装置及电子设备,该方法根据候选推送用户集合中各用户对应于待推送信息的用户初始画像特征,得到候选推送用户集合对应于待推送信息的用户群的画像特征;并基于该集合的用户群的画像特征,对候选推送用户集合的推送效果预先进行评估,由于评估结果是基于候选推送用户集合对应的用户群的画像特征进行的评估,因此,评估结果能够更加准确,从而能够根据评估结果调整信息推送策略,可以使得信息推送更加精准,更好的满足用户的需求,提升用户的使用感知。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为现有技术中的ROC曲线的示意图;
图2为本申请实施例提供的信息推送效果评估方法的流程示意图;
图3为本申请实施例提供的获取待推送信息对应的候选推送用户集合的流程示意图;
图4为本申请实施例提供的从历史推送用户集合中选择历史推送用户子集的流程图;
图5为本申请实施例提供的信息推送效果评估方法的执行过程的示意图;
图6为本申请实施例提供的信息推送效果评估装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请技术方案的执行主体为计算机设备,包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。计算机设备包括用户设备与网络设备。其中,用户设备包括但不限于电脑、智能手机、PAD等;网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
本申请实施例提供的方案涉及大数据、人工智能中的机器学习/深度学习等技术,具体通过如下实施例进行说明。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种信息推送效果评估方法,该方法的执行主体可以为任一电子设备,可选的,可以是服务器,如图2所示,该方法包括:
步骤S101,获取待推送信息对应的候选推送用户集合以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征;
其中,待推送信息对应的候选推送用户集合可以是待推送信息将要推送的候选推送用户的用户标识组成的集合,根据各用户标识可以获取到该用户标识对应的用户的初始画像特征。
其中,对于用户而言,该用户的初始画像特征是指能够代表或者反映该用户个性化信息(用户画像)的各种原始特征,对于用户初始画像特征具体包括哪些本申请实施例不做限定,只要是能够从一个或多个维度反映用户信息的特征均可。
可选的,对于任一用户,用户初始画像特征可以包括用户的兴趣特征或属性特征中的至少一项。
本申请的可选实施例中,用户初始画像特征可以是用户的兴趣特征、属性特征等,其中,兴趣特征指的是能够代表或反映用户感兴趣信息的特征,例如,用户对于游戏、交通、教育等类型的信息访问频率较高,则该用户的兴趣特征可以包括但不限于游戏、交通、教育等;用户的属性特征指的是能够代表或反映用户本身固有属性信息的特征,属性特征可以包括但不限于性别、年龄分段、所属地域等,各用户的用户初始画像特征可以是至少一个。
获取待推送信息对应的候选推送用户集合的具体方式见如下实施例:
在一种可能的实现方式中,如图4所示,步骤S101中的获取待推送信息对应的候选推送用户集合,具体包括以下步骤:
步骤S1011,获取各候选用户的历史行为数据;
步骤S1012,根据各候选用户的历史行为数据,确定各候选用户对应于待推送信息的感兴趣概率;
步骤S1013,基于各候选用户的感兴趣概率,从各候选用户中确定候选推送用户集合。
在实际应用中,可以通过用户的历史行为数据来确定候选推送用户集合,用户的历史行为数据可以包括用户访问网站或应用程序时的访问行为数据,根据这些访问行为数据可以确定用户感兴趣的领域、用户的日常消费习惯等信息,根据这些信息,可以确定各候选用户对应于待推送信息的感兴趣概率。
具体的,基于各候选用户的历史行为数据,确定各候选用户对应于待推送信息的感兴趣概率,进而确定候选推送用户集合。可选的,计算各候选用户对应于待推送信息的感兴趣概率,并按照概率从高到低的顺序进行排序,将排在前面预设数量个位置的用户作为候选推送用户,将这些候选推送用户组成候选推送用户集合。
在本申请实施例中,采用根据用户的历史行为数据计算用户的候选得分的方式,来确定候选推送用户集合,可以提高待推送信息和候选推送用户集合中的用户的匹配度,提高信息推送的精准度。
步骤S102,根据各用户的用户初始画像特征,确定候选推送用户集合的用户群的画像特征;
其中,用户初始画像特征反映的是各用户的个体特征,用户初始画像特征无法反映候选推送用户集合中所有用户的整体特征,在对候选推送用户集合进行推送效果评估时,需要考虑候选推送用户集合的整体情况,可以基于用户初始画像特征确定出候选推送用户集合对应的用户群的画像特征,用户群的画像特征可以是基于候选推送用户集合中的各用户的用户初始画像特征计算得到的特征(也可以称为候选推送用户集合中各用户的初始画像特征的分布特征),用户群的画像特征是从宏观上反映候选推送用户集合中的用户的用户初始画像特征的整体情况的特征。
可以通过以下实施例确定候选推送用户集合对应的用户群的画像特征:
在一种可能的实现方式中,根据各用户的用户初始画像特征,确定候选推送用户集合的用户群的画像特征,包括:
将各用户的用户初始画像特征进行统计分析,得到候选推送用户集合对应于所述待推送信息的用户群的画像特征。
可选的,用户初始画像特征包括用户的兴趣特征或属性特征中的至少一项,对于兴趣特征或属性特征中的任一项,该特征对应的统计特征包括以下至少一项:具有同一特征的用户数量、具有同一特征的用户的占比。
在实际应用中,可以将候选推送用户集合中的各用户的一项或几项用户初始画像特征进行统计分析,得到该一项或几项用户初始画像特征对应的统计结果,作为候选推送用户集合对应的用户群的画像特征。例如,可以统计候选推送用户集合中对教育感兴趣的用户(即用户的兴趣特征为教育)的数量,或者对教育感兴趣的用户占候选推送用户集合中所有用户的比例,作为候选推送用户集合对应的用户群的画像特征。需要说明的是,用户群的画像特征可以不限于数量或比例,还可以包括通过统计方式得到的其他特征,本申请对此不做限定。
在本申请实施例中,将候选推送用户集合中的各用户的用户初始画像特征进行统计得到候选推送用户集合对应的用户群的画像特征,用户群的画像特征可以反映候选推送用户集合中的用户的整体情况,便于基于用户群的画像特征对候选推送用户集合的推送效果进行评估。
步骤S103,基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。
具体的,基于用户群的画像特征,对候选推送用户集合的推送效果进行评估,根据评估结果来确定是否将待推送信息推送给候选推送用户集合中的各用户。
在一种可能的实现方式中,基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果,包括:
基于用户群的画像特征,通过推送效果评估模型,得到推送效果评估结果;
其中,推送效果评估模型是通过以下方式训练得到的:
获取训练样本集,训练数据集中包括各训练样本,每个训练样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签,推送效果标注标签表征了样本用户集合的真实推送效果;
将各训练样本输入至初始推送效果评估模型中,得到各训练样本各自对应的推送效果预测值;
基于各训练样本各自对应的推送效果预测值和推送效果标注标签,计算损失函数的值;
基于各训练样本和损失函数的值对模型进行迭代训练,直至满足预设的训练结束条件,将训练结束时的模型作为推送效果评估模型。
在实际应用中,推送效果评估模型可以是机器学习模型,可以包括但不限于逻辑斯特回归(Logistic Regression)模型、决策树模型、神经网络模型、梯度提升模型(Extreme Gradient Boosting,XGBoost)等,本申请对此不做限定。
具体的,推送效果评估模型是基于训练数据集训练得到的,训练数据集中包括各训练样本,每个训练样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签,推送效果标注标签表征了样本用户集合的真实推送效果。将各训练样本输入至初始推送效果评估模型中,得到各训练样本各自对应的推送效果预测值;基于各训练样本各自对应的推送效果预测值和推送效果标注标签之间的差值,得到损失函数的值;基于各训练样本和损失函数的值对模型进行迭代训练,经过多次迭代训练,直至满足预设的训练结束条件,例如,损失函数收敛,则将训练结束时的模型作为推送效果评估模型。
需要说明的是,本申请实施例中的推送效果评估模型与推送模型属于非耦合关系,可以适用于任何推送模型的预测结果的评估,具有高复用性。
可选的,本申请技术方案还包括:
获取推送效果评估模型的测试数据集,测试数据集中包括各测试样本,每个测试样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签,推送效果标注标签表征了样本用户集合的真实推送效果。将各训练样本输入至推送效果评估模型中,得到各测试样本各自对应的推送效果预测值。基于推送效果标注标签和各测试样本各自对应的推送效果预测值,计算测试集的统计指标,如果统计指标满足预设条件,则训练完成,将模型作为最终的推送效果评估模型;如果统计指标不满足预设条件,则继续训练推送效果评估模型,以实现对推送效果评估模型的优化。
其中,为了对训练完成的推送效果评估模型的效果进行评估,可以以测试集的统计指标为参考,统计指标如精确率、召回率、F1值(精确率与召回率的调和平均值)、准确率、曲线下面积(Area Under Curve,AUC)等。对于二分类问题,的其预测结果可以用如表1所示的混淆矩阵表示。
Positive(正) Negtive(负)
True True Positive(TP) True Negtive(TN)
False False Positive(FP) False Negtive(FN)
表1
其中,TP表示样本本来是正样本,模型预测也为正样本的样本数量;TN表示样本本来是负样本,模型预测也为负样本的样本数量;FP表示样本本来是负样本,模型预测为正样本的样本数量;FN表示样本本来是正样本,模型预测为负样本的样本数量。
其中,精确率Precision通过如下公式(1)来计算:
召回率Recall通过如下公式(2)来计算:
F1值通过如下公式(3)来计算:
准确率Accuracy通过如下公式(4)来计算:
另外,接收者操作特性(Receiver Operating Characteristic,ROC)曲线也可以用来评判分类、检测结果的好坏等。其中,该曲线以假阳率(False Positive Rate,FPR)为横坐标,真阳率(True Positive Rate,TPR)为纵坐标,其中,真阳率表示所有真实类别为1的样本中,预测类别为1的比例,可以通过如下公式(5)来计算:
假阳率表示所有真实类别为0的样本中,预测类别为1的比例,可以通过如下公式(6)来计算:
标准的ROC曲线如图1所示,FPR表示模型虚报的响应程度,TPR表示模型预测响应的覆盖程度。在实际应用中,希望虚报的越少越好,覆盖的越多越好,即TPR越高,同时FPR越低。换言之,ROC曲线越陡峭,模型性能越好。
AUC指的是ROC曲线下的面积。AUC取值范围在0.5-1之间,其值越大,表示效果越好。
为了提高推送效果评估模型的性能,可通过上述一个或多个统计指标(也可以是其他统计指标,本申请对此不做限定)来对推送效果模型进行评估,比如,准确率大于预设阈值,则表示推送效果评估模型符合要求,若小于预设阈值,则表示推送效果评估模型不符合要求,需要继续进行训练。
在一种可能的实现方式中,该方法还包括:
存储已推送信息对应的候选推送用户集合的用户群的画像特征;
获取已推送信息的推送效果数据;
基于已推送信息对应的候选推送用户集合的用户群的画像特征和已推送信息的推送效果数据,对推送效果评估模型进行优化。
在实际应用中,还可以通过已推送信息对应的候选推送用户集合的画像特征,以及推送效果数据,对推送效果评估模型进行优化。具体的,可以将已推送信息对应的候选推送用户集合的用户群的画像特征作为训练样本,将已推送信息的推送效果数据作为样本标注标签,进一步训练推送效果评估模型,以实现推送效果评估模型的进一步优化。
本申请的可选实施例中,推送效果评估模型包括多个子分类模型,基于用户群的画像特征,通过推送效果评估模型,得到推送效果评估结果,包括:
基于用户群的画像特征,分别通过各子分类模型,得到各子分类模型对应的推送效果评估结果;
将各子分类模型对应的推送效果评估结果进行融合,得到推送效果评估模型的推送效果评估结果。
在实际应用中,本申请技术方案中的模型训练部分不仅可以采用一个分类器进行训练,也可以采用多个分类器进行训练,每个分类器为一个子分类模型,每个子分类模型的一个类别对应一种效果评估结果。每个子分类模型训练完成后,将多个子分类模型各自的结果进行融合,得到最终的结果。例如,使用XGboost分类器、朴素贝叶斯分类器和神经网络分类器作为三个子分类模型,分别进行训练,将三个分类器得到的结果进行加权融合,得到最终的评估结果。
在一个具体的实施例中,以XGBoost模型作为初始推送效果评估模型,对推送效果评估模型的训练进行说明。
XGBoost模型是通过对多个基分类器的结果进行融合得到的模型,每个基分类器作为一个子分类模型,在将XGBoost模型作为初始推送效果评估模型时,需要考虑每个子分类模型的复杂度,将每个子分类模型的复杂度和分类结果同时进行训练,XGBoost模型的目标函数如下列公式(7)所示:
其中,
其中,i表示第i个训练样本(每个训练样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签),φ表示XGBoost模型函数,表示第i个训练样本的推送效果预测值,表示第i个训练样本的推送效果标注标签;/>表示第i个训练样本的推送效果标注标签和推送效果预测值的损失函数的值,Ω(fk)为第k个子分类模型的模型复杂度,γ、λ、T表示第k个子分类模型的超参数;w为需要学习的子模型的参数。
对目标函数进行多轮训练优化,第t次训练的目标函数的值表达式如公式(9)所示:
对公式(9)做二阶泰勒展开如公式(10)所示:
其中,
其中,L(t)表示第t次训练的目标函数,yi表示第i个训练样本的推送效果标注标签,表示第i个训练样本第t-1次训练的推送效果预测值;ft(xi)表示第i个训练样本第t次训练的推送效果预测值;Ω(ft)表示第t次训练的模型复杂度。
当损失函数收敛或者满足其他预设的训练结束条件时,将训练结束时的模型作为推送效果评估模型。
推送效果评估模型是基于大量训练数据集训练得到的,获取训练数据集的具体实现方式见如下实施例。
在一种可能的实现方式中,获取训练样本集,包括:
获取各历史推送数据,每个历史推送数据包括历史推送用户集合、历史推送用户集合中各用户的用户初始画像特征、以及历史推送用户集合对应的推送效果数据;
基于各历史推送数据,得到各训练样本。
在实际应用中,可以根据历史推送数据确定训练数据集中的训练样本。历史推送数据具体可以包括对历史推送用户进行信息推送的数据,可以包括历史推送用户集合、历史推送用户集合中各用户的用户初始画像特征、以及历史推送用户集合对应的推送效果数据。
可选的,本申请实施例中还可以包括对历史推送数据进行数据清洗的步骤,具体的,根据历史推送用户集合中的各用户的用户标识查询用户初始画像特征,过滤掉重复的用户初始画像特征,或者过滤掉查询不到用户初始画像特征的用户标识,基于数据清洗之后的历史推送数据,确定各训练样本。
本申请实施例中,根据各历史推送数据,得到各训练样本,对推送效果评估模型进行训练,可以使模型学习到更多信息,这样得到的模型进行推送效果评估时评估的结果更加准确。
在一示例中,如表2所示,历史推送数据的格式为三元组:(集合ID,标签,用户ID)。其中,集合ID为历史推送用户集合的编号,这个编号可以是整数编号;标签表示该历史推送用户集合对应的推送效果数据,表示在历史推送中是否达到目标效果,如果达到标签为1,未达到标签为0;用户ID为该历史推送用户集合中的各用户的用户标识,用户ID的数量可以根据实际需要进行确定。根据用户ID可以查询到该用户ID对应的用户的用户初始画像特征。
集合ID 标签 用户ID
001 1 u_0001,u_0003,…,u_0102,…
002 0 u_0006,u_0036,…,u_0206,…
003 1 u_0501,u_0203,…,u_0802,…
表2
在上述表2中,以第一行为例进行说明,“001”表示该历史推送用户集合的集合标识;“1”表示该历史推送用户集合的推送效果数据;“u_0001”、“u_0003”、“u_0102”…分别表示该历史推送用户集合中的各用户的用户标识。
基于历史推送数据得到训练样本的具体实现方式见如下实施例:
在一种可能的实现方式中,基于各历史推送数据,得到各训练样本,包括:
根据各历史推送用户集合中各用户的用户初始画像特征,确定各历史推送用户集合各自对应的用户群的画像特征;
基于各历史推送用户集合对应的推送效果数据,确定各历史推送用户集合各自对应的推送效果标注标签;
根据各历史推送用户集合各自对应的用户群的画像特征和推送效果标注标签,得到各第一训练样本,各训练样本包括各第一训练样本,其中,一个第一训练样本的样本用户群的画像特征为该样本对应的历史推送用户集合对应的用户群的画像特征。
在实际应用中,可以对历史推送用户集合中各用户的用户初始画像特征进行统计分析,得到各历史推送用户集合各自对应的用户群的画像特征,将历史推送用户集合作为样本用户集合,将历史推送用户集合对应的用户群的画像特征作为第一训练的样本用户群的画像特征,将历史推送用户集合对应的推送效果数据作为第一训练样本的样本标签,从而得到各第一训练样本,各训练样本包括各第一训练样本。
在一示例中,如表3所示,以游戏兴趣为例进行说明,从各历史推送用户集合中统计对游戏感兴趣的用户的数量,记为G-count。然后统计各历史推送用户集合中对游戏感兴趣的用户占各集合中用户总数的比例,记为G-ratio,将G-count和G-ratio作为各历史推送用户集合各自对应的用户群的画像特征。
以性别为例进行说明,从各历史推送用户集合中统计男性用户的数量,记为M-count。然后统计各历史推送用户集合中男性占各集合中用户总数的比例,记为M-retio。
表3
在上述表3中,以第一行为例进行说明,“001”表示该历史推送用户集合的集合标识;“1”表示该历史推送用户集合的推送效果数据;“u_0001”、“u_0003”、“u_0102”…分别表示该历史推送用户集合中的各用户的用户标识;“G-count”、“G-ratio”、“M-count”、“M-ratio”对应的值表示该历史推送用户集合对应的用户群的画像特征。
在根据表3中的数据确定训练样本集时,可以根据每一行数据确定一个训练样本,以第一行为例进行说明,集合ID“001”对应的训练样本的样本特征是(21,0.21,30,0.30),对应的样本标签为“1”。
对于大数据机器学习模型而言,需要数量足够多的训练样本,本申请技术方案中,采用重采样的方式,对历史推送数据进行采样,扩大训练样本的数量,利用数量更多的训练样本训练推送效果评估模型,具体见如下实施例。
在一种可能的实现方式中,基于各历史推送数据,得到各训练样本,包括:
对于各历史推送数据中的每个历史推送数据,基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集;
对于每个历史推送用户子集,根据历史推送用户子集中各用户的用户初始画像特征,确定历史推送用户子集对应的用户群的画像特征;
基于每个历史推送用户子集对应的用户群的画像特征得到第二训练样本;
其中,一个第二训练样本的样本用户群的画像特征为历史推送用户子集对应的用户群的画像特征,推送效果标注标签为该第二训练样本对应的历史推送用户子集所属的历史推送用户集合对应的推送效果数据,各训练样本包括各第二训练样本。
在实际应用中,对于每个历史推送用户集合,从集合中选择至少一个用户标识,组成该历史推送数据集合的子集,从而可以基于一个历史推送用户集合得到至少一个历史推送用户子集,根据历史推送用户子集中各用户的用户初始画像特征,确定历史推送用户子集对应的用户群的画像特征,将历史推送用户子集对应的用户群的画像特征作为训练样本的样本特征,将历史推送用户子集所属的历史推送用户集合对应的推送效果数据作为样本标签,得到第二训练样本,从而达到扩大训练样本的数量的目的。
其中,基于推送数据的历史推送用户集合确定至少一个历史推送用户子集的具体实现方式见如下实施例。
在一种可能的实现方式中,基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集,包括:
对各历史推送用户集合进行排序,对排序后的各历史推送用户集合重复执行以下操作,直至每个历史推送用户集合中选择出的历史推送用户子集的个数等于设定值:
从当前历史推送用户集合中选取用户数量等于设定个数的子集;
若当前历史推送用户集合为排序后的最后一个历史推送用户集合,且每个历史推送用户集合中选择出的历史推送用户子集的数量等于设定值,则结束操作,将已选择出的历史推送用户子集作为各历史推送用户子集;
若当前历史推送用户集合不是排序后的最后一个历史推送用户集合,则将当前历史推送用户集合的下一历史推送用户集合作为当前历史推送用户集合。
在实际应用中,对各历史推送用户集合进行排序,从排序后的各历史推送用户集合中依次选择出个数等于设定值的历史推送用户子集的,直到所有历史推送用户集合选择完成,得到多个历史推送用户子集。
在一种可能的实现方式中,基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集,包括:
确定每个历史推送用户集合所对应的历史推送用户子集的个数;
将各历史推送用户集合进行排序,按照排序从第一个历史推送用户集合开始对各历史推送用户集合依次执行以下操作:
步骤S1:从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
步骤S2:若当前历史推送用户集合不是最后一个历史推送用户集合,则将下一个历史推送用户集合作为当前历史推送用户集合,并返回步骤S1;
若当前历史推送用户集合是最后一个历史推送用户集合、且该历史推送用户集合对应的历史推送用户子集的数量小于设定值,则将第一个历史推送用户集合作为当前历史推送用户集合,并返回步骤S1;
若当前历史推送用户集合是最后一个历史推送用户集合、且该历史推送用户集合对应的历史推送用户子集的数量等于设定值,则操作结束。
下面通过一个具体的实施例对基于历史推送数据的历史推送用户集合确定至少一个历史推送用户子集的过程进行说明。
如图4所示,该示例中,历史推送用户集合的数量为K,每个历史推送用户集合要确定的历史推送用户子集的个数是C个,从K个历史推送用户集合的每个集合中确定C个历史推送用户子集的流程如下:
对K个历史推送用户集合进行排序,执行步骤S201,进行初始化操作,R为循环次数(即从每个历史推送用户集合中选择历史推送用户子集的数量),初始值为1,C为选择轮数(即设定值),在K个历史推送用户集合中的各历史推送用户集合中依次选择一次历史推送用户子集计为1轮。
执行步骤S202,从K个历史推送用户集合中,选择第T个历史推送用户集合,T<=K,初始T=1;
执行步骤S203,从第T个历史推送用户集合中随机选择M(即设定个数)个用户标识,作为第T个历史推送用户集合的历史推送用户子集,并保存该历史推送用户集合对应的推送效果数据,M远小于历史推送用户集合中的用户数量;
执行步骤S204,将选出的M个用户标识放回第T个历史推送用户集合中,以用于下一轮再次从该历史推送用户集合中选择历史推送用户子集;
执行步骤S205,判断T=K是否成立,如果不成立,则说明当前的历史推送用户集合(第T个历史推送用户集合)不是排序在最后的历史推送用户集合,则执行步骤S206,T=T+1,将T的值增加1,执行步骤S203,从第T+1个历史推送用户集合中选择历史推送用户子集;
若T=K成立,则说明当前的历史推送用户集合(第T个历史推送用户集合)是排序在最后的历史推送用户集合,执行步骤S208,判断R=C是否成立,即从每个历史推送用户集合中选择历史推送用户子集的数量是否等于设定值;
如果否,则执行步骤S207,R=R+1,将R的值增加1,执行步骤S202,进行下一轮选择历史推送用户子集的操作。
如果是,则执行步骤S209,操作结束,将已选择出的历史用户子集作为各历史推送用户子集。
经过上述步骤S201-S209,基于历史推送用户集合确定至少一个历史推送用户子集的过程,从表2所示的各历史用户集合中选择出的各历史用户子集如表4所示:
表4
在表4中,以第一行和第四行为例进行说明,在第一行中,集合ID为“001-1”的历史推送用户子集,为从集合ID为“001”的历史推送用户集合中第一轮选择得到的历史用户子集;标签“1”为集合ID为“001”的历史推送用户集合对应的推送效果数据,作为该历史用户子集对应的推送效果数据;用户ID“u_0001,u_0003,…,u_0102,…”表示该历史推送用户子集中的各用户标识;在第四行中,集合ID为“001-2”的历史推送用户子集,为从集合ID为“001”的历史推送用户集合中第二轮选择得到的历史用户子集,标签“1”为集合ID为“001”的历史推送用户集合对应的推送效果数据,作为该历史用户子集对应的推送效果数据;用户ID“u_0012,u_1208,…,u_6351,…”表示该历史推送用户子集中的各用户标识。
无论是基于历史推送用户集合还是基于历史推送用户子集,得到各训练样本之后,进行机器学习模型训练,具体见如下实施例。
在本申请技术方案中,还可以获取历史推送数据中的历史推送用户集合的画像特征,作为中间结果输出,具体见如下实施例。
在一种可能的实现方式中,获取待推送信息对应的候选推送用户集合,包括:
基于各待推送用户初始画像特征,通过信息推送模型,确定候选推送用户集合;
推送效果评估结果包括评估得分,该方法还包括:
若评估得分大于设定评估值,则向候选推送用户集合中的各用户推送待推送信息;
获取已推送信息的推送效果数据;
基于各已推送信息的推送效果数据,调整推送模型的训练数据集,并基于调整后的训练数据集对推送模型进行训练。
在实际应用中,可以通过信息推送模型获取候选推送用户集合。具体的,将各待推送用户的初始画像特征输入信息推送模型,推送模型输出各待推送用户对应的推送结果,推送结果可以是表示推送或者不推送,也可以是表示推送的概率值,本申请对此不作限定。可选的,将可以推送的各待推送用户构造候选推送用户集合。获取候选推送用户集合的用户群的画像特征,输入推送效果评估模型,得到推送效果评估结果,具体可以是评估得分,若评估得分大于设定评估值,说明候选推送用户集合与待推送信息的匹配度较高,预期能够得到好的推送效果,则向候选推送用户集合中的各用户推送待推送信息,其中,评估设定值可以根据具体需要进行设置;若评估得分不大于设定评估值,则说明候选推送用户与待推送信息的匹配度不高,预期不能得到好的推送效果,则不会向候选推送用户集合中的各用户推送待推送信息。
获取已推送信息的推送效果数据,以及输出已推送信息对应的候选推送用户集合的用户群的画像特征,根据已推送信息的推送效果数据和已推送信息对应的候选推送用户集合的用户群的画像特征,可以看出候选推送用户集合与待推送信息是否匹配,例如,若已推送信息的推送效果不好,则需要检查已推送信息的候选推送用户集合的用户群的画像特征与待推送信息是否匹配,如果不匹配则调整推送模型的训练数据集,用调整之后的训练数据集训练推送模型;若已推送信息的推送效果不好,但已推送信息的候选推送用户集合的用户群的画像特征与待推送信息匹配,则调整信息推送模型的模型参数,使得信息推送更加精准。因此,候选推送用户集合的用户群的画像特征可以作为效果评估模型的中间结果输出,以调整推送模型以及推送模型的训练集。
在一示例中,以待推送信息为游戏类信息为例进行说明,如果根据某个候选推送用户集合的用户群的画像特征确定的集合中的兴趣为游戏的用户占比很小,那就说明这个集合里对游戏有兴趣的用户不多,如果把当前待推送信息推送给这个集合包含的所有用户,那推送效果很可能不会太好。反之,如果游戏兴趣用户占比高,把当前待推送信息推送给这个集合的所有用户,推送效果将有很大概率得到保证。因此,可以根据用户群的画像特征反映出的历史推送用户集合的情况,调整训练样本,优化推送模型。
本申请技术方案能够产生以下有益效果:
(1)本申请技术方案中,以候选推送用户集合作为信息推送效果评估模型的输入,输出该候选推送用户集合对于待推送信息的推送效果评估结果,进而预估候选推送用户集合在线上投放的效果。本申请弥补了评估推送模型缺乏物理含义和可解释性差的缺点,有效预评估投放效果,指导推送投放策略。
(2)本申请采用重采样技术扩展训练样本的数量,有效解决了训练样本量少带来的模型训练问题。
(3)本申请的预评估过程不依赖于具体的推送算法,也不依赖于特定的机器学习模型,可以根据场景和需要调整模型和特征提取过程,具有良好的非耦合特性,易于扩展到各类推送的生产环境。
(4)本申请的候选推送用户集合的用户群的画像特征可以作为效果评估模型的中间结果输出,能够有效指导使用者进行推送模型的优化和训练样本的调整。
下面通过一个具体的实施例,对本申请技术方案的实现过程进行详细说明。
如图5所示,执行步骤S301,获取历史推送数据。具体的,获取对历史推送用户进行信息推送的数据,每个历史推送数据包括历史推送用户集合、历史推送用户集合中各用户的用户初始画像特征、以及历史推送用户集合对应的推送效果数据;可选的,历史推送数据可以是与待推送信息相对应的推送数据。若待推送信息为教育类信息,则历史推送数据可以是教育类信息对应的历史推送数据,可以包括教育类信息的历史推送用户集合,集合中各用户的兴趣特征、性别特征等,以及集合对应的推送效果得分。
执行步骤S302,基于历史推送用户集合,确定至少一个历史推送用户子集。具体的,首先,对历史推送用户集合进行预处理。具体包括,根据历史推送用户集合中的各用户的用户标识查询用户初始画像特征,例如各用户的兴趣特征、性别特征等,过滤掉重复的用户初始画像特征,或者过滤掉查询不到用户初始画像特征的用户标识,得到预处理之后的历史推送用户集合。然后,对每个历史推送用户集合提取历史推送用户子集。具体包括:对于每个历史推送用户集合,从集合中选择至少一个用户标识,将选择出的用户标识组成该历史推送数据集合的子集,每个历史推送用户集合对应至少一个历史推送用户子集;例如,从一个历史推送用户集合中随机选择5个用户标识作为该历史推送用户集合的一个子集,然后将选择出的5个用户标识放回该历史推送用户集合中,再次随机选择5个用户标识作为该历史推送用户集合的另一个子集,从而得到该历史推送用户集合的两个历史推送用户子集。
执行步骤S303,根据历史推送用户子集中各用户的用户初始画像特征,确定历史推送用户子集对应的用户群的画像特征。具体的,将历史推送用户子集中各用户的用户初始画像特征进行统计分析,得到历史推送用户子集对应的用户群的画像特征;可选的,历史推送用户子集中各用户的用户初始画像特征为性别特征,对性别特征进行统计得到的统计特征作为该历史推送用户子集对应的用户群的画像特征。例如,获取某一历史推送用户子集中的各用户的性别,统计该历史推送用户子集中的女性用户的数量、女性用户所占的比例,作为该历史推送用户子集对应的一个用户群的画像特征。
执行步骤S304,基于每个历史推送用户子集对应的用户群的画像特征得到训练样本。具体的,每个训练样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签,推送效果标注标签表征了样本用户集合的真实推送效果。将各历史推送用户子集对应的用户群的画像特征作为训练样本的样本用户群的画像特征,将历史推送用户子集所属的历史推送用户集合对应的推送效果数据作为推送效果标注标签,得到各训练样本。
执行步骤S305,将每个历史推送用户子集对应的各用户群的画像特征作为中间结果输出。具体的,将每个历史推送用户子集对应的各用户群的画像特征进行统计,得到每个历史推送用户子集的用户群的画像特征,该用户群的画像特征可以直接展示给算法使用者,帮助使用者判断历史推送用户子集与待推送信息的匹配情况。可以根据用户群的画像特征和待推送信息的匹配信息,来优化推送模型和训练样本,以调整信息推送策略,使得信息推送更加精准。
执行步骤S306,利用训练样本训练信息推送效果评估模型。利用步骤S304得到的训练样本训练初始信息推送效果评估模型。将各训练样本输入至初始推送效果评估模型中,得到各训练样本各自对应的推送效果预测值;基于各训练样本各自对应的推送效果预测值和推送效果标注标签之间的差值,得到损失函数的值;基于各训练样本和损失函数的值对模型进行迭代训练,经过多次迭代训练,直至满足预设的训练结束条件,例如,损失函数收敛,则将训练结束时的模型作为推送效果评估模型。
执行步骤S307,获取待推送信息对应的候选推送用户集合以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征。具体的,利用推送模型推送模型推送模型,基于用户的历史行为数据,计算待推送信息与各用户的历史行为数据的匹配度,例如,用户是否经常浏览教育类信息,将用户按照匹配度从高到低的顺序进行排序,将排在前面预设数量个位置的用户作为候选推送用户,将这些候选推送用户组成候选推送用户集合,作为待推送信息对应的候选推送用户集合。候选推送用户集合可以是待推送信息将要推送的候选推送用户的用户标识组成的集合,获取到候选推送用户集合之后,根据各用户标识可以查询到该用户标识对应的用户的初始画像特征。
执行步骤S308,根据各用户的用户初始画像特征,确定候选推送用户集合对应于待推送信息的用户群的画像特征。具体的,获取候选推送用户集合中各用户的用户初始画像特征,可以包括兴趣特征、属性特征等,将各用户的用户初始画像特征进行统计分析,得到至少一个候选推送用户集合的用户群的画像特征,例如,统计候选推送用户集合中各用户的性别,将性别为女性的用户的数量和占比作为候选推送用户集合对应的用户群的画像特征。
执行步骤S309,基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。具体的,基于候选推送用户集合对应的用户群的画像特征,利用步骤S306得到的信息推送效果评估模型进行评估结果预测,将候选推送用户集合的用户群的画像特征,输入推送效果评估模型,得到推送效果评估得分。例如,将性别为女性的用户的数量和占比作为候选推送用户集合的用户群的画像特征输入推送效果评估模型,得到该候选推送用户集合对应的推送效果评估得分。
执行步骤S310,输出候选推送用户集合的推送效果评估结果。可选的,输出候选推送用户集合对应的推送效果评估得分,若评估得分大于设定评估值,说明候选推送用户集合与待推送信息的匹配度较高,预期能够得到好的推送效果,则向候选推送用户集合中的各用户推送待推送信息。
需要说明的是,训练信息推送效果评估模型和获取候选推送用户集合的用户群的画像特征没有严格的先后顺序。即执行步骤S301-S306,与执行步骤S307-S308,没有严格的先后顺序,可以先执行步骤S301-S306,获取历史推送数据,根据历史推送数据确定训练样本,根据训练样本训练得到信息推送效果评估模型,再执行步骤S307-S308,得到候选推送用户集合的用户群的画像特征;然后再执行步骤S309,将用户群的画像特征输入信息推送效果评估模型,得到模型输出的推送效果评估结果。也可以先执行步骤S307-S308,得到候选推送用户集合的用户群的画像特征,再执行步骤S301-S306,得到信息推送效果评估模型,然后再执行步骤S309。
下面通过一个具体的应用场景,对本申请技术方案的实现过程进行详细说明。
在一个具体的实施例中,待推送信息为中小学教育类信息,要将待推送信息推送给感兴趣的用户。
首先,获取待推送信息对应的候选推送用户集合。具体的,获取各候选用户的历史行为数据,例如,用户是否经常浏览中小学教育类信息;根据各候选用户的历史行为数据,确定待推送信息对应的各待推送用户;基于各待推送用户,确定候选推送用户集合。获取候选推送用户集合中各用户的属性特征和兴趣特征,属性特征:性别为女性、年龄为35-45周岁;兴趣特征为对教育信息感兴趣;
其次,对候选推送用户集合中各用户的属性特征和兴趣特征进行统计分析,得到候选推送用户集合对应的用户群的画像特征:性别为女性的用户的数量和占比、年龄为35-45周岁的用户的数量和占比、兴趣特征为对教育信息感兴趣的用户的数量和占比。
再次,获取各历史推送数据,每个历史推送数据包括历史推送用户集合、历史推送用户集合中各用户的用户初始画像特征、以及历史推送用户集合对应的推送效果数据;对于各历史推送数据中的每个历史推送数据,基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集;对于每个历史推送用户子集,根据历史推送用户子集中各用户的用户初始画像特征,确定历史推送用户子集对应的用户群的画像特征,基于每个历史推送用户子集对应的用户群的画像特征得到训练数据集,利用训练数据集训练推送效果评估模型。
最后,基于候选推送用户集合对应的用户群的画像特征:性别为女性的用户的数量和占比、年龄为35-45周岁的用户的数量和占比、兴趣特征为对教育信息感兴趣的用户的数量和占比,通过推送效果评估模型得到候选推送用户集合的推送效果评估结果,推送效果评估结果包括评估得分,若评估得分大于设定评估值,则向候选推送用户集合中的各用户推送中小学教育类信息。
基于与图2中所示方法相同的原理,本公开的实施例中还提供了一种信息推送效果评估装置50,如图6所示,该信息推送效果评估装置50包括:
获取模块51,用于获取待推送信息对应的候选推送用户集合、以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征;
确定模块52,用于根据各用户的用户初始画像特征,确定候选推送用户集合对应于待推送信息的用户群的画像特征;
评估模块53,用于基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。
在一种可能的实现方式中,确定模块52,用于:
将各用户的用户初始画像特征进行统计分析,得到候选推送用户集合的至少一个统计特征,将至少一个统计特征作为候选推送用户集合对应的用户群的画像特征。
在一种可能的实现方式中,用户初始画像特征包括用户的兴趣特征或属性特征中的至少一项,对于兴趣特征或属性特征中的任一项,该特征对应的统计特征包括以下至少一项:
具有同一特征的用户数量、具有同一特征的用户的占比。
在一种可能的实现方式中,获取模块51在获取待推送信息对应的候选推送用户集合时,用于:
获取各候选用户的历史行为数据;
根据各候选用户的历史行为数据,确定各候选用户对应于待推送信息的感兴趣概率;
基于各候选用户的感兴趣概率,从各候选用户中确定候选推送用户集合。
在一种可能的实现方式中,获取模块51在获取待推送信息对应的候选推送用户集合时,用于:
基于各待推送用户初始画像特征,通过推送模型,确定候选推送用户集合;
推送效果评估结果包括评估得分,信息推送效果评估装置50还包括调整模块,用于:
若评估得分大于设定评估值,则向候选推送用户集合中的各用户推送待推送信息;
获取已推送信息的推送效果数据;
基于各已推送信息的推送效果数据,调整推送模型的训练数据集,并基于调整后的训练数据集对推送模型进行训练。
在一种可能的实现方式中,评估模块53具体用于:
基于用户群的画像特征,通过推送效果评估模型,得到推送效果评估结果;
其中,推送效果评估模型是通过以下方式训练得到的:
获取训练样本集,训练数据集中包括各训练样本,每个训练样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签,推送效果标注标签表征了样本用户集合的真实推送效果;
将各训练样本输入至初始推送效果评估模型中,得到各训练样本各自对应的推送效果预测值;
基于各训练样本各自对应的推送效果预测值和推送效果标注标签,计算损失函数的值;
基于各训练样本和损失函数的值对模型进行迭代训练,直至满足预设的训练结束条件,将训练结束时的模型作为推送效果评估模型。
在一种可能的实现方式中,信息推送效果评估装置50还包括优化模块,用于:
存储已推送信息对应的候选推送用户集合的用户群的画像特征;
获取已推送信息的推送效果数据;
基于已推送信息对应的候选推送用户集合的用户群的画像特征和已推送信息的推送效果数据,对所述推送效果评估模型进行优化。
在一种可能的实现方式中,推送效果评估模型包括多个子分类模型,评估模块53用于:
基于用户群的画像特征,分别通过各子分类模型,得到各子分类模型对应的推送效果评估结果;
将各子分类模型对应的推送效果评估结果进行融合,得到推送效果评估模型的推送效果评估结果。
在一种可能的实现方式中,评估模块53在获取训练样本集时用于:
获取各历史推送数据,每个历史推送数据包括历史推送用户集合、历史推送用户集合中各用户的用户初始画像特征、以及历史推送用户集合对应的推送效果数据;
基于各历史推送数据,得到各训练样本。
在一种可能的实现方式中,评估模块53在基于各历史推送数据,得到各训练样本时,用于:
根据各历史推送用户集合中各用户的用户初始画像特征,确定各历史推送用户集合各自对应的用户群的画像特征;
基于各历史推送用户集合对应的推送效果数据,确定各历史推送用户集合各自对应的推送效果标注标签;
根据各历史推送用户集合各自对应的用户群的画像特征和推送效果标注标签,得到各第一训练样本,各训练样本包括各第一训练样本,其中,一个第一训练样本的样本用户群的画像特征为该样本对应的历史推送用户集合对应的用户群的画像特征。
在一种可能的实现方式中,评估模块53在基于各历史推送数据,得到各训练样本时,用于:
对于各历史推送数据中的每个历史推送数据,基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集;
对于每个历史推送用户子集,根据历史推送用户子集中各用户的用户初始画像特征,确定历史推送用户子集对应的用户群的画像特征;
基于每个历史推送用户子集对应的用户群的画像特征得到第二训练样本;
其中,一个第二训练样本的样本用户群的画像特征为历史推送用户子集对应的用户群的画像特征,推送效果标注标签该第二训练样本对应的历史推送用户子集所属的历史推送用户集合对应的推送效果标注标签,各训练样本包括各第二训练样本。
在一种可能的实现方式中,评估模块53在基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集时,用于:
对各历史推送用户集合进行排序,对排序后的各历史推送用户集合重复执行以下操作,直至每个历史推送用户集合中选择出的历史推送用户子集的个数等于设定值:
从当前历史推送用户集合中选取用户数量等于设定个数的子集;
若当前历史推送用户集合为排序后的最后一个历史推送用户集合,且每个历史推送用户集合中选择出的历史推送用户子集的数量等于设定值,则结束操作,将已选择出的历史推送用户子集作为各历史推送用户子集;
若当前历史推送用户集合不是排序后的最后一个历史推送用户集合,则将当前历史推送用户集合的下一历史推送用户集合作为当前历史推送用户集合。
在一种可能的实现方式中,评估模块53在基于历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集时,用于:
确定每个所述历史推送用户集合所对应的历史推送用户子集的个数;
将各所述历史推送用户集合进行排序,按照排序从第一个历史推送用户集合开始对各历史推送用户集合依次执行以下操作:
从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
若当前历史推送用户集合不是最后一个历史推送用户集合,则将下一个历史推送用户集合作为当前历史推送用户集合,并从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
若当前历史推送用户集合是最后一个历史推送用户集合、且该历史推送用户集合对应的历史推送用户子集的数量小于设定值,则将第一个历史推送用户集合作为当前历史推送用户集合,并从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
若当前历史推送用户集合是最后一个历史推送用户集合、且该历史推送用户集合对应的历史推送用户子集的数量等于设定值,则操作结束。
本公开实施例的信息推送效果评估装置可执行本公开的实施例所提供的与图2对应的信息推送效果评估方法,其实现原理相类似,本公开实施例中的信息推送效果评估装置中的各模块所执行的动作是与本公开实施例中的信息推送效果评估方法中的步骤相对应的,对于信息推送效果评估装置的各模块的详细功能描述具体可以参见前文中所示的对应的信息推送效果评估方法中的描述,此处不再赘述。
本申请实施例提供的信息推送效果评估装置,根据候选推送用户集合中各用户对应于待推送信息的用户初始画像特征,得到候选推送用户集合对应于待推送信息的用户群的画像特征;并基于该集合对应的用户群的画像特征,对候选推送用户集合的推送效果预先进行评估,由于评估结果是基于候选推送用户集合对应的用户群的画像特征进行的评估,因此,评估结果能够更加准确,从而能够根据评估结果调整信息推送策略,可以使得信息推送更加精准,更好的满足用户的需求,提升用户的使用感知。
上述实施例从虚拟模块的角度介绍了信息推送效果评估装置,下述从实体模块的角度介绍一种电子设备,具体如下所示:
本申请实施例提供了一种电子设备,如图7所示,图7所示的电子设备6000包括:处理器6001和存储器6003。其中,处理器6001和存储器6003相连,如通过总线6002相连。可选地,电子设备6000还可以包括收发器6004。需要说明的是,实际应用中收发器6004不限于一个,该电子设备6000的结构并不构成对本申请实施例的限定。
处理器6001可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器6001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线6002可包括一通路,在上述组件之间传送信息。总线6002可以是PCI总线或EISA总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器6003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器6003用于存储执行本申请方案的应用程序代码,并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,获取待推送信息对应的候选推送用户集合、以及候选推送用户集合中各用户对应于待推送信息的用户初始画像特征;根据各用户的用户初始画像特征,确定候选推送用户集的用户群的画像特征;基于用户群的画像特征,确定候选推送用户集合对应于待推送信息的推送效果评估结果。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应内容。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例所提供的各种可选的信息推送效果评估方法。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种信息推送效果评估方法,其特征在于,所述方法包括:
获取各待推送用户对应于待推送信息的用户初始画像特征,基于所述各待推送用户的用户初始画像特征,通过信息推送模型确定待推送信息对应的候选推送用户集合;所述候选推送用户集合为各个待推送用户中,对所述待推送信息的感兴趣概率排序靠前预设数量的用户;
根据各用户的用户初始画像特征,确定所述候选推送用户集合的用户群的画像特征,作为中间结果输出调整所述信息推送模型以及信息推送模型的训练集;
基于所述用户群的画像特征,通过推送效果评估模型,得到所述推送效果评估结果;所述推送效果评估模型的训练样本为样本用户集合对应的样本用户群的画像特征和推送效果标注标签,所述推送效果标注标签表征了所述样本用户集合的真实推送效果,真实推送效果是指在历史推送中是否达到目标效果;所述推送效果评估结果包括评估得分;
若所述评估得分大于设定评估值,则向所述候选推送用户集合中的各用户推送所述待推送信息;获取已推送信息的推送效果数据;基于各已推送信息的推送效果数据,调整所述信息推送模型的训练数据集,并基于调整后的训练数据集对所述信息推送模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述根据所述各用户的用户初始画像特征,确定所述候选推送用户集合的用户群的画像特征,包括:
将所述各用户的用户初始画像特征进行统计分析,得到所述候选推送用户集合的至少一个统计特征,将所述至少一个统计特征作为所述候选推送用户集合的用户群的画像特征。
3.根据权利要求2所述的方法,其特征在于,所述用户初始画像特征包括用户的兴趣特征或属性特征中的至少一项,对于兴趣特征或属性特征中的任一项,该特征对应的统计特征包括以下至少一项:
具有同一特征的用户数量、具有同一特征的用户的占比。
4.根据权利要求1所述的方法,其特征在于,其中,所述推送效果评估模型是通过以下方式训练得到的:
获取训练样本集,所述训练数据集中包括各训练样本,每个训练样本包括样本用户集合对应的样本用户群的画像特征和推送效果标注标签,所述推送效果标注标签表征了所述样本用户集合的真实推送效果;
将各训练样本输入至初始推送效果评估模型中,得到各训练样本各自对应的推送效果预测值;
基于各训练样本各自对应的推送效果预测值和推送效果标注标签,计算损失函数的值;
基于各训练样本和损失函数的值对模型进行迭代训练,直至满足预设的训练结束条件,将训练结束时的模型作为所述推送效果评估模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
存储已推送信息对应的候选推送用户集合的用户群的画像特征;
获取已推送信息的推送效果数据;
基于已推送信息对应的候选推送用户集合的用户群的画像特征和已推送信息的推送效果数据,对所述推送效果评估模型进行优化。
6.根据权利要求5所述的方法,其特征在于,所述推送效果评估模型包括多个子分类模型,所述基于所述用户群的画像特征,通过推送效果评估模型,得到所述推送效果评估结果,包括:
基于所述用户群的画像特征,分别通过各子分类模型,得到各子分类模型对应的推送效果评估结果;
将各子分类模型对应的推送效果评估结果进行融合,得到所述推送效果评估模型的推送效果评估结果。
7.根据权利要求4所述的方法,其特征在于,所述获取训练样本集,包括:
获取各历史推送数据,每个所述历史推送数据包括历史推送用户集合、所述历史推送用户集合中各用户的用户初始画像特征、以及所述历史推送用户集合对应的推送效果数据;
基于所述各历史推送数据,得到所述各训练样本。
8.根据权利要求7所述的方法,其特征在于,所述基于所述各历史推送数据,得到所述各训练样本,包括:
根据各历史推送用户集合中各用户的用户初始画像特征,确定所述各历史推送用户集合各自对应的用户群的画像特征;
基于所述各历史推送用户集合对应的推送效果数据,确定所述各历史推送用户集合各自对应的推送效果标注标签;
根据所述各历史推送用户集合各自对应的用户群的画像特征和推送效果标注标签,得到各第一训练样本,所述各训练样本包括所述各第一训练样本,其中,一个第一训练样本的样本用户群的画像特征为该样本对应的历史推送用户集合对应的用户群的画像特征。
9.根据权利要求7所述的方法,其特征在于,所述基于所述各历史推送数据,得到所述各训练样本,包括:
对于所述各历史推送数据中的每个历史推送数据,基于所述历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集;
对于每个所述历史推送用户子集,根据所述历史推送用户子集中各用户的用户初始画像特征,确定所述历史推送用户子集对应的用户群的画像特征;
基于每个所述历史推送用户子集对应的用户群的画像特征得到第二训练样本;
其中,一个所述第二训练样本的样本用户群的画像特征为所述历史推送用户子集对应的用户群的画像特征,推送效果标注标签该第二训练样本对应的所述历史推送用户子集所属的历史推送用户集合对应的推送效果标注标签,所述各训练样本包括各第二训练样本。
10.根据权利要求9所述的方法,其特征在于,所述基于所述历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集,包括:
对各历史推送用户集合进行排序,对排序后的各历史推送用户集合重复执行以下操作,直至每个历史推送用户集合中选择出的历史推送用户子集的个数等于设定值:
从当前历史推送用户集合中选取用户数量等于设定个数的子集;
若当前历史推送用户集合为排序后的最后一个历史推送用户集合,且每个历史推送用户集合中选择出的历史推送用户子集的数量等于设定值,则结束操作,将已选择出的历史推送用户子集作为各历史推送用户子集;
若当前历史推送用户集合不是排序后的最后一个历史推送用户集合,则将当前历史推送用户集合的下一历史推送用户集合作为当前历史推送用户集合。
11.根据权利要求9所述的方法,其特征在于,所述基于所述历史推送数据的历史推送用户集合,确定至少一个历史推送用户子集,包括:
确定每个所述历史推送用户集合所对应的历史推送用户子集的个数;
将各所述历史推送用户集合进行排序,按照排序从第一个历史推送用户集合开始对各历史推送用户集合依次执行以下操作:
从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
若当前历史推送用户集合不是最后一个历史推送用户集合,则将下一个历史推送用户集合作为当前历史推送用户集合,并从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
若当前历史推送用户集合是最后一个历史推送用户集合、且该历史推送用户集合对应的历史推送用户子集的数量小于设定值,则将第一个历史推送用户集合作为当前历史推送用户集合,并从当前历史推送用户集合中随机选取用户数量等于设定个数的历史推送用户子集;
若当前历史推送用户集合是最后一个历史推送用户集合、且该历史推送用户集合对应的历史推送用户子集的数量等于设定值,则操作结束。
12.一种信息推送效果评估装置,其特征在于,所述装置包括:
获取模块,用于获取各待推送用户对应于待推送信息的用户初始画像特征,基于所述各待推送用户的用户初始画像特征,通过信息推送模型确定待推送信息对应的候选推送用户集合;所述候选推送用户集合为各个待推送用户中,对所述待推送信息的感兴趣概率排序靠前预设数量的用户;
确定模块,用于根据各用户的用户初始画像特征,确定所述候选推送用户集合的用户群的画像特征,作为中间结果输出调整所述信息推送模型以及信息推送模型的训练集;
评估模块,用于基于所述用户群的画像特征,通过推送效果评估模型,得到所述推送效果评估结果;所述推送效果评估模型的训练样本为样本用户集合对应的样本用户群的画像特征和推送效果标注标签,所述推送效果标注标签表征了所述样本用户集合的真实推送效果,真实推送效果是指在历史推送中是否达到目标效果;所述推送效果评估结果包括评估得分;
训练模块,用于若所述评估得分大于设定评估值,则向所述候选推送用户集合中的各用户推送所述待推送信息;获取已推送信息的推送效果数据;基于各已推送信息的推送效果数据,调整所述信息推送模型的训练数据集,并基于调整后的训练数据集对所述信息推送模型进行训练。
13.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个计算机程序,其中所述一个或多个计算机程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序被配置用于执行根据权利要求1~11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,当所述计算机程序在处理器上运行时,使得所述处理器可以执行权利要求1~11任一项所述的方法。
CN202011149093.6A 2020-10-23 2020-10-23 信息推送效果评估方法、装置、电子设备及存储介质 Active CN112148994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011149093.6A CN112148994B (zh) 2020-10-23 2020-10-23 信息推送效果评估方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011149093.6A CN112148994B (zh) 2020-10-23 2020-10-23 信息推送效果评估方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112148994A CN112148994A (zh) 2020-12-29
CN112148994B true CN112148994B (zh) 2024-04-19

Family

ID=73954919

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011149093.6A Active CN112148994B (zh) 2020-10-23 2020-10-23 信息推送效果评估方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112148994B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656697B (zh) * 2021-08-24 2023-12-12 北京字跳网络技术有限公司 对象推荐方法、装置、电子设备、存储介质
CN116800831A (zh) * 2023-06-25 2023-09-22 中国农业银行股份有限公司北京市分行 一种业务数据推送方法、装置、存储介质及处理器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766580A (zh) * 2017-11-20 2018-03-06 北京奇虎科技有限公司 消息的推送方法及装置
CN109522483A (zh) * 2018-11-14 2019-03-26 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN109684554A (zh) * 2018-12-26 2019-04-26 腾讯科技(深圳)有限公司 新闻的潜在用户的确定方法及新闻推送方法
CN110598016A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法、装置、设备和介质
CN110609951A (zh) * 2019-08-14 2019-12-24 深圳壹账通智能科技有限公司 信息推送方法、装置、计算机设备和存储介质
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111061956A (zh) * 2019-12-24 2020-04-24 北京百度网讯科技有限公司 用于生成信息的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766580A (zh) * 2017-11-20 2018-03-06 北京奇虎科技有限公司 消息的推送方法及装置
CN109522483A (zh) * 2018-11-14 2019-03-26 北京百度网讯科技有限公司 用于推送信息的方法和装置
CN109684554A (zh) * 2018-12-26 2019-04-26 腾讯科技(深圳)有限公司 新闻的潜在用户的确定方法及新闻推送方法
CN110609951A (zh) * 2019-08-14 2019-12-24 深圳壹账通智能科技有限公司 信息推送方法、装置、计算机设备和存储介质
CN110598016A (zh) * 2019-09-11 2019-12-20 腾讯科技(深圳)有限公司 一种多媒体信息推荐的方法、装置、设备和介质
CN110705683A (zh) * 2019-10-12 2020-01-17 腾讯科技(深圳)有限公司 随机森林模型的构造方法、装置、电子设备及存储介质
CN111061956A (zh) * 2019-12-24 2020-04-24 北京百度网讯科技有限公司 用于生成信息的方法和装置

Also Published As

Publication number Publication date
CN112148994A (zh) 2020-12-29

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN111814982B (zh) 面向多跳问答的动态推理网络系统及方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN109635083B (zh) 一种用于搜索ted演讲中话题式查询的文档检索方法
CN110532379B (zh) 一种基于lstm的用户评论情感分析的电子资讯推荐方法
CN104133817A (zh) 网络社区交互方法、装置及网络社区平台
CN113505204B (zh) 召回模型训练方法、搜索召回方法、装置和计算机设备
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
CN112819023A (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112148994B (zh) 信息推送效果评估方法、装置、电子设备及存储介质
CN110689523A (zh) 基于元学习个性化图像信息评价方法、信息数据处理终端
CN113722583A (zh) 推荐方法、推荐模型训练方法及相关产品
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN115909443A (zh) 基于多头注意力机制的表情识别模型及其训练方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114416929A (zh) 实体召回模型的样本生成方法、装置、设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN112541010B (zh) 一种基于逻辑回归的用户性别预测方法
CN116910357A (zh) 一种数据处理方法及相关装置
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN112364258B (zh) 基于图谱的推荐方法、系统、存储介质及电子设备
CN115187910A (zh) 视频分类模型训练方法、装置、电子设备及存储介质
CN115203532A (zh) 一种项目推荐方法、装置、电子设备及存储介质
CN113822291A (zh) 一种图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40036272

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant