CN116823360A

CN116823360A - 一种基于用户行为的智能广告计划生成方法及系统

Info

Publication number: CN116823360A
Application number: CN202310858535.1A
Authority: CN
Inventors: 杨渊策; 徐昕萌; 贾宁; 陈燎; 林琴萍; 于涵
Original assignee: Tianjin Yingzhi Technology Co ltd
Current assignee: Tianjin Yingzhi Technology Co ltd
Priority date: 2023-07-13
Filing date: 2023-07-13
Publication date: 2023-09-29
Anticipated expiration: 2043-07-13
Also published as: CN116823360B

Abstract

本发明公开一种基于用户行为的智能广告计划生成方法及系统，涉及广告投放技术领域。所述方法包括：确定广告投放数据库；所述广告投放数据库包括用户群、广告创意、投放方式和既有计划的历史投放数据；基于所述广告投放数据库，匹配目标用户群的多个目标广告创意；对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划；对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据。本发明能够提高广告主对广告投放的效率及效益。

Description

一种基于用户行为的智能广告计划生成方法及系统

技术领域

本发明涉及广告投放技术领域，特别是涉及一种基于用户行为的智能广告计划生成方法及系统。

背景技术

在信息技术与互联网高速发展的时代，人们对于网络资源的依赖和需求与日俱增。电商平台因其便捷度、价格优势及商品多样性而占据强大优势，但同时对用户和供应商提出了巨大挑战。从用户角度，“信息超载”问题致使用户需要在海量信息中过滤大量无效信息，信息使用效率大幅度下降、影响用户体验；对供应商而言，如何实现资源最大化地吸引用户、最大化自己的收益也成为亟待解决的问题。

然而，在现有研究中，鲜少有学者从广告主角度，研究如何帮助广告主进行短视频信息流广告的智能计划生成与投放。在实际的广告投放过程中，广告主通常面临广告投放管理复杂、投放效果稳定性较差等问题，主要原因包括：(1)信息流广告投放的流量环境具有多变性，投放时间及频次难以确定；(2)在实时竞价广告机制中，参竞广告来源广泛、种类繁多，其所形成的竞争环境的不确定性较强；(3)实时竞价的信息流广告投放策略(后简称计划)中包含多维度的决策选项，如：广告内容、目标用户群、投放时间、投放方式等，其组合复杂度使得广告投放难以单纯依靠人工经验实现高效、精准的管理，进而影响投放效益的提升。

发明内容

本发明的目的是提供一种基于用户行为的智能广告计划生成方法及系统，能够提高广告主对广告投放的效率及效益。

为实现上述目的，本发明提供了如下方案：

一种基于用户行为的智能广告计划生成方法，包括：

确定广告投放数据库；所述广告投放数据库包括用户群、广告创意、投放方式和既有计划的历史投放数据；

基于所述广告投放数据库，匹配目标用户群的多个目标广告创意；

对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划；

对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据。

可选地，所述确定广告投放数据库，具体包括：

确定目标信息流广告平台；

在所述信息流广告平台中采集广告投放历史数据，并根据所述广告投放历史数据生成广告投放数据库。

可选地，基于所述广告投放数据库，匹配目标用户群的多个目标广告创意，具体包括：

基于所述广告投放数据库确定投放策略的决策选项；所述决策选项包括用户群、广告创意和投放方式；

利用关联规则算法，对所述决策选项中的目标用户群进行关联提取，确定所述目标用户群对应的投放方式；

利用所述协同过滤算法，对所述目标用户群对应的投放方式中的广告创意进行过滤匹配，得到多个目标广告创意。

可选地，利用关联规则算法，对所述决策选项中的目标用户群进行关联提取，确定所述目标用户群对应的投放方式，具体包括：

选择衡量计划投入产出比的指标ROI作为关联规则挖掘的目标，以ROI＝0.6为阈值，将全部计划分为“高ROI”和“低ROI”两类；

设定最小支持度阈值，保留出现频次大于最小支持度计数的数据项，并按照出现频次降序排列，得到筛选与排序结果；

根据所述筛选与排序结果，对原事务重新排序并构造FP-Tree；对FP-Tree中的每个节点，将到达此处的所有前缀路径作为该节点的条件模式基；根据每个节点的条件模式基，建立相应的条件模式树并输出相应的频繁项集；

设置最小置信度阈值，并输出置信度大于该阈值的关联规则；

保留所有后件为“高ROI”的关联规则，计算关联规则提升度；

按照关联规则提升度降序排序，将排名前10的用户群组合作为目标用户群，将排名前20的投放方式作为所述目标用户群对应的投放方式。

可选地，对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划，具体包括：

将各所述目标广告创意和投放方式的组合结果做笛卡尔积组合，生成候选策略，利用LightGBM模型预测候选策略投放效果，并筛选算法投放计划。

可选地，还包括：利用阈值过滤法，计算所述目标用户的邻域范围相似度，并利用阈值过滤法将相似度小于0.7的用户群进行过滤，得到所述目标用户群的相似用户群，对所述相似用户群进行广告投放。

可选地，在“对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据”之后，还包括：

对投放效果数据进行如下处理：以“天”为时间单位，将源数据聚合为每个计划每天的投放效果数据，并重新计算综合字段值；删除所有消耗值为0的数据记录，以及从创建至今成交金额始终为0的计划；对数值型变量的缺失值进行均值填充；以“每个计划每天”为单位，计算投放效果的历史数据，以列表形式存储；删除缺少历史数据的数据记录。

本发明还提供了一种基于用户行为的智能广告计划生成系统，包括：

数据库确定模块，用于确定广告投放数据库；所述广告投放数据库包括用户群、广告创意、投放方式和既有计划的历史投放数据；

创意匹配模块，用于基于所述广告投放数据库，匹配目标用户群的多个目标广告创意；

算法投放计划确定模块，用于对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划；

投放计划补充模块，用于对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种基于用户行为的智能广告计划生成方法及系统，所述方法包括确定广告投放数据库；所述广告投放数据库包括用户群、广告创意、投放方式和既有计划的历史投放数据；基于所述广告投放数据库，匹配目标用户群的多个目标广告创意；对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划；对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据。本发明能够提高广告主对广告投放的效率及效益。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于用户行为的广告投放决策逻辑示意图；

图2为本实施例中实时竞价广告投放决策系统数据交货过程示意图；

图3为本实施例中计划生成模块算法流程示意图；

图4为本实施例中基于协同过滤算法的创意匹配流程示意图；

图5为本实施例中计划控制线上测试的日综合ROI示意图；

图6为本实施例中计划控制模块与规则投放效果对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供了一种基于用户行为的智能广告计划生成方法，包括：

步骤100：确定广告投放数据库；所述广告投放数据库包括用户群、广告创意、投放方式和既有计划的历史投放数据。

步骤200：基于所述广告投放数据库，匹配目标用户群的多个目标广告创意。

步骤300：对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划。

步骤400：对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据。

作为步骤100的一种具体实施方式，包括：

确定目标信息流广告平台；在所述信息流广告平台中采集广告投放历史数据，并根据所述广告投放历史数据生成广告投放数据库。

作为步骤200的一种具体实施方式，包括：

S210、基于所述广告投放数据库确定投放策略的决策选项；所述决策选项包括用户群、广告创意和投放方式。

S220、利用关联规则算法，对所述决策选项中的目标用户群进行关联提取，确定所述目标用户群对应的投放方式。

S230、利用所述协同过滤算法，对所述目标用户群对应的投放方式中的广告创意进行过滤匹配，得到多个目标广告创意。

其中，步骤S220的过程为：

S221、选择衡量计划投入产出比的指标ROI作为关联规则挖掘的目标，以ROI＝0.6为阈值，将全部计划分为“高ROI”和“低ROI”两类；

S222、设定最小支持度阈值，保留出现频次大于最小支持度计数的数据项，并按照出现频次降序排列，得到筛选与排序结果；

S223、根据所述筛选与排序结果，对原事务重新排序并构造FP-Tree；对FP-Tree中的每个节点，将到达此处的所有前缀路径作为该节点的条件模式基；根据每个节点的条件模式基，建立相应的条件模式树并输出相应的频繁项集；

S224、设置最小置信度阈值，并输出置信度大于该阈值的关联规则；

S225、保留所有后件为“高ROI”的关联规则，计算关联规则提升度；

S226、按照关联规则提升度降序排序，将排名前10的用户群组合作为目标用户群，将排名前20的投放方式作为所述目标用户群对应的投放方式。

作为步骤300的一种具体实施方式，包括：

此外，智能广告计划生成方法还包括：利用阈值过滤法，计算所述目标用户的邻域范围相似度，并利用阈值过滤法将相似度小于0.7的用户群进行过滤，得到所述目标用户群的相似用户群，对所述相似用户群进行广告投放。

在步骤400之后，还包括：

对投放效果数据进行如下处理：以“天”为时间单位，将源数据聚合为每个计划每天的投放效果数据，并重新计算表1中的综合字段值；删除所有消耗值为0的数据记录，以及从创建至今成交金额始终为0的计划；对数值型变量的缺失值进行均值填充；以“每个计划每天”为单位，计算投放效果的历史数据，以列表形式存储；删除缺少历史数据的数据记录。

表1投放效果数据处理计算公式表

在上述技术方案的基础上，提供如下所示实施例。

本实施例采用类似智能推荐系统的算法融合思想，以关联规则挖掘和协同过滤算法为主，梯度提升树算法作为补充，生成计划投放的候选策略。本系统主要包括计划生成与计划控制两大模块，如图1所示。其中，计划生成模块涵盖：(1)基于关联规则挖掘定位目标用户群和高效投放方式；(2)通过协同过滤算法为目标用户群匹配广告创意；(3)使用笛卡尔积组合生成候选策略；(4)借助机器学习预测算法对候选策略进行筛选得出“算法投放计划”。计划控制模块主要基于既有计划的历史投放数据，利用LightGBM模型预测计划的未来效果，将筛选出的优质计划，即“预测投放计划”，作为计划生成模块的有效补充。

实时竞价广告投放过程可分为计划准备、生成与反馈三个阶段，主要涉及广告主、投放中介(决策系统)、素材提供者、信息流广告投放平台和平台用户等角色，如图3所示。其中，广告主、投放中介和素材提供者之间的数据交互主要包括：计划投放素材、投放需求及投放效果等；投放中介与信息流广告投放平台之间负责完成计划投放策略、投放效果等数据交互；信息流广告投放平台与平台用户之间主要完成计划推荐和用户数据收集；广告主与用户之间则完成商品需求反馈和买卖交易。

计划准备阶段是指在投放中介生成投放策略之前，对投放素材的准备过程，主要涉及以下数据交互过程：(1)广告主向投放中介和素材提供者提供产品信息，如产品名称、类型标签、价格及限制销售地区等；(2)广告主向投放中介提出投放预算要求，并通过消耗、CTR、eCPM、ROI、转化目标和转化率等指标衡量其投放效果；(3)广告主向素材提供者提出素材需求，包括产品理念、主要受众群体、产品竞争力、优惠活动等信息；(4)素材提供者在进行素材准备后，将投放素材提供给投放中介，主要包括视频剧本、主播基本信息和直播间介绍等信息。

计划生成阶段主要由信息流广告投放平台向投放中介提供计划投放的历史数据，包括用户属性数据和历史投放效果数据。投放中介生成投放策略后，再将筛选出的优质计划依策略投放至广告平台。

计划效果反馈主要分为：(1)由信息流广告投放平台向投放中介反馈计划投放的实时效果数据；(2)投放中介定期向广告主反馈周期(每日\周\月)投放效果，向素材提供者反馈素材评价。

计划生成模块以协同过滤算法为核心，并从转化效益和精准投放维度确定评价投放效果的相关指标。本模块的算法流程如图3所示：(1)确定投放策略的决策选项，包括广告创意、目标用户群和投放方式等，并据此获取相应的历史用户属性和投放方式的相关数据；(2)关联规则挖掘目标用户群和高效投放方式；(3)协同过滤匹配广告创意；(4)将创意匹配结果与投放方式组合结果做笛卡尔积组合生成候选策略；(5)LightGBM预测候选策略投放效果，筛选“算法投放计划”。

用户群与投放方式的挖掘定位采用关联规则算法，通过计算不同个体间的相互依存性和关联性，挖掘满足给定支持度和置信度的所有依赖关系。本实施例选择FPGrowth算法构造频繁模式树(FP-Tree,Frequent Pattern Tree)，分别对目标用户群与高效投放方式进行定位，具体步骤如下：

(1)选择衡量计划投入产出比的指标——ROI作为关联规则挖掘的目标，以ROI＝0.6为阈值，将全部计划分为“高ROI”和“低ROI”两类。

(2)设定最小支持度阈值minSup＝0.001，保留出现频次大于最小支持度计数的数据项，并按照出现频次降序排列；支持度计算公式如下：

式中，(A→B)表示前件为A，后件为B的关联规则；Support为关联规则的支持度；SupportCount为支持度计数；m为数据集中的事务数。

(3)根据步骤(2)中的筛选与排序结果，对原事务重新排序并构造FP-Tree；对FP-Tree中的每个节点，到达此处的所有前缀路径即为该节点的条件模式基；根据每个节点的条件模式基，建立相应的条件模式树并输出相应的频繁项集。

(4)最小置信度阈值minConf＝0.001，输出置信度大于该阈值的关联规则；置信度计算公式如下：

式中，Confidence为关联规则的置信度。

(5)保留所有后件为“高ROI”的关联规则，计算关联规则提升度；提升度计算公式如下：

式中，Lift为关联规则的提升度。

(6)按照关联规则提升度降序排序，保留排名前10的高频高质量用户群组合和排名前20的高效投放方式。

本实施例借鉴基于用户的协同过滤算法原理，寻找与目标用户群高度相似的用户群体，结合用户相似度与广告创意的投放效益，在相似用户群体间进行创意推荐，算法流程如图4所示。协同过滤推荐算法中通过相似度来衡量是否向两个用户推荐相同产品的前提假设是：具有较高相似度的两个用户，其行为偏好较为接近，更容易选择类似的产品或服务。为实现用户属性特征的准确表达，在特征处理过程中引入虚拟变量，导致特征矩阵较为稀疏，故常用的相似度计算方式，如欧氏距离(ED,Euclidean Distance)、余弦相似度(CS,Cosine Similarity)和皮尔森相关系数(PCC,Pearson Correlation Coefficient)等在本场景中并不适用。因此，根据用户的年龄、所属地区和性别等特征的相同比例，计算相同账号历史计划中的用户群体与目标用户群的相似度。

为了提高服务器内存使用效率，在构建邻域时须对用户进行适当过滤，常见的最近邻选择方法有：Top-N过滤、阈值过滤和负相关过滤。本技术选择阈值过滤法，过滤相似度小于0.7的用户群。接着，按照创意名称分组，将每个创意的综合ROI乘以相似度即为每个创意的得分，并选取得分最高的前10个创意；最后，根据历史数据统计视频创意标签，匹配给当前视频。

本实施例中候选策略投放效果预测采用LightGBM算法和五折交叉验证相结合，预测候选投放策略的ROI值并排序，并选择预测结果的命中率作为计划生成模型的评价指标。命中率(HR,Hits Ratio)是推荐系统中常用的评价指标，衡量了标签挖掘的精度，其计算公式如下：

式中，HR@N为前N个候选策略的命中率，T_HE@N为手工标记的前N个标签，T@N为模型输出的前N个标签。

计划控制模块基于既有计划的历史投放数据预测其未来投放效果，结合计划生成模块筛选的候选策略，对计划投放作出补充。为增强数据有效性、提高模型对计划效果的预测能力，对投放效果数据进行如下处理：(1)以“天”为时间单位，将源数据聚合为每个计划每天的投放效果数据，并重新计算表1中的综合字段值；(2)删除所有消耗值为0的数据记录，以及从创建至今成交金额始终为0的计划；(3)对数值型变量的缺失值进行均值填充；(4)以“每个计划每天”为单位，计算投放效果的历史数据，以列表形式存储；(5)删除缺少历史数据的数据记录。基于计划属性和投放效果数据，结合实际业务场景，构建七类样本特征：(1)计划投放日期特征；(2)前一天的计划投放效果数据；(3)历史投放效果数据的统计特征；(4)计划投放时长特征；(5)历史投放效果数据高于给定阈值的天数；(6)计划属性特征；(7)历史投放效果数据的综合字段特征；共计448个特征变量。

为了提高模型预测效果，在对分类特征进行one-hot编码后，对现有特征进行识别与筛选：(1)识别特征的缺失值比例并剔除缺失值比例高于60％的特征，所有特征的缺失值比例均小于20％；(2)识别特征的唯一值个数，剔除仅有单个唯一值的特征；(3)识别并剔除相关性高于0.7的特征；(4)基于LightGBM模型识别特征重要性，并剔除对累计重要度达到99％无贡献的特征。

计划控制模块结合LightGBM和五折交叉验证，预测既有计划的未来投放效果。根据计划投放的转化目标，将“成交金额”字段设置为模型的预测目标，将样本分为“成交计划”，即成交金额>0，和“非成交计划”，即成交金额＝0：

式中，pay_order_amount为每个计划每日的成交金额。

LightGBM的预测结果包含以下四种情况：真实情况和预测结果均为“成交计划”，“非成交计划”被误判为“成交计划”、“成交计划”被误判为“非成交计划”，以及真实情况和预测结果均为“非成交计划”。

在实际计划投放的控制环节中，需要通过预测模型找出尽可能多的“成交计划”，并结合统计学特征做进一步筛选。同时，基于样本观察发现，计划的投放产出比例分布近似于“二八定律”，即，由较少的计划产生主要收益。因此，选择召回率作为预测模型的评价指标，必要时可以适当牺牲模型精确率，放宽预测“成交计划”数量的要求。召回率的计算公式为：

式中，TP为真实情况和预测结果均为“成交计划”的数量，FN为“成交计划”被误判为“非成交计划”的数量。

为进一步提高准确性，减少计划投放的成本开支，借助统计学方法对模型预测的“成交计划”(记为“预测成交计划”)做进一步筛选：首先，根据其历史开放天数，分为开放超过10天的“老计划”和开放不足10天的“新计划”；其次，通过历史数据中成交金额大于0和ROI值大于1的天数占比，判断“预测成交计划”的质量；最后，针对“老计划”，使用斜率检验法判断历史数据趋势，以剔除前期表现较好但已呈现衰退趋势或表现不稳定的计划，最终得到适合投放的“预测成交计划”，记为“预测投放计划”。

作为另一种具体实施例，提供在具体应用中的数据。

在本实施例中，计划生成模块拟定的决策选项及相关数据主要包括：(1)投放设置，包括计划投放的日预算、出价和投放时间等；(2)用户属性信息，包括年龄、性别、地区、历史行为数据等；(3)计划属性信息，包括抖音号分类、创意标签等。

其中，用户属性和计划属性信息均为多选项，存储为列表形式：年龄变量根据不同年龄段划分为“18-23岁”、“24-30岁”、“31-40岁”、“41-50岁”和“50岁以上”；城市列表存储了所选城市的代码，根据行政区划代码将地区按照城市发展等级划分为“新一线”、“一线”、“二线”、“三线”、“四线”、“五线”、“其他线”和“非发展线”城市；粉丝行为数据在数据库中的存储形式为类目词列表；抖音号分类主要包括“宠物”、“时尚”和“美妆”；创意标签主要包括“快速消费品”、“宠物用品”、“宠物食品”、“一般化妆品”和“保养护肤”。经过one-hot编码、统计学特征构建及特征筛选，共计48项特征，其中，投放设置特征11项，用户属性特征30项，计划属性特征7项。

线下验证选择2021年4月21日至2021年5月6日的数据作为研究对象，数据记录的时间间隔为1小时，样本量为2690。其中，数值型数据的描述性统计如表2所示。以ROI＝0.6为阈值，将样本划分为“高ROI”和“低ROI”两类，即：

其中，“高ROI”样本量为198，“低ROI”为2492，二者分布比例约为1:12。

表2投放设置参数表

/>

经验证，相比于将用户群、广告创意和投放方式进行随机组合投放的方式，“算法投放计划”的前50命中率提升29.4％，说明计划生成模型对提高计划投放的精准投放程度具有显著效益。

由于ROI反映了计划投入产出(消耗转化)比，是广告主判定投放效益的核心指标。因此，在线上测试环节，首先选择计划投放的综合ROI作为关键评价指标。

2022年春节前后(1月1日至2月17日)通过巨量千川平台进行线上测试，投放方式分为“算法投放”(即，采用本文构建的计划生成模块生成候选策略并投放)、“人工投放”(即，品牌方自主投放)和“代理投放”(即，由代理公司负责投放)。统计测试期间三种投放方式的综合ROI，如表3所示，在为期48天的测试时间内，“算法投放”的综合ROI为1.40，高于设定阈值0.6；高出“人工投放”ROI(0.96)45.83％，“代理投放”ROI(1.16)20.69％；从消耗与成交额占比来看，“算法投放”(分别为61.76％和67.28％)也远高于“人工投放”(分别为11.52％和8.62％)和“代理投放”(分别为26.72％和24.10％)，可见“算法投放”效果良好。

表3投放方式表

为检验“算法投放”效果的稳定性，分别统计春节前、中、后三期“算法投放”的投放效果，如表4所示，三个时期内“算法投放”综合ROI分别为1.35，1.38和1.61，均高于设定阈值0.6，可见“算法投放”效果能够维持相对稳定的高效益状态。

表4投放效果表

同时，“算法投放”的综合ROI在三个测试时期内呈明显上升趋势。为进一步验证该结论，首先，观察“算法投放”与“人工投放”的日综合ROI分布情况，在三个测试时段内前者的平均水平均高于后者，且呈现明显的上升趋势；其次，对比两者随时间的变化趋势，“算法投放”的ROI能够基本维持在0.8～1.5区间内，且在三个时期内呈现攀升趋势；此外，在测试前期，“算法投放”能基本维持高于“人工投放”的效果，且随着“算法投放”效果逐步提升，该优势也逐渐趋于明显；上述结论均与表4中所呈现的结论保持一致。

从转化效益角度，对比测试期间不同投放方式的日转化成本和下单ROI：(1)“算法投放”的日转化成本平均水平均低于“人工投放”，说明在相同转化水平下，“算法投放”成本开支更少；(2)“算法投放”的下单ROI平均水平均高于“人工投放”，说明在同等消耗情况下，其所投计划的下单金额更多，转化效益更好。

从精准投放角度，对比测试期间不同投放方式的eCPM和CTR：(1)“算法投放”的eCPM平均水平均高于“人工投放”，说明其所投计划在信息流广告投放平台内部的竞价更高，获得推荐的概率更大；(2)“算法投放”的CTR平均水平均高于“人工投放”，说明在同等展示水平下，其所投计划的点击次数更多，对受众的吸引力更强，计划投放更加精准。

计划控制模块的效果评估选择2022年3月2日的数据作为线下验证的测试集，样本数量为305。本次实验共有253条计划被判断为“成交计划”，模型训练的召回率约为96.20％。为验证模型在长期预测中的有效性，减少单次实验的偶然性影响，将线下验证的时间范围扩展为2022年2月10日至2022年3月10日，模型训练集以“月”为更新频率。测试期间模型的召回率基本稳定在90％以上，说明该模型对计划的预测能力在较长时间内能保持相对稳定水平。

2022年3月26日至4月4日，将“规则投放计划”与“预测投放计划”共同投放至巨量千川平台，每日综合ROI变化情况如图5所示。其中，“规则投放计划”是根据人工经验制定的计划筛选规则进行投放的计划。可见，“预测投放计划”的每日综合ROI基本稳定在1.6～2.0的较高水平，且显著优于“规则投放计划”，投放效果良好。

构建“规则投放计划”和“预测投放计划”之间的混淆矩阵：将二者的共同部分的计划记为“both”；在“规则投放计划”列表中，不在“预测投放计划”列表中的计划记为“ruleonly”；在“预测投放计划”列表中，不在“规则投放计划”列表中的计划记为“predictonly”。如图6所示，“预测投放计划”能够筛选出人工规则未能筛选出的部分优质计划(predict only对应的ROI基本稳定在1.5以上)，具有显著的补充作用。

为了弥补LightGBM作为预测模型在结果解释性方面的不足，本实施例采用SHAP库对模型预测的特征重要性进行解释分析。

SHAP可以为每个预测样本产生一个预测值，用于解释机器学习模型输出结果，样本预测值计算公式如下：

y_i＝y_base+f(x_i1)+f(x_i2)+...+f（x_ik)#(8)

式中，y_base为整个模型的基线，一般设置为所有样本目标的均值；f(x_ik)为最终预测值y_i中第i个样本的第k个特征所做的贡献，即SHAP value。

当f(x_ik)>0，说明在对预测值的贡献中，该特征具有正向提升作用；当f(x_ik)<0，说明该特征具有反向抑制作用。相比于传统的特征重要性识别方法，SHAP不仅能够反映每个样本中的特征的作用，还能表现出作用的方向性。

在特征工程中，结合LightGBM模型和SHAP库解析模型的全局特征重要度。结合两种模型展示的特征重要性，可以得到以下结论：

(1)计划预算对其投放表现具有重要影响：预算是信息流广告投放平台用于计算预估点击率的重要因素，进而影响计划的eCPM值，而eCPM值的排序将直接决定该计划是否被平台展示；

(2)计划投放日期所属月份对计划的表现具有重要影响；

(3)尽管两种模型识别的Top10特征不尽相同，但通过特征归类可以发现，如表5所示，二者的识别结果大多集中在日期、消耗、ROI和eCPM值的相关统计学特征上，由此可见，上述因素与计划的表现密切相关；

(4)计划的出价情况、历史未开放天数以及直播间名称等特征也对计划的表现具有一定的影响作用；

(5)所有特征对预测为“成交计划”(label＝1)或“非成交计划”(label＝0)的两个类别的贡献均等。

表5特征识别归类表

此外，本发明还提供一种基于用户行为的智能广告计划生成系统，包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于用户行为的智能广告计划生成方法，其特征在于，包括：

2.根据权利要求1所述的基于用户行为的智能广告计划生成方法，其特征在于，所述确定广告投放数据库，具体包括：

确定目标信息流广告平台；

3.根据权利要求1所述的基于用户行为的智能广告计划生成方法，其特征在于，基于所述广告投放数据库，匹配目标用户群的多个目标广告创意，具体包括：

4.根据权利要求3所述的基于用户行为的智能广告计划生成方法，其特征在于，利用关联规则算法，对所述决策选项中的目标用户群进行关联提取，确定所述目标用户群对应的投放方式，具体包括：

5.根据权利要求1所述的基于用户行为的智能广告计划生成方法，其特征在于，对各所述目标广告创意和投放方式进行组合，并对组合广告创意进行投放效果预测，确定算法投放计划，具体包括：

6.根据权利要求1所述的基于用户行为的智能广告计划生成方法，其特征在于，还包括：利用阈值过滤法，计算所述目标用户的邻域范围相似度，并利用阈值过滤法将相似度小于0.7的用户群进行过滤，得到所述目标用户群的相似用户群，对所述相似用户群进行广告投放。

7.根据权利要求1所述的基于用户行为的智能广告计划生成方法，其特征在于，在“对所述目标用户群对应的既有计划的历史投放数据进行效果预测，确定预测投放计划，并将所述预测投放计划作为所述算法投放计划的补充数据”之后，还包括：

8.一种基于用户行为的智能广告计划生成系统，其特征在于，包括：