CN111091400A

CN111091400A - 广告转化预测模型的生成以及投放广告的方法和装置

Info

Publication number: CN111091400A
Application number: CN201811236524.5A
Authority: CN
Inventors: 贺威; 毛涛; 孔维; 周柯吉; 顾勇镛
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2020-05-01

Abstract

本发明提供了广告转化预测模型的生成以及投放广告的方法和装置。所述投放广告的方法包括：首先生成广告转化预测模型；接着将待预测的用户数据集输入到所述广告转化预测模型，根据广告转化预测模型的输出得到转化倾向得分大于等于预设阈值的目标用户群体；然后向所得到的目标用户群体投放该广告。

Description

广告转化预测模型的生成以及投放广告的方法和装置

技术领域

本发明涉及计算机技术领域，具体而言涉及一种广告转化预测模型的生成方法和装置以及一种投放广告的方法和装置。

背景技术

随着互联网应用的高速发展，在互联网上发布广告逐渐成为一种主流方式。这种通过互联网发布广告方式的优势在于覆盖范围广、主动性强、可定向发布等，因此在互联网发布广告的方式越来越受到各商家的青睐。

当前出现了一些向预定目标用户投放广告的技术，但其主要思路是：通过收集一段时间内用户在特定计算机或者智能移动设备上的互联网行为信息，例如浏览的网页、玩的游戏、阅读的书籍、登录的购物网站等，来预测用户的兴趣爱好，针对用户的兴趣爱好进行定向投放广告。然而，这种定向投放广告属于常规的打标签方式的定向投放广告，其对用户画像的广泛性不足、广告投放的精准性和个性化不高。例如，经常浏览体育新闻的用户未必就是喜欢进行体育锻炼的人，向该用户展示体育用品广告，则该广告投放的精准性不高；向喜欢玩电子游戏的用户展示游戏广告，但该用户未必喜欢所展示的游戏内容或类型，这种广告投放的个性化不高。再者，如果用户在其使用的智能终端上安装的APP软件的类型较少，或者因为各种因素而不经常使用APP软件，则对该用户的画像信息很少，无法获得更广泛的画像数据。

鉴于现有技术的上述技术问题，有必要开发新的投放广告的方法和装置。

发明内容

本发明的目的在于提供一种投放广告的方法和装置，以改善上述问题。

本发明第一实施例提供了一种广告转化预测模型的生成方法，其包括：

获取关于一推广目标的广告的历史转化数据集，其中所述历史转化数据集中的每条历史转化数据包括：用户标识和描述是否转化的标记信息；

获取用户画像数据集，其中所述用户画像数据集中的每个用户画像数据包括：用户标识和用户画像信息；

基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理，得到标记为转化的正样本数据和标记为未转化的负样本数据；

对所述正样本数据和所述负样本数据执行特征提取；

基于机器学习算法，使用所提取的特征作为训练数据进行机器学习训练，生成广告转化预测模型。

其中，所述用户画像信息包括：用户静态描述数据和用户行为数据。

其中，所述用户标识为：手机号码、智能终端的设备识别码、国际移动设备识别码或用户账号信息。

其中，在进行匹配融合处理的步骤中，在匹配成功的融合数据中，具有已转化标记信息的这部分融合数据被视为正样本数据，具有未转化标记信息的这部分融合数据被视为负样本数据；在不匹配的未融合数据中，所述用户画像数据集中的用户画像数据被加上用于描述未转化状态的标记信息并且被视为负样本数据。

其中，在对所述正样本数据和所述负样本数据执行特征提取之前，根据预定的清洗规则对正样本数据和负样本数据进行数据清洗；所述清洗规则包括：数据类型的变换、数据格式的变换、字符串分割、拼接处理、去除不规则及冗余数据。

其中，所述机器学习算法包括但不限于：逻辑回归算法、梯度提升决策树算法、HE-TreeNet算法、支持向量机算法、朴素贝叶斯算法或深度神经网络算法。

其中，该方法还包括：

获取目标用户限制条件；

在基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理之前，根据所述目标用户限制条件对所述用户画像数据进行过滤处理。

本发明第二实施例提供了一种投放广告的方法，其包括：

基于第一实施例所述的方法或者第一实施例与其优选实施例的组合所述的方法，生成广告转化预测模型；

将待预测的用户数据集输入到所述广告转化预测模型，根据广告转化预测模型的输出得到转化倾向得分大于等于预设阈值的目标用户群体；

向所得到的目标用户群体投放该广告。

其中，在所述向所得到的目标用户群体投放该广告的步骤中，还包括：

基于转化倾向得分的区间值大小，将所述目标用户群体划分为多个子目标用户群体；

针对不同的子目标用户群体采用不同的广告出价策略进行广告投放。

估计各子目标用户群体的转化率；

基于所估计的各子目标用户群体的转化率，针对不同的子目标用户群体采用不同的广告出价策略进行广告投放。

其中，该方法还包括：获取目标用户限制条件；在将待预测的用户数据集输入到所述广告转化预测模型之前，根据所述目标用户限制条件对所述待预测的用户数据集进行过滤处理。

其中，在所述向所得到的目标用户群体投放该广告的步骤中，还包括：基于广告主设置的条件来投放广告；该条件包括如下所列的一种或多种：投放广告的时间和日期、投放广告的页面位置、广告的弹出方式、广告的展示方式。

该投放广告的方法还包括：在广告投放经历预设一段时间后，统计已转化的人群数据和未转化的人群数据，将统计的人群数据作为新的历史转化数据集，重复所述广告转化预测模型的生成步骤，以继续优化所述广告转化预测模型。

本发明第三实施例提供了一种广告转化预测模型的生成装置，其包括：

数据获取模块，用于获取关于一推广目标的广告的历史转化数据集，其中所述历史转化数据集中的每条历史转化数据包括：用户标识和描述是否转化的标记信息；和获取用户画像数据集，其中所述用户画像数据集中的每个用户画像数据包括：用户标识和用户画像信息；

匹配融合模块，用于基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理，得到标记为转化的正样本数据和标记为未转化的负样本数据；

特征提取模块，用于对所述正样本数据和所述负样本数据执行特征提取；

模型生成模块，用于基于机器学习算法，使用所提取的特征作为训练数据进行机器学习训练，生成广告转化预测模型。

其中，在进行匹配融合处理过程中，在匹配成功的融合数据中，具有已转化标记信息的这部分融合数据被视为正样本数据，具有未转化标记信息的这部分融合数据被视为负样本数据；在不匹配的未融合数据中，所述用户画像数据集中的用户画像数据被加上用于描述未转化状态的标记信息并且被视为负样本数据。

其中，所述装置还包括数据清洗模块，用于在所述特征提取模块对所述正样本数据和所述负样本数据执行特征提取之前，根据预定的清洗规则对正样本数据和负样本数据进行数据清洗；所述清洗规则包括：数据类型的变换、数据格式的变换、字符串分割、拼接处理、去除不规则及冗余数据。

其中，所述装置还包括：

数据过滤模块，用于获取目标用户限制条件，在所述匹配融合模块基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理之前，根据所述目标用户限制条件对所述用户画像数据进行过滤处理。

本发明第四实施例提供了一种投放广告的装置，其包括：

基于第三实施例所述的生成装置或者第三实施例与其优选实施例的组合所述的的生成装置，用于生成广告转化预测模型；

广告投放模块，用于将待预测的用户数据集输入到所述广告转化预测模型，根据广告转化预测模型的输出得到转化倾向得分大于等于预设阈值的目标用户群体，向所得到的目标用户群体投放该广告。

其中，所述广告投放模块在执行向所得到的目标用户群体投放该广告的过程中，还用于：

估计各子目标用户群体的转化率；

其中，所述数据过滤模块还用于：

在所述广告投放模块将待预测的用户数据集输入到所述广告转化预测模型之前，根据所述目标用户限制条件对所述待预测的用户数据集进行过滤处理。

其中，所述广告投放模块在向所得到的目标用户群体投放广告的过程中，还用于：基于广告主设置的条件来投放广告；该条件包括如下所列的一种或多种：投放广告的时间和日期、投放广告的页面位置、广告的弹出方式、广告的展示方式。

其中，所述装置还包括：优化更新模块，用于在广告投放经历预设一段时间后，统计已转化的人群数据和未转化的人群数据，将统计的人群数据作为新的历史转化数据集，重复所述广告转化预测模型的生成步骤，以继续优化所述广告转化预测模型。

本发明第五实施例还提供了一种计算机可读存储介质，其中，在所述计算机可读存储介质上记录有当被处理器执行时实现如第一实施例所述的方法或者第一实施例与其优选实施例的组合所述的方法的计算机程序。

本发明第六实施例还提供了一种计算装置，包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，促使处理器执行如第一实施例所述的方法或者第一实施例与其优选实施例的组合所述的方法。

根据本发明提供的投放广告的方法和装置，通过使用关于一推广目标的广告的历史转化数据集和用户画像数据集，采用机器学习方法来生成广告转化预测模型，使用该预测模型能够得到想要投放广告的目标用户群体，由此可以实现向购买愿望强的人群投放广告，并且受众广泛、目标针对性强，这明显提高了广告的转化率，给广告主带来更高的经济效益。

附图说明

图1是本发明第一实施例提供的广告转化预测模型的生成方法的流程图；

图2是本发明第二实施例提供的投放广告的方法的流程图；

图3是本发明第三实施例提供的广告转化预测模型的生成装置的示意性框图；

图4是本发明第三实施例提供的广告转化预测模型的生成装置的一个变化方案的示意性框图；

图5是本发明第四实施例提供的投放广告的装置的示意性框图。

具体实施方式

本发明基于人工智能技术提出了一种新的投放广告的方法和装置。人工智能技术的核心是机器学习，其是使计算机具有智能的根本途径。基于不同的具体算法和逻辑准则可以开发出不同的机器学习模型，常用的算法例如包括：逻辑回归算法、梯度提升决策树算法(GBDT)、HE-TreeNet算法、支持向量机算法(SVM)、朴素贝叶斯算法、和深度神经网络算法(DNN)等。下面将结合具体实施例和附图，对本发明提出的技术方案进行清楚、完整地描述，显然所描述的示例性实施例仅仅出于说明目的而非限定。

图1是本发明第一实施例提供的广告转化预测模型的生成方法的流程图。如图1所示，本发明第一实施例提供的广告转化预测模型的生成方法包括：

S1：数据采集。

在本发明里，数据采集包括：获取关于一推广目标的广告的历史转化数据集，其中所述历史转化数据集中的每条历史转化数据包括：用户标识和描述是否转化的标记信息；和获取用户画像数据集，其中所述用户画像数据集中的每个用户画像数据包括：用户标识和用户画像信息。

这里，所述用户标识为：手机号码、智能终端的设备识别码、国际移动设备识别码或者用户账号信息等。所述标记信息就指记载了关于一推广目标的广告的已转化和未转化结果的信息，可以使用任何区别符号表示已转化结果和未转化结果。例如在软件程序里，可以使用“1”表示已转化结果，用“0”表示未转化结果。所谓的广告转化是指在点击看过广告的人群中进行实际购买相应产品的行为结果，看过广告后并实际购买相应产品的行为称为已转化，看过广告后没有购买相应产品的行为称为未转化。

所述用户画像信息包括：用户静态描述数据和用户行为数据。其中，用户静态描述数据包括如下所列的一种或多种：性别、年龄、职业、学历、居住城市、爱好、特长、喜欢购买商品的类别等；用户行为数据包括如下所列的一种或多种：购买行为数据(如实物商品、金融商品、其他的虚拟商品等)、APP安装行为数据、刷卡欣慰数据等等。除了这里列举的信息，还可以包括其他的用户画像信息，例如国籍、经常做的事、最向往的事等等，这里不一一列举了。

另外，所述历史转化数据除了包括必要的用户标识和描述是否转化的标记信息之外，还可以包括和用户相关的其它信息，例如涉及用户画像的信息，诸如性别、年龄、职业、学历、居住城市、爱好，行为等，这视对广告的历史转化数据的采集能力而定，基于广告产品的购买途径不同，采集用户数据信息的多样性也不同。例如，在用户看过广告之后，点击广告页面的购买按钮时跳转到第三方电商平台(例如淘宝网或京东网等)上进行购买相应产品，采集的用户数据信息多数情况为用户标识和描述是否转化的标记信息(已转化标记或未转化标记)；当用户点击广告页面的购买按钮时跳转到该广告主(即相应产品卖方)自己的购物平台上以实现购买行为，例如该广告主(卖方)提供的网络购物软件APP，除了可以获得用户标识和描述是否转化的标记信息(已转化标记或未转化标记)外，对于发生购买行为(已转化)的用户，当他注册成为该广告主(卖方)提供的购物平台的用户时，在注册过程中通过填写个人信息就可以获得该用户的一部分画像信息，诸如性别、年龄、居住城市、爱好等。这种信息采集方式属于日常的通用方式，这里不再详细介绍。

获取用户画像数据集的方法可以采用公知方法来实现，例如可以从第三方获得其收集的用户画像数据集，一般来说第三方通过搜集用户注册时输入的数据获取用户画像数据集。

S2：对采集的数据进行匹配融合处理，其中基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理，得到标记为转化的正样本数据和标记为未转化的负样本数据。

因为历史转化数据和用户画像数据都包括有用户标识，所述用户标识优选是手机号码或用户账号信息，通过比对历史转化数据和用户画像数据的用户标识是否相同来实现匹配。这里的匹配融合处理就是将具有相同用户标识的历史转化数据和用户画像数据合成一个新数据。当历史转化数据只包括了用户标识和描述是否转化的标记信息时，匹配成功的结果是原来的用户画像数据成为具有了描述是否转化的标记信息的新数据；当历史转化数据除了包括有用户标识和描述是否转化的标记信息之外，还包括和用户相关的其它信息时，则匹配成功的结果是原来的用户画像数据具有了描述是否转化的标记信息，且历史转化数据包含的用户相关的其它信息中与用户画像数据包含的信息相同的信息被合并为一个信息，与用户画像数据包含的信息不同的信息并入到该用户画像数据中，由此原来的用户画像数据成为具有了描述是否转化的标记信息和更多与用户相关信息的新数据。

在得到正样本数据和负样本数据的过程中，即在进行匹配融合处理的步骤中，在匹配成功的融合数据中，具有已转化标记信息的这部分融合数据被视为正样本数据，具有未转化标记信息的这部分融合数据被视为负样本数据。在实践中，关于一推广目标的广告的历史转化数据在多数情况下是由该广告的投放方进行收集，其更容易采集到购买该广告所发布的产品的购买者的信息，例如手机号码、用户账号等，并标记为已转化状态，即更容易收集到标记已转化状态的历史转化数据。反之，对于看过广告后没有购买行为的用户，没有太多途径获得该用户的手机号码、用户账号等用户标识，即不容易收集到更多的标记未转化状态的历史转化数据。

本发明是要通过机器学习找出广告转化结果和用户画像特征之间的关联性，因此这里将不匹配的用户画像数据看作是具有未转化标记信息的负样本数据，即在不匹配的未融合数据中，所述用户画像数据集中的用户画像数据被加上用于描述未转化状态的标记信息并且被视为负样本数据。由此，负样本数据包括了在匹配成功的融合数据中具有未转化标记信息的这部分融合数据、和添加有未转化标记信息的不匹配的用户画像数据。

由此可知，在进行匹配融合处理的步骤中，在匹配成功的融合数据中，具有已转化标记信息的这部分融合数据被视为正样本数据，具有未转化标记信息的这部分融合数据被视为负样本数据；在不匹配的未融合数据中，所述用户画像数据集中的用户画像数据被加上用于描述未转化状态的标记信息并且被视为负样本数据。

而在不匹配的未融合数据中，所述历史转化数据集中的不匹配的历史转化数据可以有两种处理方式。

处理方式一：根据所述用户画像数据的格式对具有已转化标记信息的历史转化数据进行补位处理，并将补位的具有已转化标记信息的历史转化数据视为正样本数据。为了保证原始数据的真实性，补位的数据通常都是没有任何含义的数据，例如0或null。例如，当不匹配的历史转化数据只包括用户标识和已转化标记信息时，用于描述用户画像的字段都是不表示任何含义的数据，例如描述用户画像的字段为性别、年龄、职业、学历、居住城市、爱好、特长、喜欢购买商品的类别等字段。当所述历史转化数据除了包括必要的用户标识和描述是否转化的标记信息之外，还包括有和用户相关的其它信息时，即使该历史转化数据所包括的和用户相关的其它信息的类别数量通常少于所述用户画像数据的类别数量，也仍能够在一定程度上描述用户的画像信息，因此该类数据对于机器学习模型的训练仍是有益的。因此，不匹配的具有已转化标记信息的历史转化数据虽然可以作为正样本数据用于后面将描述的机器学习训练。同样的道理，不匹配的具有未转化标记信息的历史转化数据虽然经过补位处理可以作为负样本数据用于后面将描述的机器学习训练。另外，在实践中，当用户画像数据采集的数量足够多，所述历史转化数据集中的不匹配的历史转化数据的数量将会是少量的。

处理方式二：不匹配的历史转化数据被放弃不用。

在一个实施例中，可以将所述历史转化数据集中的不匹配的历史转化数据弃之不用，所述不匹配是指所述历史转化数据集中的历史转化数据与所述用户画像数据集中的用户画像数据之间没有相同的用户标识。

S3：对所述正样本数据和所述负样本数据执行特征提取。

关于机器学习中涉及的特征提取可以采用本领域公知的方法执行，例如基于机器学习中的特征工程进行特征提取。例如，可以通过处理、关联、组合或变化不同的属性特征，以得到更加丰富的特征属性，改变原来的特征空间。

S4：基于机器学习算法，使用所提取的特征作为训练数据进行机器学习训练，生成广告转化预测模型。

其中所述机器学习算法包括但不限于：逻辑回归算法、梯度提升决策树算法、HE-TreeNet算法、支持向量机算法、朴素贝叶斯算法或深度神经网络算法。

使用训练数据进行机器学习训练的方法也是使用本领域公知的方法执行，采用公知的寻优算法来确定出待生成的广告转化预测模型对应的最优模型参数组合，生成对应于所述最优模型参数组合的广告转化预测模型，即生成关于上述一推广目标的广告的广告转化预测模型。这里不对训练过程进行赘述。

在一个优选实施例中，所述广告转化预测模型的生成方法还包括数据清洗，即在执行步骤S3的对所述正样本数据和所述负样本数据执行特征提取之前，根据预定的清洗规则对正样本数据和负样本数据进行数据清洗；所述清洗规则包括：数据类型的变换、数据格式的变换、字符串分割、拼接处理、去除不规则及冗余数据。通过数据清洗，使得数据的类型、格式等符合要求，去除不规则及冗余数据，可以提高训练数据的可用性。另外，在本技术领域中，已经有很多种数据清洗的方法被公开，并有相关文章被发表，这里提及的数据清洗方法是采用公开的已知技术执行，因此不做过多介绍。

在另一个优选实施例中，所述广告转化预测模型的生成方法还包括以下步骤：

获取目标用户限制条件；在基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理之前，根据所述目标用户限制条件对所述用户画像数据进行过滤处理。

所述目标用户限制条件包括但不限于：性别、年龄、所在地域或居住城市等信息。例如，如果广告推销的产品是女性专用产品，那么可以通过性别的限制条件从所述用户画像数据集中将男性用户数据筛选掉。再者，如果广告推销的产品是网络游戏产品，由于老年人玩网络游戏的可能性比较低，那么可以通过年龄的限制条件从所述用户画像数据集中将超过一定年纪的用户数据筛选掉，例如超过45岁，或者超过50岁等。通过限制条件对所述用户画像数据进行过滤处理，可以减少数据运算量，使得目标用户群体更明确。

根据本发明第一实施例提供的广告转化预测模型的生成方法，通过使用关于一推广目标的广告的历史转化数据集和用户画像数据集，采用机器学习方法来生成广告转化预测模型，使用该预测模型能够得到想要投放广告的目标用户群体。

图2是本发明第二实施例提供的投放广告的方法的流程图。如图2所示，本发明第二实施例提供的投放广告的方法包括：

S21：基于上述第一实施例所述的方法或其与优选实施例的任意组合所述的方法，生成关于一推广目标的广告的广告转化预测模型。

即首先生成关于一推广目标的广告的广告转化预测模型，该广告转化预测模型的生成方法是采用上述第一实施例所述的方法或者采用上述第一实施例与其优选实施例的任意组合所述的方法，这里不再重复描述。

S22：将待预测的用户数据集输入到所述广告转化预测模型，根据广告转化预测模型的输出得到转化倾向得分大于等于预设阈值的目标用户群体。

例如采集大量的用户画像数据作为待预测的用户数据集，将该待预测的用户数据集输入到所述生成的广告转化预测模型，该广告转化预测模型会输出关于每个用户对于所述广告的转化倾向分数，该转化倾向分代表了用户看过广告后购买相应产品的意愿大小，预先设置一个阈值，例如该阈值可以是55％-95％之间的任意一个百分数，例如，65％、70％、75％、80％、85％等，可以根据实践经验定期调整该阈值的具体值，将广告转化预测模型输出的转化倾向得分大于等于预设阈值的用户群体视为目标用户群体，即将用户看过广告后购买相应产品的意愿大于或等于某个临界值的用户群体视为目标用户群体。

这里，需要说明的是，将该待预测的用户数据集输入到所述生成的广告转化预测模型之前，也需要按照步骤S3的方式对每个用户数据进行特征提取，将提取的特征作为预测样本特征输入所述生成的广告转化预测模型。在需要的情况下，在进行特征提取之前还进行数据清洗。

S23：向所得到的目标用户群体投放该广告。

在获得目标用户群体之后，就可以向该目标用户群体投放上面所述的广告了，即关于一推广目标的广告。

因为通过所述广告转化预测模型得到的目标用户群体是对所述广告的转化倾向较高的用户人群，向该用户人群投放所述广告，获得转化结果的成功率很大，即购买广告上推销的目标产品的成功率很大。

另外，广告投放通常是需要给广告位提供商支付一定费用，为了进一步区分目标用户群体，针对不同目标用户群体采用不同的广告出价策略，本发明提供了一个优选实施例，即在所述向所得到的目标用户群体投放该广告的步骤中，还包括：

例如，假设预设阈值为75％，则大于等于75％的转化倾向得分的区间值为75％-100％，可以取转化倾向得分在某一区间值的目标用户群体为子目标用户群体，例如取转化倾向得分在[75％,80％]之间的目标用户群体为第一子目标用户群体，取转化倾向得分在(80％,85％]之间的目标用户群体为第二子目标用户群体，取转化倾向得分在(85％,90％]之间的目标用户群体为第三子目标用户群体，取转化倾向得分在(90％,95％]之间的目标用户群体为第四子目标用户群体，取转化倾向得分在(95％,100％]之间的目标用户群体为第五子目标用户群体。当然，还可以取其他区间值，例如取转化倾向得分在[75％,85％]之间的目标用户群体为第一子目标用户群体，取转化倾向得分在(85％,95％]之间的目标用户群体为第二子目标用户群体，取转化倾向得分在(95％,100％]之间的目标用户群体为第三子目标用户群体。这里对转化倾向得分的区间值大小的选取不做限制，可以根据实践经验而定。

在确定了不同的子目标用户群体之后，可以针对不同的子目标用户群体采用不同的广告出价策略进行广告投放。例如，对于转化倾向得分较高的子目标用户群体可以采用广告出价较高的策略进行广告投放，对于转化倾向得分较低的子目标用户群体可以采用广告出价较低的策略进行广告投放。当然，也可以采取其他的广告出价策略，本发明不对此做任何限定。

另外，尽管转化倾向得分能代表用户的购买愿望大小，但因为这是通过大数据的机器学习得到的结果，也存在转化倾向得分高但用户的实际购买意愿低的小概率事件，例如万分之一或十万分之一的小概率事件，为了克服这种小概率事件的发生，本发明还提供了另一个优选实施例，即在所述向所得到的目标用户群体投放该广告的步骤中，还包括：

基于转化倾向得分的区间值大小，将所述目标用户群体划分为多个子目标用户群体；估计各子目标用户群体的转化率；基于所估计的各子目标用户群体的转化率，针对不同的子目标用户群体采用不同的广告出价策略进行广告投放。

即，针对用转化倾向得分的区间值大小划分的每个子目标用户群体，估计每个子目标用户群体中的每个目标用户的转化率，基于得到的转化率针对不同的子目标用户群体采用不同的广告出价策略进行广告投放。估计每个目标用户的转化率可以采用近似曲线拟合方法来预估。例如，累计关于目标用户的转化倾向分和最终的转化结果，计算转化倾向分与其对应的转化率，就可以得出转化倾向分与最终的转化率的对应曲线关系，将新得到的目标用户的转化倾向分与该曲线做数据拟合，得到近似的预估转化率。举例说明，假设目标用户为100名，转化倾向分为80％的用户人数为25人，在该25人里有20人购买了广告上推销的产品，则转化倾向分为80％对应的转化率为20/25＝80％，由此可以绘制转化倾向分与最终的转化率的对应曲线关系图，该曲线关系图也可以定期进行数据更新，以保证数据更加准确。

在另一个优选实施例中，该投放广告的方法还包括：获取目标用户限制条件；在将待预测的用户数据集输入到所述广告转化预测模型之前，根据所述目标用户限制条件对所述待预测的用户数据集进行过滤处理。

这里的目标用户限制条件可以与第一实施例中提及的目标用户限制条件为相同，也可以是不同，优选二者为相同。而且，这里与第一实施例介绍的相应过程和理由相同，通过限制条件对所述用户画像数据进行过滤处理，可以减少数据运算量，使得目标用户群体更明确。这里不重复赘述。

另外，在执行向所得到的目标用户群体投放该广告的步骤中，该投放广告的方法还可以包括：基于广告主设置的条件来投放广告；该条件包括如下所列的一种或多种：投放广告的时间和日期、投放广告的页面位置、广告的弹出方式、广告的展示方式。即，根据广告主设置的投放条件，例如投放广告的时间和日期来投放广告，当然投放条件可以是所列多个条件之一或多个条件的任意组合，例如根据设置的投放广告的时间和日期、以及广告的展示方式来投放广告。

为了进一步优化所述广告转化预测模型，在一个优选实施例中，该投放广告的方法还可以包括以下步骤：在广告投放经历预设一段时间后，统计已转化的人群数据和未转化的人群数据，将统计的人群数据作为新的历史转化数据集，重复所述广告转化预测模型的生成步骤，以继续优化所述广告转化预测模型。

根据本发明第二实施例提供的投放广告的方法，根据第一实施例所述的方法生成广告转化预测模型，使用该预测模型能够得到想要投放广告的目标用户群体，由此可以实现向购买愿望强的人群投放广告，并且受众广泛、目标针对性强，这明显提高了广告的转化率，给广告主带来更高的经济效益。

图3是本发明第三实施例提供的广告转化预测模型的生成装置的示意性框图。本发明第三实施例提供的广告转化预测模型的生成装置包括：

数据获取模块310，用于获取关于一推广目标的广告的历史转化数据集，其中所述历史转化数据集中的每条历史转化数据包括：用户标识和描述是否转化的标记信息；和获取用户画像数据集，其中所述用户画像数据集中的每个用户画像数据包括：用户标识和用户画像信息；

匹配融合模块320，用于基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理，得到标记为转化的正样本数据和标记为未转化的负样本数据；

特征提取模块330，用于对所述正样本数据和所述负样本数据执行特征提取；

模型生成模块340，用于基于机器学习算法，使用所提取的特征作为训练数据进行机器学习训练，生成广告转化预测模型。

图3所示的本发明第三实施例中，所述用户画像信息包括：用户静态描述数据和用户行为数据。其中，用户静态描述数据包括如下所列的一种或多种：性别、年龄、职业、学历、居住城市、爱好、特长、喜欢购买商品的类别；用户行为数据包括如下所列的一种或多种：购买行为数据(如实物商品、金融商品、其他的虚拟商品等)、APP安装行为数据、刷卡欣慰数据等等。

图3所示的本发明第三实施例中，所述用户标识为：手机号码、智能终端的设备识别码、国际移动设备识别码或用户账号信息。

图3所示的本发明第三实施例中，匹配融合模块320在进行匹配融合处理过程中，在匹配成功的融合数据中，具有已转化标记信息的这部分融合数据被视为正样本数据，具有未转化标记信息的这部分融合数据被视为负样本数据；在不匹配的未融合数据中，所述用户画像数据集中的用户画像数据被加上用于描述未转化状态的标记信息并且被视为负样本数据。

图3所示的本发明第三实施例中，所述机器学习算法包括但不限于：逻辑回归算法、梯度提升决策树算法、HE-TreeNet算法、支持向量机算法、朴素贝叶斯算法或深度神经网络算法。

图4是本发明第三实施例提供的广告转化预测模型的生成装置的一个变化方案的示意性框图。如图4所示，在该变化方案中，广告转化预测模型的生成装置除了数据获取模块310、匹配融合模块320、特征提取模块330和模型生成模块340，还可以包括数据清洗模块325，用于在所述特征提取模块330对所述正样本数据和所述负样本数据执行特征提取之前，根据预定的清洗规则对正样本数据和负样本数据进行数据清洗；所述清洗规则包括：数据类型的变换、数据格式的变换、字符串分割、拼接处理、去除不规则及冗余数据。

除此之外，在该变化方案中，广告转化预测模型的生成装置还可以包括：

数据过滤模块315，用于获取目标用户限制条件，在所述匹配融合模块320基于用户标识将所述历史转化数据集与所述用户画像数据集进行匹配融合处理之前，根据所述目标用户限制条件对所述用户画像数据进行过滤处理。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述第三实施例描述的装置的具体工作过程，可以参考前述第一实施例中的对应过程，前述第一实施例及相应的优选实施例中列举的例子和相关描述，同样适用于解释该第三实施例描述的装置的工作过程，在此不再重复描述。

根据本发明第三实施例提供的广告转化预测模型的生成装置，通过使用关于一推广目标的广告的历史转化数据集和用户画像数据集，采用机器学习方法来生成广告转化预测模型，使用该预测模型能够得到想要投放广告的目标用户群体。

图5是本发明第四实施例提供的投放广告的装置的示意性框图。本发明第四实施例提供的投放广告的装置包括：

广告转化预测模型的生成装置400，用于生成广告转化预测模型；广告转化预测模型的生成装置400是基于上述第三实施例或其与优选实施例的任意组合得到的广告转化预测模型的生成装置；

广告投放模块500，用于将待预测的用户数据集输入到所述广告转化预测模型，根据广告转化预测模型的输出得到转化倾向得分大于等于预设阈值的目标用户群体，向所得到的目标用户群体投放该广告。

这里，需要说明的是，广告投放模块500将该待预测的用户数据集输入到所述生成的广告转化预测模型之前，也需要按照特征提取模块330的方式对每个用户数据进行特征提取，将提取的特征作为预测样本特征输入所述生成的广告转化预测模型。在需要的情况下，在进行特征提取之前还进行数据清洗。

图5所示的本发明第四实施例中，所述广告投放模块500在执行向所得到的目标用户群体投放该广告的过程中，还用于：

估计各子目标用户群体的转化率；

图5所示的本发明第四实施例中，所述广告投放模块500在向所得到的目标用户群体投放广告的过程中，还用于：基于广告主设置的条件来投放广告；该条件包括如下所列的一种或多种：投放广告的时间和日期、投放广告的页面位置、广告的弹出方式、广告的展示方式。

另外，所述广告转化预测模型的生成装置中包括的所述数据过滤模块315还用于：

在所述广告投放模块500将待预测的用户数据集输入到所述广告转化预测模型之前，根据所述目标用户限制条件对所述待预测的用户数据集进行过滤处理。

当然，除了使用所述广告转化预测模型的生成装置中包括的所述数据过滤模块315来继续执行过滤处理工作之外，还可以单独设置第二数据过滤模块(图中未画出)，即所述投放广告的装置还包括：

第二数据过滤模块，其用于获取目标用户限制条件，在所述广告投放模块将待预测的用户数据集输入到所述广告转化预测模型之前，根据所述目标用户限制条件对所述待预测的用户数据集进行过滤处理。

第二数据过滤模块获取的目标用户限制条件可以与所述广告转化预测模型的生成装置中包括的所述数据过滤模块315获取的目标用户限制条件为相同，也可以是不同，优选二者为相同。

图5所示的本发明第四实施例中，所述投放广告的装置还包括：优化更新模块(图中未画出)，用于在广告投放经历预设一段时间后，统计已转化的人群数据和未转化的人群数据，将统计的人群数据作为新的历史转化数据集，重复所述广告转化预测模型的生成步骤，以继续优化所述广告转化预测模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述第四实施例描述的装置的具体工作过程，可以参考前述第二实施例中的对应过程，前述第二实施例及相应的优选实施例中列举的例子和相关描述，同样适用于解释第四实施例描述的装置的工作过程，在此不再重复描述。

根据本发明第四实施例提供的投放广告的装置，根据第三实施例所述的生成装置来生成广告转化预测模型，使用该预测模型能够得到想要投放广告的目标用户群体，由此可以实现向购买愿望强的人群投放广告，并且受众广泛、目标针对性强，这明显提高了广告的转化率，给广告主带来更高的经济效益。

进一步地，在本发明的实施例中，在向所得到的目标用户群体(即不目标用户集)投放该广告时，还包括如下步骤：

步骤1：生成广告投放竞价预测模型。

步骤1具体包括：步骤11：生成训练样本数据。

首先，获得或采集广告投放的历史竞价数据，得到历史广告投放竞价数据集。所述历史广告投放竞价数据至少包括：广告投放目标用户的用户标识、广告投放相关信息、出价价格和标记信息，所述标记信息为竞价成功或竞价失败。另外，还需要获得或采集用户画像数据集，其中所述用户画像数据集中的每条用户画像数据包括：用户标识和用户画像信息。

其中，所述用户标识为：手机号码、智能终端的设备识别码、国际移动设备识别码或者用户账号信息等。该用户标识为所述历史广告投放竞价数据包括的广告投放目标用户的用户标识、和所述用户画像数据包括的用户标识。所述广告投放相关信息包括如下列中的一种或多种：广告投放媒体平台、广告位、出价方式。所述广告投放媒体平台例如可以是今日头条、UC浏览器、爱奇艺APP等；所述广告位例如可以是今日头条详情页、UC浏览器首页等；出价方式例如可以包括但不限于：按点击收费、按展现收费、按转化收费等等。

可以使用任何区别符号表示竞价成功或竞价失败。例如在软件程序里，可以使用“1”表示竞价成功，用“0”表示竞价失败。

所述用户画像信息包括：用户静态描述数据和用户行为数据。其中，用户静态描述数据包括如下所列的一种或多种：性别、年龄、职业、学历、居住城市、爱好、特长、喜欢购买商品的类别等；用户行为数据包括如下所列的一种或多种：购买行为数据(如实物商品、金融商品、其他的虚拟商品等)、APP安装行为数据、刷卡行为数据等等。获取用户画像数据集的方法可以采用公知方法来实现，例如可以从第三方获得其收集的用户画像数据集，一般来说第三方通过搜集用户注册时输入的数据获取用户画像数据集。

然后，基于用户标识将所述历史广告投放竞价数据集与所述用户画像数据集进行匹配融合处理，得到融合后的数据集。

在进行匹配融合处理的过程中，其中：在匹配成功的融合数据中，具有竞价成功标记信息的这部分融合数据被视为正样本数据，具有竞价失败标记信息的这部分融合数据被视为负样本数据。而对于不匹配的历史广告投放竞价数据和用户画像数据，这里采用的做法是弃之不用。所述不匹配是指所述历史广告投放竞价数据集中的历史广告投放竞价数据与所述用户画像数据集中的用户画像数据之间没有相同的用户标识。在实践中，当用户画像数据采集的数量足够多，所述历史广告投放竞价数据集中的不匹配的历史广告投放竞价数据的数量将会是少量的，也可能没有不匹配的情况。

接着，基于融合后的数据集生成训练样本数据；其中，每条训练样本数据包括：广告投放目标用户的用户标识、广告投放相关信息、用户画像信息、出价价格和标记信息，所述标记信息为竞价成功或竞价失败。

步骤12：对所述训练样本数据执行特征提取。

步骤13：基于机器学习算法，使用所提取的特征作为训练数据进行机器学习训练，生成广告投放竞价预测模型。其中所述机器学习算法包括但不限于：逻辑回归算法、梯度提升决策树算法、HE-TreeNet算法、支持向量机算法、朴素贝叶斯算法或深度神经网络算法。

使用所生成的所述广告投放竞价预测模型，能够针对广告投放媒体平台的广告位来预测待投放广告的不同出价价格的相应竞价成功的概率。应理解的是，通过机器学习训练成的模型，其输出的是无特定含义的单纯数值。但是，由于使用的训练数据来自于历史广告投放竞价数据、或历史广告投放竞价数据与用户画像数据的匹配融合数据，由于这些数据包含了丰富的信息，尤其是包含了标记竞价成功或竞价失败的标记信息，因此所述广告投放竞价预测模型输出的数值就反映了竞价成功的可能性，可以将所述广告投放竞价预测模型输出的数值近似看作为竞价成功的概率值。

步骤2：基于目标用户集、待投放广告的广告投放相关信息和不同的出价价格生成预测样本数据，每条预测样本数据包括：用户标识、广告投放相关信息和出价价格。

所述目标用户集为广告主所期望的接收待投放广告的用户群体。所述用户标识为：手机号码、智能终端的设备识别码、国际移动设备识别码或者用户账号信息等，优选采用手机号码或者用户账号信息。

所述广告投放相关信息包括如下列中的一种或多种：广告投放媒体平台；广告位；出价方式。所述广告投放媒体平台例如可以是今日头条、UC浏览器、爱奇艺APP等；所述广告位例如可以是今日头条详情页、UC浏览器首页等；出价方式例如可以包括但不限于：按点击收费、按展现收费、按转化收费等等。

所述不同的出价价格可以基于历史经验价格采取多种不同的出价价格。

步骤3：对所述预测样本数据执行特征提取。

步骤4：使用所提取的特征作为预测数据输入到所述广告投放竞价预测模型，得到该模型输出的在不同的出价价格下所述目标用户集中每个用户的竞价成功概率。

即，将所提取的特征作为预测数据输入到所述广告投放竞价预测模型中，该模型能够输出针对广告投放媒体平台的广告位的关于待投放广告的不同的出价价格下对所述目标用户集中的每个用户的竞价成功概率。

步骤5：以预设的广告投放支出的总金额为限制，并以竞价成功的用户数量最大化为目标，确定针对所述目标用户集中的每个用户的出价价格，按照所确定的价格进行出价。

其中，所述以预设的广告投放支出的总金额为限制，并以竞价成功的用户数量最大化为目标，确定针对所述目标用户集中的每个用户的出价价格的方法包括：

以预设的广告投放支出的总金额为限制

其中，k表示所述目标用户数据集中一共有k个用户，

i表示所述用户数据集中的第i个用户，0＜i≤k；

p_ij表示对用户i的出价价格；p_ij∈P_i，0＜j≤N_i，P_i表示由针对第i个用户的N_i个不同出价价格组成的集合；

pr(i,p_ij)表示所述广告投放竞价预测模型输出的针对用户i的出价价格为p_ij时竞价成功的概率；

R表示预设的广告投放支出的总金额；

以竞价成功的用户数量为优化目标，求解该受限制的最优化问题，即：

通过求解该受限制的最优化问题，得到针对所述目标用户集中的每个用户的出价价格。

下面对上述方法做个简单性的解释。假设广告主设定支出的广告投放金额R为1万元，则针对选定的多个用户中每个用户的出价价格乘以相应的各自竞价成功概率的累计之和要小于或等于1万元。在满足这个限制条件下，找出针对选定的多个用户中每个用户的不同出价价格的价格集合，在这个价格集合中在针对每个用户的出价价格下的竞价成功概率之和最大。

出于说明简单的目的，现在将多个用户的数量限定为3个，将针对某个广告投放媒体平台的广告位关于待投放广告的不同的出价价格分别设定为1元和2元，则针对每个用户的不同出价价格的竞价成功概率以表1列出，其中所给出的竞价成功概率是仅出于说明目的的假设值，并不代表真实数值。

表1

这样，针对3个用户提出的2个不同出价价格，可以得出8组不同的出价组合，分别是：

第1组：用户1：出价1元，用户2：出价1元，用户3：出价1元；

第2组：用户1：出价1元，用户2：出价1元，用户3：出价2元；

第3组：用户1：出价1元，用户2：出价2元，用户3：出价1元；

第4组：用户1：出价1元，用户2：出价2元，用户3：出价2元；

第5组：用户1：出价2元，用户2：出价1元，用户3：出价1元；

第6组：用户1：出价2元，用户2：出价1元，用户3：出价2元；

第7组：用户1：出价2元，用户2：出价2元，用户3：出价1元；

第8组：用户1：出价2元，用户2：出价2元，用户3：出价2元。

将这8组不同的出价组合分别带入限制条件公式:

得到：第1组：1.85元，第2组：3.01元，第3组：2.96元，

第4组：4.12元，第5组：3.05元，第6组：4.21元，

第7组：4.16元，第8组：5.32元

假设预设的广告投放支出的总金额R＝4元，则符合限制条件的只有第1组、第2组、第3组和第5组的出价组合，将这4组的出价组合分别带入公式

可以分别得出：

第1组的出价组合的竞价成功概率之和为：60％+55％+70％＝185％；

第2组的出价组合的竞价成功概率之和为：60％+55％+93％＝208％；

第3组的出价组合的竞价成功概率之和为：60％+83％+70％＝213％；

第5组的出价组合的竞价成功概率之和为：90％+55％+70％＝215％。

可知，第5组的出价组合为竞价成功的用户数量是优化目标，由此可以确定对目标用户集中的每个用户的出价价格分别为：对用户1确定的出价价格为2元、对用户2确定的出价价格为1元、对用户3确定的出价价格为1元，从而可以按照该确定的价格进行出价，这使得商品销售的收入额与广告费的支出额之间的利润率最大化成为可能，能够给广告主带来更高的经济效益。

以上已参照图1至图5描述了根据本申请示例性实施例的广告转化预测模型的生成方法、投放广告的方法、广告转化预测模型的生成装置、和投放广告的装置。然而，应理解的是：图3-5所示出的装置及其单元模块可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些装置或单元模块可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，这些装置或单元模块所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，上述方法可通过记录在计算可读介质上的程序来实现，例如，根据本申请示例性实施例，可提供一种计算机可读存储介质，其中在所述计算机可读存储介质上记录有当被处理器执行时实现如第一实施例所述的方法或其与相应优选实施例的组合所述的方法的计算机程序。另外，还可提供一种计算机可读存储介质，其中在所述计算机可读存储介质上记录有当被处理器执行时实现如第二实施例所述的方法或其与相应优选实施例的组合所述的方法的计算机程序。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，所述计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1和2进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本申请示例性实施例的广告转化预测模型的生成装置和投放广告的装置可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个装置通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图3-5所示的装置或单元模块也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读存储介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本申请的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，执行如第一实施例所述的方法步骤或其与相应优选实施例的组合所述的方法步骤；或者执行如第二实施例所述的方法步骤或其与相应优选实施例的组合所述的方法步骤。

具体说来，所述计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，所述计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在所述计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本申请示例性实施例的方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，所述网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，所述计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本申请示例性实施例的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个逻辑装置或按照非确切的边界进行操作。

尽管以上描述了本申请的示例性实施例，但是应理解：上述描述仅是示例性的，并非穷尽性的。本申请不限于所披露的各示例性实施例，并且在不偏离本申请的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本申请的保护范围应该以权利要求的范围为准。

Claims

1.一种广告转化预测模型的生成方法，其包括：

对所述正样本数据和所述负样本数据执行特征提取；

2.一种投放广告的方法，其包括：

基于权利要求1所述的方法生成广告转化预测模型；

向所得到的目标用户群体投放该广告。

3.根据权利要求2所述的方法，其中，在所述向所得到的目标用户群体投放该广告的步骤中，还包括：

4.根据权利要求2所述的方法，其中，在所述向所得到的目标用户群体投放该广告的步骤中，还包括：

估计各子目标用户群体的转化率；

5.一种广告转化预测模型的生成装置，其包括：

6.一种投放广告的装置，其包括：

基于权利要求5所述的生成装置，用于生成广告转化预测模型；

7.根据权利要求6所述的装置，其中，所述广告投放模块在执行向所得到的目标用户群体投放该广告的过程中，还用于：

8.根据权利要求6所述的装置，其中，所述广告投放模块在执行向所得到的目标用户群体投放该广告的过程中，还用于：

估计各子目标用户群体的转化率；

9.一种计算机可读存储介质，其中，在所述计算机可读存储介质上记录有当被处理器执行时实现如权利要求1至4中的任一权利要求所述的方法的计算机程序。

10.一种计算装置，包括存储部件和处理器，其中，存储部件中存储有计算机可执行指令集合，当所述计算机可执行指令集合被所述处理器执行时，促使处理器执行如权利要求1至4中的任一权利要求所述的方法。