CN112508609B

CN112508609B - 人群扩量的预测方法、装置、设备及存储介质

Info

Publication number: CN112508609B
Application number: CN202011437113.XA
Authority: CN
Inventors: 刘曙铭
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd; Shenzhen Huantai Technology Co Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd; Shenzhen Huantai Technology Co Ltd
Priority date: 2020-12-07
Filing date: 2020-12-07
Publication date: 2024-04-30
Anticipated expiration: 2040-12-07
Also published as: CN112508609A

Abstract

本发明公开了一种人群扩量的预测方法、装置、设备及存储介质。其中，人群扩量的预测方法包括：获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

Description

人群扩量的预测方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术，具体涉及一种人群扩量的预测方法、装置、设备及存储介质。

背景技术

随着终端技术的快速发展，使用终端的用户越来越多。广告主也越来越倾向于使用终端的用户进行投放广告。通常，广告主会选择适配自身广告的一批广告种子人群，并向选择的广告种子人群进行投放广告。由于广告种子人群的数量较少，因此广告主希望向与广告种子人群相似的人群进行投放广告，从而实现最佳的广告转化效果，因此，如何选取与广告种子人群精准相似的大量人群成了关键技术问题。

发明内容

有鉴于此，本发明实施例期望提供一种人群扩量的预测方法、装置、设备及存储介质。

本发明的技术方案是这样实现的：

本发明实施例提供一种人群扩量的预测方法，所述方法包括：

获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；

利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；

对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；

利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

上述方案中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用所述第一特征模型提取所述第二样本数据的第二特征，包括：

从多个特征元素中确定多个第一元素；所述多个第一元素之间没有相关性；

利用所述第一特征模型提取所述多个第一元素中每个元素对应的特征，得到多个特征；

将得到的多个特征作为所述第二特征。

上述方案中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用所述第二特征模型提取所述第二样本数据的第三特征，包括以下之一：

从多个特征元素中确定多个第二元素；所述多个第二元素之间通过文本形式进行关联；利用所述第二特征模型提取所述多个第二元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征；

从多个特征元素中确定多个第三元素；所述多个第三元素之间通过第一序列形式进行关联；利用所述第二特征模型提取所述多个第三元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征。

上述方案中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用所述第三特征模型提取所述第二样本数据的第三特征，包括：

从多个特征元素中确定多个第四元素；所述多个第四元素之间通过第二序列形式进行关联；

利用所述第三特征模型提取所述多个第四元素中每个元素对应的特征，得到多个特征；

将得到的多个特征作为所述第三特征。

上述方案中，所述扩量人群的预测模型包括深度学习模型和支持向量机；所述对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征，包括：

确定所述第一特征对应的第一向量、所述第二特征对应的第二向量和所述第三特征对应的第三向量；

对所述第一向量、第二向量和第三向量进行组合，得到组合向量；并将所述组合向量作为拼接后的特征；

相应地，所述利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，包括：

利用所述深度学习模型，对拼接后的特征进行分类处理，得到第一预测结果；并利用所述支持向量机，对拼接后的特征进行分类处理，得到第二预测结果；

基于所述第一预测结果和所述第二预测结果，确定当前测试用户是否作为广告种子人群的扩量人群。

上述方案中，所述方法还包括：

获取第三样本数据和第四样本数据；所述第三样本数据表征训练用户集合中的用户对应的画像数据；所述第四样本数据表征训练用户集合中的用户针对不通过数据源执行特定操作产生的数据；

利用所述第一特征模型提取所述第三样本数据的第四特征和所述第四样本数据的第五特征；并利用所述第二特征模型或所述第三特征模型提取所述第四样本数据的第六特征；

对所述第四特征、第五特征和第六特征进行拼接，得到拼接后的特征；

将拼接后的特征作为训练数据，对预测模型进行训练，得到所述对广告种子人群进行扩量的预测模型。

本发明实施例提供一种人群扩量的预测方法，应用于对广告种子人群进行扩量领域，所述方法包括：

获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；

利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型和第三特征模型提取所述第二样本数据的第三特征和第四特征；

本发明实施例提供一种人群扩量的预测装置，包括：

获取单元，用于获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；

第一处理单元，用于利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型和第三特征模型提取所述第二样本数据的第三特征和第四特征；以及对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；

第二处理单元，用于利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

上述方案中，所述第一处理单元，具体用于：

利用所述第一特征模型提取所述多个第一元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第二特征。

上述方案中，所述第一处理单元，具体用于执行以下操作之一：

上述方案中，所述第一处理单元，具体用于：

从多个特征元素中确定多个第四元素；所述多个第四元素之间通过第二序列形式进行关联；利用所述第三特征模型提取所述多个第四元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征。

上述方案中，所述第一处理单元，具体用于：

确定所述第一特征对应的第一向量、所述第二特征对应的第二向量和所述第三特征对应的第三向量；对所述第一向量、第二向量和第三向量进行组合，得到组合向量；并将所述组合向量作为拼接后的特征；

相应地，所述利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，包括：利用所述深度学习模型，对拼接后的特征进行分类处理，得到第一预测结果；并利用所述支持向量机，对拼接后的特征进行分类处理，得到第二预测结果；基于所述第一预测结果和所述第二预测结果，确定当前测试用户是否作为广告种子人群的扩量人群。

上述方案中，所述装置还包括：

训练单元，用于：获取第三样本数据和第四样本数据；所述第三样本数据表征训练用户集合中的用户对应的画像数据；所述第四样本数据表征训练用户集合中的用户针对不通过数据源执行特定操作产生的数据；利用所述第一特征模型提取所述第三样本数据的第四特征和所述第四样本数据的第五特征；并利用所述第二特征模型或所述第三特征模型提取所述第四样本数据的第六特征；对所述第四特征、第五特征和第六特征进行拼接，得到拼接后的特征；将拼接后的特征作为训练数据，对预测模型进行训练，得到所述对广告种子人群进行扩量的预测模型。

本发明实施例提供一种电子设备，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行所述程序时实现上述任一方法的步骤。

本发明实施例提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行所述程序时实现上述任一方法的步骤。

本发明实施例提供的人群扩量的预测方法、装置、设备及存储介质，获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。采用本发明实施例的技术方案，采集多个维度的样本数据，并使用多个不同的特征模型来获取不同的特征表示，如此，通过将不同的特征表示进行拼接组合并输入到预测模型中，可以使预测模型输出的预测结果更精准，从而精准确定出当前测试用户是否能够作为广告种子人群的扩量人群，与相关技术中使用单个维度的特征进行预测扩量人群的方式相比，能够提高预测精度。

附图说明

图1为本发明实施例提供的人群扩量的预测系统的示意图；

图2为本发明实施例人群扩量的预测方法的实现流程示意图；

图3为本发明实施例第二样本数据中分类标签数据的示意图；

图4为本发明实施例第一特征模型的组成结构示意图；

图5为本发明实施例利用第二特征模型提取第三特征的示意图；

图6为本发明实施例提取第二样本数据对应的第二特征的实现流程示意图；

图7为本发明实施例第一种提取第二样本数据对应的第三特征的实现流程示意图；

图8为本发明实施例第二种提取第二样本数据对应的第三特征的实现流程示意图；

图9为本发明实施例第三种提取第二样本数据对应的第三特征的实现流程示意图；

图10为本发明实施例提供的广告投放系统的架构示意图；

图11为本发明实施例利用预测模型进行预测广告种子人群的扩量人群的实现流程示意图；

图12为本发明实施例对预测模型进行训练的实现流程示意图；

图13为本发明实施例人群扩量的预测装置的组成结构示意图；

图14为本发明实施例电子设备的组成结构示意图。

具体实施方式

在对本发明实施例的技术方案进行详细说明之前，首先对相关技术进行介绍说明。

相关技术中，随着移动互联网时代的到来，用户将越来越多的时间和精力都放在互联网设备上，尤其是移动互联网设备上，所以越来越多的广告主也会选择在移动互联网上进行广告投放。其中，根据广告主选择的种子人群进行人群扩展是很重要的任务。通常情况下，不同的广告主会选择最适配自己广告的一批种子用户，这些用户不仅能满足广告主的预算要求，还能给广告主带来满意的广告转化效果。但是，通常情况下种子用户数量一般比较少，所以广告主们希望平台能根据种子用户选择平台中和这批用户类似的人群进行扩展，从而实现定制化的需求。根据用户画像和用户历史上在平台上的行为来多维度刻画用户的特征，然后根据这些特征使用机器学习的方法来进行建模，最终根据广告主需要扩量的人群进行阈值截断，选择相似度高也就是得分概率高的用户作为投放人群。通过种子人群进行人群扩展可以很好的满足广告主的需求，不仅可以满足广告主的广告转化效果要求，而且还可以满足广告主的预算控制，从广告主维度真正实现“千人千面”，给不同的广告主提供最精准的人群定向，这样给广告主的客户体验也是非常好的。

相关技术中，对广告种子人群进行扩量的方案包括：第一种，广告主根据自身广告的特点和业务目标人群来选择对应的年龄、性别、城市等画像属性来选择目标定向人群，将对选择的人群进行投放测试，根据测试的结果来反向优化定向条件；第二种，通过用户线上行为构建用户和标签的关联，从而进行人群的扩展，具体地，首先会根据用户线上历史行为数据来构建用户和标签的映射，然后广告主会根据自身需求获取一批种子人群，最后需要根据种子人群来进行人群扩量；人群扩量的规则是先获取种子人群的标签，然后选择对应标签中累积兴趣值高的头部人群作为扩量人群；第三种，通过使用LR逻辑回归模型，对广告主提供的种子人群进行人群扩展，具体地，首先会获取需要预测的目标用户，然后将需要预测的目标用户作为模型的输入提供给逻辑回归LR模型去预测目标用户的投放概率，最后投放阶段根据投放的概率从高到底选择广告主需要的人群进行投放；第四种，基于K-means聚类算法实现人群扩展，具体，首先使用聚类算法对用户集进行目标分簇，然后确定种子人群所属的目标类簇，最后将用户池人群去掉种子人群后使用聚类算法，选择和种子人群同类簇的人群中相似度高的人群来按照广告主的扩量人群需求选择最终的相似人群进行广告的投放。

但是，相关技术中，对广告种子人群进行扩量的方案存在的技术缺陷是：第一种方案是通过人工方式根据广告主的需求选择对应人群的画像作为定向条件，但是，通过对各个维度进行简单的交集和并集操作很难挖掘特征之间的高阶组合关系，耗时耗力，挖掘的颗粒度过大，最终挖掘的人群效果也有限。第二种方案是通过用户线上行为构建用户标签映射，然后获取种子人群的标签组合，根据用户在各个标签的累计兴趣值作为相似度得分，最终选择和种子人群相同标签的人群作为扩量人群进行广告投放。但是，构建用户兴趣标签映射的过程中行为数据源打标非常复杂，尤其是一些文本类数据源打标过程比较困难，需要人工标注很多语料，而且根据标签进行人群扩量使用的用户特征数量有限，没有挖掘和利用标签之间的特征组合关系，模型效果有限。第三种方案是使用逻辑回归LR模型来进行人群扩量的方法。但是，逻辑回归模型LR存在缺少特征交叉和高阶特征的的缺点，需要人工进行特征工程，特别耗时耗力好资源。

基于此，在本发明的各种实施例中，获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

下面结合附图及具体实施例对本发明作进一步详细的说明。

图1是本发明实施例提供的人群扩量的预测系统的示意图，如图1所示，包括：

数据仓库100，用于存储第一样本数据和第二样本数据。

服务器200，用于获取所述第一样本数据和第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

终端300，用于在确定当前测试用户作为广告种子人群的扩量人群时，向该测试用户使用的终端投放广告。

本发明实施例提供一种人群扩量的预测方法，图2为本发明实施例人群扩量的预测方法的实现流程示意图；如图2所示，所述方法包括：

步骤201：获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；

步骤202：利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；

步骤203：对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；

步骤204：利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

这里，在步骤201中，实际应用时，考虑到广告主通常向使用终端的用户进行投放广告，因此可以结合用户本身的属性信息和用户在终端上执行的操作行为这两个维度，来判断当前测试用户是否可以作为广告种子人群的扩量人群。实际应用时，可以根据用户本身的属性，如用户年龄、性别、居住城市、使用手机型号、是否有车等，来确定用户的画像数据；可以根据用户在终端上执行的操作行为，如用户使用app、用户搜索(query)浏览器、用户浏览资讯、用户使用微信小程序等，来确定用户针对不同数据源执行的特定操作产生的数据；其中，数据源可以包括：APP、浏览器、小程序等等。

这里，在步骤202中，实际应用时，考虑到所述第一样本数据对应的多个元素之间并没有关联性，因此可以利用适用于该类样本数据的特征模型提取所述第一样本数据的特征。考虑到所述第二样本数据可以包括不同类型的操作行为数据，有些类型的操作行为数据对应的多个元素之间存在关联性，有些类型的操作行为数据对应的多个元素之间不存在关联性，因此可以利用多个不同类型的特征模型提取所述第二样本数据的特征。

这里，在步骤204中，实际应用时，由于拼接的特征中既包含用户的画像特征，又包含用户针对终端上不同数据源执行的操作行为特征，因此将拼接的特征输入人群扩量的预测模型后，该人群扩量的预测模型输出的预测结果更准确，与相关技术利用单个维度的特征进行预测当前用户是否能够作为广告种子人群的扩量人群的方式相比，预测精度更高。

下面对如何分别提取第一样本数据和第二样本数据对应的特征的过程进行详细说明。

实际应用时，考虑到所述第一样本数据为用户的画像数据，该画像数据对应的多个元素之间不存在关联性，因此，针对所述第一样本数据中多个元素之间不存在关联性的样本数据，使用第一特征模型提取所述第一样本数据的特征。

基于此，在一实施例中，所述第一样本数据对应用户的多个特征元素；利用所述第一特征模型提取所述第一样本数据的第一特征，包括：

利用所述第一特征模型提取所述多个特征元素中每个特征元素对应的特征，得到多个特征；将得到的多个特征作为所述第一特征。

举例来说，表1是用户1的画像数据的示意，如表1所示，用户1的画像数据对应多个特征元素，即，年龄、性别、居住城市、是否有车；其中，多个特征元素之间没有关联性，这样，可以利用所述第一特征模型提取年龄、性别、居住城市、是否有车这些画像数据对应的第一特征。

表1

实际应用时，考虑到所述第二样本数据可以包括不同类型的操作行为数据，有些类型的操作行为数据对应的多个元素之间存在关联性，有些类型的操作行为数据对应的多个元素之间可能不存在关联性，因此，针对所述第二样本数据中多个元素之间不存在关联性的样本数据，使用第一特征模型提取所述第二样本数据的第二特征。

基于此，在一实施例中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用所述第一特征模型提取所述第二样本数据的第二特征，包括：

将得到的多个特征作为所述第二特征。

这里，可以将针对终端上的某个数据源产生的不同类型的操作行为数据作为多个特征元素，将从多个特征元素中选取的属于同一个类别、且多个元素之间没有关联的元素作为所述第一元素。

表2是第二样本数据对应的不同数据源的操作行为数据，如表2所示，以数据源为App1为例，用户针对App1的操作行为数据包括四部分：第一部分是描述文本数据，即App1的描述介绍，例如App1的用途；第二部分是分类标签，即对app描述文本和app名等进行文本分类从而获取分类标签(item-tag)；第三部分是统计数据，所述统计数据包括不同周期内用户使用app的次数、登录时长、下载或者注册等体现用户活跃性质相关的数据，还可以包括能够提升广告转化效果的一些付费相关的指标数据；第四部分是登录序列，即，一定周期内用户登录app的先后顺序关系。以数据源为浏览器为例，用户针对浏览器的操作行为数据包括四部分：第一部分是搜索文本数据，即搜索文本本身的语义特征，其中，用户搜索可以体现用户的意图，从而反映用户对哪些广告是感兴趣的，最终为不同的广告选择对应的人群进行投放提供特征属性；第二部分是分类标签，对搜索文本进行分类打上对应的标签；第三部分是统计数据，即根据用户搜索意图语义来进行统计的数据，比如不同周期内用户搜索次数统计；第四部分是搜索序列特征，其中，搜索序列的特征可以反映用户意图的变化，方便我们更好的把握用户兴趣的变化情况。

表2

这里，分类标签数据可以表征用户和分类标签的关联关系，即，可以将用户与数据源进行关联，标记为user-item，将数据源和分类标签进行关联，标记为item-tag，如此，根据这两种关联关系，将用户和分类标签进行关联得到用户和分类标签的关联关系，标记为user-tag，如图3所示。分类标签数据还可以表征用户和广告的关联关系，即，可以根据广告本身的属性对广告进行打标，标记为ad-tag，根据用户和分类标签的关联user-tag，以及广告和分类标签的关联ad-tag，得到用户和广告的关联关系，标记为user-ad，如图3所示。

表3是用户针对数据源App1执行使用操作产生的多个不同类型的操作行为数据的示意，如表3所示，将产生的多个不同类型的操作行为数据对应多个特征元素，其中，操作行为数据(分类标签)对应的多个特征元素之间没有关联性，操作行为数据(统计数据)对应的多个特征元素之间没有关联性，这样，可以利用所述第一特征模型提取分类标签和统计数据这两类操作行为数据对应的第二特征。

表3

这里，所述第一特征模型具体可以是Transformer特征抽取器。Transformer特征抽取器包括编码器和解码器两部分；其中，编码器中包括多头注意力机制层(Multi-HeadAttention)和前馈神经网络层(Feed Forward)；解码器包括多头注意力机制层、前馈神经网络层和多头注意力机制的编码解码层。其中，注意力机制层和前馈神经网络层后与残差网络进行连接。Transformer特征抽取器的结构如图4所示。

实际应用时，考虑到所述第二样本数据可以包括不同类型的操作行为数据，有些类型的操作行为数据对应的多个元素之间可能存在关联性，有些类型的操作行为数据对应的多个元素之间可能不存在关联性，因此，针对所述第二样本数据中多个元素之间存在关联性的样本数据，可以使用第二特征模型或提取所述第二样本数据的特征。

基于此，在一实施例中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用所述第二特征模型提取所述第二样本数据的第三特征，包括以下之一：

这里，可以将针对终端上的某个数据源产生的不同类型的操作行为数据作为多个特征元素，将从多个特征元素中选取的属于同一个类别、且多个元素之间以文本形式进行关联的元素作为所述第二元素，将从多个特征元素中选取的属于同一个类别、且多个元素之间以第一序列进行关联的元素作为所述第三元素。其中，所述第一序列可以是指登录行为产生的序列，例如，序列1：登录APP1；序列2：登录App3；序列3：登录App2。

这里，所述第二特征模型具体可以是RoBERTa模型。RoBERTa是NLP中BERT模型的衍生品，能够支持使用更多的数据进行预训练以及使用更多的优化策略。利用RoBERTa模型作为抽取器提取所述第二样本数据的第三表征，具备以下优势：(1)通过动态Mask操作可以让一条样本在训练中掩码的位置不同，增加了数据的随机性，从而一定程度上提升了数据的利用率，最终提升了模型的学习能力；(2)取消了下一句预测任务(NSP，Next sentenceprediction)，能够给RoBERTa模型带来效果提升；(3)设置更大的batch size进行训练，使用更大的batch size可以提升下游任务的准确率；(4)使用更多的训练数据，相比于原生BERT使用16G的训练数据，RoBERTa模型使用了160G的数据，增加训练数据可以有效提升模型的效果；(5)调整了优化器adam的参数。

举例来说，表4是用户针对App1执行使用操作产生的多个操作行为数据的示意，如表4所示，将产生的多个不同类型的操作行为数据作为多个特征元素，其中，操作行为数据(描述文本数据)对应的多个特征元素之间以文本形式进行关联，操作行为数据(登录序列)对应的多个特征元素之间以登录序列进行关联，这样，可以利用所述第二特征模型提取描述文本数据和登录序列这两类操作行为数据对应的第三特征。

表4

图5是利用第二特征模型提取第三特征的示意图，如图5所示，可以通过用户操作终端产生的日志，获取登录序列；采用掩码机制将登录序列中部分序列进行隐藏，例如，登录了100个app，对其中20个app进行掩码操作，即20个app中80％被标记为Mask，剩余2个置换成其他的app，2个保持原来的app；基于掩码机制学习不同app之间的登录关系，并预测用户的登录序列；将预测的用户的登录序列进行特征表示，得到第三特征。后续可以利用用户的登录序列对应的第三特征，可以预测用户将来会登录哪些app，也就可以得到用户可能会点击哪些广告，从而将用户点击广告的问题转化成了文本分类的问题。

实际应用时，考虑到所述第二样本数据可以包括不同类型的操作行为数据，有些类型的操作行为数据对应的多个元素之间存在关联性，有些类型的操作行为数据对应的多个元素之间不存在关联性，因此，针对所述第二样本数据中多个元素之间存在关联性的样本数据，还可以使用第三特征模型提取所述第二样本数据的特征。

基于此，在一实施例中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用所述第三特征模型提取所述第二样本数据的第三特征，包括：

利用所述第三特征模型提取所述多个第四元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征。

这里，可以将针对终端上的某个数据源产生的不同类型的操作行为数据作为多个特征元素，将从多个特征元素中选取的属于同一个类别、且多个元素之间以第二序列形式进行关联的元素作为所述第四元素。其中，所述第二序列可以是指搜索行为产生的序列，例如，序列1：搜索文本A；序列2：搜索文本B；序列3：搜索文本3。

需要说明的是，实际应用时，也可以利用所述第三特征模型提取第二样本数据的第三特征。

这里，所述第三特征模型具体可以是Node2vec模型。Node2vec模型可以从不同的角度来提取第二样本数据的第三特征，即。使用Node2vec模型的同质性质和结构性来提取第二样本数据的第三特征。以app数据源为例，可以通过设置超参数控制结构性来获取用户登录序列对应的第三特征，该特征表征当前APP是属于热门app还是属于非热门app；也可以通过设置超参数控制同质性来获取用户登录序列对应的第三特征，该特征表征当前app的内容与其他app的内容的区别，即用户在当前app的内容上的兴趣。

举例来说，表5是用户针对浏览器数据源执行搜索(query)操作产生的多个操作行为数据的示意，如表5所示，多个操作行为数据对应多个特征元素，其中，操作行为数据(搜索序列)对应的多个特征元素之间以搜索序列形式进行关联，这样，可以利用所述第三特征模型提取搜索序列这类操作行为数据对应的第三特征。

表5

在一示例中，如图6所示，描述提取第二样本数据对应的第二特征的过程，包括：

步骤601：从第二样本数据对应的多个特征元素中确定多个第一元素；所述多个第一元素之间没有相关性。

这里，所述多个特征元素可以是指用户针对特定数据源执行特定操作产生的多个特征元素。

步骤602：利用所述第一特征模型提取所述多个第一元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第二特征。

这里，所述第一特征模型为Transformer模型。

在一示例中，如图7所示，描述提取第二样本数据对应的第三特征的过程，包括：

步骤701：从第二样本数据对应的多个特征元素中确定多个第二元素；所述多个第二元素之间通过文本形式进行关联；

步骤702：利用所述第二特征模型提取所述多个第二元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征。

这里，所述第二特征模型为RoBERTa模型。

在一示例中，如图8所示，描述提取第二样本数据对应的第三特征的过程，包括：

步骤801：从第二样本数据对应的多个特征元素中确定多个第三元素；所述多个第三元素之间通过第一序列形式进行关联。

这里，所述第一序列可以是指登录序列，例如，序列1：登录APP1；序列2：登录App3；序列3：登录App2。

步骤802：利用所述第二特征模型提取所述多个第三元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征。

这里，所述第二特征模型为RoBERTa模型。

在一示例中，如图9所示，描述提取第二样本数据对应的第三特征的过程，包括：

步骤901：从第二样本数据对应的多个特征元素中确定多个第四元素；所述多个第四元素之间通过第二序列形式进行关联。

这里，所述第二序列可以是指搜索序列，例如，序列1：搜索文本A；序列2：搜索文本B；序列3：搜索文本3。

步骤902：利用所述第三特征模型提取所述多个第四元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征。

这里，所述第三特征模型为Node2vec模型。

这里，利用第一特征模型提取第二样本数据的第二特征，并利用第二特征模型或第三特征模型提取第二样本数据的第三特征，具备以下优点：

(1)将第二样本数据划分为描述文本数据、分类标签、统计数据、序列数据共四类数据，分别使用Transformer模型、RoBERTa模型和Node2vec图模型来获取不同的特征表示，最后将这三部分特征进行拼接得到最终的特征表示。利用不同特征模型，能够挖掘特征之间的高阶组合关系；由于无需人工介入，因此能够省时省力。

(2)使用Transformer模型对所述第二样本数据中的分类标签和统计数据提取特征，可以很好的获取特征以及特征之间的深层次组合关系。

(3)使用RoBERTa模型对所述第二样本数据中的序列提取特征，能从而将人群扩量问题转化成NLP领域的文本分类问题，另外，使用跨领域的RoBERTa模型提取特征，能够更好的挖掘序列之间的关系；

(4)使用Node2vec图模型对所述第二样本数据中的序列提取特征，能够利用同质性和结构性来挖掘针对数据源执行操作产生的序列特征，从数据源内容本身和热度多维度来挖掘数据源特征，可以有效提升模型层的特征信息。

(5)将从多维度对第二样本数据提取得到的特征信息进行embedding拼接，不仅可以很好的结合各个特征模型的优势，还能将拼接得到的embedding信息提供给对广告种子人群进行扩量的预测模型进行扩量人群的预测。

下面对如何利用第一样本数据和第二样本数据的特征预测当前用户是否能够作为广告种子人群的扩量人群的过程进行详细说明。

实际应用时，考虑到DeepFM模型的深度学习网络和因子分解机(FM，Factorization Machines)可以将输入的特征向量进行再组合，这样，可以利用包括深度学习网络和支持向量机模型，对拼接后的特征进行学习，以提高预测的准确率。

基于此，在一实施例中，所述扩量人群的预测模型包括深度学习模型和支持向量机；所述对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征，包括：

图10是本发明实施例提供的广告投放系统的架构示意图，如图10所示，系统包括：输入层、表示层、模型层和输出层；其中，

输入层，用于从本地的数据仓库中获取第一样本数据和第二样本数据。

其中，所述第一样本数据表征测试用户集合中的测试用户对应的画像数据，如用户年龄、性别、居住城市、使用手机型号、是否有车等等能表征用户基本属性的数据；第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据，例如，用户使用app数据源产生的数据，用户搜索query产生的数据，用户浏览资讯产生的数据，用户使用微信小程序产生的数据。

表示层，用于利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征。

具体地，利用不同的特征模型将输入层输入的样本数据转换为embedding表示，即，利用Transformer特征提取器提取所述第一样本数据的用户画像特征表示；利用Transformer特征提取器提取所述第二样本数据中分类标签和统计数据的特征表示；使用RoBERTa模型获取所述第二样本数据中app描述和用户搜索等文本数据的语义特征表示；基于RoBERTa模型将第二样本数据中用户登录序列的特征表示；基于图模型Node2vec对第二样本数据中用户搜索序列的特征表示。

模型层，用于将表示层输出的embedding特征同时提供给DeepFM模型的深度学习网络和因子分解机(FM，Factorization Machines)，并分别从深度学习网络和FM进行学习。其中，FM是指通过embedding的方式将原来零一二值硬核匹配转化成了向量软匹配，使得原来值为0匹配不上的能在一定程度上得到匹配，在一定程度上学习到了软知识，从而提升了模型的泛化能力；深度学习网络包括两层全连接层，用于在FM模型的基础上融入深度学习知识，从而将特征映射到高维空间来更好的学习。

输出层，用于将模型层中因子分解机模型和深度学习模型得到的embedding向量通过softmax进行分类，输出概率值，这里的概率值就是用户和广告的匹配程度。最后进行人群扩量的时候就是根据这个概率值的高低降序选择满足广告主需求的人群进行投放。

在一示例中，如图11所示，结合图10所示的广告投放系统架构示意图，描述利用预测模型进行预测广告种子人群的扩量人群的过程，包括：

步骤1101：获取待预测用户的第一样本数据和第二样本数据。

这里，可以通过SPARK/HIVE大数据计算引擎，将最近一个月有点击广告行为的用户作为待预测的用户。

这里，待预测用户和广告种子用户为同分布，即，广告种子用户点击广告行为的时间与待预测用户点击广告行为的时间在同一个周期内，从而将待预测用户与广告种子用户在同一维度内进行对比，区分性更强。

步骤1102：利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征，将拼接后的特征作为待预测数据集。

这里，使用Transformer模型对所述第一样本数据进行特征提取，以获取用户的画像特征；使用Transformer模型对所述第二样本数据中的分类标签和统计数据进行特征提取；使用RoBERTa模型对于所述第二样本数据中的描述文本、用户搜索、点击资讯等文本数据进行特征提取，以获取文本语义的向量表示；对于用户使用app、点击广告等数据源等行为，将用户使用app的登录序列和点击广告的点击序列转化为文本分类任务，并使用RoBERTa模型来进行特征提取，或者，使用Node2vec图模型对所述第二样本数据中的序列提取特征。将利用不同特征模型提取的特征进行拼接，将拼接后的特征作为待预测数据集。

步骤1103：导入在模型训练阶段保存的预测模型。

这里，导入模型是指导入模型保存的权重。

步骤1104：利用导入的预测模型进行线上预测。

这里，所述预测模型使用DeepFM算法进行最终的分类任务，预测待测试用户是否会对某一类广告感兴趣，将用户对某一类广告感兴趣的概率降序排序，根据广告主需求的扩量人群数设置阈值，从而选择概率大于阈值的人群作为广告种子人群的扩量人群进行投放广告。

步骤1105：将预测的结果数据保存到数据仓库中。

其中，数据仓库存储的数据量比数据库存储的数据量大。

这里，实际应用时，预测的结果数据保存到数据仓库，并提供给下游使用。数据仓库不仅提供了稳定安全的数据存储环境，而且具有很好的备份机制，能保证我们的数据稳定、安全、易用。

这里，利用对广告种子人群进行扩量的预测模型进行人群扩展，具备以下优点：

(1)从待预测用户集上进行优化，即，考虑到如果预测全量用户可能会消耗很长的时间，这样不利于线上预测。这里，选择最近一个月有点击广告行为的人群，不仅可以满足广告主转化广告效果的需求，还能极大的提升线上的预测效率。另外，选择尽量有广告点击偏好的人群，从而缩小人群。通过待预测用户集的优化操作，可以将亿级别的预测人群缩小到千万级别的预测人群，节约了线上的预测资源，减少了预测时间，大大提升了预测效率。

(2)结合各个特征模型的优势，对第一样本数据和第二样本数据进行特征提取，即，将第二样本数据划分为描述文本数据、分类标签、统计数据、序列数据共四类数据，分别使用Transformer模型、RoBERTa模型和Node2vec图模型来获取不同的特征表示，并将得到的特征进行拼接得到最终的特征表示。

(3)预测模型具备特征交叉和高阶特征的的优点，即，利用FM模型来处理高维稀疏矩阵问题，同时加入深度学习知识将特征映射到高维空间来更好的提取特征，不仅可以获得更多更广泛的特征信息，还能很好的处理高阶特征的组合交叉，提升特征的利用效率，最终提升模型的泛化能力。

下面对如何训练预测模型的过程进行详细说明。

实际应用时，可以利用广告种子人群，对预测模型进行训练，以得到对广告种子人群进行扩量的预测模型。

基于此，在一实施例中，所述方法还包括：

获取第三样本数据和第四样本数据；所述第三样本数据表征训练用户集合中的测试用户对应的画像数据；所述第四样本数据表征训练用户集合中的用户针对特定数据源执行特定操作产生的数据；

在一示例中，如图12所示，描述对预测模型进行训练的过程，包括：

步骤1201：获取训练用户集合中的用户的第三样本数据和第四样本数据。

其中，训练数据集合包括正样本训练集合和负样本训练集合；其中，正样本训练集合由在一定周期内点击广告的广告种子人群组成；负样本训练集合由在一定周期内没有点击广告的广告种子人群组成。

这里，为了避免正负样本比例不均衡容易影响模型的效果，可以使用负采样等技术获取一定比例的正负样本量。实际应用时，正负样本的比例会根据不同的广告有所差异。

例如，对于非游戏广告主来说主要的广告转化指标是点击率，所以短周期即可满足样本量需求，但是对于游戏广告主来说主要的广告转化指标是付费率，而付费行为的样本一般比较少，所以长周期即可满足样本量需求。

这里，广告种子人群是指能够满足广告主的需求，在一定的广告预算下能够达到满意的广告转化效果的人群。广告种子人群可以是广告主自己根据不同的定向条件选择的一批人群；也可以是平台方提供的一批用户人群，在广告主测试通过并满意后可以作为广告种子人群。

步骤1202：利用第一特征模型提取所述第三样本数据的第四特征和所述第四样本数据的第五特征；并利用所述第二特征模型或所述第三特征模型提取所述第四样本数据的第六特征；对所述第四特征、第五特征和第六特征进行拼接，得到拼接后的特征，将拼接后的特征作为训练数据集。

这里，训练数据集合和测试数据集合的比例可以为8:2。所述训练数据集合用于训练预测模型；测试数据集合用于评估所述预测模型的离线指标，例如，使用精度、召回率和F1得分等。

到使用大数据SPARK/hive等对数据进行清洗、加工从而得到种子人群对应的特征。

步骤1203：利用所述训练数据集合，对预测模型进行训练，以得到对广告种子人群进行扩量的预测模型。

这里，对预测模型进行训练可以是指对预测模型的参数进行调整，具体可以是指利用grid search网格调参法来获取最好的参数。在得到测试效果最好的模型参数之后，可以将参数固定下来，即完成了预测模型的调参过程。

这里，调参完成之后，80％的训练数据，还可以将20％的测试数据集与并80％的训练数据集合合并，利用合并的数据训练所述预测模型，这样得到的模型能具有更好的泛化能力

步骤1204：对得到的预测模型进行验证，并存储。

这里，对预测模型进行训练，具备以下优点：

(1)预测模型具有很好的扩展性和移植性，即，通过构建包括正样本训练集合和负样本训练集的合训练数据集合，可以将对预测模型应用到广告点击预估领域；其中，正样本训练集合由在一定周期内点击广告的广告种子人群组成；负样本训练集合由在一定周期内没有点击广告的广告种子人群组成。

(2)预测模型具有很好的扩展性和移植性，即，通过构建包括正样本训练集合和负样本训练集的合训练数据集合，可以将对预测模型应用到广告投放领域；其中，正样本训练集合由广告种子人群组成；负样本训练集合由不是广告种子人群的人群组成。

(3)可以利用用户点击广告的行为，对用户的画像进行反向识别，从而丰富用户画像特征。

采用本发明实施例的技术方案，采集多个维度的样本数据，并使用多个不同的特征模型来获取不同的特征表示，如此，通过将不同的特征表示进行拼接组合并输入到预测模型中，可以使预测模型输出的预测结果更精准，从而精准确定出当前测试用户是否能够作为广告种子人群的扩量人群，与相关技术中使用单个维度的特征进行预测扩量人群的方式相比，能够提高预测精度。

为实现本发明实施例人群扩量的预测方法，本发明实施例还提供一种人群扩量的预测装置。图13为本发明实施例人群扩量的预测装置的组成结构示意图；如图13所示，所述装置包括：

获取单元131，用于获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；

第一处理单元132，用于利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型和第三特征模型提取所述第二样本数据的第三特征和第四特征；以及对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；

第二处理单元133，用于利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群。

上述方案中，所述第一处理单元132，具体用于：

将得到的多个特征作为所述第二特征。

上述方案中，所述第一处理单元132，具体用于执行以下操作之一：

上述方案中，所述第一处理单元132，具体用于：

将得到的多个特征作为所述第三特征。

上述方案中，所述第一处理单元132，具体用于：

上述方案中，所述装置还包括：

实际应用时，所述获取单元131可由所述装置中的通信接口实现；所述第一处理单元132、第二处理单元133、训练单元可由所述装置中的处理器实现；所述处理器可以是中央处理器(CPU，Central Processing Unit)、数字信号处理器(DSP，Digital SignalProcessor)、微控制单元(MCU，Microcontroller Unit)或可编程门阵列(FPGA，Field－Programmable Gate Array)。

需要说明的是：上述实施例提供的装置在进行人群扩量的预测时，仅以上述各程序模块的划分进行举例说明，实际应用时，可以根据需要而将上述处理分配由不同的程序模块完成，即将终端的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的装置与人群扩量的预测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

基于上述设备的硬件实现，本发明实施例还提供了一种电子设备，图14为本发明实施例的电子设备的硬件组成结构示意图，如图14所示，电子设备140包括存储器143、处理器142及存储在存储器143上并可在处理器142上运行的计算机程序；所述处理器142执行所述程序时实现上述一个或多个技术方案提供的方法。

需要说明的是，所述处理器142执行所述程序时实现的具体步骤已在上文详述，这里不再赘述。

可以理解，电子设备140还包括通信接口141，所述通信接口141用于和其它设备进行信息交互；同时，电子设备140中的各个组件通过总线系统144耦合在一起。可理解，总线系统144配置为实现这些组件之间的连接通信。总线系统144除包括数据总线之外，还包括电源总线、控制总线和状态信号总线等。

可以理解，本实施例中的存储器143可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，ReadOnly Memory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccess Memory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

上述本发明实施例揭示的方法可以应用于处理器142中，或者由处理器142实现。处理器142可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器142中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器142可以是通用处理器、DSP，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器142可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器142读取存储器中的信息，结合其硬件完成前述方法的步骤。

本发明实施例还提供了一种存储介质，具体为计算机存储介质，更具体的为计算机可读存储介质。其上存储有计算机指令，即计算机程序，该计算机指令被处理器执行时上述一个或多个技术方案提供的方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的方法和智能设备，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、电子设备、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

另外，本发明实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种人群扩量的预测方法，其特征在于，所述方法包括：

获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户对应的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；其中，所述特定数据源包括以下至少一项：应用程序APP、浏览器和小程序，所述特定操作包括以下至少一项：用户使用APP、用户搜索浏览器、用户浏览资讯和用户使用小程序；

利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群；

其中，所述第二样本数据对应用户针对特定数据源执行特定操作产生的多个特征元素；利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征，包括：

从多个特征元素中确定多个第一元素；所述多个第一元素之间没有相关性；利用所述第一特征模型提取所述多个第一元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第二特征；

利用所述第二特征模型提取所述第二样本数据的第三特征，包括以下之一：

从多个特征元素中确定多个第三元素；所述多个第三元素之间通过第一序列形式进行关联；利用所述第二特征模型提取所述多个第三元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征；其中，第一序列是指登录行为产生的序列；

利用所述第三特征模型提取所述第二样本数据的第三特征，包括：

从多个特征元素中确定多个第四元素；所述多个第四元素之间通过第二序列形式进行关联；利用所述第三特征模型提取所述多个第四元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征；其中，第二序列是指搜索行为产生的序列。

2.根据权利要求1所述的方法，其特征在于，所述扩量人群的预测模型包括深度学习模型和支持向量机；所述对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.一种人群扩量的预测方法，其特征在于，应用于对广告种子人群进行扩量领域，所述方法包括：

获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；其中，所述特定数据源包括以下至少一项：应用程序APP、浏览器和小程序，所述特定操作包括以下至少一项：用户使用APP、用户搜索浏览器、用户浏览资讯和用户使用小程序；

5.一种人群扩量的预测装置，其特征在于，包括：

获取单元，用于获取第一样本数据、第二样本数据；所述第一样本数据表征测试用户集合中的测试用户的画像数据；所述第二样本数据表征测试用户集合中的测试用户针对特定数据源执行特定操作产生的数据；其中，所述特定数据源包括以下至少一项：应用程序APP、浏览器和小程序，所述特定操作包括以下至少一项：用户使用APP、用户搜索浏览器、用户浏览资讯和用户使用小程序；

第一处理单元，用于利用第一特征模型分别提取所述第一样本数据的第一特征和所述第二样本数据的第二特征；并利用第二特征模型或第三特征模型提取所述第二样本数据的第三特征；以及对所述第一特征、第二特征和第三特征进行拼接，得到拼接后的特征；

第二处理单元，用于利用对广告种子人群进行扩量的预测模型，对拼接后的特征进行分类处理，以确定当前测试用户是否作为广告种子人群的扩量人群；

第一处理单元，具体用于从多个特征元素中确定多个第一元素；所述多个第一元素之间没有相关性；利用所述第一特征模型提取所述多个第一元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第二特征；

第一处理单元，具体用于执行以下操作之一：从多个特征元素中确定多个第二元素；所述多个第二元素之间通过文本形式进行关联；利用所述第二特征模型提取所述多个第二元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征；从多个特征元素中确定多个第三元素；所述多个第三元素之间通过第一序列形式进行关联；利用所述第二特征模型提取所述多个第三元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征；其中，第一序列是指登录行为产生的序列；

第一处理单元，具体用于从多个特征元素中确定多个第四元素；所述多个第四元素之间通过第二序列形式进行关联；利用所述第三特征模型提取所述多个第四元素中每个元素对应的特征，得到多个特征；将得到的多个特征作为所述第三特征；其中，第二序列是指搜索行为产生的序列。

6.一种电子设备，其特征在于，包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器用于运行所述计算机程序时，执行权利要求1至4任一项所述方法的步骤。

7.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。