CN108109004A

CN108109004A - 相似人群扩展方法、装置及电子设备

Info

Publication number: CN108109004A
Application number: CN201711365936.4A
Authority: CN
Inventors: 范驰; 刘友强; 齐晓旭
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2017-12-18
Filing date: 2017-12-18
Publication date: 2018-06-01

Abstract

本申请公开了一种相似人群扩展方法，包括：根据行业类别获得所述行业类别对应的样本的多个特征，所述特征包括特征维度及特征值；获得每个特征对应的类间距离以及类内距离；判断所述类间距离以及类内距离是否满足预设条件；如果所述类间距离以及类内距离满足预设条件，则选择所述特征进行相似人群扩展。本申请还涉及一种相似人群扩展装置及电子设备。采用本申请的技术方案，可以提高相似人群扩展的算法效率，并且提高人群扩展的精准度。

Description

相似人群扩展方法、装置及电子设备

技术领域

本申请涉及通信技术领域，具体而言，涉及一种相似人群扩展方法、装置及电子设备。

背景技术

目前，为满足广告主投广告的需求，互联网领域已经有一些技术可以提供“相似人群拓展(Looklike)功能”。该功能基于广告主拥有的种子用户数据(可以是线上产生过交易行为的用户，也可以是线下通过预约、到店消费等确定的用户等)。相似人群扩展算法可以基于种子用户(如果是线下交易的用户，需要先通过一定的方式进行id的映射，从而找到线上的对应的用户)的画像寻找相似的用户，从而自动实现规模化的拓展，帮助广告主高效地找到潜在的用户。让广告主找到用户这件事情变得高效精确的同时，又保证了广告曝光具有一定的量。

互联网广告的优势在于能够获得丰富的用户特征(通常高达数千个维度)，这些特征不仅包括基本的人口属性，如性别、年龄、教育程度、婚姻状况等，还包括用户的兴趣偏好、行为偏好(热爱购买化妆品、喜欢吃日料等)、以及用户之间的关系链等。这些丰富的数据为相似人群扩展功能提供了坚实的基础。同时，广告主所属的行业领域是非常广阔的，如餐饮类、休闲娱乐类、日化类(化妆品等)、快消类、银行类(信用卡申请等)等，不同行业之间业务差异显著。如餐饮类的的广告主希望投放给具备一定的消费能力且有外出就餐习惯的人群。特别地，对于地方特色的餐厅而言，用户的口味偏好是非常重要的特征。而丽人(如美甲、美睫)广告主一般认为青年、中年女性是其目标用户，此时性别这个特征相对其他特征而言就尤为重要。而信用卡开卡等广告则较为重视用户的经济能力，性别和口味偏好的因素在这里起的作用较小。

当前的相似人群扩展方法一般会通过选取非常多的特征维度(数千维特征)来进行相似度计算，以充分利用海量数据来进行人群扩展。但是，采用通用的特征维度计算用户的相似度并进行人群扩展，不能很好地体现行业的差异以及与之关联的特征重要性的差异。例如，目前互联网广告主行业跨度较大，涉及到的行业类别有餐饮、休娱、丽人、快消、日化、游戏等。不同行业的广告主对于同一特征的重视程度的差异是非常大的。采用同样的特征维度进行人群扩展，无法体现不同行业对于某一特征的关注度差异显著的现状。从而不能针对不同行业的特点，挖掘出最适合该行业广告主投放的用户。

而且，引入过多的特征会导致“维数灾难”，不仅会影响计算效率，而且在样本有限的情况下，过多的特征维度还可能会导致扩展效果的降低。甚至在某些情况下，采用和行业相关度较小的特征进行相似人群扩展，对于人群扩展的质量的保证力度不足，某些特征甚至对相似度的计算会起到相反的作用。

申请内容

针对现有技术中存在的问题，本申请提供一种相似人群扩展方法、装置和电子设备。

本申请一实施例提供一种相似人群扩展方法，包括：

根据行业类别获得所述行业类别对应的样本的多个特征，所述特征包括特征维度及特征值；

获得每个特征对应的类间距离以及类内距离；

判断所述类间距离以及类内距离是否满足预设条件；

如果所述类间距离以及类内距离满足预设条件，则选择所述特征进行相似人群扩展。

本申请实施例还提供一种相似人群扩展装置，包括：

第一获取模块，用于根据行业类别获得所述行业类别对应的样本的多个特征，所述特征包括特征维度及特征值；

第二获取模块，用于获得每个特征对应的类间距离以及类内距离；

判断模块，用于判断所述类间距离以及类内距离是否满足预设条件；

扩展模块，用于在所述类间距离以及类内距离满足预设条件的情况下选择所述特征进行相似人群扩展。

本申请实施例还提供一种电子设备，包括：

处理器；以及

存储器，其上存储有可在所述处理器上运行的计算机程序；

所述处理器执行所述计算机程序以实现上述方法的步骤。

本发明实施例还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

在本申请的实施例中，通过计算每个特征对应的类间距离和类内距离，挑选类间距离和类内距离满足预设条件的特征进行相似人群扩展。可以确保相似人群扩展的质量。并且由于根据类内距离和类间距离对特征进行了挑选，避免引入过多特征引起的“维数灾难”，因而提高了相似人群扩展的数据处理效率，并且提高了人群扩展的精准度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本申请。

附图说明

通过参照附图详细描述其示例实施例，本申请的上述和其它对象、特征及优点将变得更加显而易见。

图1示出了本发明示例性实施例的相似人群扩展方法的流程图。

图2示出了本发明示例性实施例的相似人群扩展装置的框图。

图3示出了本发明示例性实施例的电子装置的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本申请将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本申请的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

图1示出了根据本申请一示例性实施例的相似人群扩展方法的流程图。该方法包括以下步骤。

在步骤101中，根据行业类别获得该行业类别对应的样本的多个特征。该特征可以包括特征维度及特征值。

在步骤102中，获得每个特征对应的类间距离以及类内距离。

在步骤103中，判断所述类间距离以及类内距离是否满足预设条件。

在步骤104中，如果所述类间距离以及类内距离满足预设条件，则选择所述特征进行相似人群扩展。

下面对图1所示方法中的各个步骤进行详细说明。

首先，可以建立有人群扩展需求的广告主的样本(即种子包)和行业类别之间的关系。由先验知识可以得知，某一个行业的营销受众通常是具备一定共性的。比如高端化妆品类的用户一般为消费能力高的中青年女性。单个客户的种子用户由于量太小，可能具有一定的随机性，因此，通过行业用户选择出来的特征更加具有鲁棒性。

建立种子包和行业类别之间的关系可以有多种方法。例如，对于有实体门店的广告主，通过其经营的类目，比如火锅店，能够通过店主在网站中创建时填写的分类信息明确其所属行业类别是“美食”，或者更为细致的行业类别是“火锅”。对于没有实体门店的广告主，可以通过广告主在投放广告中填写的推广品牌，再通过品牌和行业的对应关系确定广告主的行业类别。比如推广的品牌是“东风”，就能够明确其所属行业类别是“汽车”。根据互联网广告主在网络上积累的经营数据，种子包首先和经营类目(比如数码3C，或者可以细分为手机、笔记本电脑、显示器、机械键盘等)或者品牌(雅诗兰黛、宝马、高露洁)建立起关联，然后根据类目或者品牌和行业的对应关系，就能够完成第种子包和行业类别的对应关系的建立。

建立种子包和行业类别之间的对应关系之后，可以执行步骤101，获得每一行业类别对应的种子包的多个特征。该特征可以包括特征维度及特征值。

例如，假设有若干个广告主属于行业类别A，其种子用户有M个(这M个用户构成与类别A对应的种子包)。可以获得的用户特征例如有N维。常见的用户特征比如有性别、年龄、消费能力、类目偏好、地理位置信息等。

由于获得的初始特征之间可能存在冗余，也就是说有很多类似的特征，因而可以对获得的特征进行预处理，剔除冗余的特征。

根据一示例性实施例，步骤101可以包括：

获得每个行业类别对应的样本的多个初始特征：

计算不同初始特征之间的相关性；

基于所述相关性剔除冗余的多个初始特征，以获得每一个行业类别对应的样本的多个特征。

例如，数据的预处理可以如下。

由于通常能够获得的用户特征维度非常多，特征之间往往存在较大的相关性和冗余。已有理论证明，原始特征集中增加或删除相关特征，不影响该特征集的分类能力。因此，可以采用剔除元特征集中相关性较强的特征，使所选特征之间的相关性变小，从而大大降低特征维度。这里的元特征集指可以获得的关于种子包中用户的所有特征维度，包括但不限于上述举例的性别、年龄、消费能力等。设原始高维特征集为F_N＝(f₁，f₂，...，f_N),样本个数为M。计算这N个特征的自相关矩阵，得到N个特征中任意两个特征的相关性。如果两个特征的相关性超过设定阈值，例如95％(也可以设置为其他数值，本申请对此没有特殊限制)，则认为这两个特征的相关性非常高。当两个特征的相关性超过设定阈值时，可以去掉其中之一。较优地，可以结合方差来剔除冗余的特征。例如，如果两个特征的相关性超过设定阈值时，去掉与其他特征也存在较强相关性且方差较小的特征(方差越小，说明该特征包含的信息就越少)。假设去相关之后的特征维度为F_P＝(f₁，f₂，...，f_P)，还可以进一步进行归一化处理，以用于后续的计算。

在获得每一行业类别对应的种子包的多个特征之后，可以对于每个特征分别计算类间距离和类内距离。需要说明的是，在本申请的实施例中，对于类间距离和类内距离的确定顺序无特定限制，例如，可以先确定类间距离后确定类内距离，或者可以先确定类内距离后确定类间距离，或者可以同时确定二者，本领域技术人员可以根据具体的应用场景选择具体的确定顺序。

在本申请的实施例中，通过计算类间距离和类内距离可以筛选出那些最能够代表行业人群的特征，进而通过这些特征有效地将目标广告受众与非目标广告受众分离开来。

可以认为，如果某个特征能够较好地代表一类人群，那么该特征将呈现出在类间差异较大、类内差异较小的特征，反之也真。例如，以奔驰广告和佳洁士广告点击用户作为2个种子包，考察消费能力和性别这2个特征。奔驰广告的点击用户男女比例为1：1，消费能力高中低1：3：4；而佳洁士对应的男女比为1：9，消费能力高中比的比例为：1：2：5。在这个例子中，我们可以看出，性别这个特征在区分奔驰和佳洁士的可能感兴趣人群中起到的区分作用更强，这种区分作用不仅体现性别在2个行业类别的种子包之间的差异较大(这里对应快消行业和汽车行业)，也体现在在2个行业类别的种子包内部，性别特征的取值也较为集中。

又比如，餐饮广告的受众的特征通常是外出就餐频率或者外出就餐的消费金额较高。将这种特征量化之后，就可使用该特征来计算分行业的种子包的类间距离和类内距离。

在步骤103中判断类间距离以及类内距离是否满足预设条件时，可以采用如下两种方式。

一种方式是针对类间距离和类内距离分别设置预设阈值(即第一预设阈值和第二预设阈值)，分别判断类间距离和类内距离是否满足预设阈值。具体而言，可以判断类间距离是否大于第一预设阈值；以及判断类内距离是否小于第二预设阈值。在这两个判断结果都为真的情况下，可以确定类间距离以及类内距离满足预设条件，进而可以挑选该特征参与人群扩展。第一预设阈值和第二预设阈值可以根据实际情况设置。

另一种方式是以类间距离和类内距离的比值作为选择标准。具体而言，可以判断类间距离以及类内距离的比值是否大于预设阈值。如果类间距离以及类内距离的比值大于预设阈值，则可以确定类间距离以及类内距离满足预设条件，进而可以挑选该特征参与相似人群扩展。该预设阈值可以根据实际情况设置。

类间距离和类内距离的比值越大，说明特征的分离性越好。因此，可以保留该比值靠前的若干个特征参与人群扩展。

下面对于类间距离和类内距离的表征方式予以说明。

类间距离表明每个所述特征对于不同行业类别的可分离性。类间距离可以通过某行业种子包和对照的人群包(比如从用户中随机抽取获得的人群包)这2个包计算得出，具体而言，类间距离可以由样本的每个特征的均值和方差计算获得。例如，在网站或APP的用户中随机抽取M个用户(和种子包不一样的用户，或者使用预先准备好的典型行业用户人群)作为某一行业类别对应的种子包的对照组。例如，可以使用Jeffries-Matudita(简称J-M距离，记为J)来衡量某个特征对于两个行业类别的可分离性(即类间距离)。例如，对于两个类别C₁和C₂，这两个类别的类间距离可以表示如下：

J＝2(1-e^-B) (1)

其中，

式中,m_i和分别代表两个类别样本对象特征分布的均值和方差。当两个类别样本特征分布的均值和方差都相等时，J的值为0，表示不可分。J＝2时，表示特征的分离性非常好。对某一行业类别及其对照组的2M个种子用户使用以上方法，计算P个特征的J值。

采用上述公式(1)和(2)表示类间距离时，假设某个特征的值的分布是符合正态分布的规律的。另外，也可以使用其他的公式来表征两个类别之间的类间距离。例如，某个特征的数值分布也有可能不符合正态分布，在这种情况下，可以针对特征的分布情况，确定一种计算两个特征之间距离的方法即可。

类内距离表明每一行业类别对应种子包内样本之间的距离，类内距离可以根据同一行业类别下各个所述样本与其他所述样本之间的所述特征值的距离累加计算获得。计算类内的距离D，以此遍历C₁和C₂(例如某一行业和其对照组)中的每个样本，计算各个样本与其他同类别样本的某个特征值的距离并累加，分别得到C₁和C₂的类内距离d₁和d₂。根据C₁和C₂的样本数分别赋予类内距离d₁和d₂的权重，得到某个特征的加权类内距离D。使用加权的类内距离可以综合考虑C₁和C₂的类内距离；

D＝(k₁d₁+k₂d₂)/(k₁+k₂) (4)

除了采用如公式(3)和(4)所表示的类内距离之外，也可以采用其他方式来计算类内距离，具体可以依赖于特征的分布情况。

在计算出每个特征的类内距离和类间距离之后，可以计算所述类间距离与所述类内距离的比值。可以预先设置一个阈值，选择该比值大于预设阈值的特征。该比值越大，说明该特征的分离性就越好，该特征就越能代表该行业人群的用户画像。

在步骤104中，如果类间距离以及类内距离满足预设条件，则选择该特征进行相似人群扩展。

根据一示例性实施例，步骤104还可以包括：根据正样本和随机抽取的无标记样本构建回归模型，并对所述无标记样本进行相似性打分，并根据打分结果确定相似人群。

在本申请的实施例中，可以使用各种方式进行相似人群扩展。例如，比如使用正样本、无标记样本机器学习方法进行人群扩展。该方法是通过正样本和随机抽取的无标记样本(作为负样本)、并结合前面的步骤中所选择出的特征来构建回归模型，然后在对无标记样本进行相似性的打分排序。找到和种子用户最相似的用户作为新的正样本，再随机抽取一批负样本重复以上过程。直到人群数量满足扩展的需求为止。对于行业差异较小的种子用户包，使用相同的方式即可。对于发展较为成熟、业内差异较大、或者有较精准投放需求的行业。可以优化广告主和行业的关系，通过划分子行业的方式来找到最具代表性的特征。比如高端化妆品和中低端化妆品的广告受众通常在消费能力的特征值上会呈现出较大差异，此时根据化妆品的品牌找到对应的细分行业(例如高端化妆品行业、中低端化妆品行业)，后续重复上述特征选择和人群扩展的过程，就能够得到较为精准的扩展人群。

在本申请的实施例中，通过计算每个特征的类间距离和类内距离并判断类间距离以及类内距离是否满足预设条件来挑选特征，进而基于该挑选出的特征进行相似人群扩展。可以确保相似人群扩展的质量。并且由于根据类内距离和类间距离对特征进行了挑选，避免引入过多特征引起的“维数灾难”，因而提高了相似人群扩展的数据处理效率。

具体而言，在本申请的实施例中，针对不同的行业特点，通过分析种子用户和和对比样本的特征分布情况(行业之间和行业内)，找到最能够代表该行业的特征。将这些特征作为用户画像的基础，从而再进行人群相似扩展的方法来进行广告受众的扩展。考虑了不同行业对于相同特征重视程度的差异，提升了人群扩展的精准度。

基于不同场景下特征的重要性，通过设定阈值的方式确定用于人群扩展的特征维度。去除了对于扩展无帮助或者有负向影响的特征。

采用本申请实施例提供的技术方案，大大减少了人群扩展的特征维度，提升了算法效率。

图2示出根据示例性实施例的相似人群扩展装置的框图。该装置包括第一获取模块11，第二获取模块12，判断模块13以及扩展模块14。

该第一获取模块11用于根据行业类别获得所述行业类别对应的样本的多个特征，所述特征包括特征维度及特征值。

该第二获取模块12用于获得每个特征对应的类间距离以及类内距离。

该判断模块13用于判断所述类间距离以及类内距离是否满足预设条件。

该扩展模块14用于在所述类间距离以及类内距离满足预设条件的情况下选择所述特征进行相似人群扩展。

关于各个模块的具体功能及细节可以参见前面关于方法实施例的描述，在此不再赘述。

图3示出了根据示例性实施例的电子装置的示意图。本申请提供一种电子设备800，该电子设备可以包括存储器801和处理器802。存储器801上存储有可在处理器802上运行的计算机程序。处理器802执行计算机程序可以实现本文描述的方法。

存储器801可以是各种由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

该电子设备800可以是具备计算和处理能力的各种设备，除了存储器801和处理器802之外，还可以包括各种输入设备(例如用户界面、键盘等)、各种输出设备(例如扬声器等)、以及显示设备，本文在此不再赘述。

本发明实施例还提供计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现本发明实施例所提供方法的步骤。

以上具体地示出和描述了本申请的示例性实施方式。应可理解的是，本申请不限于这里描述的详细结构、设置方式或实现方法；相反，本申请意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种相似人群扩展方法，其特征在于，包括：

获得每个特征对应的类间距离以及类内距离；

判断所述类间距离以及类内距离是否满足预设条件；

2.根据权利要求1所述的方法，其特征在于，所述判断所述类间距离以及类内距离是否满足预设条件，包括：

判断所述所述类间距离以及所述类内距离的比值是否大于一预设阈值。

3.根据权利要求1所述的方法，其特征在于，所述判断所述类间距离以及类内距离是否满足预设条件，包括：

判断所述类间距离是否大于第一预设阈值；以及

判断所述类内距离是否小于第二预设阈值。

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述类间距离由所述样本的每个特征的均值和方差计算获得；所述类内距离根据同一行业类别下各个所述样本与其他所述样本之间的所述特征值的距离累加计算获得。

5.根据权利要求1至3中任一项所述的方法，其特征在于，还包括：

预先建立所述样本和行业类别之间的对应关系。

6.根据权利要求5所述的方法，其特征在于，根据行业类别获得所述行业类别对应的样本的多个特征，包括：

获得每个行业类别对应的样本的多个初始特征：

计算不同初始特征之间的相关性；

7.根据权利要求5所述的方法，其特征在于，所述选择所述特征进行相似人群扩展，还包括：

根据正样本和随机抽取的无标记样本构建回归模型，并对所述无标记样本进行相似性打分，并根据打分结果确定相似人群。

8.一种相似人群扩展装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可在所述处理器上运行的计算机程序；

其特征在于，所述处理器执行所述计算机程序以实现如权利要求1-7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求中1-7中任一项所述方法的步骤。