CN105550900A

CN105550900A - 一种基于自动挑选属性的相似人群扩展方法

Info

Publication number: CN105550900A
Application number: CN201510958027.6A
Authority: CN
Inventors: 汤奇峰; 刘作涛; 万挺挺
Original assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Current assignee: ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date: 2015-12-18
Filing date: 2015-12-18
Publication date: 2016-05-04

Abstract

本发明属于互联网广告技术领域，提供了一种基于自动挑选属性的相似人群扩展方法，包括：已知互联网客户人群列表G和全部人群列表A；得出剩余人群列表B，对B进行随机采样，得出对照组人群列表P；得出G与P中用户的各个属性权值；计算G与P中每一个属性的差异权值；比较所有属性的差异权值，取差异权值最大的N个属性作为对G与P相似性影响最大的属性，根据该N个属性求取B的相似性得分，将相似性得分进行降序排列，根据设定的相似人群规模，从高到低筛选出相似性人群。本发明能够自动筛选出相似人群，实现全自动化，无需人工操作，得出的相似人群准确度高，具有针对性强、节约广告成本的优点。

Description

一种基于自动挑选属性的相似人群扩展方法

技术领域

本发明属于互联网广告技术领域，特别涉及一种基于自动挑选属性的相似人群扩展方法。

背景技术

在互联网+时代之下，互联网广告一直呈现几何式的增长，并有持续扩大的趋势。2014年中国互联网广告市场规模1565.3亿元，同比增长56.5％，增幅较2013年小幅下降，在互联网广告市场整体进入成熟稳定阶段之后，市场仍然呈现出一些新的发展态势。

相似人群扩展是指，基于已有的客户人群，自动的发现与其属性比较相似的其他人群，促使广告营销公司能够有针对性的对用户人群投放广告，实现更好地寻找受众。

在互联网广告领域中，人群定向系统是非常关键的一个环节。人群定向是指根据特定的条件对人群进行筛选和限制，得到规模适中、对广告主来说比较有价值的人群。中国互联网上每天都活跃着几亿个网民，对大多数需要投放广告的商家来说，不进行挑选、向任意人群投放广告，存在成本太高、难以承受的问题；即使是超大型企业的广告主，采用不限制的投放广告，从投入和收益的比例来看，都是不明智的，也不是最优的选择。因此，如何从几亿网民中，选出合适的人群，再根据人群的各个属性来判断出需要投放广告的人群，是目前计算机领域急需解决的问题。

目前，人群定向的通常做法是通过人工来完成，具体方法如下：(1)首先，基于对现有业务的理解，人工指定一些属性来挑选人群，例如“居住在上海或北京，25-35岁的男性”、“月收入3000元以上，喜欢汽车”；(2)然后对上述指定的人群进行投放测试。人工实现人群定向的方法存在很多弊端，主要有：由于指定人群的属性对于广告投放并不一定适用，存在不确定性，因此导致指定人群并不一定能够满足人群定向的要求，有可能漏掉更适合的用户，或者对不适合的用户也进行了广告投放；故需要设定多个属性的组合，进行大量的实验，比较费时，选出的人群规模亦不好控制；如果人群过大，成本太高，如果人群太小，则很难达到投放效果；因此得出的广告投放人群非常不准确，浪费广告成本。

因此，互联网广告技术领域急需一种基于自动挑选属性的相似人群扩展方法，能够基于现有的用户得出用户属性权值，进一步地得出最佳属性列表，自动筛选出与现有用户相类似的人群，再对相似人群投放广告，实现全自动化，无需人工操作，得出的相似人群准确度高，具有针对性强、节约广告成本的优点。

发明内容

本发明为了解决上述问题，提供了一种基于自动挑选属性的相似人群扩展方法，技术方案如下：

一种基于自动挑选属性的相似人群扩展方法，包括如下步骤：

步骤一，已知互联网客户人群列表G和全部人群列表A；

步骤二，采用全部人群列表A减去互联网客户人群列表G，即得出剩余人群列表B，针对剩余人群列表B进行随机采样，得出用户数量与互联网客户人群列表G数量相同的对照组人群列表P；

步骤三，通过互联网广告系统得出互联网客户人群列表G与对照组人群列表P中所有用户的各个属性权值；

步骤四，根据步骤三中得出的所有用户的各个属性权值，计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值；

步骤五，比较步骤四中得出的所有属性的差异权值，取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性，形成属性列表；人工对属性列表进行干预，人为的从属性列表中删除广告主认为相似性不好的属性，形成优化后的属性列表V；

步骤六，针对步骤五中得出的属性列表，根据属性列表中所含有的属性求取剩余人群的相似性得分；

步骤七，依据步骤五中得出的属性列表涉及到的每一个属性，将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列，再根据广告主设定的相似人群规模，依据相似性得分从高到低筛选出相似性人群。

优选的，在上述一种基于自动挑选属性的相似人群扩展方法中，步骤一通过广告主得到使用过该广告产品的互联网客户人群列表G，再根据互联网广告投放系统得到全部人群列表A。

优选的，在上述一种基于自动挑选属性的相似人群扩展方法中，步骤四中计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值的具体步骤为：

首先，计算互联网客户人群列表A中每一个属性的平均权值；

z_{i}^{G} = \frac{Σ_{i &Element; G} z_{i}^{p}}{n}

其中，表示互联网客户人群列表G中用户p的属性i的属性权值，n表示互联网客户人群列表G中具有属性i的用户个数，表示互联网客户人群列表G的属性i的平均权值；

进一步地，计算互联网客户人群列表G与对照组人群列表P中每一个属性i的差异权值；

D_{i} (G, P) = \frac{1}{n} \underset{p &Element; A}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

其中，D_i(G，P)表示客户人群列表G与对照组人群列表P在属性i上的差异权值；表示用户p在对照组人群列表P中属性i上的权值；表示客户人群列表G在属性i上的平均权值；n表示客户人群列表G的人数。

优选的，在上述一种基于自动挑选属性的相似人群扩展方法中，步骤五中还包括：人工过滤步骤，通过人工对属性列表进行干预，人为的从属性列表中删除广告主认为相似性不好的属性，形成优化后的属性列表。

优选的，在上述一种基于自动挑选属性的相似人群扩展方法中，步骤六中根据属性列表中所含有的属性求取剩余人群的相似性得分采用的公式为：

S (p, G) = - \underset{i &Element; V}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

其中，S(p，G)表示用户剩余人群列表B中用户p与客户人群列表G的相似性得分；V表示属性列表，表示用户p在对照组人群列表P中属性i上的权值；表示客户人群列表G在属性i上的平均权值。

本发明的有益效果：

1、本发明能够自动地对用户属性的重要性进行挑选，得出对客户人群与对照组人群相似性影响最大的几个属性，只需针对影响最大的几个属性进行相似性得分计算即可，无需对所有属性进行相似得分计算，大大减低了工作量，计算方法更加科学、可靠，可操作性更强。

2、本发明也可以通过人工过滤的方法，人为的对筛选出的属性列表进行干预，使属性列表更加精确，对系统做出错误的选择进行更改，减少了自动选出的属性不合理现象的发生。

3、计算相似性得分时，用的是客户人群在各个属性上的平均权值，而不是个体属性权值，即使客户人群有小部分错误，也不会对结果造成大的影响，因此方法具有很好的鲁棒性，更加科学可靠，促使得到的相似人群更准确。

4、本发明能够基于现有的客户人群得出用户属性权值，进一步地得出最佳属性列表，自动筛选出与客户人群相类似的人群，并可以设定相似人群的规模，再对相似人群投放广告，使广告投放更可控，实现全自动化，无需人工操作，得出的相似人群准确度高，具有针对性强、节约广告成本的优点。

附图说明

下面结合附图和具体实施方式来详细说明本发明：

图1是一种基于自动挑选属性的相似人群扩展方法的流程图。

具体实施方式

为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

图1是一种基于自动挑选属性的相似人群扩展方法的流程图。

如图1所示，一种基于自动挑选属性的相似人群扩展方法，包括如下步骤：

步骤一，已知互联网客户人群列表G和全部人群列表A；

实施例2：

图1是一种基于自动挑选属性的相似人群扩展方法的流程图。

步骤一，通过广告主得到使用过该广告产品的互联网客户人群列表G，再根据互联网广告投放系统得到全部人群列表A；

首先，计算互联网客户人群列表A中每一个属性的平均权值；

z_{i}^{G} = \frac{Σ_{i &Element; G} z_{i}^{p}}{n}

D_{i} (G, P) = \frac{1}{n} \underset{p &Element; A}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

其中，D_i(G，P)表示客户人群列表G与对照组人群列表P在属性i上的差异权值；表示用户p在对照组人群列表P中属性i上的权值；表示客户人群列表G在属性i上的平均权值；n表示客户人群列表G的人数；

S (p, G) = - \underset{i &Element; V}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

其中，S(p，G)表示用户剩余人群列表B中用户p与客户人群列表G的相似性得分；V表示属性列表，表示用户p在对照组人群列表P中属性i上的权值；表示客户人群列表G在属性i上的平均权值；

下面根据具体实施例对本发明进行具体说明：

步骤一，假如我们从广告主处获得了客户人群，列表G＝{p1,p2,p3,p4}，并通过互联网广告投放系统获得全部人群，列表A＝{p1,p2,p3,p4,p5,p6,p7,p8,p9,p10}；

步骤二，采用全部人群列表A减去客户人群列表G，得到剩余人群列表B＝{p5,p6,p7,p8,p9,p10}；并通过随机采样得到用户数量与客户人群列表G人数相等的对照组人群，即列表P＝{p5,p6,p9,p10}；

步骤三，通过互联网广告投放系统计算出客户人群G与对照组人群P的每个属性权值，具体如表一所示；

表一：表示用户p每个属性的属性权值

用户\属性	性别＝男	性别＝女	年龄	月收入
					p1	0	1	20	1000
p2	0	1	25	3000
					p3	1	0	15	500
p4	0	1	20	3500
					p5	1	0	15	2000
p6	1	0	25	2500
					p9	0	1	45	1500
p10	0	1	35	2000

步骤四，计算客户人群G与对照组人群P中每一个用户的属性i的差异权值；

首先，计算客户人群G中个体p1,p2,p3,p4每个属性i的平均权值具体如表二所示：

z_{i}^{G} = \frac{Σ_{i &Element; G} z_{i}^{p}}{n}

表二：平均权值

人群\属性i均值	性别＝男	性别＝女	年龄	月收入
					G	0.25	0.75	20	2000

然后，计算每个属性i上客户人群列表G与对照组人群列表P的差异权值：

D_{i} (G, P) = \frac{1}{n} \underset{p &Element; A}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

其中，D_i(G，P）表示客户人群列表G与对照组人群列表P在属性i上的差异权值；表示用户p在对照组人群列表P中属性i上的权值；表示客户人群列表G在属性i上的平均权值；n表示客户人群列表G的人数；

性别＝男：

D_{i} (G, P) = \frac{1}{4} (| \frac{0.25 - 1}{0.25} | + | \frac{0.25 - 1}{0.25} | + | \frac{0.25 - 0}{0.25} | + | \frac{0.25 - 0}{0.25} |) = 2.0;

性别＝女：

D_{i} (G, P) = \frac{1}{4} (| \frac{0.75 - 0}{0.75} | + | \frac{0.75 - 0}{0.75} | + | \frac{0.75 - 1}{0.75} | + | \frac{0.75 - 1}{0.75} |) = 0.67;

年龄：

D_{i} (G, P) = \frac{1}{4} (| \frac{20 - 15}{20} | + | \frac{20 - 25}{20} | + | \frac{20 - 45}{20} | + | \frac{20 - 35}{20} |) = 0.625;

月收入：

D_{i} (G, P) = \frac{1}{4} (| \frac{2000 - 2000}{2000} | + | \frac{2000 - 2500}{2000} | + | \frac{2000 - 1500}{2000} | + | \frac{2000 - 2000}{2000} |) = 0.125;

结果如表三所示：

表三：差异权值D_i(G，P)

人群\属性差异	性别＝男	性别＝女	年龄	月收入
					G，P	2.0	0.67	0.625	0.125

步骤五，比较步骤四中得出的所有属性的差异权值，取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性，形成属性列表；当N＝3时，得到的属性列表V＝{性别＝男，年龄，性别＝女}，去除了月收入属性；

进一步地，可以选择人工对上述得到的属性列表进行干预，去除人工认为不准确的属性特征；在本实施例中，得到的属性都事准确的，因此不需要干预，故保留属性列表中的所有属性；

步骤六，针对步骤五中得出的属性列表，根据属性列表中所含有的属性求取剩余人群B的相似性得分；

剩余人群B的属性权值列表如表四所示：

表四：剩余人群列表B

用户\属性	性别＝男	性别＝女	年龄
				p5	1	0	15
p6	1	0	25
				p7	0	1	50
p8	1	0	30
				p9	0	1	45
p10	0	1	35

计算剩余人群列表B中每个用户p与客户人群列表G的相似性得分，具体公式为：

S (p, G) = - \underset{i &Element; V}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

将上述计算得到的权值代入公式中，即可得到相似性得分；

p5：

D (G, p) = - Σ_{i &Element; V} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} | = - (| \frac{0.25 - 1}{0.25} | + | \frac{0.75 - 0}{0.75} | + | \frac{20 - 15}{20} |) = - 4.25;

p6：

D (G, p) = - Σ_{i &Element; V} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} | = - (| \frac{0.25 - 1}{0.25} | + | \frac{0.75 - 0}{0.75} | + | \frac{20 - 15}{20} |) = - 4.25;

p7：

D (G, p) = - Σ_{i &Element; V} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} | = - (| \frac{0.25 - 0}{0.25} | + | \frac{0.75 - 1}{0.75} | + | \frac{20 - 15}{20} |) = - 2.83;

p8：

D (G, p) = - Σ_{i &Element; V} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} | = - (| \frac{0.25 - 1}{0.25} | + | \frac{0.75 - 0}{0.75} | + | \frac{20 - 30}{20} |) = - 4.50;

p9：

D (G, p) = - Σ_{i &Element; V} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} | = - (| \frac{0.25 - 0}{0.25} | + | \frac{0.75 - 1}{0.75} | + | \frac{20 - 15}{20} |) = - 2.58;

p10：

D (G, p) = - Σ_{i &Element; V} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} | = - (| \frac{0.25 - 0}{0.25} | + | \frac{0.75 - 1}{0.75} | + | \frac{20 - 15}{20} |) = - 2.08;

形成相似得分列表，具体如下表：

用户p	相似性得分
		p5	-4.25
p6	-4.25
		p7	-2.83
p8	-4.50
		p9	-2.58
p10	-2.08

步骤七，将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列，即p10＞p9＞p7＞p5、p6＞p8，再根据广告主设定的相似人群规模，依据相似性得分从高到低筛选出相似性人群；

如果广告主设定的相似人群规模为3人，则我们筛选出相似性得分最高的相似人群为{p7,p9,p10}。

本发明能够自动地对用户属性的重要性进行挑选，得出对客户人群与对照组人群相似性影响最大的几个属性，只需针对影响最大的几个属性进行相似性得分计算即可，无需对所有属性进行相似得分计算，大大减低了工作量，计算方法更加科学、可靠，可操作性更强。

本发明也可以通过人工过滤的方法，人为的对筛选出的属性列表进行干预，使属性列表更加精确，对系统做出错误的选择进行更改，减少了自动选出的属性不合理现象的发生。

计算相似性得分时，用的是客户人群在各个属性上的平均权值，而不是个体值，即使客户人群有小部分错误，也不会对结果造成大的影响，因此方法具有很好的鲁棒性，更加科学可靠，促使得到的相似人群更准确。

本发明能够基于现有的客户人群得出用户属性权值，进一步地得出最佳属性列表，自动筛选出与客户人群相类似的人群，并可以设定相似人群的规模，再对相似人群投放广告，使广告投放更可控，实现全自动化，无需人工操作，得出的相似人群准确度高，具有针对性强、节约广告成本的优点。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于自动挑选属性的相似人群扩展方法，其特征在于，包括如下步骤：

步骤一，已知互联网客户人群列表G和全部人群列表A；

2.根据权利要求1所述的一种基于自动挑选属性的相似人群扩展方法，其特征在于，所述步骤一通过广告主得到使用过该广告产品的互联网客户人群列表G，再根据互联网广告投放系统得到全部人群列表A。

3.根据权利要求1所述的一种基于自动挑选属性的相似人群扩展方法，其特征在于，所述步骤四中计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值的具体步骤为：

首先，计算互联网客户人群列表A中每一个属性的平均权值；

z_{i}^{G} = \frac{Σ_{i &Element; G} z_{i}^{p}}{n}

D_{i} (G, P) = \frac{1}{n} \underset{p &Element; A}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |

4.根据权利要求3所述的一种基于自动挑选属性的相似人群扩展方法，其特征在于，所述步骤五中还包括：人工过滤步骤，通过人工对属性列表进行干预，人为的从属性列表中删除广告主认为相似性不好的属性，形成优化后的属性列表V。

5.根据权利要求4所述的一种基于自动挑选属性的相似人群扩展方法，其特征在于，所述步骤六中根据属性中含有的属性求取剩余人群的相似性得分采用的公式为：

S (p, G) = - \underset{i &Element; V}{Σ} | \frac{(z_{i}^{G} - x_{i}^{p})}{z_{i}^{G}} |