CN105550900A - 一种基于自动挑选属性的相似人群扩展方法 - Google Patents

一种基于自动挑选属性的相似人群扩展方法 Download PDF

Info

Publication number
CN105550900A
CN105550900A CN201510958027.6A CN201510958027A CN105550900A CN 105550900 A CN105550900 A CN 105550900A CN 201510958027 A CN201510958027 A CN 201510958027A CN 105550900 A CN105550900 A CN 105550900A
Authority
CN
China
Prior art keywords
list
attribute
group
crowd
people group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510958027.6A
Other languages
English (en)
Inventor
汤奇峰
刘作涛
万挺挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Original Assignee
ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd filed Critical ZAMPLUS ADVERTISING (SHANGHAI) CO Ltd
Priority to CN201510958027.6A priority Critical patent/CN105550900A/zh
Publication of CN105550900A publication Critical patent/CN105550900A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于互联网广告技术领域,提供了一种基于自动挑选属性的相似人群扩展方法,包括:已知互联网客户人群列表G和全部人群列表A;得出剩余人群列表B,对B进行随机采样,得出对照组人群列表<i>P</i>;得出<i>G</i>与<i>P</i>中用户的各个属性权值;计算<i>G</i>与<i>P</i>中每一个属性的差异权值;比较所有属性的差异权值,取差异权值最大的<i>N</i>个属性作为对<i>G</i>与<i>P</i>相似性影响最大的属性,根据该<i>N</i>个属性求取B的相似性得分,将相似性得分进行降序排列,根据设定的相似人群规模,从高到低筛选出相似性人群。本发明能够自动筛选出相似人群,实现全自动化,无需人工操作,得出的相似人群准确度高,具有针对性强、节约广告成本的优点。

Description

一种基于自动挑选属性的相似人群扩展方法
技术领域
本发明属于互联网广告技术领域,特别涉及一种基于自动挑选属性的相似人群扩展方法。
背景技术
在互联网+时代之下,互联网广告一直呈现几何式的增长,并有持续扩大的趋势。2014年中国互联网广告市场规模1565.3亿元,同比增长56.5%,增幅较2013年小幅下降,在互联网广告市场整体进入成熟稳定阶段之后,市场仍然呈现出一些新的发展态势。
相似人群扩展是指,基于已有的客户人群,自动的发现与其属性比较相似的其他人群,促使广告营销公司能够有针对性的对用户人群投放广告,实现更好地寻找受众。
在互联网广告领域中,人群定向系统是非常关键的一个环节。人群定向是指根据特定的条件对人群进行筛选和限制,得到规模适中、对广告主来说比较有价值的人群。中国互联网上每天都活跃着几亿个网民,对大多数需要投放广告的商家来说,不进行挑选、向任意人群投放广告,存在成本太高、难以承受的问题;即使是超大型企业的广告主,采用不限制的投放广告,从投入和收益的比例来看,都是不明智的,也不是最优的选择。因此,如何从几亿网民中,选出合适的人群,再根据人群的各个属性来判断出需要投放广告的人群,是目前计算机领域急需解决的问题。
目前,人群定向的通常做法是通过人工来完成,具体方法如下:(1)首先,基于对现有业务的理解,人工指定一些属性来挑选人群,例如“居住在上海或北京,25-35岁的男性”、“月收入3000元以上,喜欢汽车”;(2)然后对上述指定的人群进行投放测试。人工实现人群定向的方法存在很多弊端,主要有:由于指定人群的属性对于广告投放并不一定适用,存在不确定性,因此导致指定人群并不一定能够满足人群定向的要求,有可能漏掉更适合的用户,或者对不适合的用户也进行了广告投放;故需要设定多个属性的组合,进行大量的实验,比较费时,选出的人群规模亦不好控制;如果人群过大,成本太高,如果人群太小,则很难达到投放效果;因此得出的广告投放人群非常不准确,浪费广告成本。
因此,互联网广告技术领域急需一种基于自动挑选属性的相似人群扩展方法,能够基于现有的用户得出用户属性权值,进一步地得出最佳属性列表,自动筛选出与现有用户相类似的人群,再对相似人群投放广告,实现全自动化,无需人工操作,得出的相似人群准确度高,具有针对性强、节约广告成本的优点。
发明内容
本发明为了解决上述问题,提供了一种基于自动挑选属性的相似人群扩展方法,技术方案如下:
一种基于自动挑选属性的相似人群扩展方法,包括如下步骤:
步骤一,已知互联网客户人群列表G和全部人群列表A;
步骤二,采用全部人群列表A减去互联网客户人群列表G,即得出剩余人群列表B,针对剩余人群列表B进行随机采样,得出用户数量与互联网客户人群列表G数量相同的对照组人群列表P;
步骤三,通过互联网广告系统得出互联网客户人群列表G与对照组人群列表P中所有用户的各个属性权值;
步骤四,根据步骤三中得出的所有用户的各个属性权值,计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值;
步骤五,比较步骤四中得出的所有属性的差异权值,取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性,形成属性列表;人工对属性列表进行干预,人为的从属性列表中删除广告主认为相似性不好的属性,形成优化后的属性列表V;
步骤六,针对步骤五中得出的属性列表,根据属性列表中所含有的属性求取剩余人群的相似性得分;
步骤七,依据步骤五中得出的属性列表涉及到的每一个属性,将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列,再根据广告主设定的相似人群规模,依据相似性得分从高到低筛选出相似性人群。
优选的,在上述一种基于自动挑选属性的相似人群扩展方法中,步骤一通过广告主得到使用过该广告产品的互联网客户人群列表G,再根据互联网广告投放系统得到全部人群列表A。
优选的,在上述一种基于自动挑选属性的相似人群扩展方法中,步骤四中计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值的具体步骤为:
首先,计算互联网客户人群列表A中每一个属性的平均权值;
z i G = &Sigma; i &Element; G z i p n
其中,表示互联网客户人群列表G中用户p的属性i的属性权值,n表示互联网客户人群列表G中具有属性i的用户个数,表示互联网客户人群列表G的属性i的平均权值;
进一步地,计算互联网客户人群列表G与对照组人群列表P中每一个属性i的差异权值;
D i ( G , P ) = 1 n &Sigma; p &Element; A | ( z i G - x i p ) z i G |
其中,Di(G,P)表示客户人群列表G与对照组人群列表P在属性i上的差异权值;表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值;n表示客户人群列表G的人数。
优选的,在上述一种基于自动挑选属性的相似人群扩展方法中,步骤五中还包括:人工过滤步骤,通过人工对属性列表进行干预,人为的从属性列表中删除广告主认为相似性不好的属性,形成优化后的属性列表。
优选的,在上述一种基于自动挑选属性的相似人群扩展方法中,步骤六中根据属性列表中所含有的属性求取剩余人群的相似性得分采用的公式为:
S ( p , G ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G |
其中,S(p,G)表示用户剩余人群列表B中用户p与客户人群列表G的相似性得分;V表示属性列表,表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值。
本发明的有益效果:
1、本发明能够自动地对用户属性的重要性进行挑选,得出对客户人群与对照组人群相似性影响最大的几个属性,只需针对影响最大的几个属性进行相似性得分计算即可,无需对所有属性进行相似得分计算,大大减低了工作量,计算方法更加科学、可靠,可操作性更强。
2、本发明也可以通过人工过滤的方法,人为的对筛选出的属性列表进行干预,使属性列表更加精确,对系统做出错误的选择进行更改,减少了自动选出的属性不合理现象的发生。
3、计算相似性得分时,用的是客户人群在各个属性上的平均权值,而不是个体属性权值,即使客户人群有小部分错误,也不会对结果造成大的影响,因此方法具有很好的鲁棒性,更加科学可靠,促使得到的相似人群更准确。
4、本发明能够基于现有的客户人群得出用户属性权值,进一步地得出最佳属性列表,自动筛选出与客户人群相类似的人群,并可以设定相似人群的规模,再对相似人群投放广告,使广告投放更可控,实现全自动化,无需人工操作,得出的相似人群准确度高,具有针对性强、节约广告成本的优点。
附图说明
下面结合附图和具体实施方式来详细说明本发明:
图1是一种基于自动挑选属性的相似人群扩展方法的流程图。
具体实施方式
为了使本发明技术实现的措施、创作特征、达成目的与功效易于明白了解,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1是一种基于自动挑选属性的相似人群扩展方法的流程图。
如图1所示,一种基于自动挑选属性的相似人群扩展方法,包括如下步骤:
步骤一,已知互联网客户人群列表G和全部人群列表A;
步骤二,采用全部人群列表A减去互联网客户人群列表G,即得出剩余人群列表B,针对剩余人群列表B进行随机采样,得出用户数量与互联网客户人群列表G数量相同的对照组人群列表P;
步骤三,通过互联网广告系统得出互联网客户人群列表G与对照组人群列表P中所有用户的各个属性权值;
步骤四,根据步骤三中得出的所有用户的各个属性权值,计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值;
步骤五,比较步骤四中得出的所有属性的差异权值,取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性,形成属性列表;人工对属性列表进行干预,人为的从属性列表中删除广告主认为相似性不好的属性,形成优化后的属性列表V;
步骤六,针对步骤五中得出的属性列表,根据属性列表中所含有的属性求取剩余人群的相似性得分;
步骤七,依据步骤五中得出的属性列表涉及到的每一个属性,将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列,再根据广告主设定的相似人群规模,依据相似性得分从高到低筛选出相似性人群。
实施例2:
图1是一种基于自动挑选属性的相似人群扩展方法的流程图。
如图1所示,一种基于自动挑选属性的相似人群扩展方法,包括如下步骤:
步骤一,通过广告主得到使用过该广告产品的互联网客户人群列表G,再根据互联网广告投放系统得到全部人群列表A;
步骤二,采用全部人群列表A减去互联网客户人群列表G,即得出剩余人群列表B,针对剩余人群列表B进行随机采样,得出用户数量与互联网客户人群列表G数量相同的对照组人群列表P;
步骤三,通过互联网广告系统得出互联网客户人群列表G与对照组人群列表P中所有用户的各个属性权值;
步骤四,根据步骤三中得出的所有用户的各个属性权值,计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值;
首先,计算互联网客户人群列表A中每一个属性的平均权值;
z i G = &Sigma; i &Element; G z i p n
其中,表示互联网客户人群列表G中用户p的属性i的属性权值,n表示互联网客户人群列表G中具有属性i的用户个数,表示互联网客户人群列表G的属性i的平均权值;
进一步地,计算互联网客户人群列表G与对照组人群列表P中每一个属性i的差异权值;
D i ( G , P ) = 1 n &Sigma; p &Element; A | ( z i G - x i p ) z i G |
其中,Di(G,P)表示客户人群列表G与对照组人群列表P在属性i上的差异权值;表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值;n表示客户人群列表G的人数;
步骤五,比较步骤四中得出的所有属性的差异权值,取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性,形成属性列表;人工对属性列表进行干预,人为的从属性列表中删除广告主认为相似性不好的属性,形成优化后的属性列表V;
步骤六,针对步骤五中得出的属性列表,根据属性列表中所含有的属性求取剩余人群的相似性得分;
S ( p , G ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G |
其中,S(p,G)表示用户剩余人群列表B中用户p与客户人群列表G的相似性得分;V表示属性列表,表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值;
步骤七,依据步骤五中得出的属性列表涉及到的每一个属性,将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列,再根据广告主设定的相似人群规模,依据相似性得分从高到低筛选出相似性人群。
下面根据具体实施例对本发明进行具体说明:
步骤一,假如我们从广告主处获得了客户人群,列表G={p1,p2,p3,p4},并通过互联网广告投放系统获得全部人群,列表A={p1,p2,p3,p4,p5,p6,p7,p8,p9,p10};
步骤二,采用全部人群列表A减去客户人群列表G,得到剩余人群列表B={p5,p6,p7,p8,p9,p10};并通过随机采样得到用户数量与客户人群列表G人数相等的对照组人群,即列表P={p5,p6,p9,p10};
步骤三,通过互联网广告投放系统计算出客户人群G与对照组人群P的每个属性权值,具体如表一所示;
表一:表示用户p每个属性的属性权值
用户\属性 性别=男 性别=女 年龄 月收入
p1 0 1 20 1000
p2 0 1 25 3000
p3 1 0 15 500
p4 0 1 20 3500
p5 1 0 15 2000
p6 1 0 25 2500
p9 0 1 45 1500
p10 0 1 35 2000
步骤四,计算客户人群G与对照组人群P中每一个用户的属性i的差异权值;
首先,计算客户人群G中个体p1,p2,p3,p4每个属性i的平均权值具体如表二所示:
z i G = &Sigma; i &Element; G z i p n
其中,表示互联网客户人群列表G中用户p的属性i的属性权值,n表示互联网客户人群列表G中具有属性i的用户个数,表示互联网客户人群列表G的属性i的平均权值;
表二:平均权值
人群\属性i均值 性别=男 性别=女 年龄 月收入
G 0.25 0.75 20 2000
然后,计算每个属性i上客户人群列表G与对照组人群列表P的差异权值:
D i ( G , P ) = 1 n &Sigma; p &Element; A | ( z i G - x i p ) z i G |
其中,Di(G,P)表示客户人群列表G与对照组人群列表P在属性i上的差异权值;表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值;n表示客户人群列表G的人数;
性别=男: D i ( G , P ) = 1 4 ( | 0.25 - 1 0.25 | + | 0.25 - 1 0.25 | + | 0.25 - 0 0.25 | + | 0.25 - 0 0.25 | ) = 2.0 ;
性别=女: D i ( G , P ) = 1 4 ( | 0.75 - 0 0.75 | + | 0.75 - 0 0.75 | + | 0.75 - 1 0.75 | + | 0.75 - 1 0.75 | ) = 0.67 ;
年龄: D i ( G , P ) = 1 4 ( | 20 - 15 20 | + | 20 - 25 20 | + | 20 - 45 20 | + | 20 - 35 20 | ) = 0.625 ;
月收入: D i ( G , P ) = 1 4 ( | 2000 - 2000 2000 | + | 2000 - 2500 2000 | + | 2000 - 1500 2000 | + | 2000 - 2000 2000 | ) = 0.125 ;
结果如表三所示:
表三:差异权值Di(G,P)
人群\属性差异 性别=男 性别=女 年龄 月收入
G,P 2.0 0.67 0.625 0.125
步骤五,比较步骤四中得出的所有属性的差异权值,取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性,形成属性列表;当N=3时,得到的属性列表V={性别=男,年龄,性别=女},去除了月收入属性;
进一步地,可以选择人工对上述得到的属性列表进行干预,去除人工认为不准确的属性特征;在本实施例中,得到的属性都事准确的,因此不需要干预,故保留属性列表中的所有属性;
步骤六,针对步骤五中得出的属性列表,根据属性列表中所含有的属性求取剩余人群B的相似性得分;
剩余人群B的属性权值列表如表四所示:
表四:剩余人群列表B
用户\属性 性别=男 性别=女 年龄
p5 1 0 15
p6 1 0 25
p7 0 1 50
p8 1 0 30
p9 0 1 45
p10 0 1 35
计算剩余人群列表B中每个用户p与客户人群列表G的相似性得分,具体公式为:
S ( p , G ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G |
其中,S(p,G)表示用户剩余人群列表B中用户p与客户人群列表G的相似性得分;V表示属性列表,表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值;
将上述计算得到的权值代入公式中,即可得到相似性得分;
p5: D ( G , p ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G | = - ( | 0.25 - 1 0.25 | + | 0.75 - 0 0.75 | + | 20 - 15 20 | ) = - 4.25 ;
p6: D ( G , p ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G | = - ( | 0.25 - 1 0.25 | + | 0.75 - 0 0.75 | + | 20 - 15 20 | ) = - 4.25 ;
p7: D ( G , p ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G | = - ( | 0.25 - 0 0.25 | + | 0.75 - 1 0.75 | + | 20 - 15 20 | ) = - 2.83 ;
p8: D ( G , p ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G | = - ( | 0.25 - 1 0.25 | + | 0.75 - 0 0.75 | + | 20 - 30 20 | ) = - 4.50 ;
p9: D ( G , p ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G | = - ( | 0.25 - 0 0.25 | + | 0.75 - 1 0.75 | + | 20 - 15 20 | ) = - 2.58 ;
p10: D ( G , p ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G | = - ( | 0.25 - 0 0.25 | + | 0.75 - 1 0.75 | + | 20 - 15 20 | ) = - 2.08 ;
形成相似得分列表,具体如下表:
用户p 相似性得分
p5 -4.25
p6 -4.25
p7 -2.83
p8 -4.50
p9 -2.58
p10 -2.08
步骤七,将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列,即p10>p9>p7>p5、p6>p8,再根据广告主设定的相似人群规模,依据相似性得分从高到低筛选出相似性人群;
如果广告主设定的相似人群规模为3人,则我们筛选出相似性得分最高的相似人群为{p7,p9,p10}。
本发明能够自动地对用户属性的重要性进行挑选,得出对客户人群与对照组人群相似性影响最大的几个属性,只需针对影响最大的几个属性进行相似性得分计算即可,无需对所有属性进行相似得分计算,大大减低了工作量,计算方法更加科学、可靠,可操作性更强。
本发明也可以通过人工过滤的方法,人为的对筛选出的属性列表进行干预,使属性列表更加精确,对系统做出错误的选择进行更改,减少了自动选出的属性不合理现象的发生。
计算相似性得分时,用的是客户人群在各个属性上的平均权值,而不是个体值,即使客户人群有小部分错误,也不会对结果造成大的影响,因此方法具有很好的鲁棒性,更加科学可靠,促使得到的相似人群更准确。
本发明能够基于现有的客户人群得出用户属性权值,进一步地得出最佳属性列表,自动筛选出与客户人群相类似的人群,并可以设定相似人群的规模,再对相似人群投放广告,使广告投放更可控,实现全自动化,无需人工操作,得出的相似人群准确度高,具有针对性强、节约广告成本的优点。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等同物界定。

Claims (5)

1.一种基于自动挑选属性的相似人群扩展方法,其特征在于,包括如下步骤:
步骤一,已知互联网客户人群列表G和全部人群列表A;
步骤二,采用全部人群列表A减去互联网客户人群列表G,即得出剩余人群列表B,针对剩余人群列表B进行随机采样,得出用户数量与互联网客户人群列表G数量相同的对照组人群列表P;
步骤三,通过互联网广告系统得出互联网客户人群列表G与对照组人群列表P中所有用户的各个属性权值;
步骤四,根据步骤三中得出的所有用户的各个属性权值,计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值;
步骤五,比较步骤四中得出的所有属性的差异权值,取差异权值最大的N个属性作为对互联网客户人群列表G与对照组人群列表P相似性影响最大的属性,形成属性列表;人工对属性列表进行干预,人为的从属性列表中删除广告主认为相似性不好的属性,形成优化后的属性列表V;
步骤六,针对步骤五中得出的属性列表,根据属性列表中所含有的属性求取剩余人群的相似性得分;
步骤七,依据步骤五中得出的属性列表涉及到的每一个属性,将剩余人群列表B中的用户p按照相似性得分的高低进行降序排列,再根据广告主设定的相似人群规模,依据相似性得分从高到低筛选出相似性人群。
2.根据权利要求1所述的一种基于自动挑选属性的相似人群扩展方法,其特征在于,所述步骤一通过广告主得到使用过该广告产品的互联网客户人群列表G,再根据互联网广告投放系统得到全部人群列表A。
3.根据权利要求1所述的一种基于自动挑选属性的相似人群扩展方法,其特征在于,所述步骤四中计算互联网客户人群列表G与对照组人群列表P中每一个属性的差异权值的具体步骤为:
首先,计算互联网客户人群列表A中每一个属性的平均权值;
z i G = &Sigma; i &Element; G z i p n
其中,表示互联网客户人群列表G中用户p的属性i的属性权值,n表示互联网客户人群列表G中具有属性i的用户个数,表示互联网客户人群列表G的属性i的平均权值;
进一步地,计算互联网客户人群列表G与对照组人群列表P中每一个属性i的差异权值;
D i ( G , P ) = 1 n &Sigma; p &Element; A | ( z i G - x i p ) z i G |
其中,Di(G,P)表示客户人群列表G与对照组人群列表P在属性i上的差异权值;表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值;n表示客户人群列表G的人数。
4.根据权利要求3所述的一种基于自动挑选属性的相似人群扩展方法,其特征在于,所述步骤五中还包括:人工过滤步骤,通过人工对属性列表进行干预,人为的从属性列表中删除广告主认为相似性不好的属性,形成优化后的属性列表V。
5.根据权利要求4所述的一种基于自动挑选属性的相似人群扩展方法,其特征在于,所述步骤六中根据属性中含有的属性求取剩余人群的相似性得分采用的公式为:
S ( p , G ) = - &Sigma; i &Element; V | ( z i G - x i p ) z i G |
其中,S(p,G)表示用户剩余人群列表B中用户p与客户人群列表G的相似性得分;V表示属性列表,表示用户p在对照组人群列表P中属性i上的权值;表示客户人群列表G在属性i上的平均权值。
CN201510958027.6A 2015-12-18 2015-12-18 一种基于自动挑选属性的相似人群扩展方法 Pending CN105550900A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510958027.6A CN105550900A (zh) 2015-12-18 2015-12-18 一种基于自动挑选属性的相似人群扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510958027.6A CN105550900A (zh) 2015-12-18 2015-12-18 一种基于自动挑选属性的相似人群扩展方法

Publications (1)

Publication Number Publication Date
CN105550900A true CN105550900A (zh) 2016-05-04

Family

ID=55830079

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510958027.6A Pending CN105550900A (zh) 2015-12-18 2015-12-18 一种基于自动挑选属性的相似人群扩展方法

Country Status (1)

Country Link
CN (1) CN105550900A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109004A (zh) * 2017-12-18 2018-06-01 北京三快在线科技有限公司 相似人群扩展方法、装置及电子设备
CN110517070A (zh) * 2019-08-15 2019-11-29 深圳市云积分科技有限公司 一种消费者人群圈选方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050256771A1 (en) * 2004-05-12 2005-11-17 Garret E R System and method of matching artistic products with their audiences
CN101075303A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 一种预测新业务潜在用户的数据挖掘模型
CN101206751A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 基于数据挖掘的顾客推荐系统及其方法
US20080249971A1 (en) * 2003-12-19 2008-10-09 International Business Machines Corporation Process and Heuristic Statistic for Prospect Selection Through Data Mining

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080249971A1 (en) * 2003-12-19 2008-10-09 International Business Machines Corporation Process and Heuristic Statistic for Prospect Selection Through Data Mining
US20050256771A1 (en) * 2004-05-12 2005-11-17 Garret E R System and method of matching artistic products with their audiences
CN101075303A (zh) * 2006-05-18 2007-11-21 河北全通通信有限公司 一种预测新业务潜在用户的数据挖掘模型
CN101206751A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 基于数据挖掘的顾客推荐系统及其方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108109004A (zh) * 2017-12-18 2018-06-01 北京三快在线科技有限公司 相似人群扩展方法、装置及电子设备
CN110517070A (zh) * 2019-08-15 2019-11-29 深圳市云积分科技有限公司 一种消费者人群圈选方法及装置

Similar Documents

Publication Publication Date Title
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN105389713A (zh) 基于用户历史数据的移动流量套餐推荐算法
CN103793788B (zh) 一种有序用电管理方法
CN101980210A (zh) 一种标的词分类分级方法及系统
CN108132964A (zh) 一种基于用户对项目类评分的协同过滤方法
CN106776859A (zh) 基于用户偏好的移动应用App推荐系统
CN106484733A (zh) 新闻线索个性化推送方法及系统
CN105550900A (zh) 一种基于自动挑选属性的相似人群扩展方法
CN102592201B (zh) 一种水稻区域试验资料快速汇总的方法
CN105069561A (zh) 一种评标专家抽取方法及装置
Soler A rational indicator of scientific creativity
CN102521713B (zh) 数据处理装置和数据处理方法
CN106651167A (zh) 一种生物信息工程师技能评级系统
Estevão* Regional labor market disparities in Belgium
CN105718457A (zh) 基于电子票据的信息推送方法及系统
CN110009425A (zh) 一种适用于广告代理的广告曝光诊断方法
CN103955715B (zh) 一种基于赤足或穿袜足迹图像的自动人身认定方法
CN106446531A (zh) 一种基于先验决策模型的谱系树构建方法
CN104915430A (zh) 一种基于MapReduce的约束关系粗糙集规则获取方法
CN115170196A (zh) 一种基于大数据智能写作的推广方法
CN102163222B (zh) 基于标引关联关系的信息检索排序方法
CN111680074B (zh) 一种基于聚类算法的电力采集负荷漏点特征挖掘方法
US20130212030A1 (en) Method of valuing a patent using metric characteristics of similar patents granted earlier
CN103945464B (zh) 参数预测处理方法
CN109214459A (zh) 一种地理适宜性的聚类划分方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160504

RJ01 Rejection of invention patent application after publication