CN112445985A - 一种基于浏览行为优化的相似人群获取方法 - Google Patents

一种基于浏览行为优化的相似人群获取方法 Download PDF

Info

Publication number
CN112445985A
CN112445985A CN201910794531.5A CN201910794531A CN112445985A CN 112445985 A CN112445985 A CN 112445985A CN 201910794531 A CN201910794531 A CN 201910794531A CN 112445985 A CN112445985 A CN 112445985A
Authority
CN
China
Prior art keywords
crowd
similar
seed
crowds
url
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910794531.5A
Other languages
English (en)
Inventor
李新
李征宇
邵品贤
吴小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kaiyu Information Technology Co ltd
Original Assignee
Shanghai Kaiyu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kaiyu Information Technology Co ltd filed Critical Shanghai Kaiyu Information Technology Co ltd
Priority to CN201910794531.5A priority Critical patent/CN112445985A/zh
Publication of CN112445985A publication Critical patent/CN112445985A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于浏览行为优化的相似人群获取方法,将IDF值引入人群的召回过程中,计算URL‑>人群的IDF值,过滤掉仅浏览过区分度低URL的人群,保留浏览区分度高URL的人群,有效的对浏览行为较少人群进行了区分;将IDF值引入人群排序流程中,相同URL在不同种子人群中拥有不同权重,提高召回人群的准确度。

Description

一种基于浏览行为优化的相似人群获取方法
技术领域
本发明主要涉及互联网广告领域,具体涉及一种基于浏览行为优化的相似人群获取方法。
背景技术
相似人群扩展,主要实现方式为:利用品牌(广告主)提供的种子用户数据,在广告平台的用户大数据库中找到和种子用户相似的用户群。其中种子用户是品牌方的核心用户,一般是广告平台历史投放数据中对品牌有兴趣而产生过点击、下载、安装、激活等行为的用户。目前业内一般有可以通过两种方式,实现相似扩展人群:
1、用户画像标签
广告平台利用广告主提供的种子人群数据以及自身DMP平台中的用户数据,通过分析种子人群中性别,兴趣等标签的分布情况,然后使用用户画像标签找到目标人群;
2、分类预测模型
广告平台将广告主提供的种子人群作为其分类预测模型的正样本。利用用户画像信息以及浏览行为信息训练模型之后,最后得到广告主需要的扩展后的目标人群。
对于方法1,由于广告主很难收集到比较全面的用户数据,无法准确产生用户画像分析;另一方面基于标签的扩展人群,不会计算每个用户和种子用户群的相似度,精度不高,这种做法对所有客户不具有普适性。
对于方法2,在对用户浏览行为进行分析后发现以下问题:
1)有相当部分的用户浏览页面数很少,部分用户的浏览页面只有1个。若这部分用户如果只是简单的过滤掉将会浪费很大部分的用户数据;
2)现有方法中单个URL的权重在不同种子人群中是相同的,一方面URL权重相同会导致扩展人群数量过大,另一方面相同浏览行为在种子人群中权重相同,会导致扩展人群相互趋同,无法达到寻找相似人群的目的。
发明内容
本发明提供了一种基于浏览行为优化的相似人群获取方法,目的在于将浏览行为少的人群进行区分,同时提高了召回人群的准确度。
一种基于浏览行为优化的相似人群获取方法,包括:
步骤一、将需要定向投放的种子人群上传至广告投放系统;
步骤二、目标人群与数据管理平台进行撞库取得取得目标人群的人群属性,人群兴趣,以及浏览行为;
步骤三、对种子人群进行分析筛选并进行聚类分析;
步骤四、引入IDF值,针对聚类分析完成后的不同种子人群,进行相似人群的初步筛选;
步骤五、将步骤四中初步筛选出的相似人群进行精细排序,对初步筛选出的相似人群进行更准确的排序;
步骤六、将步骤五中精细排序后的初步筛选相似人群中相似度最大的人群作为最终相似人群,输出至广告投放系统进行投放;
所述步骤四中的IDF值作为单个URL在不同人群上的区分度,计算方法如下:
Figure 642743DEST_PATH_IMAGE001
进一步的,所述步骤一中的广告投放系统为RTB广告投放系统,可对目标人群进行定向投放,允许用户自定义上传目标人群。
进一步的,步骤四中的具体初步筛选方法为:计算URL->人群的IDF值,设定阈值筛除IDF值较低的URL,完成种子URL的过滤,再将数据管理平台中浏览过过滤后种子URL的用户认定为召回人群,完成相似人群的初筛。
进一步的,所述步骤五,将URL->人群的IDF值作为权重引入到相似人群的精细排序过程中,使相同浏览行为在不同种子人群间的相似度的值发生改变,对初步筛选的初步相似人群进行精确排序。
有益效果:将IDF值引入人群的召回过程中,计算URL->人群的IDF值,过滤掉仅浏览过区分度低URL的人群,保留浏览区分度高URL的人群,有效的对浏览行为较少人群进行了区分;将IDF值引入人群排序流程中,相同URL在不同种子人群中拥有不同权重,提高召回人群的准确度。
附图说明
图1为本发明系统数据流转示意图。
图2为本发明实施例流程图。
具体实施方式
数据管理平台(简称DMP平台)拥有用户ID以及对应的人群属性,兴趣类别标签,以及浏览行为。
广告投放系统为RTB广告投放系统,可对目标人群进行定向投放,允许用户自定义上传目标人群。
浏览行为日志收集系统收集到用户在互联网上的部分浏览行为信息,可以不包含全部浏览行为,可将浏览行为按照统一整理为结构化的日志进行存储。
大数据平台为大数据计算平台进行相关日志的存储以及计算功能,它用于按照一定规则计算,筛选浏览行为日志系统存储的日志。
如图1至图2所示,一种基于浏览行为优化的相似人群获取方法,包括:
步骤一、将需要定向投放的种子人群上传至广告投放系统;
步骤二、目标人群与数据管理平台进行撞库取得取得目标人群的人群属性,人群兴趣,以及浏览行为;
步骤三、对种子人群进行分析筛选并进行聚类分析;
步骤四、引入IDF值,针对聚类分析完成后的不同种子人群,进行相似人群的初步筛选;
步骤五、将步骤四中初步筛选出的相似人群进行精细排序,对初步筛选出的相似人群进行更准确的排序;
步骤六、将步骤五中精细排序后的初步筛选相似人群中相似度最大的人群作为最终相似人群,输出至广告投放系统进行投放;
所述步骤四中的IDF值作为单个URL在不同人群上的区分度,计算方法如下:
Figure 86493DEST_PATH_IMAGE001
所述步骤一中的广告投放系统为RTB广告投放系统,可对目标人群进行定向投放,允许用户自定义上传目标人群。
所述步骤二中,目标人群与数据管理平台进行撞库,需要完成以下几步工作:
(1)、对种子用户ID进行清洗,对于不符合规则以及无法在DMP平台中进行匹配的种子用户ID进行剔除。
(2)、将种子人群与DMP平台的匹配,收集种子人群在DMP平台中的人群属性。
(3)、需要完成种子人群数据的清洗,对于浏览行为较少的种子用户,进行与相似用户的数据补全,以及将数据严重缺失的种子用户ID剔除出种子人群。
所述步骤四中的具体的初步筛选方法为:计算URL->人群的IDF值,设定阈值筛除IDF值较低的URL,完成种子URL的过滤,再将数据管理平台中浏览过过滤后种子URL的用户认定为召回人群,完成相似人群的初筛,具体的,需要进行以下数据的计算:
(1)、完成对种子人群近7天内浏览行为的收集,包括但不限于浏览网页,使用APP,浏览网站所使用的IP等信息。
(2)、根据浏览行为信息对种子人群利用聚类算法,将种子人群聚为1~5类。
(3)、对比不同分类种子人群的浏览行为以及全网用户浏览行为,计算种子人群浏览不同网页,APP在全网用户浏览行为的IDF值,根据IDF值评价不同网页、APP对于人群的区分度,其中:
Figure 37132DEST_PATH_IMAGE002
(4)、根据阈值排除掉区分度较小的网页后,根据全网人群浏览行为日志筛选出浏览过相同网站人群作为每个种子人群小类进行人群召回。
所述步骤五,将URL->人群的IDF值作为权重引入到相似人群的精细排序过程中,使相同浏览行为在不同种子人群间的相似度的值发生改变,对初步筛选的初步相似人群进行精确排序。所述相似度计算过程,需要进行以下数据的计算:
(1)、整理收集种子人群与召回人群在短期浏览行为以及长期人群属性数据,并将人群属性数据进行one-hot编码获得人群属性向量;短期浏览数据根据网页在媒体库中不同维度得分得到相关评分向量,评分向量与网页的IDF值进行乘积后获得短期浏览行为向量:
Figure 591741DEST_PATH_IMAGE003
Figure 616329DEST_PATH_IMAGE004
Figure 558877DEST_PATH_IMAGE005
其中
Figure 668916DEST_PATH_IMAGE006
为用户长期属性向量,
Figure 761636DEST_PATH_IMAGE007
为用户短期浏览向量,
Figure 906310DEST_PATH_IMAGE008
为不同网页IDF值组成的向量,用户最终向量为:
Figure 19760DEST_PATH_IMAGE009
(2)、计算相似度采用余弦相似度,公式如下:
Figure 374952DEST_PATH_IMAGE010
其中
Figure 271364DEST_PATH_IMAGE011
为上一步计算获得的不同用户的
Figure 4965DEST_PATH_IMAGE012
向量。
(3)、按照相似度对所有召回人群进行排名,根据用户选择的扩展人群数量,截取相似度最大的人群,并输出至广告投放系统进行投放。
综上,本发明将URL->人群的IDF值引入到相似人群的计算过程中,成功的将浏览行为少的人群进行了区分。将URL->人群的IDF值引入相似人群精细排序流程中,在不同种子人群给与相同URL不同的权重,提高召回人群的准确度。

Claims (4)

1.一种基于浏览行为优化的相似人群获取方法,其特征在于,包括:
步骤一、将需要定向投放的种子人群上传至广告投放系统;
步骤二、目标人群与数据管理平台进行撞库取得取得目标人群的人群属性,人群兴趣,以及浏览行为;
步骤三、对种子人群进行分析筛选并进行聚类分析;
步骤四、引入IDF值,针对聚类分析完成后的不同种子人群,进行相似人群的初步筛选;
步骤五、将步骤四中初步筛选出的相似人群进行精细排序,对初步筛选出的相似人群进行更准确的排序;
步骤六、将步骤五中精细排序后的初步筛选相似人群中相似度最大的人群作为最终相似人群,输出至广告投放系统进行投放;
所述步骤四中的IDF值作为单个URL在不同人群上的区分度,计算方法如下:
Figure 518991DEST_PATH_IMAGE001
2.如权利要求1所述的一种基于浏览行为优化的相似人群获取方法,其特征在于:所述步骤一中的广告投放系统为RTB广告投放系统。
3.如权利要求2所述的一种基于浏览行为优化的相似人群获取方法,其特征在于:步骤四中的具体初步筛选方法为:计算URL->人群的IDF值,设定阈值筛除IDF值较低的URL,完成种子URL的过滤,再将数据管理平台中浏览过过滤后种子URL的用户认定为召回人群,完成相似人群的初筛。
4.如权利要求3所述的一种基于浏览行为优化的相似人群获取方法,其特征在于:所述步骤五,将URL->人群的IDF值作为权重引入到相似人群的精细排序过程中,使相同浏览行为在不同种子人群间的相似度的值发生改变,对初步筛选的初步相似人群进行精确排序。
CN201910794531.5A 2019-08-27 2019-08-27 一种基于浏览行为优化的相似人群获取方法 Withdrawn CN112445985A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910794531.5A CN112445985A (zh) 2019-08-27 2019-08-27 一种基于浏览行为优化的相似人群获取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910794531.5A CN112445985A (zh) 2019-08-27 2019-08-27 一种基于浏览行为优化的相似人群获取方法

Publications (1)

Publication Number Publication Date
CN112445985A true CN112445985A (zh) 2021-03-05

Family

ID=74742021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910794531.5A Withdrawn CN112445985A (zh) 2019-08-27 2019-08-27 一种基于浏览行为优化的相似人群获取方法

Country Status (1)

Country Link
CN (1) CN112445985A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967100A (zh) * 2021-04-02 2021-06-15 杭州网易云音乐科技有限公司 相似人群扩展方法、装置、计算设备以及介质
CN113222652A (zh) * 2021-04-29 2021-08-06 西安点告网络科技有限公司 一种在线广告基础受众标签构建方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076910A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Calculating web page importance based on web behavior model
CN108415913A (zh) * 2017-02-09 2018-08-17 周孟 基于不确定邻居的人群定向方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076910A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Calculating web page importance based on web behavior model
CN108415913A (zh) * 2017-02-09 2018-08-17 周孟 基于不确定邻居的人群定向方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ARCHSUMMIT: "《【机器学习】解析微信朋友圈的lookalike算法》", pages 1 - 15, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/25509178> *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967100A (zh) * 2021-04-02 2021-06-15 杭州网易云音乐科技有限公司 相似人群扩展方法、装置、计算设备以及介质
CN112967100B (zh) * 2021-04-02 2024-03-15 杭州网易云音乐科技有限公司 相似人群扩展方法、装置、计算设备以及介质
CN113222652A (zh) * 2021-04-29 2021-08-06 西安点告网络科技有限公司 一种在线广告基础受众标签构建方法、系统、设备及存储介质
CN113222652B (zh) * 2021-04-29 2023-08-08 西安点告网络科技有限公司 一种在线广告基础受众标签构建方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN105701216B (zh) 一种信息推送方法及装置
CN110222267B (zh) 一种游戏平台信息推送方法、系统、存储介质及设备
CN107424043B (zh) 一种产品推荐方法及装置,电子设备
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
CN107862022B (zh) 文化资源推荐系统
CN102541999B (zh) 对象敏感的图像搜索
WO2019095417A1 (zh) 广告实时推荐方法、装置、终端设备及存储介质
CN112348602B (zh) 一种基于大数据的广告自动化投放管理系统
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
US8180667B1 (en) Rewarding creative use of product placements in user-contributed videos
CN104834641B (zh) 网络媒介信息的处理方法和相关系统
CN102521233B (zh) 自适应图像检索数据库
CN108734184B (zh) 一种对敏感图像进行分析的方法及装置
US20120123993A1 (en) Action Prediction and Identification Temporal User Behavior
US20110119267A1 (en) Method and system for processing web activity data
CN105095187A (zh) 一种搜索意图识别方法及装置
CN105447730A (zh) 目标用户定向方法及装置
CN101814083A (zh) 网页自动分类方法和系统
WO2007070199A1 (en) Advertising keyword cross-selling
CN108874812B (zh) 一种数据处理方法及服务器、计算机存储介质
CN111914172B (zh) 一种基于用户标签的医学信息推荐方法及系统
WO2008106668A1 (en) User query mining for advertising matching
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN104217031A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN111400546B (zh) 一种视频召回方法、视频推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210305