CN112445985A - 一种基于浏览行为优化的相似人群获取方法 - Google Patents
一种基于浏览行为优化的相似人群获取方法 Download PDFInfo
- Publication number
- CN112445985A CN112445985A CN201910794531.5A CN201910794531A CN112445985A CN 112445985 A CN112445985 A CN 112445985A CN 201910794531 A CN201910794531 A CN 201910794531A CN 112445985 A CN112445985 A CN 112445985A
- Authority
- CN
- China
- Prior art keywords
- crowd
- similar
- seed
- crowds
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000005457 optimization Methods 0.000 title claims abstract description 11
- 230000006399 behavior Effects 0.000 claims abstract description 39
- 238000012384 transportation and delivery Methods 0.000 claims description 25
- 238000012216 screening Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000013523 data management Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000007621 cluster analysis Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 description 9
- 238000004140 cleaning Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于浏览行为优化的相似人群获取方法,将IDF值引入人群的召回过程中,计算URL‑>人群的IDF值,过滤掉仅浏览过区分度低URL的人群,保留浏览区分度高URL的人群,有效的对浏览行为较少人群进行了区分;将IDF值引入人群排序流程中,相同URL在不同种子人群中拥有不同权重,提高召回人群的准确度。
Description
技术领域
本发明主要涉及互联网广告领域,具体涉及一种基于浏览行为优化的相似人群获取方法。
背景技术
相似人群扩展,主要实现方式为:利用品牌(广告主)提供的种子用户数据,在广告平台的用户大数据库中找到和种子用户相似的用户群。其中种子用户是品牌方的核心用户,一般是广告平台历史投放数据中对品牌有兴趣而产生过点击、下载、安装、激活等行为的用户。目前业内一般有可以通过两种方式,实现相似扩展人群:
1、用户画像标签
广告平台利用广告主提供的种子人群数据以及自身DMP平台中的用户数据,通过分析种子人群中性别,兴趣等标签的分布情况,然后使用用户画像标签找到目标人群;
2、分类预测模型
广告平台将广告主提供的种子人群作为其分类预测模型的正样本。利用用户画像信息以及浏览行为信息训练模型之后,最后得到广告主需要的扩展后的目标人群。
对于方法1,由于广告主很难收集到比较全面的用户数据,无法准确产生用户画像分析;另一方面基于标签的扩展人群,不会计算每个用户和种子用户群的相似度,精度不高,这种做法对所有客户不具有普适性。
对于方法2,在对用户浏览行为进行分析后发现以下问题:
1)有相当部分的用户浏览页面数很少,部分用户的浏览页面只有1个。若这部分用户如果只是简单的过滤掉将会浪费很大部分的用户数据;
2)现有方法中单个URL的权重在不同种子人群中是相同的,一方面URL权重相同会导致扩展人群数量过大,另一方面相同浏览行为在种子人群中权重相同,会导致扩展人群相互趋同,无法达到寻找相似人群的目的。
发明内容
本发明提供了一种基于浏览行为优化的相似人群获取方法,目的在于将浏览行为少的人群进行区分,同时提高了召回人群的准确度。
一种基于浏览行为优化的相似人群获取方法,包括:
步骤一、将需要定向投放的种子人群上传至广告投放系统;
步骤二、目标人群与数据管理平台进行撞库取得取得目标人群的人群属性,人群兴趣,以及浏览行为;
步骤三、对种子人群进行分析筛选并进行聚类分析;
步骤四、引入IDF值,针对聚类分析完成后的不同种子人群,进行相似人群的初步筛选;
步骤五、将步骤四中初步筛选出的相似人群进行精细排序,对初步筛选出的相似人群进行更准确的排序;
步骤六、将步骤五中精细排序后的初步筛选相似人群中相似度最大的人群作为最终相似人群,输出至广告投放系统进行投放;
所述步骤四中的IDF值作为单个URL在不同人群上的区分度,计算方法如下:
进一步的,所述步骤一中的广告投放系统为RTB广告投放系统,可对目标人群进行定向投放,允许用户自定义上传目标人群。
进一步的,步骤四中的具体初步筛选方法为:计算URL->人群的IDF值,设定阈值筛除IDF值较低的URL,完成种子URL的过滤,再将数据管理平台中浏览过过滤后种子URL的用户认定为召回人群,完成相似人群的初筛。
进一步的,所述步骤五,将URL->人群的IDF值作为权重引入到相似人群的精细排序过程中,使相同浏览行为在不同种子人群间的相似度的值发生改变,对初步筛选的初步相似人群进行精确排序。
有益效果:将IDF值引入人群的召回过程中,计算URL->人群的IDF值,过滤掉仅浏览过区分度低URL的人群,保留浏览区分度高URL的人群,有效的对浏览行为较少人群进行了区分;将IDF值引入人群排序流程中,相同URL在不同种子人群中拥有不同权重,提高召回人群的准确度。
附图说明
图1为本发明系统数据流转示意图。
图2为本发明实施例流程图。
具体实施方式
数据管理平台(简称DMP平台)拥有用户ID以及对应的人群属性,兴趣类别标签,以及浏览行为。
广告投放系统为RTB广告投放系统,可对目标人群进行定向投放,允许用户自定义上传目标人群。
浏览行为日志收集系统收集到用户在互联网上的部分浏览行为信息,可以不包含全部浏览行为,可将浏览行为按照统一整理为结构化的日志进行存储。
大数据平台为大数据计算平台进行相关日志的存储以及计算功能,它用于按照一定规则计算,筛选浏览行为日志系统存储的日志。
如图1至图2所示,一种基于浏览行为优化的相似人群获取方法,包括:
步骤一、将需要定向投放的种子人群上传至广告投放系统;
步骤二、目标人群与数据管理平台进行撞库取得取得目标人群的人群属性,人群兴趣,以及浏览行为;
步骤三、对种子人群进行分析筛选并进行聚类分析;
步骤四、引入IDF值,针对聚类分析完成后的不同种子人群,进行相似人群的初步筛选;
步骤五、将步骤四中初步筛选出的相似人群进行精细排序,对初步筛选出的相似人群进行更准确的排序;
步骤六、将步骤五中精细排序后的初步筛选相似人群中相似度最大的人群作为最终相似人群,输出至广告投放系统进行投放;
所述步骤四中的IDF值作为单个URL在不同人群上的区分度,计算方法如下:
所述步骤一中的广告投放系统为RTB广告投放系统,可对目标人群进行定向投放,允许用户自定义上传目标人群。
所述步骤二中,目标人群与数据管理平台进行撞库,需要完成以下几步工作:
(1)、对种子用户ID进行清洗,对于不符合规则以及无法在DMP平台中进行匹配的种子用户ID进行剔除。
(2)、将种子人群与DMP平台的匹配,收集种子人群在DMP平台中的人群属性。
(3)、需要完成种子人群数据的清洗,对于浏览行为较少的种子用户,进行与相似用户的数据补全,以及将数据严重缺失的种子用户ID剔除出种子人群。
所述步骤四中的具体的初步筛选方法为:计算URL->人群的IDF值,设定阈值筛除IDF值较低的URL,完成种子URL的过滤,再将数据管理平台中浏览过过滤后种子URL的用户认定为召回人群,完成相似人群的初筛,具体的,需要进行以下数据的计算:
(1)、完成对种子人群近7天内浏览行为的收集,包括但不限于浏览网页,使用APP,浏览网站所使用的IP等信息。
(2)、根据浏览行为信息对种子人群利用聚类算法,将种子人群聚为1~5类。
(3)、对比不同分类种子人群的浏览行为以及全网用户浏览行为,计算种子人群浏览不同网页,APP在全网用户浏览行为的IDF值,根据IDF值评价不同网页、APP对于人群的区分度,其中:
(4)、根据阈值排除掉区分度较小的网页后,根据全网人群浏览行为日志筛选出浏览过相同网站人群作为每个种子人群小类进行人群召回。
所述步骤五,将URL->人群的IDF值作为权重引入到相似人群的精细排序过程中,使相同浏览行为在不同种子人群间的相似度的值发生改变,对初步筛选的初步相似人群进行精确排序。所述相似度计算过程,需要进行以下数据的计算:
(1)、整理收集种子人群与召回人群在短期浏览行为以及长期人群属性数据,并将人群属性数据进行one-hot编码获得人群属性向量;短期浏览数据根据网页在媒体库中不同维度得分得到相关评分向量,评分向量与网页的IDF值进行乘积后获得短期浏览行为向量:
(2)、计算相似度采用余弦相似度,公式如下:
(3)、按照相似度对所有召回人群进行排名,根据用户选择的扩展人群数量,截取相似度最大的人群,并输出至广告投放系统进行投放。
综上,本发明将URL->人群的IDF值引入到相似人群的计算过程中,成功的将浏览行为少的人群进行了区分。将URL->人群的IDF值引入相似人群精细排序流程中,在不同种子人群给与相同URL不同的权重,提高召回人群的准确度。
Claims (4)
1.一种基于浏览行为优化的相似人群获取方法,其特征在于,包括:
步骤一、将需要定向投放的种子人群上传至广告投放系统;
步骤二、目标人群与数据管理平台进行撞库取得取得目标人群的人群属性,人群兴趣,以及浏览行为;
步骤三、对种子人群进行分析筛选并进行聚类分析;
步骤四、引入IDF值,针对聚类分析完成后的不同种子人群,进行相似人群的初步筛选;
步骤五、将步骤四中初步筛选出的相似人群进行精细排序,对初步筛选出的相似人群进行更准确的排序;
步骤六、将步骤五中精细排序后的初步筛选相似人群中相似度最大的人群作为最终相似人群,输出至广告投放系统进行投放;
所述步骤四中的IDF值作为单个URL在不同人群上的区分度,计算方法如下:
2.如权利要求1所述的一种基于浏览行为优化的相似人群获取方法,其特征在于:所述步骤一中的广告投放系统为RTB广告投放系统。
3.如权利要求2所述的一种基于浏览行为优化的相似人群获取方法,其特征在于:步骤四中的具体初步筛选方法为:计算URL->人群的IDF值,设定阈值筛除IDF值较低的URL,完成种子URL的过滤,再将数据管理平台中浏览过过滤后种子URL的用户认定为召回人群,完成相似人群的初筛。
4.如权利要求3所述的一种基于浏览行为优化的相似人群获取方法,其特征在于:所述步骤五,将URL->人群的IDF值作为权重引入到相似人群的精细排序过程中,使相同浏览行为在不同种子人群间的相似度的值发生改变,对初步筛选的初步相似人群进行精确排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910794531.5A CN112445985A (zh) | 2019-08-27 | 2019-08-27 | 一种基于浏览行为优化的相似人群获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910794531.5A CN112445985A (zh) | 2019-08-27 | 2019-08-27 | 一种基于浏览行为优化的相似人群获取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112445985A true CN112445985A (zh) | 2021-03-05 |
Family
ID=74742021
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910794531.5A Withdrawn CN112445985A (zh) | 2019-08-27 | 2019-08-27 | 一种基于浏览行为优化的相似人群获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112445985A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967100A (zh) * | 2021-04-02 | 2021-06-15 | 杭州网易云音乐科技有限公司 | 相似人群扩展方法、装置、计算设备以及介质 |
CN113222652A (zh) * | 2021-04-29 | 2021-08-06 | 西安点告网络科技有限公司 | 一种在线广告基础受众标签构建方法、系统、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076910A1 (en) * | 2008-09-25 | 2010-03-25 | Microsoft Corporation | Calculating web page importance based on web behavior model |
CN108415913A (zh) * | 2017-02-09 | 2018-08-17 | 周孟 | 基于不确定邻居的人群定向方法 |
-
2019
- 2019-08-27 CN CN201910794531.5A patent/CN112445985A/zh not_active Withdrawn
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100076910A1 (en) * | 2008-09-25 | 2010-03-25 | Microsoft Corporation | Calculating web page importance based on web behavior model |
CN108415913A (zh) * | 2017-02-09 | 2018-08-17 | 周孟 | 基于不确定邻居的人群定向方法 |
Non-Patent Citations (1)
Title |
---|
ARCHSUMMIT: "《【机器学习】解析微信朋友圈的lookalike算法》", pages 1 - 15, Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/25509178> * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112967100A (zh) * | 2021-04-02 | 2021-06-15 | 杭州网易云音乐科技有限公司 | 相似人群扩展方法、装置、计算设备以及介质 |
CN112967100B (zh) * | 2021-04-02 | 2024-03-15 | 杭州网易云音乐科技有限公司 | 相似人群扩展方法、装置、计算设备以及介质 |
CN113222652A (zh) * | 2021-04-29 | 2021-08-06 | 西安点告网络科技有限公司 | 一种在线广告基础受众标签构建方法、系统、设备及存储介质 |
CN113222652B (zh) * | 2021-04-29 | 2023-08-08 | 西安点告网络科技有限公司 | 一种在线广告基础受众标签构建方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105701216B (zh) | 一种信息推送方法及装置 | |
CN110222267B (zh) | 一种游戏平台信息推送方法、系统、存储介质及设备 | |
CN107424043B (zh) | 一种产品推荐方法及装置,电子设备 | |
CN107577688B (zh) | 基于媒体信息采集的原创文章影响力分析系统 | |
CN107862022B (zh) | 文化资源推荐系统 | |
CN102541999B (zh) | 对象敏感的图像搜索 | |
WO2019095417A1 (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
CN112348602B (zh) | 一种基于大数据的广告自动化投放管理系统 | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US8180667B1 (en) | Rewarding creative use of product placements in user-contributed videos | |
CN104834641B (zh) | 网络媒介信息的处理方法和相关系统 | |
CN102521233B (zh) | 自适应图像检索数据库 | |
CN108734184B (zh) | 一种对敏感图像进行分析的方法及装置 | |
US20120123993A1 (en) | Action Prediction and Identification Temporal User Behavior | |
US20110119267A1 (en) | Method and system for processing web activity data | |
CN105095187A (zh) | 一种搜索意图识别方法及装置 | |
CN105447730A (zh) | 目标用户定向方法及装置 | |
CN101814083A (zh) | 网页自动分类方法和系统 | |
WO2007070199A1 (en) | Advertising keyword cross-selling | |
CN108874812B (zh) | 一种数据处理方法及服务器、计算机存储介质 | |
CN111914172B (zh) | 一种基于用户标签的医学信息推荐方法及系统 | |
WO2008106668A1 (en) | User query mining for advertising matching | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN104217031A (zh) | 一种根据服务器搜索日志数据进行用户分类的方法和装置 | |
CN111400546B (zh) | 一种视频召回方法、视频推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210305 |