CN116362811A - 一种基于大数据的广告自动化投放管理系统 - Google Patents
一种基于大数据的广告自动化投放管理系统 Download PDFInfo
- Publication number
- CN116362811A CN116362811A CN202310327938.3A CN202310327938A CN116362811A CN 116362811 A CN116362811 A CN 116362811A CN 202310327938 A CN202310327938 A CN 202310327938A CN 116362811 A CN116362811 A CN 116362811A
- Authority
- CN
- China
- Prior art keywords
- user
- advertisement
- behavior
- interest
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims description 21
- 230000006399 behavior Effects 0.000 claims abstract description 138
- 230000007774 longterm Effects 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 74
- 238000004364 calculation method Methods 0.000 claims description 17
- 239000006185 dispersion Substances 0.000 claims description 17
- 238000000034 method Methods 0.000 claims description 15
- 238000005065 mining Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000013480 data collection Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001960 triggered effect Effects 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000000969 carrier Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000016776 visual perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于大数据的广告自动化投放管理系统,通过获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新,根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告,提升了广告投放的精准度和准确识别用户兴趣度,提高了用户和广告的匹配度。
Description
技术领域
本发明属于广告投放技术领域,尤其涉及一种基于大数据的广告自动化投放管理系统。
背景技术
广告作为现代承载产品信息的核心产物,其形式也随着时代变迁而发生变化,在互联网时代前,其多数载体为纸质媒体、线下实体广告牌等,而后电视广告逐渐进入人们视野,但其强制性和时段性也是相对的弊端,随着互联网时代的发展,互联网广告也逐渐替代传统广告行业达到了广告行业的新高度,成为了广告的主要载体。然而,在线计算广告以互联网为载体,其与传统广告的根本区别在于解决了广告产生价值难以追踪的问题,即结果是可以量化的,且基于深度学习等技术的革新,能够提供智能定向的推荐效果,达到个性化推荐,解决了传统广告在观感上的弊端,根据相关数据还可对其中间过程进行优化,通过提升广告和用户之间的匹配度,从而提升了广告平台方点击转化的效益,因此,如何提升广告和用户的匹配程度也成了亟待解决的重要问题。
发明内容
有鉴于此,本发明提供了一种可以提高精准投放、提升系统的数据处理和广告投放有效管理的基于大数据的广告自动化投放管理系统,来解决上述存在的技术问题,具体采用以下技术方案来实现。
本发明提供了一种基于大数据的广告自动化投放管理系统,包括:
数据获取单元,用于获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,其中,所述数据集包括用户的广告点击行为日志、广告自身特征、用户自身特征和用户的购物行为;
模型构建单元,用于根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息;
兴趣挖掘单元,用于从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新;
广告投放单元,用于根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告。
作为上述技术方案的进一步改进,所述广告投放单元的具体执行过程包括:
广告主通过移动终端的点击率模型和用户兴趣模型得到的订购服务上传广告,并设置广告关键词、广告类别和投放维度;
当用户访问一个带有广告位的网页时,广告投放平台将广告位的信息发送至满足条件的移动终端;
根据移动终端对应的用户兴趣从广告投放平台选取相应类别的广告集合,并运用广告匹配算法计算广告的得分,将得分最高的广告推送至与用户兴趣匹配最高的用户。
作为上述技术方案的进一步改进,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,包括:
用户的浏览行为通过鼠标移动、鼠标点击、滚轮滚动和按键反映出来,用于的浏览行为信息通过将前端脚本嵌入网页获取,用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度;
用户的网页相对浏览速度为用户浏览目标网页的速度与其平均网页浏览速度的比值的计算表达式为其中Si表示网页i的浏览速度,则/>其中sizei表示网页文本i的大小,ti表示用户在该页面停留的时间,且t1表示最小停留时间,t2表示最长停留时间,当停留时间ti小于最小停留时间时,确定用户没有浏览该页面并将其过滤;当停留时间ti大于最大停留时间时,确定用户长时间打开页面,此时ti取最大停留时间,Sover表示平均浏览速度的表达式为/>其中sizeall表示用户浏览的所有页面的大小之和,tineall表示用户浏览所有页面的时间之和;
作为上述技术方案的进一步改进,用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度,包括:
预设一个用户有n种不同的浏览行为,采用ε1,ε2...εn表示关键词wi在n种不同的浏览行为产生的有效浏览文档中的权重,用fi1,fi2...fin表示该特征关键词在n个有效浏览文档中出现的词频,在向量空间模型中的tfi的表达式为结合用户浏览行为提出的向量空间模型,新的tfi的计算表达式为则权重的表达式为w′(wi)=tfi′*idfi,网页di和广告dj的相似度计算表达式为/>其中w′(wki)表示关键词wk在网页di中的权重,w′(wkj)表示关键词wk在广告dj中的权重。
作为上述技术方案的进一步改进,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,包括:
用户兴趣模型对用户历史行为进行抽取则可得到兴趣状态的抽象表示,该兴趣状态即为每个时间步的隐藏层状态输出ht,模型中目标项的单击行为由最终兴趣触发的,中间隐层状态ht不能得到适当的监督,使用下个时间步的输入bt+1作为标签即采用下个时间步的输入bt+1来监督学习训练当前时间步的隐藏状态ht,则损失函数的计算表达式为其中N表示行为序列的对数,t表示时间步的个数即用户行为列表长度,ht表示当前时间步隐藏状态,表示下一个时间步的输入,σ表示sigmoid函数。
作为上述技术方案的进一步改进,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,包括:
在模型上引入注意力机制的兴趣提取层,分数由兴趣提取层在每个时间步的输出ht与当前候选广告之间的关联性大小计算的表达式为ea表示候选广告的输入向量且维度是nA×1,nA表示候选广告特征的输入维度,W表示参数矩阵且维度是nH×nA,nH表示兴趣抽取层隐藏状态的维度,ht表示某个时间步t的兴趣抽取层的隐藏状态,维度是nH×1。
作为上述技术方案的进一步改进,采用滑动时间窗口完成用户兴趣模型的更新,包括:
滑动时间窗口为用户访问网页历史记录中用来分析用户行为特征的文档集合,选取用户最近访问的m个浏览文档d1,d2,d3...dm-1,dm作为滑动时间窗口,其访问时间依次为t1,t2,t3...tm-1,tm,浏览文档按照访问时间递增顺序从左到右依次顺序排列;
采用聚类算法经过语义扩展的向量空间模型计算每个文档的词向量vi,计算两个词向量间的相似度,若其相似度大于某个阈值α将这两个词向量放到同一词向量簇中,通过表达式为其中dc表示词向量簇的质心,则dc的表达式为/>
作为上述技术方案的进一步改进,预设C表示词向量簇的集合,初始化时选取最左边的词向量d1作为一个簇的质心dQE1,则C={dQE1},从左往右依次从滑动时间窗口中取dj,1<j<m,并用语义扩展后的向量空间模型计算其词向量vj,对于任意dQEi∈C,用向量空间模型计算两者的相似度Sij=sim(vj,dQE),取所有计算结果中的最大值,记为Smax=max(Sij),若Smax>α,将vj加入以dQEi为质心的簇,重新计算该簇的质心为d′QEi;若Smax<α,将vj作为新簇的质心dQEj,C=C∪dQEj;
根据上述步骤处理完滑动窗口中的全部浏览文档,此时滑动时间窗口向右滑动将新的浏览文档dm+1加入其中,按照上述步骤将dm+1加入现有的簇或生成新的簇,将滑动时间窗口最左端的d1从中去除,并重新计算d1所属簇的质心。
作为上述技术方案的进一步改进,当通过聚类形成的词向量簇中的词向量数占滑动时间窗口中文档总数的比例超过某一比例ζ时,确定该簇为有效的,ζ表示行为因子;
将有效簇的文档访问时间归一化后的值作为行为新鲜度记为WF,有效簇Di的平均访问时间E(t)的计算表达式为采用VE=(E1(t),E2(t)...Ei(t)...Ek(t))表示所有有效簇的平均访问时间构成的向量,k表示有效簇的数据,则有效向量簇Di的行为新鲜度/>的表达式为/>通过向量对应的网页访问离散程度来衡量用户的长期兴趣,行为离散程度来衡量有效簇反映出的行为特征的分数程度;
将有效簇的文档访问时间的均方差进行归一化后的值作为行为离散度,记为WD,则有效向量簇Di浏览时间的均方差的表达式为其中n表示该有效簇中的文档总数,采用VD=(D1(t),D2(t)...Di(t)...Dk(t))表示所有有效簇的访问时间的均方差构成的向量,k表示有效簇的数量;
作为上述技术方案的进一步改进,根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,包括:
数据收集,数据收集包括离线数据和在线数据,用于模型的离线和在线训练,数据来源于相关类型行为日志;
特征构建,根据数据收集构建用户和广告的相关特征并进行特征的选取以形成点击率模型所需输入格式。
本发明提供了一种基于大数据的广告自动化投放管理系统,通过获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新,根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告,提升了广告投放的精准度和准确识别用户兴趣度,提高了用户和广告的匹配度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明提供的基于大数据的广告自动化投放管理系统的结构框图;
图2为本发明提供的基于大数据的广告自动化投放管理方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
参阅图1,本发明提供了一种基于大数据的广告自动化投放管理系统,包括:
数据获取单元,用于获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,其中,所述数据集包括用户的广告点击行为日志、广告自身特征、用户自身特征和用户的购物行为;
模型构建单元,用于根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息;
兴趣挖掘单元,用于从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新;
广告投放单元,用于根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告。
本实施例中,所述广告投放单元的具体执行过程包括:广告主通过移动终端的点击率模型和用户兴趣模型得到的订购服务上传广告,并设置广告关键词、广告类别和投放维度;当用户访问一个带有广告位的网页时,广告投放平台将广告位的信息发送至满足条件的移动终端;根据移动终端对应的用户兴趣从广告投放平台选取相应类别的广告集合,并运用广告匹配算法计算广告的得分,将得分最高的广告推送至与用户兴趣匹配最高的用户。根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,包括:数据收集,数据收集包括离线数据和在线数据,用于模型的离线和在线训练,数据来源于相关类型行为日志;特征构建,根据数据收集构建用户和广告的相关特征并进行特征的选取以形成点击率模型所需输入格式。
需要说明的是,词向量聚类算法对经过语义扩展后的向量空间模型按关键词进行聚类,计算出聚类形成的每个词向量簇的权重结合计算每个词向量簇的质心dQEi,得到用于评价广告与用户匹配得分的计算表达式为/>其中词向量的簇质心dQEi与广告αk的相似度sim(dQEi,αk)用改进的向量空间模型计算。广告与每个兴趣簇质心都有一个得分,选取值最大的作为该广告的最终得分,按照这个得分对待投放的广告进行排序并将得分最高的广告投放给用户。行为定向广告以用户为出发点,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,并对用户的兴趣投放相应的广告,兴趣不同的用户在浏览同一个网页时将看到不同的广告,可以实现广告的精准化投放目标。通过对用户行为的分析将用户的兴趣分为短期兴趣和长期兴趣,并采用滑动时间窗口的机制完成对用户兴趣模型的更新。
应理解,不同浏览行为对应的浏览内容其重要性显然不一样的,如打印页面、保存页面、增加书签可以表现出用户对该页面有强烈的兴趣,所以它对应的有效浏览内容的权重应该更大,而用户在可编辑区域的编辑行为通常比链接点击行为的权重更大,比如用户输入的关键词比点击链接的关键词更重要,因为用户编辑的内容更能表达用户对该内容感兴趣的程度。在计算关键词权重时考虑了用户浏览行为特征的影响,从而使其能更精确的表达出用户的兴趣。用户的兴趣可以通过两种行为表现出来,一种是长期的行为,对应用户的长期兴趣,在很长一段时间内都不会发生变化,这种行为表现为用户对某一事物保持稳定的兴趣,在很长一段时间内都不会发生变化,这种行为表现表示用户对某一事物保持稳定的兴趣,表现为用户在较短的一段时间里对某一事物表现出浓厚的兴趣,在短时间内访问大量有关该事物的网页,过了这个时间段之后就不再关注该信息。为了挖掘出用户的长期行为特征和短期行为特征,需要对滑动时间长窗口中的浏览文档进行聚类。由于用户访问网页具有很大的随意性,这些网页不能反映出用户的行为特征,聚类后会形成一些很小的簇,需要引入行为因子去掉这些噪声簇。在衡量用户短期兴趣的重要性,由于越是接近集中访问的文档越能体现用户的短期兴趣,可以通过向量对应的网页访问时间来衡量用户的短期兴趣。在衡量用户长期兴趣的重要性时,由于分布得越离散的文档越能体现用户的长期兴趣。由于内容定向广告投放是简单的抽取网页关键词并根据网页的主题投放广告,从网页内容的角度出发,没有充分挖掘出用户的兴趣,所以在广告投放时的效果并不理想,经常会投放一些用户不感兴趣的广告,从而提高了广告投放的精准度和用户体验。
可选地,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,包括:
用户的浏览行为通过鼠标移动、鼠标点击、滚轮滚动和按键反映出来,用于的浏览行为信息通过将前端脚本嵌入网页获取,用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度;
用户的网页相对浏览速度为用户浏览目标网页的速度与其平均网页浏览速度的比值的计算表达式为其中Si表示网页i的浏览速度,则/>其中sizei表示网页文本i的大小,ti表示用户在该页面停留的时间,且t1表示最小停留时间,t2表示最长停留时间,当停留时间ti小于最小停留时间时,确定用户没有浏览该页面并将其过滤;当停留时间ti大于最大停留时间时,确定用户长时间打开页面,此时ti取最大停留时间,Sover表示平均浏览速度的表达式为/>其中sizeall表示用户浏览的所有页面的大小之和,tineall表示用户浏览所有页面的时间之和;
本实施例中,用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度,包括:预设一个用户有n种不同的浏览行为,采用ε1,ε2...εn表示关键词wi在n种不同的浏览行为产生的有效浏览文档中的权重,用fi1,fi2...fin表示该特征关键词在n个有效浏览文档中出现的词频,在向量空间模型中的tfi的表达式为结合用户浏览行为提出的向量空间模型,新的tfi的计算表达式为则权重的表达式为w′(wi)=tfi′*idfi,网页di和广告dj的相似度计算表达式为/>其中w′(wki)表示关键词wk在网页di中的权重,w′(wkj)表示关键词wk在广告dj中的权重。
需要说明的是,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,包括:用户兴趣模型对用户历史行为进行抽取则可得到兴趣状态的抽象表示,该兴趣状态即为每个时间步的隐藏层状态输出ht,模型中目标项的单击行为由最终兴趣触发的,中间隐层状态ht不能得到适当的监督,使用下个时间步的输入bt+1作为标签即采用下个时间步的输入bt+1来监督学习训练当前时间步的隐藏状态ht,则损失函数的计算表达式为其中N表示行为序列的对数,t表示时间步的个数即用户行为列表长度,ht表示当前时间步隐藏状态,表示下一个时间步的输入,σ表示sigmoid函数。广告主的资源和用户进行匹配推荐,并不断进行优化达到更好的匹配度,在广告主端做到以有限的预算达到最大效率的转化,而平台方则是去做到精确匹配广告和用户,从而提高平台方收益并提升广告主的广告转化率,对于用户做候选资源即广告资源的排序问题,在此基础上可以进行优化匹配,提升广告的转化率,并平衡竞价和投放的问题。
可选地,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,包括:
在模型上引入注意力机制的兴趣提取层,分数由兴趣提取层在每个时间步的输出ht与当前候选广告之间的关联性大小计算的表达式为ea表示候选广告的输入向量且维度是nA×1,nA表示候选广告特征的输入维度,W表示参数矩阵且维度是nH×nA,nH表示兴趣抽取层隐藏状态的维度,ht表示某个时间步t的兴趣抽取层的隐藏状态,维度是nH×1。
本实施例中,采用滑动时间窗口完成用户兴趣模型的更新,包括:滑动时间窗口为用户访问网页历史记录中用来分析用户行为特征的文档集合,选取用户最近访问的m个浏览文档d1,d2,d3...dm-1,dm作为滑动时间窗口,其访问时间依次为t1,t2,t3...tm-1,tm,浏览文档按照访问时间递增顺序从左到右依次顺序排列;采用聚类算法经过语义扩展的向量空间模型计算每个文档的词向量vi,计算两个词向量间的相似度,若其相似度大于某个阈值α将这两个词向量放到同一词向量簇中,通过表达式为其中dc表示词向量簇的质心,则dc的表达式为/>
需要说明的是,预设C表示词向量簇的集合,初始化时选取最左边的词向量d1作为一个簇的质心dQE1,则C={dQE1},从左往右依次从滑动时间窗口中取dj,1<j<m,并用语义扩展后的向量空间模型计算其词向量vj,对于任意dQEi∈C,用向量空间模型计算两者的相似度Sij=sim(vj,dQE),取所有计算结果中的最大值,记为Smax=max(Sij),若Smax>α,将vj加入以dQEi为质心的簇,重新计算该簇的质心为d′QEi;若Smax<α,将vj作为新簇的质心dQEj,C=C∪dQEj;根据上述步骤处理完滑动窗口中的全部浏览文档,此时滑动时间窗口向右滑动将新的浏览文档dm+1加入其中,按照上述步骤将dm+1加入现有的簇或生成新的簇,将滑动时间窗口最左端的d1从中去除,并重新计算d1所属簇的质心。为了挖掘出用户的长期兴趣和短期兴趣,算法引入滑动时间窗口机制对经过语义扩展后的向量空间模型按关键词进行聚类,引入行为新鲜度和行为离散度用来区分短期兴趣和长期兴趣,计算聚类形成的有效簇的权重和质心,使用向量空间模型计算质心与文本广告的相似度,结合相似度和有效簇的权重计算广告的匹配得分,同一个广告与不同的有效簇有不同的得分,取最高的得分作为广告的最终得分,同一个广告与不同的有效簇有不同的得分,取最高的得分作为广告的最终得分,对所有广告的得分由高到低排序,将得分最高的广告投放给用户。
可选地,当通过聚类形成的词向量簇中的词向量数占滑动时间窗口中文档总数的比例超过某一比例ζ时,确定该簇为有效的,ζ表示行为因子;
将有效簇的文档访问时间归一化后的值作为行为新鲜度记为WF,有效簇Di的平均访问时间E(t)的计算表达式为采用VE=(E1(t),E2(t)...Ei(t)...Ek(t))表示所有有效簇的平均访问时间构成的向量,k表示有效簇的数据,则有效向量簇Di的行为新鲜度/>的表达式为/>通过向量对应的网页访问离散程度来衡量用户的长期兴趣,行为离散程度来衡量有效簇反映出的行为特征的分数程度;
将有效簇的文档访问时间的均方差进行归一化后的值作为行为离散度,记为WD,则有效向量簇Di浏览时间的均方差的表达式为其中n表示该有效簇中的文档总数,采用VD=(D1(t),D2(t)...Di(t)...Dk(t))表示所有有效簇的访问时间的均方差构成的向量,k表示有效簇的数量;
参阅图2,本发明还提供了一种基于大数据的广告自动化投放管理方法,具体包括以下步骤:
S1:获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,其中,所述数据集包括用户的广告点击行为日志、广告自身特征、用户自身特征和用户的购物行为;
S2:根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息;
S3:从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新;
S4:根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告。
本实施例中,通过获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新,根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告,提升了广告投放的精准度和准确识别用户兴趣度,提高了用户和广告的匹配度。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (10)
1.一种基于大数据的广告自动化投放管理系统,其特征在于,包括:
数据获取单元,用于获取移动终端的存储的日志数据,并从所述日志数据进行预处理得到数据集,其中,所述数据集包括用户的广告点击行为日志、广告自身特征、用户自身特征和用户的购物行为;
模型构建单元,用于根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,基于用户的购物行为和点击率模型将广告主的资源和用户进行匹配得到广告推荐信息;
兴趣挖掘单元,用于从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,根据用户自身特征和购物行为将用户的兴趣划分为短期兴趣和长期兴趣,并采用滑动时间窗口完成用户兴趣模型的更新;
广告投放单元,用于根据点击率模型和用户兴趣模型对移动终端用户自动化投放广告。
2.根据权利要求1所述的基于大数据的广告自动化投放管理系统,其特征在于,所述广告投放单元的具体执行过程包括:
广告主通过移动终端的点击率模型和用户兴趣模型得到的订购服务上传广告,并设置广告关键词、广告类别和投放维度;
当用户访问一个带有广告位的网页时,广告投放平台将广告位的信息发送至满足条件的移动终端;
根据移动终端对应的用户兴趣从广告投放平台选取相应类别的广告集合,并运用广告匹配算法计算广告的得分,将得分最高的广告推送至与用户兴趣匹配最高的用户。
3.根据权利要求1所述的基于大数据的广告自动化投放管理系统,其特征在于,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,包括:
用户的浏览行为通过鼠标移动、鼠标点击、滚轮滚动和按键反映出来,用于的浏览行为信息通过将前端脚本嵌入网页获取,用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度;
用户的网页相对浏览速度为用户浏览目标网页的速度与其平均网页浏览速度的比值的计算表达式为其中Si表示网页i的浏览速度,则/>其中sizei表示网页文本i的大小,ti表示用户在该页面停留的时间,且t1表示最小停留时间,t2表示最长停留时间,当停留时间ti小于最小停留时间时,确定用户没有浏览该页面并将其过滤;当停留时间ti大于最大停留时间时,确定用户长时间打开页面,此时ti取最大停留时间,Sover表示平均浏览速度的表达式为/>其中sizeall表示用户浏览的所有页面的大小之和,tineall表示用户浏览所有页面的时间之和;
4.根据权利要求3所述的基于大数据的广告自动化投放管理系统,其特征在于,用户在网页不同段落浏览速度以确定用户对所浏览内容的感兴趣程度,包括:
5.根据权利要求1所述的基于大数据的广告自动化投放管理系统,其特征在于,从用户的网页浏览行为中分析挖掘出用户感兴趣的内容构建用户兴趣模型,包括:
8.根据权利要求7所述的基于大数据的广告自动化投放管理系统,其特征在于,还包括:
预设C表示词向量簇的集合,初始化时选取最左边的词向量d1作为一个簇的质心dQE1,则C={dQE1},从左往右依次从滑动时间窗口中取dj,1<j<m,并用语义扩展后的向量空间模型计算其词向量vj,对于任意dQEi∈C,用向量空间模型计算两者的相似度Sij=sim(vj,dQE),取所有计算结果中的最大值,记为Smax=max(Sij),若Smax>α,将vj加入以dQEi为质心的簇,重新计算该簇的质心为d′QEi;若Smax<α,将vj作为新簇的质心dQEj,C=C∪dQEj;
根据上述步骤处理完滑动窗口中的全部浏览文档,此时滑动时间窗口向右滑动将新的浏览文档dm+1加入其中,按照上述步骤将dm+1加入现有的簇或生成新的簇,将滑动时间窗口最左端的d1从中去除,并重新计算d1所属簇的质心。
9.根据权利要求7所述的基于大数据的广告自动化投放管理系统,其特征在于,当通过聚类形成的词向量簇中的词向量数占滑动时间窗口中文档总数的比例超过某一比例ζ时,确定该簇为有效的,ζ表示行为因子;
将有效簇的文档访问时间归一化后的值作为行为新鲜度记为WF,有效簇Di的平均访问时间E(t)的计算表达式为采用VE=(E1(t),E2(t)...Ei(t)...Ek(t))表示所有有效簇的平均访问时间构成的向量,k表示有效簇的数据,则有效向量簇Di的行为新鲜度/>的表达式为/>通过向量对应的网页访问离散程度来衡量用户的长期兴趣,行为离散程度来衡量有效簇反映出的行为特征的分数程度;
将有效簇的文档访问时间的均方差进行归一化后的值作为行为离散度,记为WD,则有效向量簇Di浏览时间的均方差的表达式为其中n表示该有效簇中的文档总数,采用VD=(D1(t),D2(t)...Di(t)...Dk(t))表示所有有效簇的访问时间的均方差构成的向量,k表示有效簇的数量;
10.根据权利要求1所述的基于大数据的广告自动化投放管理系统,其特征在于,根据用户的广告点击行为日志、广告自身特征和用户自身特征构建点击率模型,包括:
数据收集,数据收集包括离线数据和在线数据,用于模型的离线和在线训练,数据来源于相关类型行为日志;
特征构建,根据数据收集构建用户和广告的相关特征并进行特征的选取以形成点击率模型所需输入格式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327938.3A CN116362811A (zh) | 2023-03-24 | 2023-03-24 | 一种基于大数据的广告自动化投放管理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310327938.3A CN116362811A (zh) | 2023-03-24 | 2023-03-24 | 一种基于大数据的广告自动化投放管理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116362811A true CN116362811A (zh) | 2023-06-30 |
Family
ID=86919269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310327938.3A Pending CN116362811A (zh) | 2023-03-24 | 2023-03-24 | 一种基于大数据的广告自动化投放管理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116362811A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843393A (zh) * | 2023-07-18 | 2023-10-03 | 北京吉欣科技有限公司 | 智能广告管理方法及系统 |
CN117575700A (zh) * | 2024-01-15 | 2024-02-20 | 太逗科技集团有限公司 | 一种基于投放效果监控的广告投放系统 |
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
-
2023
- 2023-03-24 CN CN202310327938.3A patent/CN116362811A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116843393A (zh) * | 2023-07-18 | 2023-10-03 | 北京吉欣科技有限公司 | 智能广告管理方法及系统 |
CN116843393B (zh) * | 2023-07-18 | 2024-04-19 | 成都红户里科技有限公司 | 智能广告管理方法及系统 |
CN117575700A (zh) * | 2024-01-15 | 2024-02-20 | 太逗科技集团有限公司 | 一种基于投放效果监控的广告投放系统 |
CN117575700B (zh) * | 2024-01-15 | 2024-03-15 | 太逗科技集团有限公司 | 一种基于投放效果监控的广告投放系统 |
CN117670435A (zh) * | 2024-02-01 | 2024-03-08 | 威海双子星软件科技有限公司 | 基于计算机软硬件集成的网页应用交叉推广系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109492157B (zh) | 基于rnn、注意力机制的新闻推荐方法及主题表征方法 | |
CN106599022B (zh) | 基于用户访问数据的用户画像形成方法 | |
US11238211B2 (en) | Automatic hyperlinking of documents | |
CN116362811A (zh) | 一种基于大数据的广告自动化投放管理系统 | |
WO2019218508A1 (zh) | 一种基于主题情感联合概率的电子商务虚假评论识别方法 | |
CN104933239A (zh) | 一种基于混合模型的个性化职位信息推荐系统及实现方法 | |
Xu et al. | Web content mining | |
WO2013049529A1 (en) | Method and apparatus for unsupervised learning of multi-resolution user profile from text analysis | |
Lyu et al. | Weighted multi-information constrained matrix factorization for personalized travel location recommendation based on geo-tagged photos | |
CN116703485B (zh) | 基于大数据的广告精准营销方法及系统 | |
CN111160019A (zh) | 一种舆情监测的方法、装置及系统 | |
Chung et al. | Categorization for grouping associative items using data mining in item-based collaborative filtering | |
Zhu et al. | Real-time personalized twitter search based on semantic expansion and quality model | |
Baishya et al. | SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning | |
CN115878841A (zh) | 一种基于改进秃鹰搜索算法的短视频推荐方法及系统 | |
CN112966103B (zh) | 一种基于多任务学习的混合注意力机制文本标题匹配方法 | |
Yi et al. | Analysis of stock market public opinion based on web crawler and deep learning technologies including 1DCNN and LSTM | |
CN113222687A (zh) | 一种基于深度学习的推荐方法及装置 | |
Ahmed et al. | Word embedding based news classification by using CNN | |
TW201243627A (en) | Multi-label text categorization based on fuzzy similarity and k nearest neighbors | |
Kae et al. | Categorization of display ads using image and landing page features | |
Panchal et al. | The social hashtag recommendation for image and video using deep learning approach | |
Zhang et al. | Targeted advertising based on browsing history | |
CN115510269A (zh) | 视频推荐的方法、装置、设备和存储介质 | |
CN112989196B (zh) | 基于个性化召回算法lfm的图书推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |