一种广告标签的标注方法及系统
技术领域
本发明涉及广告数据处理的技术领域,涉及一种对广告添加标签的方法及系统。
背景技术
随着互联网等技术的不断发展,商品的广告从原始的在商品包装、广告牌等实体的广告形式慢慢发展为媒体等虚拟的广告形式。而现今,在网络媒体上发布广告进行产品的展现已经成为商家的常用手段,通过网络媒体展示产品的方式能取得比较好的产品营销效果。再者,现在各种技术都追求智能化及自动化功能,更能满足用户在实际生活中的需求,提高了用户在实际中的实际体验。
现在的广告投放又提出基于用户兴趣进行推送投放的形式,根据用户的历史观看或点击数据,总结出用户的兴趣爱好或关注的领域,再向用户进行相关或相近内容的广告推荐,如此能够增加投放广告的用户点击率,从而增强商业宣传的营销效果,对于广告投放平台来讲也会增加广告投放的收益,这种广告的投放形式被称为广告的个性化投放。在广告的个性化投放过程中,使用广告标签给所投放的广告进行记录或者标记是识别广告属性,并按此获取相应的广告进行投放的重要步骤。
广告的标签在广告的个性化投放中扮演着重要的角色,要想按照用户的兴趣爱好给用户进行相关广告的投放,首先要计算出广告与用户属性的相关性,根据该相关性判断用户对该广告的兴趣程度,而广告的标签又是进行广告与用户属性的相关性的特征,精准的广告标签能够用以准确地计算出广告与用户属性的相关性,进而通过计算得到的相关性准确地向用户投放其感兴趣的广告。
目前的广告标签标注都是采用在该领域专业的技术人员或者用户本身在广告上标注标签的形式,但是,采用人工的方式,通过相关的技术人员给广告标注标签,不仅会增加标注广告标签的成本、造成漏标注、错标注的问题,而且也不能从工程上实现标签的自动化标注,同时,也很难实现广告标签标注的量化,不能通过反应每个广告标注的标签得分比较出选中广告与用户兴趣相关度的高低,也就不能从用户兴趣广告中挑选出最合适向该用户投放的广告,在一定程度上降低了用户观看个性化广告的体验。
因此,提供一种能准确、自动化的广告标签标注方法是本领域亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种广告标签的标注方法及系统,解决了不能从工程上实现标签的自动化标注的问题。
为了解决上述技术问题,本发明提出一种广告标签的标注方法,该方法包括:
获取各个广告的标签信息,并结合所述广告的标签信息获取各个广告标签之间的相似度;
根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
在一可选实施例中,所述获取各个广告标签之间的相似度,包括:
通过点击各个广告的用户信息得到各个广告之间的行为相似度;
将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
在一可选实施例中,该方法利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
在一可选实施例中,所述根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图,包括:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
在一可选实施例中,将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,包括:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
在一可选实施例中,该方法还包括:当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
另一方面,为实现上述广告标签的标注的方法,本发明还提出了一种广告标签的标注系统,包括:获取模块、构建模块、合并模块及处理模块,其中,
所述获取模块,用于获取各个广告标签之间的相似度以及各个广告的标签信息;
所述构建模块,包括:第一构建单元及第二构建单元,其中,所述第一构建单元,用于根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
所述第二构建单元,用于根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
所述合并模块,用于将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
所述处理模块,用于将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
在一可选实施例中,所述获取模块包括:第一获取单元、第二获取单元及融合单元,其中,
所述第一获取单元,用于通过点击各个广告的用户信息得到各个广告之间的行为相似度;
所述第二获取单元,用于将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
所述融合单元,用于根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
在一可选实施例中,所述所述融合单元,用于:
利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
在一可选实施例中,所述第一构建单元,用于:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
在一可选实施例中,所述处理模块,用于:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
在一可选实施例中,所述处理模块,还用于:
当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
与现有技术相比,本发明所述的广告标签的标注方法及系统,实现了如下的有益效果:
(1)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,与现有技术的人工标签标注方式相比,不仅降低了广告标注标签的成本,还避免了漏标注及错标注的问题。
(2)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,可以实现广告标签的批量化标注工程化,同时,还能够基于用户兴趣标注未标注标签的广告,从一定程度上便于实现广告的个性化投放,从而提升了广告投放的效益。
当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明所述广告标签的标注方法的流程示意图;
图2为本发明广告标签的标注方法一个可选实施例的流程示意图示意图;
图3为本发明的广告标签的标注系统的一个可选实施例的流程示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
实施例1
如图1所示,为本发明的广告标签的标注方法的一个实施例的流程示意图。在本实施例中,通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注。本实施例中广告标签的标注方法包括以下步骤:
步骤101、获取各个广告的标签信息,并结合所述广告的标签信息获取各个广告标签之间的相似度。
在本实施例中,利用已经标注好标签的广告,将其标签标注到与其具有一定相关性且未标注该标签的广告上,如此就能充分利用已经标注标签的广告完善各个广告的标签。因此,首先要计算出各个广告之间的相似度,其中,该相似度也包含了相应广告描述信息之间的相关性,以便于后续构建各个广告之间的相似度矩阵,进而根据矩阵获取哪些标签适合未标注该标签的广告。
步骤102、根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图。
只要广告之间有相似度就有将有标签广告的标签转移标注在未标注该标签的广告上的可能性,通过各个广告之间相似度的加权结构图能够直观地反应出各个广告之间的相关程度,并通过该加权结构图还可以体现出广告标签从具有该标签的广告转移标注到未标注该标签的广告上的概率。
步骤103、根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵。
在步骤102中的加权结构图中,各个广告之间的相似度也体现了广告标签之间的相关程度,且上述的广告之间相似度同样结合了用户对该广告内容的观众评价,因此,通过该加权结构图计算获得的各个广告标签之间的转移概率能准确地反应出各个广告标签之间相关性的程度。而矩阵是一种便于数据计算统计的方式,使用矩阵能够快捷地对各个数据进行分析,同时通过矩阵之间的运算及转换也相应地体现出了各个广告标签之间的相关性。
步骤104、将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵。
在组合标签矩阵中包含了带有标注标签的广告与未标注标签的广告,利用矩阵可以直观地体现出各个标签广告与未标注标签广告之间的标签关系,再利用矩阵方便统计运算的特点与转移概率矩阵相结合即可以得出标签转移到未标注标签广告的真实情况,还可以利用上述特点对未标注标签的广告进行产量化标注。
步骤105、将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
基于上述的步骤,在组合标签矩阵中体现出了各个广告的标签标注情况,在所述概率转移矩阵中包含了各个标签被标注到各个未标注标签的广告上的概率,将这两个矩阵相结合就准确地反应出了在广告中带有的标签被标注到未标注该标签的广告上的可能性以及这些标签的信息情况,方便准确地找出这些标签并标注到未标注该标签的广告上。
在本实施例中,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,与现有技术的人工标签标注方式相比,不仅降低了广告标注标签的成本,还避免了漏标注及错标注的问题。
实施例2
如图2所示,为本发明实施例所述广告标签的标注方法的一个可选实施例。本实施例相对于实施例1所示实施例中的流程,可选地描述了进行标签矩阵构造及获取得分矩阵的过程。本实施例中所述方法包括以下步骤:
步骤201、通过点击各个广告的用户信息得到各个广告之间的行为相似度。
分别获取各个广告的用户集合,通过各个广告的用户集合计算获取广告之间的行为相似度,如下:
A、B分别是广告a和b的用户集合,分别代表了其用户点击量,则利用余弦距离来计算广告a和广告b的行为用户相似度为:
其中,A∩B表示对广告a和广告b都有点击的用户点击量。
步骤202、将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度。
在步骤201这种获取了广告之间的行为相似度,但是光凭行为相似度是不能完全体现出广告内容之间的相关性的,在本步骤中,先对各个广告的描述信息进行分词,并进行停用词过滤(去掉一些对广告内容描述没有意义的词,如:的、了、在等)后,通过所获得广告内容描述相关的分词找出广告之间描述信息的相似度,就更加具体地体现出了广告内容之间的相关性。可选地,本步骤采用加权技术计算得到每个分词的权重TFIDF,其中TFIDF的计算采用以下公式:
TFIDF=词频(TF)*逆文档频率(IDF);
词频(TF)=分词在文档中出现的次数/文档中的总词数;
逆文档频率=log[(文档总数/包含该分词的文档数)+1]。
将TFIDF作为分数将各个广告的描述信息表示成分词的向量V={分词1:TFIDF1;分词2:TFIDF2;...},设置没有该分词的TFIDF=0。
再通过计算各个广告描述信息向量的余弦值获取各个广告之间的描述信息相似度,如下:
广告1和广告2的描述信息向量分别为:V1和V2,则广告1和广告2的描述信息相似度为content_sim=(V1*V2)/(||V1||V2||)。
步骤203、根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
可选地,利用以下公式获取各个广告标签之间的相似度:sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
步骤204、根据各个广告标签之间的相似度及各个广告的标签信息构建各个广告之间相似度的加权结构图。
可选地,将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
步骤205、根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵。
其中,可选地,利用以下公式计算各个广告之间的转移概率:
对于广告节点i和广告节点j,将广告节点i的标签标注到广告节点j的概率为:
其中,W
ij表示i与j之间的边的权重值,n表示与广告节点i之间有边连接的广告节点的个数,k表示与广告节点i之间有边连接的广告节点的当前序号。
步骤206、将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵。
例如,存在T个标签,其中,L个广告已经被标注标签,U个广告未被标注标签,L+U=
N,定义L*T的矩阵M1,被标注了则为1,否则为0,同样我们定义U*T的矩阵M2,M2的每个元素
都为0,然后我们合并M1和M2,会得到一个N*T的矩阵
步骤207、将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵。
可选地,根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵,利用公式表示如下:
在本步骤中,根据F
m+1=PF
m;其中m起始为1,将每次获得到的F
m+1中的带标注广告
的矩阵内容复原为M1,即
直至获得收敛的F
m+1作为得分矩阵。
步骤208、将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
可选地,当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
在本实施例中,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,可以实现广告标签的批量化标注工程化,同时,还能够基于用户兴趣标注未标注标签的广告,从一定程度上便于实现广告的个性化投放,从而提升了广告投放的效益。
实施例3
本实施中以一个具体实例说明本发明的广告标签的标注方法。在本实施例中,广告库中一共有三支广告,分别记为ad1、ad2、ad3,其中ad1被标注了t1标签,ad2被标注了t2和t3的标签,ad3未被标注标签,现在需要给ad3标注标签,则标注步骤如下:
首先计算三支广告之间的行为相似度,其中,点击ad1的用户有{u1,u2,u3},点击
ad2的用户有{u2,u3,u4,u5},点击ad3的用户有{u2,u5,u6},则
然后计算三支广告之间的描述信息相似度,其中,对ad1进行分词、停用词过滤之后的分词为:word1、word2、word3;ad2进行分词、停用词过滤之后的分词为:word2、word2、word4;ad3进行分词、停用词过滤之后的分词为:word3、word4、word5。
对于ad1来说,word1的TF为1/3=0.33,IDF=log(3/1+1)=0.6,其权重为0.33*0.6=0.198;word2的TF为1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131;word3的IF=1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131。
对于ad2来说,word2的TF为2/3=0.67,IDF=log(3/2+1)=0.398,权重为0.67*0.398=0.267;word4的TF为1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131。
对于ad3来说,word3的TF为1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131;word4的TF为1/3=0.33,idf=log(3/2+1)=0.398,权重为0.33*0.398=0.131,word5的TF为1/3=0.33,IDF为log(3/1+1)=0.6,权重0.33*0.6=0.198。
所以ad1的词空间向量为{word1:0.198;word2:0.131;word3:0.131},ad2的词空间向量为{word2:0.267;word4:0.131},ad3的词空间向量为{word3:0.131;word4:0.131;word5:0.198},则
然后线性融合行为相似度与描述信息相似度,得到三支广告之间的相似度,如下:
sim(ad1,ad2)=0.6*0.58+(1-0.6)*0.43=0.52
sim(ad1,ad3)=0.6*0.33+(1-0.6)*0.23=0.29
sim(ad2,ad3)=0.6*0.58+(1-0.6)*0.21=0.43
接下来计算概率转移矩阵P,先计算各个广告的转移概率:
根据标注情况可得:
M2=[0 0 0]
然后合并M1和M2得到F矩阵,如下:
然后只需要按照实施例2中生成得分矩阵的过程,迭代计算F至收敛即可,最后得到得分F矩阵为:
则,预先设定的阈值为0.5,则需要给广告ad3标注的的标签为t2、t3,从而将t2和t3标签标注在广告ad3上。
实施例4
如图3所示,示出了发明中广告标签的标注系统的一个可选实施例,用于实现上述实施例中所述的方法,其技术方案本质上与上述实施例一致。上述附图所示实施例中相应的描述,同样适用于本实施例当中。
本实施例中,所述广告素材质量衡量的系统包括:获取模块301、构建模块302、合并模块303及处理模块304,其中,
所述获取模块301,用于获取各个广告标签之间的相似度以及各个广告的标签信息;
所述构建模块302,包括:第一构建单元321及第二构建单元322,其中,
所述第一构建单元321,用于根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
所述第二构建单元322,用于根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
所述合并模块303,用于将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
所述处理模块304,用于将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
作为一种可选的实施方式,所述获取模块301包括:第一获取单元311、第二获取单元312及融合单元313,其中,
所述第一获取单元311,用于通过点击各个广告的用户信息得到各个广告之间的行为相似度;
所述第二获取单元312,用于将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
所述融合单元313,用于根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
作为一种可选的实施方式,所述所述融合单元313,用于:
利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
作为一种可选的实施方式,所述第一构建单元321,用于:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
作为一种可选的实施方式,所述处理模块304,用于:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
作为一种可选的实施方式,所述处理模块304,还用于:
当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
在本实施例中,所述的广告标签的标注系统不仅降低了广告标注标签的成本,避免了漏标注及错标注的问题,还便于广告标签标注的产业化。
通过以上各个实施例可知,本发明所述的广告标签的标注方法及系统存在的有益效果是:
(1)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,与现有技术的人工标签标注方式相比,不仅降低了广告标注标签的成本,还避免了漏标注及错标注的问题。
(2)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,可以实现广告标签的批量化标注工程化,同时,还能够基于用户兴趣标注未标注标签的广告,从一定程度上便于实现广告的个性化投放,从而提升了广告投放的效益。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。