CN105809478B - 一种广告标签的标注方法及系统 - Google Patents

一种广告标签的标注方法及系统 Download PDF

Info

Publication number
CN105809478B
CN105809478B CN201610127181.3A CN201610127181A CN105809478B CN 105809478 B CN105809478 B CN 105809478B CN 201610127181 A CN201610127181 A CN 201610127181A CN 105809478 B CN105809478 B CN 105809478B
Authority
CN
China
Prior art keywords
advertisement
similarity
matrix
labels
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610127181.3A
Other languages
English (en)
Other versions
CN105809478A (zh
Inventor
袁树仑
章岑
杨田
周盛
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610127181.3A priority Critical patent/CN105809478B/zh
Publication of CN105809478A publication Critical patent/CN105809478A/zh
Application granted granted Critical
Publication of CN105809478B publication Critical patent/CN105809478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开一种广告标签的标注方法及系统,该方法包括:获取各个广告的标签信息,并结合所述广告的标签信息获取各个广告标签之间的相似度;根据各个广告标签之间的相似度及各个广告的标签信息构建各个广告之间相似度的加权结构图;根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。本发明降低了广告标注标签的成本。

Description

一种广告标签的标注方法及系统
技术领域
本发明涉及广告数据处理的技术领域,涉及一种对广告添加标签的方法及系统。
背景技术
随着互联网等技术的不断发展,商品的广告从原始的在商品包装、广告牌等实体的广告形式慢慢发展为媒体等虚拟的广告形式。而现今,在网络媒体上发布广告进行产品的展现已经成为商家的常用手段,通过网络媒体展示产品的方式能取得比较好的产品营销效果。再者,现在各种技术都追求智能化及自动化功能,更能满足用户在实际生活中的需求,提高了用户在实际中的实际体验。
现在的广告投放又提出基于用户兴趣进行推送投放的形式,根据用户的历史观看或点击数据,总结出用户的兴趣爱好或关注的领域,再向用户进行相关或相近内容的广告推荐,如此能够增加投放广告的用户点击率,从而增强商业宣传的营销效果,对于广告投放平台来讲也会增加广告投放的收益,这种广告的投放形式被称为广告的个性化投放。在广告的个性化投放过程中,使用广告标签给所投放的广告进行记录或者标记是识别广告属性,并按此获取相应的广告进行投放的重要步骤。
广告的标签在广告的个性化投放中扮演着重要的角色,要想按照用户的兴趣爱好给用户进行相关广告的投放,首先要计算出广告与用户属性的相关性,根据该相关性判断用户对该广告的兴趣程度,而广告的标签又是进行广告与用户属性的相关性的特征,精准的广告标签能够用以准确地计算出广告与用户属性的相关性,进而通过计算得到的相关性准确地向用户投放其感兴趣的广告。
目前的广告标签标注都是采用在该领域专业的技术人员或者用户本身在广告上标注标签的形式,但是,采用人工的方式,通过相关的技术人员给广告标注标签,不仅会增加标注广告标签的成本、造成漏标注、错标注的问题,而且也不能从工程上实现标签的自动化标注,同时,也很难实现广告标签标注的量化,不能通过反应每个广告标注的标签得分比较出选中广告与用户兴趣相关度的高低,也就不能从用户兴趣广告中挑选出最合适向该用户投放的广告,在一定程度上降低了用户观看个性化广告的体验。
因此,提供一种能准确、自动化的广告标签标注方法是本领域亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种广告标签的标注方法及系统,解决了不能从工程上实现标签的自动化标注的问题。
为了解决上述技术问题,本发明提出一种广告标签的标注方法,该方法包括:
获取各个广告的标签信息,并结合所述广告的标签信息获取各个广告标签之间的相似度;
根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
在一可选实施例中,所述获取各个广告标签之间的相似度,包括:
通过点击各个广告的用户信息得到各个广告之间的行为相似度;
将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
在一可选实施例中,该方法利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
在一可选实施例中,所述根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图,包括:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
在一可选实施例中,将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,包括:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
在一可选实施例中,该方法还包括:当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
另一方面,为实现上述广告标签的标注的方法,本发明还提出了一种广告标签的标注系统,包括:获取模块、构建模块、合并模块及处理模块,其中,
所述获取模块,用于获取各个广告标签之间的相似度以及各个广告的标签信息;
所述构建模块,包括:第一构建单元及第二构建单元,其中,所述第一构建单元,用于根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
所述第二构建单元,用于根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
所述合并模块,用于将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
所述处理模块,用于将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
在一可选实施例中,所述获取模块包括:第一获取单元、第二获取单元及融合单元,其中,
所述第一获取单元,用于通过点击各个广告的用户信息得到各个广告之间的行为相似度;
所述第二获取单元,用于将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
所述融合单元,用于根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
在一可选实施例中,所述所述融合单元,用于:
利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
在一可选实施例中,所述第一构建单元,用于:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
在一可选实施例中,所述处理模块,用于:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
在一可选实施例中,所述处理模块,还用于:
当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
与现有技术相比,本发明所述的广告标签的标注方法及系统,实现了如下的有益效果:
(1)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,与现有技术的人工标签标注方式相比,不仅降低了广告标注标签的成本,还避免了漏标注及错标注的问题。
(2)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,可以实现广告标签的批量化标注工程化,同时,还能够基于用户兴趣标注未标注标签的广告,从一定程度上便于实现广告的个性化投放,从而提升了广告投放的效益。
当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明所述广告标签的标注方法的流程示意图;
图2为本发明广告标签的标注方法一个可选实施例的流程示意图示意图;
图3为本发明的广告标签的标注系统的一个可选实施例的流程示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
实施例1
如图1所示,为本发明的广告标签的标注方法的一个实施例的流程示意图。在本实施例中,通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注。本实施例中广告标签的标注方法包括以下步骤:
步骤101、获取各个广告的标签信息,并结合所述广告的标签信息获取各个广告标签之间的相似度。
在本实施例中,利用已经标注好标签的广告,将其标签标注到与其具有一定相关性且未标注该标签的广告上,如此就能充分利用已经标注标签的广告完善各个广告的标签。因此,首先要计算出各个广告之间的相似度,其中,该相似度也包含了相应广告描述信息之间的相关性,以便于后续构建各个广告之间的相似度矩阵,进而根据矩阵获取哪些标签适合未标注该标签的广告。
步骤102、根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图。
只要广告之间有相似度就有将有标签广告的标签转移标注在未标注该标签的广告上的可能性,通过各个广告之间相似度的加权结构图能够直观地反应出各个广告之间的相关程度,并通过该加权结构图还可以体现出广告标签从具有该标签的广告转移标注到未标注该标签的广告上的概率。
步骤103、根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵。
在步骤102中的加权结构图中,各个广告之间的相似度也体现了广告标签之间的相关程度,且上述的广告之间相似度同样结合了用户对该广告内容的观众评价,因此,通过该加权结构图计算获得的各个广告标签之间的转移概率能准确地反应出各个广告标签之间相关性的程度。而矩阵是一种便于数据计算统计的方式,使用矩阵能够快捷地对各个数据进行分析,同时通过矩阵之间的运算及转换也相应地体现出了各个广告标签之间的相关性。
步骤104、将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵。
在组合标签矩阵中包含了带有标注标签的广告与未标注标签的广告,利用矩阵可以直观地体现出各个标签广告与未标注标签广告之间的标签关系,再利用矩阵方便统计运算的特点与转移概率矩阵相结合即可以得出标签转移到未标注标签广告的真实情况,还可以利用上述特点对未标注标签的广告进行产量化标注。
步骤105、将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
基于上述的步骤,在组合标签矩阵中体现出了各个广告的标签标注情况,在所述概率转移矩阵中包含了各个标签被标注到各个未标注标签的广告上的概率,将这两个矩阵相结合就准确地反应出了在广告中带有的标签被标注到未标注该标签的广告上的可能性以及这些标签的信息情况,方便准确地找出这些标签并标注到未标注该标签的广告上。
在本实施例中,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,与现有技术的人工标签标注方式相比,不仅降低了广告标注标签的成本,还避免了漏标注及错标注的问题。
实施例2
如图2所示,为本发明实施例所述广告标签的标注方法的一个可选实施例。本实施例相对于实施例1所示实施例中的流程,可选地描述了进行标签矩阵构造及获取得分矩阵的过程。本实施例中所述方法包括以下步骤:
步骤201、通过点击各个广告的用户信息得到各个广告之间的行为相似度。
分别获取各个广告的用户集合,通过各个广告的用户集合计算获取广告之间的行为相似度,如下:
A、B分别是广告a和b的用户集合,分别代表了其用户点击量,则利用余弦距离来计算广告a和广告b的行为用户相似度为:
Figure BDA0000935812030000091
其中,A∩B表示对广告a和广告b都有点击的用户点击量。
步骤202、将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度。
在步骤201这种获取了广告之间的行为相似度,但是光凭行为相似度是不能完全体现出广告内容之间的相关性的,在本步骤中,先对各个广告的描述信息进行分词,并进行停用词过滤(去掉一些对广告内容描述没有意义的词,如:的、了、在等)后,通过所获得广告内容描述相关的分词找出广告之间描述信息的相似度,就更加具体地体现出了广告内容之间的相关性。可选地,本步骤采用加权技术计算得到每个分词的权重TFIDF,其中TFIDF的计算采用以下公式:
TFIDF=词频(TF)*逆文档频率(IDF);
词频(TF)=分词在文档中出现的次数/文档中的总词数;
逆文档频率=log[(文档总数/包含该分词的文档数)+1]。
将TFIDF作为分数将各个广告的描述信息表示成分词的向量V={分词1:TFIDF1;分词2:TFIDF2;...},设置没有该分词的TFIDF=0。
再通过计算各个广告描述信息向量的余弦值获取各个广告之间的描述信息相似度,如下:
广告1和广告2的描述信息向量分别为:V1和V2,则广告1和广告2的描述信息相似度为content_sim=(V1*V2)/(||V1||V2||)。
步骤203、根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
可选地,利用以下公式获取各个广告标签之间的相似度:sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
步骤204、根据各个广告标签之间的相似度及各个广告的标签信息构建各个广告之间相似度的加权结构图。
可选地,将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
步骤205、根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵。
其中,可选地,利用以下公式计算各个广告之间的转移概率:
对于广告节点i和广告节点j,将广告节点i的标签标注到广告节点j的概率为:
Figure BDA0000935812030000101
其中,Wij表示i与j之间的边的权重值,n表示与广告节点i之间有边连接的广告节点的个数,k表示与广告节点i之间有边连接的广告节点的当前序号。
步骤206、将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵。
例如,存在T个标签,其中,L个广告已经被标注标签,U个广告未被标注标签,L+U= N,定义L*T的矩阵M1,被标注了则为1,否则为0,同样我们定义U*T的矩阵M2,M2的每个元素 都为0,然后我们合并M1和M2,会得到一个N*T的矩阵
步骤207、将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵。
可选地,根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵,利用公式表示如下:
在本步骤中,根据Fm+1=PFm;其中m起始为1,将每次获得到的Fm+1中的带标注广告 的矩阵内容复原为M1,即
Figure BDA0000935812030000112
直至获得收敛的Fm+1作为得分矩阵。
步骤208、将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
可选地,当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
在本实施例中,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,可以实现广告标签的批量化标注工程化,同时,还能够基于用户兴趣标注未标注标签的广告,从一定程度上便于实现广告的个性化投放,从而提升了广告投放的效益。
实施例3
本实施中以一个具体实例说明本发明的广告标签的标注方法。在本实施例中,广告库中一共有三支广告,分别记为ad1、ad2、ad3,其中ad1被标注了t1标签,ad2被标注了t2和t3的标签,ad3未被标注标签,现在需要给ad3标注标签,则标注步骤如下:
首先计算三支广告之间的行为相似度,其中,点击ad1的用户有{u1,u2,u3},点击 ad2的用户有{u2,u3,u4,u5},点击ad3的用户有{u2,u5,u6},则
Figure BDA0000935812030000121
Figure BDA0000935812030000122
Figure BDA0000935812030000123
然后计算三支广告之间的描述信息相似度,其中,对ad1进行分词、停用词过滤之后的分词为:word1、word2、word3;ad2进行分词、停用词过滤之后的分词为:word2、word2、word4;ad3进行分词、停用词过滤之后的分词为:word3、word4、word5。
对于ad1来说,word1的TF为1/3=0.33,IDF=log(3/1+1)=0.6,其权重为0.33*0.6=0.198;word2的TF为1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131;word3的IF=1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131。
对于ad2来说,word2的TF为2/3=0.67,IDF=log(3/2+1)=0.398,权重为0.67*0.398=0.267;word4的TF为1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131。
对于ad3来说,word3的TF为1/3=0.33,IDF=log(3/2+1)=0.398,权重为0.33*0.398=0.131;word4的TF为1/3=0.33,idf=log(3/2+1)=0.398,权重为0.33*0.398=0.131,word5的TF为1/3=0.33,IDF为log(3/1+1)=0.6,权重0.33*0.6=0.198。
所以ad1的词空间向量为{word1:0.198;word2:0.131;word3:0.131},ad2的词空间向量为{word2:0.267;word4:0.131},ad3的词空间向量为{word3:0.131;word4:0.131;word5:0.198},则
Figure BDA0000935812030000131
Figure BDA0000935812030000132
Figure BDA0000935812030000133
然后线性融合行为相似度与描述信息相似度,得到三支广告之间的相似度,如下:
sim(ad1,ad2)=0.6*0.58+(1-0.6)*0.43=0.52
sim(ad1,ad3)=0.6*0.33+(1-0.6)*0.23=0.29
sim(ad2,ad3)=0.6*0.58+(1-0.6)*0.21=0.43
接下来计算概率转移矩阵P,先计算各个广告的转移概率:
Figure BDA0000935812030000135
Figure BDA0000935812030000136
即,
Figure BDA0000935812030000137
根据标注情况可得:
Figure BDA0000935812030000138
M2=[0 0 0]
然后合并M1和M2得到F矩阵,如下:
Figure BDA0000935812030000139
然后只需要按照实施例2中生成得分矩阵的过程,迭代计算F至收敛即可,最后得到得分F矩阵为:
Figure BDA0000935812030000141
则,预先设定的阈值为0.5,则需要给广告ad3标注的的标签为t2、t3,从而将t2和t3标签标注在广告ad3上。
实施例4
如图3所示,示出了发明中广告标签的标注系统的一个可选实施例,用于实现上述实施例中所述的方法,其技术方案本质上与上述实施例一致。上述附图所示实施例中相应的描述,同样适用于本实施例当中。
本实施例中,所述广告素材质量衡量的系统包括:获取模块301、构建模块302、合并模块303及处理模块304,其中,
所述获取模块301,用于获取各个广告标签之间的相似度以及各个广告的标签信息;
所述构建模块302,包括:第一构建单元321及第二构建单元322,其中,
所述第一构建单元321,用于根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
所述第二构建单元322,用于根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
所述合并模块303,用于将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
所述处理模块304,用于将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上。
作为一种可选的实施方式,所述获取模块301包括:第一获取单元311、第二获取单元312及融合单元313,其中,
所述第一获取单元311,用于通过点击各个广告的用户信息得到各个广告之间的行为相似度;
所述第二获取单元312,用于将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
所述融合单元313,用于根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
作为一种可选的实施方式,所述所述融合单元313,用于:
利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
作为一种可选的实施方式,所述第一构建单元321,用于:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
作为一种可选的实施方式,所述处理模块304,用于:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
作为一种可选的实施方式,所述处理模块304,还用于:
当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
在本实施例中,所述的广告标签的标注系统不仅降低了广告标注标签的成本,避免了漏标注及错标注的问题,还便于广告标签标注的产业化。
通过以上各个实施例可知,本发明所述的广告标签的标注方法及系统存在的有益效果是:
(1)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,与现有技术的人工标签标注方式相比,不仅降低了广告标注标签的成本,还避免了漏标注及错标注的问题。
(2)本发明所述的广告标签的标注方法及系统通过计算各个广告的相似度并构建概率转移矩阵,通过概率转移矩阵从已标注有标签的广告中挑选出未标注标签广告上需要标注的标签并实现自动化标注,可以实现广告标签的批量化标注工程化,同时,还能够基于用户兴趣标注未标注标签的广告,从一定程度上便于实现广告的个性化投放,从而提升了广告投放的效益。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (10)

1.一种广告标签的标注方法,其特征在于,包括:
获取各个广告的标签信息,并结合所述广告的标签信息获取各个广告标签之间的相似度;
根据各个广告标签之间的相似度及各个广告的标签信息构建各个广告之间相似度的加权结构图;
根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上;
其中,所述将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,包括:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
2.根据权利要求1所述的广告标签的标注方法,其特征在于,所述获取各个广告标签之间的相似度,包括:
通过点击各个广告的用户信息得到各个广告之间的行为相似度;
将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
3.根据权利要求2所述的广告标签的标注方法,其特征在于,利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
4.根据权利要求1所述的广告标签的标注方法,其特征在于,所述根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图,包括:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
5.根据权利要求1所述的广告标签的标注方法,其特征在于,当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
6.一种广告标签的标注系统,其特征在于,包括:获取模块、构建模块、合并模块及处理模块,其中,
所述获取模块,用于获取各个广告标签之间的相似度以及各个广告的标签信息;
所述构建模块,包括:第一构建单元及第二构建单元,其中,所述第一构建单元,用于根据各个广告标签之间的相似度构建各个广告之间相似度的加权结构图;
所述第二构建单元,用于根据所述加权结构图得到各个广告标签之间的转移概率,并构建各个广告标签之间的概率转移矩阵;
所述合并模块,用于将标注有标签的广告与未标注标签的广告分别构建标签矩阵,并合并生成组合标签矩阵;
所述处理模块,用于将所述组合标签矩阵与所述概率转移矩阵相结合生成得分矩阵,将得分矩阵中的得分与预先设定的阈值进行比较,并将得分满足所述阈值的广告标签标注到未标注标签的广告上;
所述处理模块,还用于:
根据所述组合标签矩阵与所述概率转移矩阵乘积生成新的组合矩阵,重复将所述新的组合矩阵中标注有标签的广告矩阵复原再与所述概率转移矩阵相乘直至收敛得到所述得分矩阵。
7.根据权利要求6所述的广告标签的标注系统,其特征在于,所述获取模块包括:第一获取单元、第二获取单元及融合单元,其中,
所述第一获取单元,用于通过点击各个广告的用户信息得到各个广告之间的行为相似度;
所述第二获取单元,用于将各个广告的描述信息进行分词,再利用加权算法得到各个广告之间的描述信息相似度;
所述融合单元,用于根据各个广告之间的行为相似度及描述信息相似度进行线性加权融合,获取各个广告标签之间的相似度。
8.根据权利要求7所述的广告标签的标注系统,其特征在于,所述融合单元,用于:利用以下公式获取各个广告标签之间的相似度:
sim=α*behavior_sim+(1-α)*content_sim,其中,sim表示各个广告标签之间的相似度;behavior_sim表示行为相似度;content_sim表示描述信息相似度;α表示权重值,其范围为0≤α≤1。
9.根据权利要求6所述的广告标签的标注系统,其特征在于,所述第一构建单元,用于:
将各个广告标签作为节点、各个广告标签之间的相似度作为权重边构建各个广告之间相似度的加权结构图。
10.根据权利要求6所述的广告标签的标注系统,其特征在于,所述处理模块,还用于:当得分矩阵中所有的得分都不满足所述预先设定的阈值时,根据该得分矩阵中相应未标注标签广告的描述信息设置标签。
CN201610127181.3A 2016-03-07 2016-03-07 一种广告标签的标注方法及系统 Active CN105809478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610127181.3A CN105809478B (zh) 2016-03-07 2016-03-07 一种广告标签的标注方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610127181.3A CN105809478B (zh) 2016-03-07 2016-03-07 一种广告标签的标注方法及系统

Publications (2)

Publication Number Publication Date
CN105809478A CN105809478A (zh) 2016-07-27
CN105809478B true CN105809478B (zh) 2020-02-18

Family

ID=56466735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610127181.3A Active CN105809478B (zh) 2016-03-07 2016-03-07 一种广告标签的标注方法及系统

Country Status (1)

Country Link
CN (1) CN105809478B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980989B (zh) * 2016-12-29 2021-01-19 中国银联股份有限公司 基于用户行为特性分析的商户推荐方法
CN108399551A (zh) * 2017-02-08 2018-08-14 阿里巴巴集团控股有限公司 一种确定用户标签和推送信息的方法及系统
CN110209829B (zh) * 2018-02-12 2021-06-29 百度在线网络技术(北京)有限公司 信息处理方法和装置
CN108876470B (zh) * 2018-06-29 2022-03-01 腾讯科技(深圳)有限公司 标签用户扩展方法、计算机设备及存储介质
CN110751161B (zh) * 2018-07-23 2023-08-22 阿里巴巴(中国)有限公司 基于Spark的节点相似度计算方法、装置及终端
CN110782286B (zh) * 2019-10-25 2023-08-18 上海喜马拉雅科技有限公司 广告推送方法、装置、服务器及计算机可读存储介质
CN111488488A (zh) * 2020-04-10 2020-08-04 杭州趣维科技有限公司 一种基于图挖掘的用户兴趣探测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156721A (zh) * 2011-03-29 2011-08-17 张栋 基于标签的互联网视频广告精准投放方法
CN102508859A (zh) * 2011-09-29 2012-06-20 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN103049479A (zh) * 2012-11-26 2013-04-17 北京奇虎科技有限公司 一种在线视频标签生成方法和系统
CN103503463A (zh) * 2011-11-23 2014-01-08 华为技术有限公司 视频广告播放方法、设备和系统
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156721A (zh) * 2011-03-29 2011-08-17 张栋 基于标签的互联网视频广告精准投放方法
CN102508859A (zh) * 2011-09-29 2012-06-20 北京亿赞普网络技术有限公司 一种基于网页特征的广告分类方法及装置
CN103503463A (zh) * 2011-11-23 2014-01-08 华为技术有限公司 视频广告播放方法、设备和系统
CN103049479A (zh) * 2012-11-26 2013-04-17 北京奇虎科技有限公司 一种在线视频标签生成方法和系统
CN103631874A (zh) * 2013-11-07 2014-03-12 微梦创科网络科技(中国)有限公司 社交平台的ugc标签类别确定方法和装置

Also Published As

Publication number Publication date
CN105809478A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105809478B (zh) 一种广告标签的标注方法及系统
CN106982256B (zh) 信息推送方法、装置、设备及存储介质
CN112418932B (zh) 一种基于用户标签的营销信息推送方法及装置
US20110119208A1 (en) Method and system for developing a classification tool
CN110852793A (zh) 文案推荐方法及装置、电子设备
WO2010005801A2 (en) Prediction of a degree of relevance between query rewrites and a search query
CN110674620A (zh) 目标文案生成方法、装置、介质及电子设备
CN112288042A (zh) 行为预测系统的更新方法及装置、存储介质和计算设备
CN112507153A (zh) 用于图像检索的方法、计算设备和计算机存储介质
CN112819528A (zh) 人群包的上线方法、装置及电子设备
CN113761348A (zh) 一种信息推荐方法、装置、电子设备和存储介质
CN115147130A (zh) 问题预测方法、设备、存储介质及程序产品
US20230316106A1 (en) Method and apparatus for training content recommendation model, device, and storage medium
CN110827063A (zh) 一种多策略融合的商品推荐方法、装置、终端及存储介质
CN111475664A (zh) 对象展示方法、装置及电子设备
CN108241699B (zh) 用于推送信息的方法和装置
CN111859156B (zh) 发布人群的确定方法、装置、可读存储介质及电子设备
CN115098766A (zh) 一种电子招投标交易平台招投标信息推荐方法及系统
CN115344774A (zh) 用户账号的筛选方法、装置及服务器
CN113327145A (zh) 一种物品推荐方法和装置
CA3062986A1 (en) Information pushing method and device based on search content
CN113450172A (zh) 一种商品推荐方法和装置
CN112818082A (zh) 评价文本推送方法和装置
CN113139115A (zh) 信息推荐方法、搜索方法、装置及客户端、介质及设备
Li et al. Factors Affecting User Clicks on Ads

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant before: 1Verge Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200508

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co., Ltd

TR01 Transfer of patent right