CN105825396B - 一种基于共现的广告标签聚类的方法及系统 - Google Patents

一种基于共现的广告标签聚类的方法及系统 Download PDF

Info

Publication number
CN105825396B
CN105825396B CN201610139776.0A CN201610139776A CN105825396B CN 105825396 B CN105825396 B CN 105825396B CN 201610139776 A CN201610139776 A CN 201610139776A CN 105825396 B CN105825396 B CN 105825396B
Authority
CN
China
Prior art keywords
tag
word
occurrence
label
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610139776.0A
Other languages
English (en)
Other versions
CN105825396A (zh
Inventor
袁树仑
章岑
杨田
周盛
潘柏宇
王冀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610139776.0A priority Critical patent/CN105825396B/zh
Publication of CN105825396A publication Critical patent/CN105825396A/zh
Application granted granted Critical
Publication of CN105825396B publication Critical patent/CN105825396B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于共现的广告标签聚类的方法及系统,该方法包括:获取用户标签信息及广告的标签信息;根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。本发明节约了广告标签聚类的数据计算、处理过程中的计算资源。

Description

一种基于共现的广告标签聚类的方法及系统
技术领域
本发明涉及广告数据处理的技术领域,涉及一种基于共现的广告标签聚类的方法及系统。
背景技术
随着互联网及大数据处理技术的不断发展,商品的广告从原始的在商品包装、广告牌等实体的广告形式慢慢发展为媒体等虚拟的广告形式。而现今,在网络媒体上发布广告进行产品的展现已经成为商家的常用手段,通过网络媒体展示产品的方式能取得比较好的产品营销效果。再者,现在各种技术都追求智能化及自动化功能,更能满足用户在实际生活中的需求,提高了用户在实际中的实际体验。
现在的广告投放又提出基于用户兴趣进行推送投放的形式,根据用户的历史观看或点击数据,总结出用户的兴趣爱好或关注的领域,再向用户进行相关或相近内容的广告推荐,如此能够增加投放广告的用户点击率,从而增强商业宣传的营销效果,对于广告投放平台来讲也会增加广告投放的收益,这种广告的投放形式被称为广告的个性化投放。在广告的个性化投放过程中,使用广告标签给所投放的广告进行记录或者标记是识别广告属性,并按此获取相应的广告进行投放的重要步骤。而在此过程中,按照广告的内容将广告进行聚类处理,将内容相关联或相近的广告归为同一簇方便体现出各个广告之间的相似性,也就方便了后续对用户进行兴趣广告推送投放。
由此可见,计算广告的相关性已成为基于用户兴趣进行推送投放的重要内容。对广告相关性的计算不光是看用户的点击观看行为,还需要结合广告本身内容,而广告标签作为反应广告本身内容的重要信息也逐渐成为了热门的研究课题。因为现在很多广告的标签都是由用户标注上的,不同的用户对同一个信息的描述不尽相同,但是会是相似的,在计算相关性时就需要将这些相似且描述同一信息的广告标签归为一簇,例如,标注“阿迪达斯”、“阿迪”、“adidas”、“adi”、“体育”、”球鞋”、“男士香水”等标签的广告,而这些与阿迪相关的几个标签其实描述的是同一个信息。
现有技术中,通常利用k-means算法(硬聚类算法)将广告标签归簇,k-means算法,是将数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则,K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量最优分类,使得评价指标最小。算法过程如下:(1)从N个文档随机选取K个文档作为质心;(2)对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类;(3)重新计算已经得到的各个类的质心;(4)迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。k-means算法具有:算法快速、简单;对大数据集有较高的效率并且是可伸缩性的;时间复杂度近于线性,而且适合挖掘大规模数据集的特点。
但是对于k-means算法,不仅需要提前指定聚类的个数,也就是K值;还需要反复迭代计算标签中每个词到K个中心点的距离,计算复杂度高,在广告标签数据较多时要耗费大量的计算资源。
因此,提供一种能准确、高效、简单的广告标签聚类的方法是本领域亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种基于共现的广告标签聚类的方法及系统,解决了现有技术中对广告标签聚类时需要指定聚类数以及需要复杂的计算程序的问题。
为了解决上述技术问题,本发明提出一种基于共现的广告标签聚类的方法,该方法包括:
获取用户标签信息及广告的标签信息;
根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;
根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;
根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;
判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。
在一可选实施例中,所述获取用户标签信息及广告的标签信息,包括:
所述用户标签信息包括:所述用户的兴趣标签词及其各个标签词得分;
所述广告的标签信息包括:所述广告的标签词及其各个标签词得分。
在一可选实施例中,该方法包括:利用公式score(user,ad)=∑user_tag_score*ad_tag_score计算出对应的用户标签信息与广告标签信息的相似度;
其中,score(user,ad)表示用户与广告的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_score表示各个广告的标签词得分。
在一可选实施例中,所述根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度,包括:
将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。
在一可选实施例中,所述判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词聚类到所述已有标签词簇中,包括:
判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,则将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
在一可选实施例中,该方法进一步包括:
判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限、和/或所述标签词共现语料对中标签词均未在所述已有标签词簇中时,根据所述标签词共现语料对新建一个标签词簇。
另一方面,为实现上述基于共现的广告标签聚类的方法,本发明还提出了一种基于共现的广告标签聚类的系统,包括:获取模块、第一计算模块、构建模块、第二计算模块及处理模块,其中,
所述获取模块,用于获取用户标签信息及广告的标签信息;
所述第一计算模块,用于根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;
所述构建模块,用于根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;
所述第二计算模块,用于根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;
所述处理模块,用于判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。
在一可选实施例中,所述获取模块,包括:第一获取单元及第二获取单元,其中,
所述第一获取单元,用于获取所述用户标签信息中的兴趣标签词及其各个标签词得分;
所述第二获取单元,用于获取所述所述广告标签信息中的标签词及其各个标签词得分。
在一可选实施例中,所述第一计算模块,用于:
利用公式score(user,ad)=∑user_tag_score*ad_tag_score计算出对应的用户标签信息与广告标签信息的相似度;
其中,score(user,ad)表示用户与广告的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_score表示各个广告的标签词得分。
在一可选实施例中,所述第二计算模块,用于:
将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。
在一可选实施例中,所述处理模块,包括:添加单元,其中,
所述添加单元,用于判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
在一可选实施例中,所述处理模块,还包括:新建单元,其中,
所述新建单元,用于判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限、和/或所述标签词共现语料对中标签词均未在所述已有标签词簇中时,根据所述标签词共现语料对新建一个标签词簇。
与现有技术相比,本发明所述的基于共现的广告标签聚类的方法及系统,实现了如下的有益效果:
(1)本发明所述的基于共现的广告标签聚类的方法及系统,不需要预先指定聚类的个数,利用用户和广告的标签信息基于共现的方法为各个标签词进行聚类并添加到相对应的各个标签词簇中,打破了现有k-means算法进行聚类的局限性,更有利于准确地进行标签数据的处理。
(2)本发明所述的基于共现的广告标签聚类的方法及系统,不需要反复迭代计算标签中每个词到K个中心点的距离,计算简洁,节约了广告标签数据计算、处理过程中的资源。
(3)本发明所述的基于共现的广告标签聚类的方法及系统,基于用户和广告的标签信息,根据各个标签词之间的相关性将标签词进行对应地聚类,还可以根据聚类的结果相对应地进行标签词簇的新建,操作起来更灵活,且更易于实现和控制。
当然,实施本发明的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明所述基于共现的广告标签聚类的方法的流程示意图;
图2为本发明基于共现的广告标签聚类的方法一个可选实施例的流程示意图示意图;
图3为本发明的基于共现的广告标签聚类的系统的一个可选实施例的流程示意图。
具体实施方式
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
实施例1
如图1所示,为本发明的基于共现的广告标签聚类的方法的一个实施例的流程示意图。在本实施例中,通过用户兴趣标签及广告标签的相关性将两者的标签词分别构建成标签词共现语料对,再根据各个共现语料对中标签词的置信度将标签词聚类到所述标签词簇中。本实施例中基于共现的广告标签聚类的方法包括以下步骤:
步骤101、获取用户标签信息及广告的标签信息。
在本实施例中,是基于共现的方法对标签进行自动化聚类,因此第一步就是要生成统计标签共现的语料,而生成标签共现的语料的语料都是来自用户的标签信息以及广告的标签信息,故本步骤其实是为标签共现的语料准备语料。
步骤102、根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度。
通过用户标签信息与广告标签信息的相似度计算,能够反应出用户标签信息与广告标签信息的相关性,据此能将用户的兴趣与现有广告联系起来,同时也作为提取标签词共现词语料对的基础,且为后续的标签词聚类到标签词簇中提供依据。
步骤103、根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对。
可选的,在本步骤中,首先将上述步骤中得到的相似度与预先设定好的阈值进行比较,满足该阈值说明该用户标签信息与广告标签信息之间的相关性较好,而在用户标签信息及广告标签信息中均包含了各自的标签词及各个标签词所对应的信息。根据该方法获取到的标签共现语料对也就具有很好的相关性,通过这样的标签词语料才能进行准确地聚类。
步骤104、根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度。
经过上述步骤获得的标签词共现语料对需要经过本步骤的置信度检验,从而保证各个标签词能够准确无误地聚类到相应地关联标签词簇中,如此才能更好地体现出标签词聚类的意义。
步骤105、判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。
通过本步骤,能够将上述步骤中获得的相关性准确的标签聚类到相关的标签词簇中,如此获得的标签词簇可以为广告的个性化推荐投放提供依据,还可以大大增加用户推荐广告结果的多样性,因为可以按照聚类的结果给每个用户的兴趣标签分成几个簇,那样用户兴趣标签的强弱在处理后所得到的结果中就更容易进行体现。
在本实施例中,不需要预先指定聚类的个数,利用用户和广告的标签信息基于共现的方法为各个标签词进行聚类并添加到相对应的各个标签词簇中,打破了现有k-means算法进行聚类的局限性,更有利于准确地进行标签数据的处理。
实施例2
如图2所示,为本发明实施例所述基于共现的广告标签聚类的方法的一个可选实施例。本实施例相对于实施例1所示实施例中的流程,可选地描述了构建成标签词共现语料对以及进行标签词聚类的过程。本实施例中所述方法包括以下步骤:
步骤201、获取用户标签信息中的兴趣标签词及其各个标签词得分,以及广告的标签信息的标签词及其各个标签词得分。
其中,在广告系统中预先就存储有用户标签信息中的兴趣标签词及其各个标签词得分以及广告的标签信息的标签词及其各个标签词得分信息。可选地,标签词的得分是根据用户的点击广告观看行为以及广告标签词的内容信息而获得的综合得分,在现有的实际广告数据处理中往往会预先进行存储的。
步骤202、根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度。
在本步骤中,可选地,利用公式score(user,ad)=∑user_tag_score*ad_tag_score计算出各个用户标签信息与广告标签信息的相似度;
其中,score(user,ad)表示用户标签信息与广告标签信息的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_score表示各个广告的标签词得分。
步骤203、根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对。
在本步骤中,所得相似度满足阈值的用户标签词及广告标签词即可组成一组共现语料,各个用户标签信息与各个广告标签分别进行相似度判断以及共现语料组的构建,再将挑选出满足阈值的各个共现语料组内的各个标签词构建成标签词语料对,进一步细化地描述出了各个标签词之间的相关性。
步骤204、根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度。
可选地,在本步骤中,将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。例如,对于标签词对<t2,t3>来说,t2和t3均表示标签词,语料中一共出现t2的次数为6,出现t2同时出现t3的次数为6次,出现t3的次数为9次,出现t3的同时出现t2的次数为6次,则该标签对的两个置信度得分分别为6/6=1和6/9=0.67。
可选地,在本步骤之前,还计算出每个标签共现语料对在所有标签共现语料对中出现的次数,也就是支持度。并将每个标签共现语料对的支持度与预先设定的支持度阈值比较,对满足该阈值的标签共现语料对进行后续的操作。
步骤205、判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类:
判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,则将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
步骤206、判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限、和/或所述标签词共现语料对中标签词均未在所述已有标签词簇中时,根据所述标签词共现语料对新建一个标签词簇。
可选地,在本步骤中,判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限,且所述标签词共现语料对中标签词至少有一个在所述已有标签词簇中时,则跳过步骤。重复上述的步骤直至所有的数据都被处理。
在本实施例中,不需要像k-means算法一样反复迭代计算标签中每个词到K个中心点的距离,计算简洁,节约了广告标签数据计算、处理过程中的资源。
实施例3
本实施中以一个具体实例说明本发明的基于共现的广告标签聚类的方法。在本实施例中,系统中一共有3个用户,分别记为u1,u2,u3,三个用户的标签词及得分分别为:u1:t1,0.9|t2,0.6|t3,0.2;u2:t2,0.8|t3,0.6|t4,0.4;u3:t4,0.7|t1,0.5|t3,0.3|t5,0.2。
系统一共有3支广告,分别记为ad1,ad2,ad3,三支广告的标签词分别为:ad1:t1,0.8|t3,0.6|t2,0.4;ad2:t2,0.9|t4,0.7|t3,0.5;ad3:t3,0.8|t4,0.6|t1,0.4|t2,0.2|t5,0.1。
分别计算这3个用户和三支广告的相关性,同时我们记下各自的共现语料。
Score(u1,ad1)=0.9*0.8+0.6*0.4+0.2*0.6=1.08,语料为:t1,t2,t3;
Score(u1,ad2)=0.6*0.9+0.2*0.5=0.64,语料为:t2,t3;
Score(u1,ad3)=0.9*0.4+0.6*0.2+0.2*0.8=0.64,语料为:t1,t2,t3;
Score(u2,ad1)=0.8*0.4+0.6*0.6=0.68,语料为:t2,t3;
Score(u2,ad2)=0.8*0.9+0.6*0.5+0.4*0.7=1.3,语料为:t2,t3,t4;
Score(u2,ad3)=0.8*0.2+0.6*0.8+0.4*0.6=0.88,语料为:t2,t3,t4;
Score(u3,ad1)=0.5*0.8+0.3*0.6=0.58,语料为:t1,t3;
Score(u3,ad2)=0.7*0.7+0.3*0.5=0.64,语料为:t3,t4;
Score(u3,ad3)=0.7*0.6+0.5*0.4+0.3*0.8+0.2*0.1=0.88,语料为:t1,t3,t4,t5;
然后根据共现语料计算标签的共现对,分别如下:
t1,t2,t3得到的共现对为<t1,t2><t2,t3><t1,t3>;
t2,t3得到的共现对为<t2,t3>;
t1,t2,t3得到的共现对为<t1,t2><t2,t3><t1,t3>;
t2,t3得到的共现对为<t2,t3>;
t2,t3,t4得到的共现对为<t2,t3><t3,t4><t2,t4>;
t2,t3,t4得到的共现对为<t2,t3><t3,t4><t2,t4>;
t1,t3得到的共现对为<t1,t3>;
t3,t4得到的共现对为<t3,t4>;
t1,t3,t4,t5得到的共现对为
<t1,t3><t1,t4><t3,t4><t4,t5><t1,t5><t3,t5>;
累计所有的标签词共现对,得到标签词共现对的支持度,并按照大小序排列,得到如下结果:
<t2,t3,6>
<t1,t3,4>
<t3,t4,4>
<t1,t2,2>
<t2,t4,2>
<t1,t4,1>
<t1,t5,1>
<t3,t5,1>
<t4,t5,1>
然后计算每个标签词共现对的置信度,对于<t2,t3>来说,语料中一共出现t2的次数为6,出现t2同时出现t3的次数为6次,出现t3的次数为9次,出现t3的同时出现t2的次数为6次,则该标签对的两个置信度分别为1和0.67,对于其它的标签词共现对,进行相同的处理,最后结果如下:
<t2,t3,6,1,0.67>
<t1,t3,4,1,0.44>
<t3,t4,4,0.44,1>
<t1,t2,2,0.5,0.33>
<t2,t4,2,0.33,0.4>
<t1,t4,1,0.25,0.25>
<t1,t5,1,0.25,1>
<t3,t5,1,0.11,1>
<t4,t5,1,0.25,1>
上面的所有支持度置信度都满足预先设定的阈值,而每个簇最大的标签个数上限为3,然后从上至下链式遍历,遇到<t2,t3>时,因为满足阈值,并入当前的簇{t2,t3},遇到<t1,t3>时,因为t3在当前簇中,且满足阈值,因此将t1并入当前簇中{t2,t3,t1};当前簇满足阈值,则输出当前簇<t2,t3,t1>,继续遍历<t3,t4>,因为t3已经归并到上一个簇中,因此跳过当前的共现对,继续遍历<t1,t2><t2,t4><t1,t4><t1,t5><t3,t5>同样做跳过处理,遍历到<t4,t5>时,将t4,t5归入当前簇{t4,t5},遍历完毕,最后产生两个簇{t2,t3,t1}和{t4,t5}。
实施例4
如图3所示,示出了发明中基于共现的广告标签聚类的系统的一个可选实施例,用于实现上述实施例中所述的方法,其技术方案本质上与上述实施例一致。上述附图所示实施例中相应的描述,同样适用于本实施例当中。
本实施例中,所述广告素材质量衡量的系统包括:获取模块301、第一计算模块302、构建模块303、第二计算模块304及处理模块305,其中,
所述获取模块301用于获取用户标签信息及广告的标签信息;
所述第一计算模块302用于根据所述用户标签信息及广告的标签信息计算出对应的用户标签信息与广告标签信息的相似度;
所述构建模块303用于根据所述相似度获取所述用户与所述广告标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;
所述第二计算模块304用于根据标签词在语料中出现的次数计算出各个共现语料对中标签词的置信度;
所述处理模块305用于判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。
作为一种可选的实施方式,所述获取模块301包括:第一获取单元311及第二获取单元312,其中,
所述第一获取单元311用于获取所述用户标签信息中的兴趣标签词及其各个标签词得分;
所述第二获取单元312用于获取所述所述广告标签信息中的标签词及其各个标签词得分。
作为一种可选的实施方式,第一计算模块302用于:
利用公式score(user,ad)=∑user_tag_score*ad_tag_score计算出对应的用户标签信息与广告标签信息的相似度;
其中,score(user,ad)表示用户与广告的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_score表示各个广告的标签词得分。
作为一种可选的实施方式,所述第二计算模块304用于将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。
作为一种可选的实施方式,所述处理模块305包括:添加单元351,所述添加单元351用于判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
作为一种可选的实施方式,所述处理模块305还包括:新建单元352,该新建单元352用于判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限、和/或所述标签词共现语料对中标签词均未在所述已有标签词簇中时,根据所述标签词共现语料对新建一个标签词簇。
在本实施例中,该基于共现的广告标签聚类的系统基于用户和广告的标签信息,根据各个标签词之间的相关性将标签词进行对应地聚类,根据聚类的结果相对应地进行标签词簇的新建,操作起来更灵活,且更易于实现和控制。
通过以上各个实施例可知,本发明所述的基于共现的广告标签聚类的方法及系统存在的有益效果是:
(1)本发明所述的基于共现的广告标签聚类的方法及系统,不需要预先指定聚类的个数,利用用户和广告的标签信息基于共现的方法为各个标签词进行聚类并添加到相对应的各个标签词簇中,打破了现有k-means算法进行聚类的局限性,更有利于准确地进行标签数据的处理。
(2)本发明所述的基于共现的广告标签聚类的方法及系统,不需要反复迭代计算标签中每个词到K个中心点的距离,计算简洁,节约了广告标签数据计算、处理过程中的资源。
(3)本发明所述的基于共现的广告标签聚类的方法及系统,基于用户和广告的标签信息,根据各个标签词之间的相关性将标签词进行对应地聚类,还可以根据聚类的结果相对应地进行标签词簇的新建,操作起来更灵活,且更易于实现和控制。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本发明的若干可选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种基于共现的广告标签聚类的方法,其特征在于,包括:
获取用户标签信息及广告的标签信息;
根据所述用户标签信息包括的所述用户的兴趣标签词及其各个标签词得分及广告的标签信息包括的所述广告的标签词及其各个标签词得分,计算出对应的用户标签信息与广告标签信息的相似度;
根据所述相似度获取所述用户与所述广告的标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;
根据标签词在语料中出现的次数与同时出现该标签词与另一标签词次数,计算出各个共现语料对中标签词的置信度;
判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。
2.根据权利要求1所述的基于共现的广告标签聚类的方法,其特征在于,利用公式score(user,ad)=Σuser_tag_score*ad_tag_score计算出对应的用户标签信息与广告标签信息的相似度;
其中,score(user,ad)表示用户标签信息与广告标签信息的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_score表示各个广告的标签词得分。
3.根据权利要求1所述的基于共现的广告标签聚类的方法,其特征在于,所述根据标签词在语料中出现的次数与同时出现该标签词与另一标签词次数,计算出各个共现语料对中标签词的置信度,包括:
将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。
4.根据权利要求1-3任意一项所述的基于共现的广告标签聚类的方法,其特征在于,所述判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词聚类到所述已有标签词簇中,包括:
判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,则将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
5.根据权利要求1-3任意一项所述的基于共现的广告标签聚类的方法,其特征在于,进一步包括:
判断到所述置信度满足预先设定阈值、所述已有标签词簇的数量达到上限、和/或所述标签词共现语料对中标签词均未在所述已有标签词簇中时,根据所述标签词共现语料对新建一个标签词簇。
6.一种基于共现的广告标签聚类的系统,其特征在于,包括:获取模块、第一计算模块、
构建模块、第二计算模块及处理模块,其中,
所述获取模块,用于获取用户标签信息及广告的标签信息;
所述第一计算模块,用于根据所述用户标签信息包括的所述用户的兴趣标签词及其各个标签词得分及广告的标签信息包括的所述广告的标签词及其各个标签词得分,计算出对应的用户标签信息与广告标签信息的相似度;
所述构建模块,用于根据所述相似度获取所述用户与所述广告标签词共现语料,并将所获取的各个标签词共现语料构建成标签词共现语料对;
所述第二计算模块,用于根据标签词在语料中出现的次数与同时出现该标签词与另一标签词次数,计算出各个共现语料对中标签词的置信度;
所述处理模块,用于判断到所述置信度满足预先设定阈值时,结合已有标签词簇信息将所述标签词共现语料对中的标签词进行标签词簇的聚类。
7.根据权利要求6所述的基于共现的广告标签聚类的系统,其特征在于,所述第一计算模块,用于:
利用公式score(user,ad)=Σuser_tag_score*ad_tag_score计算出对应的用户标签信息与广告标签信息的相似度;
其中,score(user,ad)表示用户与广告的相似度;user_tag_score表示各个用户兴趣标签词的得分;ad_tag_score表示各个广告的标签词得分。
8.根据权利要求6所述的基于共现的广告标签聚类的系统,其特征在于,所述第二计算模块,用于:
将各个标签词在所述共现语料中出现的次数与同时出现该标签词与另一标签词次数的比值作为这个共现语料对中标签词的置信度。
9.根据权利要求6-8任意一项所述的基于共现的广告标签聚类的系统,其特征在于,所述处理模块,包括:添加单元,其中,
所述添加单元,用于判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
10.根据权利要求6-8任意一项所述的基于共现的广告标签聚类的系统,其特征在于,所述处理模块,包括:添加单元,其中,
所述添加单元,用于判断到所述置信度满足预先设定阈值、所述标签词共现语料对中的一个标签词位于所述已有标签词簇中且所述已有标签词簇的数量未达到上限时,将所述标签词共现语料对中的另一个标签词添加到所述已有标签词簇中。
CN201610139776.0A 2016-03-11 2016-03-11 一种基于共现的广告标签聚类的方法及系统 Active CN105825396B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610139776.0A CN105825396B (zh) 2016-03-11 2016-03-11 一种基于共现的广告标签聚类的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610139776.0A CN105825396B (zh) 2016-03-11 2016-03-11 一种基于共现的广告标签聚类的方法及系统

Publications (2)

Publication Number Publication Date
CN105825396A CN105825396A (zh) 2016-08-03
CN105825396B true CN105825396B (zh) 2020-02-14

Family

ID=56988039

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610139776.0A Active CN105825396B (zh) 2016-03-11 2016-03-11 一种基于共现的广告标签聚类的方法及系统

Country Status (1)

Country Link
CN (1) CN105825396B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110033A (zh) * 2018-01-29 2019-08-09 清华大学 信息提取方法、装置、计算机设备和存储介质
CN108446330B (zh) * 2018-02-13 2022-05-13 北京明略昭辉科技有限公司 一种推广对象处理方法、装置及一种计算机可读存储介质
CN108874868A (zh) * 2018-04-24 2018-11-23 北京邮电大学 一种隐式标签同现的预测方法及装置
CN111694951B (zh) * 2019-03-15 2023-08-01 百度在线网络技术(北京)有限公司 兴趣主题生成方法、装置、设备及存储介质
CN110348907B (zh) * 2019-07-12 2024-05-28 深圳市腾讯计算机系统有限公司 一种广告人群的定向方法及装置
CN112184323A (zh) * 2020-10-13 2021-01-05 上海风秩科技有限公司 评价标签生成方法和装置、存储介质及电子设备
CN113554475B (zh) * 2021-09-17 2021-12-21 网易传媒科技(北京)有限公司 多媒体信息处理方法、介质、装置和计算设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN104216993A (zh) * 2014-09-10 2014-12-17 武汉科技大学 一种标签共现的标签聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762285B2 (en) * 2008-01-06 2014-06-24 Yahoo! Inc. System and method for message clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102129470A (zh) * 2011-03-28 2011-07-20 中国科学技术大学 标签聚类方法和系统
CN104077295A (zh) * 2013-03-27 2014-10-01 百度在线网络技术(北京)有限公司 一种数据标签的挖掘方法及系统
CN104216993A (zh) * 2014-09-10 2014-12-17 武汉科技大学 一种标签共现的标签聚类方法

Also Published As

Publication number Publication date
CN105825396A (zh) 2016-08-03

Similar Documents

Publication Publication Date Title
CN105825396B (zh) 一种基于共现的广告标签聚类的方法及系统
Kumar et al. Sentiment analysis of multimodal twitter data
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
US9830404B2 (en) Analyzing language dependency structures
CN110325986B (zh) 文章处理方法、装置、服务器及存储介质
TWI631474B (zh) Method and device for product identification label and method for product navigation
CN106294500B (zh) 内容项目的推送方法、装置及系统
JP6261547B2 (ja) 判定装置、判定方法及び判定プログラム
CN105512331A (zh) 一种视频推荐方法及装置
CN109716327A (zh) 视觉搜索平台的视频摄取框架
CN109460519B (zh) 浏览对象推荐方法及装置、存储介质、服务器
Raychev et al. Language-independent sentiment analysis using subjectivity and positional information
CN113570413B (zh) 广告关键词的生成方法、装置、存储介质及电子设备
US8793201B1 (en) System and method for seeding rule-based machine learning models
CN112991017A (zh) 基于用户评论解析的标签体系精准推荐方法
JP6731826B2 (ja) 抽出装置、抽出方法、及び抽出プログラム
JP2011107826A (ja) 行動情報抽出システム及び抽出方法
JP2017201535A (ja) 判定装置、学習装置、判定方法及び判定プログラム
CN116882414B (zh) 基于大规模语言模型的评语自动生成方法及相关装置
CN113298145A (zh) 标签填充方法及装置
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
Kae et al. Categorization of display ads using image and landing page features
CN113763072A (zh) 用于分析信息的方法和装置
Wang et al. Interactive ads recommendation with contextual search on product topic space
KR102299618B1 (ko) 리뷰 광고 매칭 장치 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant after: Youku network technology (Beijing) Co., Ltd.

Address before: 100080 A 5 C, block A, China International Steel Plaza, 8 Haidian Avenue, Haidian District, Beijing.

Applicant before: 1Verge Inc.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200513

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Patentee before: Youku network technology (Beijing) Co., Ltd