CN113127766B - 广告兴趣词的获取方法、装置、存储介质和处理器 - Google Patents

广告兴趣词的获取方法、装置、存储介质和处理器 Download PDF

Info

Publication number
CN113127766B
CN113127766B CN201911425480.5A CN201911425480A CN113127766B CN 113127766 B CN113127766 B CN 113127766B CN 201911425480 A CN201911425480 A CN 201911425480A CN 113127766 B CN113127766 B CN 113127766B
Authority
CN
China
Prior art keywords
page
advertisement
sample page
sample
dimensional vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911425480.5A
Other languages
English (en)
Other versions
CN113127766A (zh
Inventor
马伟良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Flybook Digital Technology Shanghai Co ltd
Original Assignee
Flybook Digital Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Flybook Digital Technology Shanghai Co ltd filed Critical Flybook Digital Technology Shanghai Co ltd
Priority to CN201911425480.5A priority Critical patent/CN113127766B/zh
Publication of CN113127766A publication Critical patent/CN113127766A/zh
Application granted granted Critical
Publication of CN113127766B publication Critical patent/CN113127766B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种广告兴趣词的获取方法、装置、存储介质和处理器。该广告兴趣词的获取方法包括:获取广告页面,将广告页面与样本页面进行比较,得到比较结果,在比较结果在第一预定范围内的情况下,确定对应的至少一个样本页面为预定样本页面,从预定样本页面中筛选出广告兴趣词。这样的方式就可以通过将广告页面与样本页面进行比较,得到比较结果,进而根据比较结果的大小确定样本页面为预定样本页面,预定样本页面为与广告页面内容相近或相似的页面,进而将预定样本页面中的广告兴趣词筛选出来,进而实现广告的精准推荐。

Description

广告兴趣词的获取方法、装置、存储介质和处理器
技术领域
本申请涉及数据挖掘领域,具体而言,涉及一种广告兴趣词的获取方法、装置、存储介质和处理器。
背景技术
智能推荐技术在电商领域、新闻领域广泛应用,譬如用户在上购物网站,网站会根据用户历史购买行为、浏览行为,给用户推荐相似的商品,让用户轻松找到他们中意的商品。用户在阅读新闻时,新闻网站总能“知道”用户感兴趣的新闻,让用户看一篇接一篇用户感兴趣的新闻。
在电商和新闻领域,使用到的方法有商品协同过滤(Item collaborativefiltering)和用户协同过滤(User collaborative filtering)。简单来说,一个商品有很多属性,譬如它的分类、价格等,当用户点击了一个商品时,把与这个商品分类一样,价格相近的商品推荐给他。用户在新闻网站浏览时会留下浏览的痕迹,新闻网站给用户打上标签,譬如科技、时尚等。找到打了相似标签的用户,这些相似用户阅读了什么新闻,就把相似用户阅读的新闻推荐给正在阅读的用户。
在广告投放时,需要通过兴趣词使广告投放更加精准,广告兴趣词就是广告媒体对客户打的兴趣标签,譬如奶粉广告可以投放给带有“母婴”标签的客户上,但如果投放在“单身”标签的客户上就非常不精准了,兴趣词选的好,提升广告转化率,节约广告成本,所以对广告兴趣词的精准推荐非常重要。现有的用户协同过滤、商品协同过滤并不适用广告投放这个领域。
在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解,因此,背景技术中可能包含某些信息,这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。
发明内容
本申请的主要目的在于提供一种广告兴趣词的获取方法、装置、存储介质和处理器,以解决现有技术中缺乏广告的精准推荐的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种广告兴趣词的获取方法,该获取方法包括:获取广告页面,将所述广告页面与样本页面进行比较,得到比较结果,在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,从所述预定样本页面中筛选出广告兴趣词。
进一步地,所述广告页面与样本页面进行比较,得到比较结果,包括:将所述样本页面中的各词转化为第一一维向量,将所述广告页面中的各词转化为第二一维向量,计算所述第一一维向量和所述第二一维向量之间的第一距离。
进一步地,在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,包括:在所述第一距离在第二预定范围内的情况下,确定对应的所述样本页面为所述预定样本页面。
进一步地,将所述广告页面与样本页面进行比较,得到比较结果,包括:将所述样本页面中的各词转化为第一一维向量,将所述广告页面中的各词转化为第二一维向量,将相邻的多个所述第一一维向量组成第一一维向量数组,将相邻的多个所述第二一维向量组成第二一维向量数组,计算所述第一一维向量数组和所述第二一维向量数组之间的第二距离。
进一步地,在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,包括:在所述第二距离在第三预定范围内的情况下,确定对应的所述样本页面为所述预定样本页面。
进一步地,采用自然语言处理算法将所述样本页面中的词转化为第一一维向量,采用自然语言处理算法将所述广告页面中的词转化为第二一维向量。
进一步地,所述第一距离为杰卡德距离。
进一步地,所述第二距离为杰卡德距离。
进一步地,从所述预定样本页面中筛选出广告兴趣词,包括:采用协同过滤算法筛选出所述广告兴趣词。
进一步地,在多个所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,包括:比较多个所述比较结果,确定多个所述比较结果中最小的值对应的所述样本页面为所述预定样本页面。
进一步地,从所述预定样本页面中筛选出广告兴趣词之后,所述获取方法还包括:将所述广告兴趣词发送至对应的广告主,所述广告主根据所述广告兴趣词向用户推送广告。
根据本申请的另一方面,提供了一种广告兴趣词的获取装置,获取装置包括:获取单元,用于获取广告页面,比较单元,用于将所述广告页面与样本页面进行比较,得到比较结果,确定单元,用于在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,筛选单元,用于从所述预定样本页面中筛选出广告兴趣词。
根据本申请的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行中任意一种所述的获取方法。
根据本申请的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行中任意一种所述的获取方法。
应用本申请的技术方案,上述方法中,首先,获取广告页面,其次,将所述广告页面与样本页面进行比较,得到比较结果,之后,在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,最后,从所述预定样本页面中筛选出广告兴趣词。这样的方式就可以通过将广告页面与样本页面进行比较,得到比较结果,进而根据比较结果的大小确定样本页面为预定样本页面,预定样本页面为与广告页面内容相近或相似的页面,进而将预定样本页面中的广告兴趣词筛选出来,进而实现广告的精准推荐。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了根据本申请的实施例的一种广告兴趣词的获取方法流程示意图;
图2示出了根据本申请的实施例的一种广告兴趣词的获取装置结构示意图;以及
图3示出了根据本申请的实施例的一种杰卡德距离的统计量分布示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应该理解的是,当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时,该元件可直接在该另一元件上,或者也可存在中间元件。而且,在说明书以及权利要求书中,当描述有元件“连接”至另一元件时,该元件可“直接连接”至该另一元件,或者通过第三元件“连接”至该另一元件。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
广告兴趣词:就是广告媒体对客户打的兴趣标签,譬如奶粉广告可以投放给带有“母婴”标签的客户上,但如果投放在“单身”标签的客户上就非常不精准了。
正如背景技术中所说的,现有技术中的广告投放的广告兴趣词推荐并不准确,为了解决上述的技术问题,提供了一种广告兴趣词的获取方法、装置、存储介质和处理器。
根据本申请的实施例,提供了一种广告兴趣词的获取方法。图1是根据本申请实施例的广告兴趣词的获取方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,获取广告页面;
步骤S102,将上述广告页面与样本页面进行比较,得到比较结果;
步骤S103,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面;
步骤S104,从上述预定样本页面中筛选出广告兴趣词。
上述方法中,首先,获取广告页面,其次,将上述广告页面与样本页面进行比较,得到比较结果,之后,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,最后,从上述预定样本页面中筛选出广告兴趣词。这样的方式就可以通过将广告页面与样本页面进行比较,得到比较结果,进而根据比较结果的大小确定样本页面为预定样本页面,预定样本页面为与广告页面内容相近或相似的页面,进而将预定样本页面中的广告兴趣词筛选出来,后续可以根据该广告兴趣词实现广告的精准推荐。
需要说明的是,上述的第一预定范围的大小可以根据实际情况设置,本申请不作限定,实际上,该范围的最小值越大,后续获取的广告兴趣词更加准确,从而后续可以实现广告的更精准推荐。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请的一种实施例中,将上述广告页面与样本页面进行比较,得到比较结果,包括:将上述样本页面中的各词转化为第一一维向量,将上述广告页面中的各词转化为第二一维向量,计算上述第一一维向量和上述第二一维向量之间的第一距离。即将样本页面中的词用一维向量来表示,将广告页面中的词也用一维向量来表示,神经网络算法会将样本页面中各个词的一维词向量作为输入,经过一系列复杂的转换后,输出一维词向量作为词的语义表示,并计算样本页面中的词对应的向量和广告页面中的词对应的向量的距离,这样的将文本转化为计算的向量特征的方式,可以为后续判断广告页面之间的相似度提供数据基础。
当然,本申请的得到比较结果的过程并不限于上述的方法,还可以为其他任何合适的方法,本领域技术人员可以根据实际情况选择合适的方法来得到比较结果。本申请的一种实施例中,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,包括:在上述第一距离在第二预定范围内的情况下,确定对应的上述样本页面为上述预定样本页面。即样本页面中的各词转化为向量与广告页面中的各词转化为向量的距离,符合预定范围的要求,那么,这个样本页面就是预定样本页面,后续,可以在筛选广告兴趣词时,提供所需要的样本页面。
在广告页面和样本页面中均包括多个词的情况下,将广告页面中的各词的一维向量与样本页面中的各词的一维向量一一进行第一距离计算,在有预定数量的第一距离在第二预定范围内的情况下,确定样本页面为预定样本页面。
本申请的一种实施例中,将上述广告页面与样本页面进行比较,得到比较结果,包括:将上述样本页面中的各词转化为第一一维向量,将上述广告页面中的各词转化为第二一维向量,将相邻的多个上述第一一维向量组成第一一维向量数组,将相邻的多个上述第二一维向量组成第二一维向量数组,计算上述第一一维向量数组和上述第二一维向量数组之间的第二距离。即将样本页面中的字/词用一维向量来表示,将广告页面中的字/词也用一维向量来表示,且将多个由样本页面中的字/词转化的向量组成,生成向量数组,将多个由广告页面中的字/词转化的向量组成,生成向量数组,并且计算两个向量数组之间可以计算距离,语义相近的词在特征向量空间上的距离也比较接近,如此一来,由词向量转换而来的文本向量也能够包含更为准确的语义信息。一个广告标题是“华为手机双11大促”经过转换后会变成一维向量数组[0.34345,0.56736,0,77293,0.16901,0.01383…0.17384,0.82039,0.91738]。譬如:“华为”和“苹果”“小米”“Oppo”等一线手机品牌词距离比较近,“山寨”就和这些一线品牌词在向量空间上距离比较远。“黄山”作为一个景点,和“华为”在词向量空间距离更远。(华为-苹果0.1华为-小米0.11华为-Oppo 0.12华为-山寨0.2华为-黄山0.4),这样的方式可以更加高效地确定预定样本页面。
本申请的一种实施例中,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,包括:在上述第二距离在第三预定范围内的情况下,确定对应的上述样本页面为上述预定样本页面。即多个样本页面中的各词转化为向量数组与多个广告页面中的各词幻化为向量数组的距离,符合预定范围的要求,那么,这个样本页面就是预定样本页面,后续,可以在筛选广告兴趣词时,提供准确的样本页面。
需要说明的是,本申请的第二预定范围和第三预定范围均在第一预定范围内。
本申请的一种实施例中,采用自然语言处理算法将上述样本页面中的词转化为第一一维向量,采用自然语言处理算法将上述广告页面中的词转化为第二一维向量。即用自然语言处理的方法,将文本转换为可以计算的向量特征,将样本页面中的词转化为第一一维向量,将广告页面中的词转化为第二一维向量,这样就在后续从上述预定样本页面中筛选出广告兴趣词提供了基础。
当然,本申请中并不限于采用自然语言处理算法将词转换为向量的方式,还可以为任何其他可以转换的方式。
本申请的一种实施例中,上述第一距离为杰卡德距离。即计算样本页面中的各词转化的向量与广告页面中的各词转化的向量的距离的方式是通过杰卡德计算方式,杰卡德计算方式用来计算两个具有布尔值属性的对象之间的距离。
Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A,B均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
M00:A,B属性值同时为0的属性个数;
M01:A属性值为0且B属性值为1的属性个数;
M10:A属性值为1且B属性值为0的属性个数;
M11:A,B属性值同时为1的属性个数;
如图3所示,显然有
M00+M01+M10+M11=n
Jaccard系数:
Figure BDA0002353462320000061
Jaccard距离:
Figure BDA0002353462320000062
广义Jaccard系数
(1)给定两个n维向量则Jaccard系数定义如下:
Figure BDA0002353462320000063
(2)给定两个关于的非负函数f和g,则Jaccard系数定义如下:
Figure BDA0002353462320000064
本申请的一种实施例中,上述第二距离为杰卡德距离。即计算多个样本页面中的各词转化的向量与多个广告页面中的各词转化的向量的距离方式是通过杰卡德计算方式,杰卡德计算方式用来计算两个具有布尔值属性的对象之间的距离。
Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A,B均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
M00:A,B属性值同时为0的属性个数;
M01:A属性值为0且B属性值为1的属性个数;
M10:A属性值为1且B属性值为0的属性个数;
M11:A,B属性值同时为1的属性个数;
如图3所示,显然有
M00+M01+M10+M11=n
Jaccard系数:
Figure BDA0002353462320000071
Jaccard距离:
Figure BDA0002353462320000072
广义Jaccard系数
(1)给定两个n维向量则Jaccard系数定义如下:
Figure BDA0002353462320000073
(2)给定两个关于的非负函数f和g,则Jaccard系数定义如下:
Figure BDA0002353462320000074
本申请的一种实施例中,从上述预定样本页面中筛选出广告兴趣词,包括:采用协同过滤算法筛选出上述广告兴趣词。协同过滤算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。
需要说明的是,本申请中使用的是页面内容系统过滤算法来完成广告页面兴趣词的推荐,当然,并不限于本申请的方式,还有其他机器学习算法来完成兴趣词的推荐,例如:多标签多分类算法等等。
本申请的一种实施例中,在多个上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,包括:比较多个上述比较结果,确定多个上述比较结果中最小的值对应的上述样本页面为上述预定样本页面。即当比较的出来的结果都在预定范围的情况下,找出和广告页面最相似的N个样本(距离最小的N个页面),譬如,一个“华为”的广告页面和“苹果”“小米”“Oppo”的广告页面最相似,就会把最相似的样本找出来,后续,就可以把这些最相似样本中的使用到的兴趣关键词推荐给广告主。“山寨”页面使用了兴趣词“超低价”,因为“山寨”和“华为”不是特别相似,所以在后续为向用户推送广告时“超低价”不会推荐给“华为”的广告主。
本申请的一种实施例中,在从上述预定样本页面中筛选出广告兴趣词之后,上述获取方法还包括:将上述广告兴趣词发送至对应的广告主,上述广告主根据上述广告兴趣词向用户推送广告,如“苹果”页面使用了兴趣词“时尚”,“小米”页面使用了兴趣词“发烧友”,“Oppo”页面使用了兴趣词“音乐”,那么就把“时尚、发烧友、音乐”这几个关键词推荐给“华为”广告主,广告主根据这些词进而为用户推送广告。
本申请实施例还提供了一种广告兴趣词的获取装置,需要说明的是,本申请实施例的广告兴趣词的获取装置可以用于执行本申请实施例所提供的用于广告兴趣词的获取方法。以下对本申请实施例提供的广告兴趣词的获取装置进行介绍。
图2是根据本申请实施例的广告兴趣词的获取装置的示意图。如图2所示,该装置包括:
获取单元10,用于获取广告页面;
比较单元20,用于将上述广告页面与样本页面进行比较,得到比较结果;
确定单元30,用于在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面;
筛选单元40,用于从上述预定样本页面中筛选出广告兴趣词。
上述的装置中,获取单元获取广告页面,比较单元将上述广告页面与样本页面进行比较,得到比较结果,确定单元在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,筛选单元从上述预定样本页面中筛选出广告兴趣词。这样的装置就可以通过将广告页面与样本页面进行比较,得到比较结果,进而根据比较结果的大小确定样本页面为预定样本页面,预定样本页面为与广告页面内容相近或相似的页面,进而将预定样本页面中的广告兴趣词筛选出来,后续可以根据该广告兴趣词实现广告的精准推荐。
需要说明的是,上述的第一预定范围的大小可以根据实际情况设置,本申请不作限定,实际上,该范围的最小值越大,后续获取的广告兴趣词更加准确,从而后续可以实现广告的更精准推荐。
本申请的一种实施例中,比较单元包括第一转化模块、第二转化模块和第一计算模块,其中,第一转化模块用于将上述样本页面中的各词转化为第一一维向量,第二转化模块用于将上述广告页面中的各词转化为第二一维向量,第一计算模块用于计算上述第一一维向量和上述第二一维向量之间的第一距离。即将样本页面中的词用一维向量来表示,将广告页面中的词也用一维向量来表示,神经网络算法会将样本页面中各个词的一维词向量作为输入,经过一系列复杂的转换后,输出一维词向量作为词的语义表示,并计算样本页面中的词对应的向量和广告页面中的词对应的向量的距离,这样的将文本转化为计算的向量特征的方式,可以为后续判断广告页面之间的相似度提供数据基础。
当然,本申请的得到比较结果的过程并不限于上述的方法,还可以为其他任何合适的方法,本领域技术人员可以根据实际情况选择合适的方法来得到比较结果。
本申请的一种实施例中,确定单元包括第一确定模块,用于在上述第一距离在第二预定范围内的情况下,确定对应的上述样本页面为上述预定样本页面。即样本页面中的各词转化为向量与广告页面中的各词转化为向量的距离,符合预定范围的要求,那么,这个样本页面就是预定样本页面,后续,可以在筛选广告兴趣词时,提供所需要的样本页面。
在广告页面和样本页面中均包括多个词的情况下,将广告页面中的各词的一维向量与样本页面中的各词的一维向量一一进行第一距离计算,在有预定数量的第一距离在第二预定范围内的情况下,确定样本页面为预定样本页面。
本申请的一种实施例中,比较单元包括第一转化模块、第二转化摸块、第一组成模块、第二组成模块和第二计算模块,其中,第一转化模块用于将上述样本页面中的各词转化为第一一维向量,第二转化模块用于将上述广告页面中的各词转化为第二一维向量,第一组成模块用于将相邻的多个上述第一一维向量组成第一一维向量数组,第二组成模块用于将相邻的多个上述第二一维向量组成第二一维向量数组,第二计算模块用于计算上述第一一维向量数组和上述第二一维向量数组之间的第二距离。即将样本页面中的字/词用一维向量来表示,将广告页面中的字/词也用一维向量来表示,且将多个由样本页面中的字/词转化的向量组成,生成向量数组,将多个由广告页面中的字/词转化的向量组成,生成向量数组,并且计算两个向量数组之间可以计算距离,语义相近的词在特征向量空间上的距离也比较接近,如此一来,由词向量转换而来的文本向量也能够包含更为准确的语义信息。一个广告标题是“华为手机双11大促”经过转换后会变成一维向量数组[0.34345,0.56736,0,77293,0.16901,0.01383…0.17384,0.82039,0.91738]。譬如:“华为”和“苹果”“小米”“Oppo”等一线手机品牌词距离比较近,“山寨”就和这些一线品牌词在向量空间上距离比较远。“黄山”作为一个景点,和“华为”在词向量空间距离更远。(华为-苹果0.1华为-小米0.11华为-Oppo 0.12华为-山寨0.2华为-黄山0.4),这样的方式可以更加高效地确定预定样本页面。
本申请的一种实施例中,确定模块还包括第二确定模块,用于在上述第二距离在第三预定范围内的情况下,确定对应的上述样本页面为上述预定样本页面。即多个样本页面中的各词转化为向量数组与多个广告页面中的各词幻化为向量数组的距离,符合预定范围的要求,那么,这个样本页面就是预定样本页面,后续,可以在筛选广告兴趣词时,提供准确的样本页面。
需要说明的是,本申请的第二预定范围和第三预定范围均在第一预定范围内。
本申请的一种实施例中,比较单元包括第一转化模块和第二转化摸块,第一转化模块采用自然语言处理算法将上述样本页面中的词转化为第一一维向量,第二转化模块采用自然语言处理算法将上述广告页面中的词转化为第二一维向量。即用自然语言处理的方法,将文本转换为可以计算的向量特征,将样本页面中的词转化为第一一维向量,将广告页面中的词转化为第二一维向量,这样就在后续从上述预定样本页面中筛选出广告兴趣词提供了基础。
当然,本申请中并不限于采用自然语言处理算法将词转换为向量的方式,还可以为任何其他可以转换的方式。
本申请的一种实施例中,上述第一距离为杰卡德距离,即计算样本页面中的各词转化的向量与广告页面中的各词转化的向量的距离的方式是通过杰卡德计算方式,杰卡德计算方式用来计算两个具有布尔值属性的对象之间的距离。
Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A,B均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
M00:A,B属性值同时为0的属性个数;
M01:A属性值为0且B属性值为1的属性个数;
M10:A属性值为1且B属性值为0的属性个数;
M11:A,B属性值同时为1的属性个数;
如图3所示,显然有
M00+M01+M10+M11=n
Jaccard系数:
Figure BDA0002353462320000101
Jaccard距离:
Figure BDA0002353462320000102
广义Jaccard系数
(1)给定两个n维向量则Jaccard系数定义如下:
Figure BDA0002353462320000103
(2)给定两个关于的非负函数f和g,则Jaccard系数定义如下:
Figure BDA0002353462320000111
本申请的一种实施例中,上述第二距离为杰卡德距离,即计算多个样本页面中的各词转化的向量与多个广告页面中的各词转化的向量的距离方式是通过杰卡德计算方式,杰卡德计算方式用来计算两个具有布尔值属性的对象之间的距离。
Jaccard距离就是常用的一种方法。给定两个比较对象A,B。A,B均有n个二元属性,即每个属性取值为{0,1}。定义如下4个统计量:
M00:A,B属性值同时为0的属性个数;
M01:A属性值为0且B属性值为1的属性个数;
M10:A属性值为1且B属性值为0的属性个数;
M11:A,B属性值同时为1的属性个数;
如图3所示,显然有
M00+M01+M10+M11=n
Jaccard系数:
Figure BDA0002353462320000112
Jaccard距离:
Figure BDA0002353462320000113
广义Jaccard系数
(1)给定两个n维向量则Jaccard系数定义如下:
Figure BDA0002353462320000114
(2)给定两个关于的非负函数f和g,则Jaccard系数定义如下:
Figure BDA0002353462320000115
本申请的一种实施例中,筛选单元包括先选模块,用于采用协同过滤算法筛选出上述广告兴趣词。协同过滤算法通过对用户历史行为数据的挖掘发现用户的偏好,基于不同的偏好对用户进行群组划分并推荐品味相似的商品。
需要说明的是,本申请中使用的是页面内容系统过滤算法来完成广告页面兴趣词的推荐,当然,并不限于本申请的方式,还有其他机器学习算法来完成兴趣词的推荐,例如:多标签多分类算法等等。
本申请的一种实施例中,确定模块包括比较模块和第三确定模块,其中比较模块用于比较多个上述比较结果,第三确定模块用于确定多个上述比较结果中最小的值对应的上述样本页面为上述预定样本页面。即当比较的出来的结果都在预定范围的情况下,找出和广告页面最相似的N个样本(距离最小的N个页面),譬如,一个“华为”的广告页面和“苹果”“小米”“Oppo”的广告页面最相似,就会把最相似的样本找出来,后续,就可以把这些最相似样本中的使用到的兴趣关键词推荐给广告主。“山寨”页面使用了兴趣词“超低价”,因为“山寨”和“华为”不是特别相似,所以在后续为向用户推送广告时“超低价”不会推荐给“华为”的广告主。
本申请的一种实施例中,上述装置还包括发送单元和推送单元,发送单元用于在从上述预定样本页面中筛选出广告兴趣词之后,将上述广告兴趣词发送至对应的广告主,推送单元用于上述广告主根据上述广告兴趣词向用户推送广告。如“苹果”页面使用了兴趣词“时尚”,“小米”页面使用了兴趣词“发烧友”,“Oppo”页面使用了兴趣词“音乐”,那么就把“时尚、发烧友、音乐”这几个关键词推荐给“华为”广告主,广告主根据这些词进而为用户推送广告。
上述广告兴趣词的获取装置包括处理器和存储器,上述获取单元、比较单元、确定单元和筛选单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高广告的精准推荐。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现上述广告兴趣词的获取方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述广告兴趣词的获取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现至少以下步骤:
步骤S101,获取广告页面;
步骤S102,将上述广告页面与样本页面进行比较,得到比较结果;
步骤S103,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面;
步骤S104,从上述预定样本页面中筛选出广告兴趣词。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有至少如下方法步骤的程序:
步骤S101,获取广告页面;
步骤S102,将上述广告页面与样本页面进行比较,得到比较结果;
步骤S103,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面;
步骤S104,从上述预定样本页面中筛选出广告兴趣词。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
从以上的描述中,可以看出,本申请上述的实施例实现了如下技术效果:
1)、本申请的广告兴趣词的获取方法,首先,获取广告页面,其次,将上述广告页面与样本页面进行比较,得到比较结果,之后,在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,最后,从上述预定样本页面中筛选出广告兴趣词。这样的方式就可以通过将广告页面与样本页面进行比较,得到比较结果,进而根据比较结果的大小确定样本页面为预定样本页面,预定样本页面为与广告页面内容相近或相似的页面,进而将预定样本页面中的广告兴趣词筛选出来,进而实现广告的精准推荐。
2)、本申请的广告兴趣词的获取装置,获取单元获取广告页面,比较单元将上述广告页面与样本页面进行比较,得到比较结果,确定单元在上述比较结果在第一预定范围内的情况下,确定对应的至少一个上述样本页面为预定样本页面,筛选单元从上述预定样本页面中筛选出广告兴趣词。这样的装置就可以通过将广告页面与样本页面进行比较,得到比较结果,进而根据比较结果的大小确定样本页面为预定样本页面,预定样本页面为与广告页面内容相近或相似的页面,进而将预定样本页面中的广告兴趣词筛选出来,进而实现广告的精准推荐。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种广告兴趣词的获取方法,其特征在于,包括:
获取广告页面;
将所述广告页面与样本页面进行比较,得到比较结果;
在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面;
从所述预定样本页面中筛选出广告兴趣词;
将所述广告页面与样本页面进行比较,得到比较结果,包括:
将所述样本页面中的各词转化为第一一维向量;
将所述广告页面中的各词转化为第二一维向量;
计算所述第一一维向量和所述第二一维向量之间的第一距离。
2.根据权利要求1所述的获取方法,其特征在于,在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,包括:
在所述第一距离在第二预定范围内的情况下,确定对应的所述样本页面为所述预定样本页面。
3.根据权利要求1所述的获取方法,其特征在于,将所述广告页面与样本页面进行比较,得到比较结果,包括:
将所述样本页面中的各词转化为第一一维向量;
将所述广告页面中的各词转化为第二一维向量;
将相邻的多个所述第一一维向量组成第一一维向量数组;
将相邻的多个所述第二一维向量组成第二一维向量数组;
计算所述第一一维向量数组和所述第二一维向量数组之间的第二距离。
4.根据权利要求3所述的获取方法,其特征在于,在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,包括:
在所述第二距离在第三预定范围内的情况下,确定对应的所述样本页面为所述预定样本页面。
5.根据权利要求1所述的获取方法,其特征在于,采用自然语言处理算法将所述样本页面中的词转化为第一一维向量,采用自然语言处理算法将所述广告页面中的词转化为第二一维向量。
6.根据权利要求2所述的获取方法,其特征在于,所述第一距离为杰卡德距离。
7.根据权利要求4所述的获取方法,其特征在于,所述第二距离为杰卡德距离。
8.根据权利要求1所述的获取方法,其特征在于,从所述预定样本页面中筛选出广告兴趣词,包括:
采用协同过滤算法筛选出所述广告兴趣词。
9.根据权利要求8所述的获取方法,其特征在于,在多个所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面,包括:
比较多个所述比较结果;
确定多个所述比较结果中最小的值对应的所述样本页面为所述预定样本页面。
10.根据权利要求1所述的获取方法,其特征在于,在从所述预定样本页面中筛选出广告兴趣词之后,所述获取方法还包括:
将所述广告兴趣词发送至对应的广告主;
所述广告主根据所述广告兴趣词向用户推送广告。
11.一种广告兴趣词的获取装置,其特征在于,包括:
获取单元,用于获取广告页面;
比较单元,用于将所述广告页面与样本页面进行比较,得到比较结果;
确定单元,用于在所述比较结果在第一预定范围内的情况下,确定对应的至少一个所述样本页面为预定样本页面;
筛选单元,用于从所述预定样本页面中筛选出广告兴趣词;
所述比较单元包括第一转化模块、第二转化模块和第一计算模块,
所述第一转化模块用于将所述样本页面中的各词转化为第一一维向量,
所述第二转化模块用于将所述广告页面中的各词转化为第二一维向量,
所述第一计算模块用于计算所述第一一维向量和所述第二一维向量之间的第一距离。
12.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至10中任意一项所述的获取方法。
13.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至10中任意一项所述的获取方法。
CN201911425480.5A 2019-12-31 2019-12-31 广告兴趣词的获取方法、装置、存储介质和处理器 Active CN113127766B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911425480.5A CN113127766B (zh) 2019-12-31 2019-12-31 广告兴趣词的获取方法、装置、存储介质和处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911425480.5A CN113127766B (zh) 2019-12-31 2019-12-31 广告兴趣词的获取方法、装置、存储介质和处理器

Publications (2)

Publication Number Publication Date
CN113127766A CN113127766A (zh) 2021-07-16
CN113127766B true CN113127766B (zh) 2023-04-14

Family

ID=76771033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911425480.5A Active CN113127766B (zh) 2019-12-31 2019-12-31 广告兴趣词的获取方法、装置、存储介质和处理器

Country Status (1)

Country Link
CN (1) CN113127766B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230004619A1 (en) * 2021-07-02 2023-01-05 Vmware, Inc. Providing smart web links

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
CN103577595A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置
CN105045864A (zh) * 2015-07-10 2015-11-11 浙江工商大学 一种数字化资源个性化推荐方法
CN106649323A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 推荐关键词的方法及装置
CN108021598A (zh) * 2016-11-04 2018-05-11 广州市动景计算机科技有限公司 页面抽取模板匹配方法、装置及服务器
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109460500A (zh) * 2018-10-24 2019-03-12 深圳市腾讯计算机系统有限公司 热点事件发现方法、装置、计算机设备和存储介质
CN110111153A (zh) * 2019-05-13 2019-08-09 极智(上海)企业管理咨询有限公司 一种投标广告投放方法、系统、介质和电子设备
CN110390044A (zh) * 2019-06-11 2019-10-29 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216825A (zh) * 2007-12-29 2008-07-09 朱廷劭 标引关键词提取/预测方法、在线广告推荐方法和装置
CN103577595A (zh) * 2013-11-15 2014-02-12 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置
CN105045864A (zh) * 2015-07-10 2015-11-11 浙江工商大学 一种数字化资源个性化推荐方法
CN106649323A (zh) * 2015-10-29 2017-05-10 北京国双科技有限公司 推荐关键词的方法及装置
CN108021598A (zh) * 2016-11-04 2018-05-11 广州市动景计算机科技有限公司 页面抽取模板匹配方法、装置及服务器
CN108241667A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN109460500A (zh) * 2018-10-24 2019-03-12 深圳市腾讯计算机系统有限公司 热点事件发现方法、装置、计算机设备和存储介质
CN110111153A (zh) * 2019-05-13 2019-08-09 极智(上海)企业管理咨询有限公司 一种投标广告投放方法、系统、介质和电子设备
CN110390044A (zh) * 2019-06-11 2019-10-29 平安科技(深圳)有限公司 一种相似网络页面的搜索方法及设备

Also Published As

Publication number Publication date
CN113127766A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN109359244B (zh) 一种个性化信息推荐方法和装置
CN105989004B (zh) 一种信息投放的预处理方法和装置
CN108629665B (zh) 一种个性化商品推荐方法和系统
CN106649316B (zh) 一种视频推送方法及装置
US10762153B2 (en) Collaborative-filtered content recommendations with justification in real-time
US9443147B2 (en) Enriching online videos by content detection, searching, and information aggregation
CN111784455A (zh) 一种物品推荐方法及推荐设备
US8725559B1 (en) Attribute based advertisement categorization
CN106940705A (zh) 一种用于构建用户画像的方法与设备
WO2015034850A2 (en) Feature selection for recommender systems
CN106294500B (zh) 内容项目的推送方法、装置及系统
US20200226168A1 (en) Methods and systems for optimizing display of user content
CN107633416B (zh) 一种业务对象的推荐方法、装置和系统
CN112070577A (zh) 一种商品推荐方法、系统、设备及介质
CN113760158A (zh) 目标对象展示方法、对象关联方法、装置、介质及设备
CN110569429B (zh) 一种内容选择模型的生成方法、装置和设备
CN106033455B (zh) 一种处理用户操作信息的方法与设备
Asad et al. An In-ad contents-based viewability prediction framework using Artificial Intelligence for Web Ads
CN114742582A (zh) 基于用户终端的广告投放方法、服务器及存储介质
US20210064676A1 (en) Analytics System Onboarding of Web Content
CN113127766B (zh) 广告兴趣词的获取方法、装置、存储介质和处理器
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
CN110969473A (zh) 一种用户标签生成方法及装置
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN108460131B (zh) 一种分类标签处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant