CN106372249A - 一种点击率预估方法、装置及电子设备 - Google Patents

一种点击率预估方法、装置及电子设备 Download PDF

Info

Publication number
CN106372249A
CN106372249A CN201610848973.XA CN201610848973A CN106372249A CN 106372249 A CN106372249 A CN 106372249A CN 201610848973 A CN201610848973 A CN 201610848973A CN 106372249 A CN106372249 A CN 106372249A
Authority
CN
China
Prior art keywords
exposure
similarity
page elements
daily record
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610848973.XA
Other languages
English (en)
Other versions
CN106372249B (zh
Inventor
林玲钦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201610848973.XA priority Critical patent/CN106372249B/zh
Priority to CA3070612A priority patent/CA3070612A1/en
Priority to US16/335,928 priority patent/US20190311395A1/en
Priority to PCT/CN2016/112949 priority patent/WO2018053966A1/zh
Publication of CN106372249A publication Critical patent/CN106372249A/zh
Application granted granted Critical
Publication of CN106372249B publication Critical patent/CN106372249B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0247Calculate past, present or future revenues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种点击率预估方法,属于计算机技术领域。所述方法包括:根据点击日志为曝光日志设置点击标签;基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应的曝光日志的曝光权重;根据设置有曝光权重的曝光日志进行点击率预估,解决现有技术中点击率预估时,没有考虑不同上下文环境下页面元素曝光有效性的差异,从而导致预估点击率时准确度低下的问题。本申请公开的方案,通过基于所述曝光日志的点击标签和记录的页面元素的上下文相似度,设置对应曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。

Description

一种点击率预估方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,特别是涉及一种点击率预估方法、装置及电子设备。
背景技术
随着互联网和大数据技术的发展,越来越多的用户通过互联网获取信息,例如,用户在网站页面或应用页面上浏览信息、用户输入关键词进行搜索,或者用户通过设置搜索条件筛选搜索结果的范围等。无论哪种获取信息的应用,后台服务器在接收到搜索请求或接收到用户打开某一页面的请求后,首先根据搜索关键词或者页面的预设排序规则进行第一轮简单排序,召回符合条件的TopK个待展示的页面元素,如搜索结果、推送的信息;然后,后台服务器做第二轮复杂排序,通常是预估每个待展示结果的点击率,按预估的点击率降序排序,用于输出展示的页面元素的队列。预估的点击率对返回的页面元素的准确性起着重要作用。
现有技术中,通常将展现给用户的页面元素记录为曝光日志,将用户对展现的页面元素的点击行为记录为点击日志,每条日志对应一个页面元素,根据点击日志和曝光日志进行点击率预估时,如通过训练点击率预估模型进行点击率预估时,输入的数据只有日志是否被点击的点击标签和日志的特征数据。
可见,现有技术在进行点击率预估时,没有考虑不同上下文环境下页面元素曝光有效性的差异,而未考虑曝光有效性的曝光日志并不能反映页面元素的真实点击概率,从而导致在预估点击率时准确度低下。
发明内容
本申请所要解决的技术问题是:提供一种点击率预估方法,解决现有技术中进行点击率预估时,没有考虑不同上下文环境下页面元素曝光有效性的差异,从而导致预估点击率时准确度低下的问题。
为了解决上述问题,本申请实施例提供了一种点击率预估方法,包括:
根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
根据设置有曝光权重的曝光日志,进行点击率预估。
相应的,本申请实施例还提供了一种点击率预估装置,包括:
日志处理模块,用于根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
曝光权重设置模块,用于基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
点击率预估模块,用于根据设置有曝光权重的曝光日志,进行点击率预估。
相应的,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例中所述的点击率预估方法。
相应的,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请实施例中所述方法的步骤。
本申请实施例公开的点击率预估方法,通过根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;根据设置有曝光权重的曝光日志,进行点击率预估,解决了现有技术中点击率预估时没有考虑到相邻页面元素对曝光效果的影响,导致预估的点击率不准确的问题。通过基于所述曝光日志的点击标签和页面元素的上下文相似度,设置该条曝光日志的曝光权重,然后在预估点击率计算时引入曝光权重,使得预估的点击率更加准确。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一的点击率预估方法流程图;
图2是本申请实施例二的点击率预估方法流程图;
图3是本申请实施例三的点击率预估装置示意图;
图4是本申请实施例四的点击率预估装置一个模块的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例中的页面元素为网站页面或应用程序页面上展示的可以点击的元素,如搜索结果、推送的信息等。本申请实施例中公开的点击率预估方法,适用于在用户输入关键词后,服务器根据用户输入的关键词进行搜索,然后对搜索结果进行排序过程中的点击率进行预估;也适用于根据用户输入的筛选条件在已有的搜索结果中选择符合筛选条件的搜索结果时对搜索结果的点击率进行预估;还适用于网站页面或应用程序页面推送的信息的点击率进行预估。例如,为了获取附近的美食商家信息,用户可以选择在美团上输入“美食”作为关键字进行搜索;同时,用户也可以选择美团主页上的美食频道,符合条件的美食商家将以列表的形式展示在美食频道里。在对已经初步排序的搜索结果进行筛选时,用户不需要输入检索词,而是通过选择某个频道,来设定特定筛选条件以限定召回的搜索结果的范围。
为了减少文件篇幅,本申请的实施例以生成根据用户输入的关键词进行搜索时对搜索结果的点击率进行预估为例,对点击率预估方法进行详细说明。
实施例一
本申请公开的一种点击率预估方法,如图1所示,该方法包括:步骤100至步骤120。
步骤100,根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息。
本实施例中以页面元素为搜索结果为例,详细说明点击率预估的具体方案。
服务器在接受用户输入的关键词或者筛选条件后进行搜索时,通常会记录搜索结果,并将展现给用户的搜索结果记录为曝光日志,将对展现给用户的搜索结果中的点击行为记录为点击日志。每一条展现给用户的搜索结果记录为一条曝光日志,用户对于每一条展现给用户的搜索结果的点击行为被记录为一条点击日志。为了便于日志的管理和数据分析,通常曝光日志包括:搜索结果的全局标识、物料标识以及展现位次;点击日志至少包括:搜索结果的全局标识、物料标识。其中,搜索结果的全局标识作为一次搜索行为的唯一标识,通过全局标识就可以在曝光日志中找出同一次搜索请求的各个曝光记录,以及在曝光日志中找到点击日志中的搜索结果。
根据点击日志为每一条曝光日志设置点击标签包括:获取曝光日志和点击日志;根据所述曝光日志和点击日志中的全局标识和物料标识,确定被点击的曝光日志;分别对所述被点击的曝光日志和未被点击的曝光日志设置不同的点击标签。然后,根据设置有点击标签的曝光日志进行点击率预估。曝光日志和点击日志都包含某一次搜索的全局标识,以及该次搜索下每个搜索结果的物料标识。具体实施时,可以从曝光日志里提取出全局标识和物料标识的组合作为关键值,然后在点击日志里进行遍历,与每条点击日志的全局标识和物料标识的组合进行匹配,确定该条曝光日志是否有用户点击行为。若匹配成功,则表示该条曝光日志被用户点击,设置该条曝光日志的点击标签,例如,将点击标签的值设置为1;若匹配失败,及没有找到对全局标识所标识的搜索结果中物料标识对应的一条搜索结果的点击日志,则表示该条曝光日志没有被用户点击,设置该条曝光日志的点击标签,例如,将点击标签的值设置为0。最后,将设置了点击标签的曝光日志作为点击率预估的参考数据。
步骤110,基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重。
在曝光的搜索结果列表里,影响某个搜索结果有效曝光值的因素,主要为该搜索结果和其上下文搜索结果的相似度。某一搜索结果的上下文搜索结果为与其直接和间接相邻的搜索结果。该搜索结果和与其直接和间接相邻的搜索结果的相似度越大,说明该搜索结果和与其直接和间接相邻的搜索结果越相像,越容易影响用户对该搜索结果的选择,该搜索结果的有效曝光值就越低。因此,根据搜索结果的相似度设置搜索结果的曝光权重,可以提高搜索结果的展现准确率,进一步提高点击率。
相似度(Similarity)的定义方法并不唯一,不同搜索业务场景下也会有差异。同时相似度的计算方法也很多,常见有计算两者欧氏距离,Pearson相似度等。计算所述曝光日志记录的搜索结果的上下文相似度的具体方法根据实际业务需求进行定义,例如,可以计算所述曝光日志记录的搜索结果与其的上下文搜索结果的某个或某些文本特性之间的欧式距离。具体实施时,通过所述曝光日志中搜索结果的上下文相似度计算某一搜索结果的相似度影响值,然后,再根据所述相似度影响值和点击标签设置所述曝光日志的曝光权重。其中,所述相似度影响值用于表示所述曝光日志记录的搜索结果受满足预设条件的上下文搜索结果的影响程度。
在根据所述相似度影响值和点击标签设置所述曝光日志的曝光权重时:若所述曝光日志的点击标签指示该曝光日志记录的搜索结果被用户点击过,则设置所述曝光日志的曝光权重为较高的曝光权重;若所述曝光日志的点击标签指示该曝光日志记录的搜索结果未被用户点击过,则设置所述曝光日志的曝光权重为较低的曝光权重。具体实施时,设置的曝光权重的值与该曝光日志记录的搜索结果之间的相似度有关。
步骤120,根据设置有曝光权重的曝光日志进行点击率预估。
所述曝光日志包括点击标签为1的曝光日志(即记录被用户点击的搜索结果的日志,还包括点击标签为0的曝光日志(即没有被用户点击的搜索结果的日志)。根据设置有曝光权重的曝光日志进行点击率预估时,可以通过本领域已知或未来开发的任意合适方式。例如:通过计算有效点击次数比例,或通过训练点击率预估模型。
计算有效曝光次数比例可以为:根据搜索结果的曝光日志中的点击标签确定搜索结果的被点击次数X和未被点击次数Y,根据曝光日志记录的搜索结果的曝光权重计算搜索结果的有效曝光次数Z,Z=a*X+b*Y,其中,a为被点击的曝光日志的曝光权重,b为未被点击的曝光日志的曝光权重。
训练点击率预估模型时,根据每一条所述曝光日志的曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据,包括:对于每一条所述曝光日志,将该条曝光日志的点击标签和曝光权重,结合从该条曝光日志中提取的数据特征,生成该条曝光日志对应的训练数据。根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据,可以生成的多条训练数据,并得到由多条训练数据组成的训练点击率预估模型的训练数据集。然后,基于所述多条训练数据,训练点击率预估模型。并利用训练得到的点击率预估模型预估搜索结果的点击率。
本申请实施例公开的点击率预估方法,通过根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息;基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重;最后,根据设置有曝光权重的曝光日志进行点击率预估,解决了现有技术中进行点击率预估时没有考虑到相邻搜索结果对曝光效果的影响,导致预估的点击率不准确的问题。通过基于所述曝光日志的点击标签和记录的页面元素的上下文相似度,设置该条曝光日志的曝光权重,然后引入曝光权重进行点击率预估,使得预估的点击率更加准确。
实施例二
本申请公开的一种点击率预估方法,如图2所示,该方法包括:步骤200至步骤250。
本实施例中以页面元素为搜索结果为例,详细说明点击率预估的具体方案。
步骤200,根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息。
根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息的具体实施方式参见实施例一的相关步骤,此处不再赘述。
步骤210,确定所述曝光日志的相似度影响值。
所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
在曝光的搜索结果列表里,影响某个搜索结果有效曝光值的因素,主要为该搜索结果和其上下文搜索结果的相似度,即该搜索结果和与其直接和间接相邻的搜索结果的相似度。该搜索结果和与其直接和间接相邻的搜索结果的相似度越大,说明该搜索结果和与其直接和间接相邻的搜索结果越相像,越容易影响用户对该搜索结果的选择,该搜索结果的有效曝光值就越低。因此,根据搜索结果的相似度设置搜索结果的曝光权重,可以提高搜索结果的展现准确率,进一步提高点击率。
具体实施时,所述确定所述曝光日志的相似度影响值进一步包括子步骤S1、S2和S3。
子步骤S1,分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度。
确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,包括子步骤S11至S14。
S11,分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值。
所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。具体实施时,所述满足预设条件包括:两个搜索结果的展现位次之间的距离小于预设位次值。根据点击率预估方法应用的具体业务场景不同,所述满足预设条件还可以包括其他预设条件,如:当搜索返回的搜索结果是商家列表,将商家的品类作为一个预设条件,只有当两个商家属于同一个的品类时,才计算商家之间的相似度。即,所述满足预设条件包括:两个搜索结果具有相同品类属性,且两个搜索结果的展现位次之间的距离小于预设位次值。其中,预设位次值可以为1或2。
以某次搜索结果分别为A、B、C、D、E、F,展现位次依次为1、2、3、4、5、6为例,说明确定满足预设条件的上下文搜索结果的具体过程。若预设位次值等于1,则A的满足预设条件的上下文搜索结果为B;B的满足预设条件的上下文搜索结果为A和C。若预设位次值等于2,则A的满足预设条件的上下文搜索结果为B和C;B的满足预设条件的上下文搜索结果为A、C和D。若以S表示两个搜索结果的相似度,若预设位次值等于2,则计算结果A受相邻结果相似度影响时,只需计算Sab(A与B的相似度)和Sac(A与C的相似度);计算结果B受相邻结果相似度影响时,只需计算Sab(A与B的相似度)、Sbc(B与C的相似度)和Sbd(B与D的相似度)。在移动终端的搜索场景下,同频幕展现的搜索结果个数比较有限,因此可以在展现位次上设置比较小的预设位次值;而在PC端搜索场景下,同屏幕展现的搜索结果个数比较多,在展现位次上设置比较大的预设位次值,如3。
相似度的定义方法并不唯一,不同搜索业务场景下也会有差异。同时相似度的计算方法也很多,例如通过计算两组特征的欧氏距离,代表两组特征的相似度距离,根据相似度距离计算相似度。本申请的实施例中,可以针对点击率预估方法的具体应用场景,挑选出特定搜索业务下,搜索结果中比较有代表性的部分展示给用户的属性来计算搜索结果的相似度。以美食团购搜索为例,能够反应两个商家相似程度的属性包括商家标题文本、以及商家是否同属一个商圈、是否均支持团购、人均价格、评分等。因此,具体实施时,可以将商家标题文本、商圈、是否均支持团购、人均价格、评分等属性的值作为预设维度属性值,并分别提取所述曝光日志记录的搜索结果和每一个满足预设条件的上下文搜索结果的预设维度属性值。如提取B、C和D的商家标题文本、商圈、是否均支持团购、人均价格、商家评分等属性的值,用于计算相似度Sbc和Sbd
S12,对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离。
具体实施时,对于每一个满足预设条件的上下文搜索结果,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的搜索结果和该上下文搜索结果之间的单一维度相似度距离。例如,对于搜索结果B和C,首先计算B和C在商家评分维度的欧式距离。例如,在商家评分这一维度上,若日志中记录的搜索结果B和C的商家评分分别为Scoreb和Scorec,则B和C在这一维度的上欧氏距离为Sbc1=|Scoreb-Scorec|。然后,分别计算出相同维度(如商家评分维度)上,所有满足预设条件的上下文搜索结果的两两结果之间的商家评分欧氏距离,如Sbd1和Sab1。为了提高计算准确性,在得到所有两两结果在商家评分的欧式距离后,对欧式距离进行归一化,记归一化后的距离为Dn。常见的归一化方法有min-max标准化方法,z-score标准化方法等。本申请以min-max标准化方法为例,介绍对欧式距离进行归一化过程。min-max标准化方法并不是本提案所提的新技术,而是现有的比较常用的一种归一化方法。具体做法是,先遍历所有俩俩搜索结果在商家评分上的欧式距离,得到最大值和最小值,分别记为Dmax和Dmin;然后用下面的转换公式依次求出D'n,该值就是使用min-max标准化方法归一化后两个相邻搜索结果在商家评分上的欧氏距离,其中,Dn为俩俩搜索结果的欧氏距离。
使用相同的方法分别求出其它维度的欧氏距离,并归一化。对于一些维度属性值非0即1的情况,则无需进行归一化。例如,在是否支持团购这一维度上,支持团购记为1,不支持团购记为0。当结果B和C同时支持团购,或者同时不支持团购时,两者的欧式距离为0;当其中一个结果支持团购,另一个不支持时,则在这一维度上,两者欧式距离为1。
S13,对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离。
对于每一个满足预设条件的上下文搜索结果,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的搜索结果和该上下文搜索结果之间的相似度距离。在得到搜索结果A和B在每个预设维度属性上的欧氏距离(即单一维度相似度距离)后,将各个维度的欧式距离的加权算术平均数,作为A和B的最终的相似度距离。若结果A和B的欧式距离为Dab,第i个维度的归一化后的欧氏距离为D',对应的权重为Wi,则搜索结果A和B的欧式距离为:其中,n为预设维度的数量。具体实施时,每个维度上的权重默认为1,可以结合业务特点,对不同属性设置不同的权重值,以增加该维度在相似度距离计算上的重要性。例如,设置商家标题文本维度的权重为1,设置商家评分维度的权重为0.5。
S14,根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度。
最后,根据所述相似度距离获得所述曝光日志记录的搜索结果和该上下文搜索结果之间的相似度。由于两个结果的相似度距离越大,其相似度越小;相似度距离越小,其相似度越大,因此可以用转换公式:来计算A和B的相似度Sab
子步骤S2,分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
此外,两个搜索结果之间的相互影响还和展现给用户时的展现位次有关,两者展现位次越靠近,相互影响越大。确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重,包括:根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
具体实施时,以Lab表示搜索结果A和B的展现位次之间的距离,以Wab表示搜索结果A和B的相似度权重,Wab和Lab成反比例关系,Lab越大,则Wab越小,具体实施时可以使用反比例函数Wab=1/Lab表示搜索结果A和B的展现位次之间的距离Lab和搜索结果之间的相似度权重Wab之间的关系。具体实施时,Wab和Lab成反比例关系还可以采用其他反比例函数表示,本申请对此不做限定。其中,搜索结果A和B的展现位次之间的距离Lab可以根据公式:Lab=|ranka-rankb|获得,ranka和rankb分别代表A和B的展现位次。优选地,搜索结果A和B的展现位次之间的距离Lab可以通过高斯加权距离表示,公式为:其中,ranka和rankb分别代表A和B的展现位次,σ2为方差,σ取值可以结合业务特点设定为大于0的常量。
子步骤S3,根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
根据确定的每个所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值,具体为:对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
搜索结果A和B之间的相互影响程度主要由两者的相似度Sab决定,同时跟两者的展现位次的距离有关。展现位次距离越小时,两个搜索结果越相邻,相互影响程度也越大。具体实施时,搜索结果A和B之间的相似度影响值记为MIab可表示为:MIab=Wab×Sab,其中,Sab为搜索结果A和B之间的相似度,Wab为搜索结果A和B之间的相似度的权重。
采用同样方法计算出搜索结果A和A的满足预设条件的其他上下文搜索结果(如A和C)之间的相似度影响值,再进行累加,即可得到搜索结果A和受A的满足预设条件的上下文搜索结果(如B和C)的总相似度影响值。具体实施时,可以采用公式:计算搜索结果A的相似度影响值,其中,m为A的满足预设条件的上下文搜索结果的集合,MIay为搜索结果A和y之间的相似度。
采用上述方法,分别计算出获取的所有曝光日志记录的搜索结果的相似度影响值,然后,对每个相似度影响值进行归一化。本申请以min-max标准化方法为例,介绍本提案归一化相似度影响值TI的过程。
首先遍历日志里所有TI,求出最大值TImax和最小值TImin。如果采用一周的数据来训练点击率预估模型,那么需要遍历这周所有曝光日志的TI,获得最大和最小的TI;如果以两周或者其它时间段的数据来训练点击率预估模型,那么需要遍历对应时间段的曝光日志的TI以获得最大和最小TI。在得到TImax和TImin后,对每个曝光日志的相似度影响值进行归一化,如并使用转换公式:TI’=(TI–TImin)/(TImax-TImin)依次求出TI’,TI’就是使用min-max标准化方法归一化后的曝光日志记录的搜索结果的相似度影响值。
步骤220,根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重。
根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重包括:若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积。具体实施时,每一条所述曝光日志表示一条展示给用户的搜索结果。所述曝光日志设置有点击标签,用户标识该搜索结果是否被用户点击。若该搜索结果被用户点击过,则该搜索结果的曝光日志的点击标签通常设置为1;若该搜索结果没有被用户点击过,则该搜索结果的曝光日志的点击标签通常设置为0。通过判断每条曝光日志的点击标签可以确定该曝光日志记录的搜索结果是否被用户点击过。例如,当曝光日志A的点击标签为1时,认为A为被用户点击过的搜索结果,因此设置A的曝光权重为第一权重,例如1;当曝光日志B的点击标签为0时,认为B为未被用户点击过的搜索结果,因此设置B的曝光权重为第二权重,如1-αTI’,其中,TI’为曝光日志B的归一化后的相似度影响值,用于表示曝光日志B对应的搜索结果受与所述搜索结果相邻的至少一个搜索结果的影响程度;α为预设修正值。
通过预设修正值α可以对相似度影响值进行微调。
优选的,具体实施时,预先设定若干不同的α值,基于不同的α值,可以得到几组不同的曝光权重值。
在设置了曝光日志的曝光权重之后,进一步可以根据设置有曝光权重的曝光日志进行点击率预估。本实施例中,根据设置有曝光权重的曝光日志进行点击率预估具体为:根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据;基于生成的多条训练数据,训练点击率预估模型;通过所述点击率预估模型进行点击率预估。
对于每一个α值,可以得到一组训练数据,因此可以得到多组训练数据。基于每组训练数据可以分别训练点击率预估模型。
步骤230,根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据。
所述曝光日志包括点击标签为1的曝光日志(即记录被用户点击的搜索结果的日志,还包括点击标签为0的曝光日志(即没有被用户点击的搜索结果的日志)。所述根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据,包括:对于每一条所述曝光日志,将该条曝光日志的点击标签和曝光权重作为权重字段,结合从该条曝光日志中提取的数据特征,生成该条曝光日志对应的训练数据。
具体实施时,从每次搜索的曝光日志中提取影响用户是否点击该条搜索结果的数据特征,组成用于训练点击率预估模型的特征字段。通常提取的数据特征的主要包括以下几个维度:搜索结果物料维度、用户维度、时间或日期等维度。其中,搜索结果物料维度根据具体搜索内容不同而各不相同,例如在美食团购搜索里,物料是商家,这一维度的特征包括商家过去某段时间内的访问量,销量,商家评分,人均消费,商家和用户检索词的匹配度等。用户维度,如用户职业,性别,消费价格偏好,消费地/商圈/品类偏好等。其它维度包括:曝光日志产生的时间、日期等。
根据业务需求的不同,以及搜索内容的不同,从曝光日志中提取的特征数据可能存在差异,本申请对提取的具体数据特征不做限定。具体实施时,可以参考采用现有技术中训练点击率预估模型时提取的数据特征。
然后,将每条曝光日志提取的数据特征、该条曝光日志的点击标签、该条曝光日志的曝光权重构成一条训练数据具体实施时,可以将每条训练数据划分为两个字段:权重字段和数据特征字段,如表1所示。其中,权重字段包括点击标签和曝光权重;数据特征字段包括多组数据特征,每组数据特征由数据特征编号和特征值组成。
权重字段 数据特征字段
0:0.88 1:6.000000 2:148.000000 3:72.000000 4:35.000000
1:1.0 1:1.000000 2:85.000000 3:66.000000 4:29.000000
表1:训练数据表
表1中,第一列为权重字段,权重字段包括:点击标签和曝光权重。其中,第一条训练数据中第一列的0为点击标签,表示该条曝光日志没有被用户点击,0.88示该条曝光日志的曝光权重;第二条训练数据中第一列的1为点击标签,表示该条曝光日志被用户点击,1.0表示该条曝光日志的曝光权重。第二列为数据特征字段,如表1所示,提取的曝光日志中的数据特征包括4组,编号分别为1、2、3、4,不同编号的数据特征对应不同的特征值。
由表1可以看出,点击标签为0的训练数据的曝光权重小于点击标签为1的训练数据的曝光权重,即曝光日志中,被用户点击的曝光日志在训练点击率预估模型时具有较大的权重。
根据历史搜索记录获得的多条训练数据组成训练点击率预估模型的训练数据集。
步骤240,基于生成的多条训练数据,训练点击率预估模型。
基于前述步骤获得的训练数据,可以采用svm模型或者gbdt模型训练点击率预估模型。具体实施时,将训练数据作为svm模型或者gbdt模型的输入数据,采用现有技术中的相应模型生成方法,可以直接训练出点击率预估模型。
优选地,还可以将获得的训练数据分成两部分,一部分作为模型训练数据,用于训练点击率预估模型;另一部分作为测试数据,用于对训练得到的点击率预估模型进行验证,或者,调整训练得到的点击率预估模型的参数。
优选的,若预先设定若干不同的修正值α值,则根据得到的多组训练数据,可以分别训练点击率预估模型。通过测试数据对训练得到的多个点击率预估模型进行验证,选择预测结果最准确的模型作为搜索时使用的点击率预估模型。
基于训练数据训练点击率预估模型的具体方案可以参见现有技术中点击率预估模型的生成方法,此处不再赘述。
步骤250,通过所述点击率预估模型进行点击率预估。
训练得到点击率预估模型之后,将待排序的搜索结果输入所述点击率预估模型,即可预估出该搜索结果的点击率。
本申请实施例公开的点击率预估方法,通过根据点击日志为曝光日志设置点击标签;分别确定所述曝光日志的相似度影响值;根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;根据每一条所述曝光日志的点击标签和曝光权重、从所述曝光日志中提取的数据特征,分别生成一条训练数据;基于生成的多条训练数据,训练点击率预估模型;最后,通过所述点击率预估模型进行点击率预估,解决了现有技术中进行点击率预估模型时没有考虑到相邻页面元素对曝光效果的影响,导致预估的点击率不准确的问题。通过基于所述曝光日志的点击标签和记录的页面元素的上下文相似度,分别设置该条曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。
实施例三
相应地,本申请实施例公开了一种点击率预估装置,如图3所示,所述装置包括:
日志处理模块300,用于根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息;
曝光权重设置模块310,用于基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
点击率预估模块320,用于根据设置有曝光权重的曝光日志,进行点击率预估。
本申请实施例公开的点击率预估装置,通过根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;对于所述曝光日志,基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;根据设置有曝光权重的曝光日志,进行点击率预估,解决了现有技术中进行点击率预估时没有考虑到相邻页面元素对曝光效果的影响,导致预估的点击率不准确的问题。通过基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。
实施例四
基于实施例三,本申请实施例四公开了一种点击率预估装置,如图4所示。
所述曝光权重设置模块310包括:
相似度影响值确定单元3101,用于确定所述曝光日志的相似度影响值;
曝光权重设置单元3102,用于根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
可选地,如图4所示,所述相似度影响值确定单元3101包括:
相似度确定子单元31011,用于分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度;
相似度权重确定子单元31012,用于分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度的权重;
相似度影响值计算子单元31013,用于根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
具体实施时,所述相似度确定子单元31011用于:
分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度。
可选地,所述相似度权重确定子单元31012用于:
根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
可选地,所述相似度影响值计算子单元31013用于:
对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
可选地,所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。
可选地,所述曝光权重设置单元3102用于:
若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;
若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;
其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积。
本申请实施例公开的点击率预估模型生成装置,通过根据点击日志为曝光日志设置点击标签,其中,曝光日志记录展现给用户的页面元素的信息;基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重;根据设置有曝光权重的曝光日志进行点击率预估,解决了现有技术中进行点击率预估时没有考虑到相邻页面元素对曝光效果的影响,导致预估的点击率不准确的问题。通过基于所述曝光日志的点击标签和页面元素的上下文相似度,设置对应曝光日志的曝光权重,然后在预估点击率时引入曝光权重,使得预估的点击率更加准确。
相应的,本申请还公开了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例一和实施例二所述的点击率预估方法。所述电子设备可以为PC机、移动终端、个人数字助理、平板电脑等。
本申请还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一和实施例二所述的点击率预估方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请提供的一种点击率预估方法、装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims (18)

1.一种点击率预估方法,其特征在于,包括:
根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
根据设置有曝光权重的曝光日志进行点击率预估。
2.如权利要求1所述的方法,其特征在于,所述基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重的步骤,包括:
确定所述曝光日志的相似度影响值;
根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
3.如权利要求2所述的方法,其特征在于,所述确定所述曝光日志的相似度影响值的步骤,包括:
分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,以及对应的相似度权重;
根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
4.如权利要求3所述的方法,其特征在于,确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度,包括:
分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度。
5.如权利要求3所述的方法,其特征在于,确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重,包括:
根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
6.如权利要求3所述的方法,其特征在于,所述根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值,包括:
对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
7.如权利要求2所述的方法,其特征在于,所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。
8.如权利要求2所述的方法,其特征在于,所述根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重的步骤,包括:
若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;
若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;
其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积。
9.一种点击率预估装置,其特征在于,包括:
日志处理模块,用于根据点击日志为曝光日志设置点击标签,其中,所述曝光日志记录展现给用户的页面元素的信息;
曝光权重设置模块,用于基于所述曝光日志的点击标签和页面元素的上下文相似度设置对应曝光日志的曝光权重;
点击率预估模块,用于根据设置有曝光权重的曝光日志进行点击率预估。
10.如权利要求9所述的装置,其特征在于,所述曝光权重设置模块包括:
相似度影响值确定单元,用于确定所述曝光日志的相似度影响值;
曝光权重设置单元,用于根据归一化后的所述曝光日志的相似度影响值和点击标签设置所述曝光日志的曝光权重;
其中,所述相似度影响值用于表示所述曝光日志记录的页面元素受满足预设条件的上下文页面元素的影响程度。
11.如权利要求10所述的装置,其特征在于,所述相似度影响值确定单元包括:
相似度确定子单元,用于分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度;
相似度权重确定子单元,用于分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重;
相似度影响值计算子单元,用于根据确定的所述相似度以及对应的相似度权重,计算所述曝光日志的相似度影响值。
12.如权利要求11所述的装置,其特征在于,所述相似度确定子单元用于:
分别确定所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素的预设维度属性值;
对于每一个满足预设条件的上下文页面元素,基于每个所述预设维度属性值,根据预设相似度计算模型分别计算所述曝光日志记录的页面元素和该上下文页面元素之间的单一维度相似度距离;
对于每一个满足预设条件的上下文页面元素,将计算得到的所述单一维度相似度距离进行加权平均,得到所述曝光日志记录的页面元素和该上下文页面元素之间的相似度距离;
根据所述相似度距离获得所述曝光日志记录的页面元素和该上下文页面元素之间的相似度。
13.如权利要求11所述的装置,其特征在于,所述相似度权重确定子单元用于:
根据预设的页面元素的展现位次之差的反比例函数,计算所述曝光日志记录的页面元素和每一个满足预设条件的上下文页面元素之间的相似度权重。
14.如权利要求11所述的装置,其特征在于,所述相似度影响值计算子单元用于:
对于确定的所有相似度,以每个所述相似度对应的所述相似度权重作为权值进行加权求和,将得到的和作为所述曝光日志的相似度影响值。
15.如权利要求10所述的装置,其特征在于,所述满足预设条件的上下文页面元素为:与所述曝光日志记录的页面元素的展现位次之差小于预设位次的页面元素;或,与所述曝光日志记录的页面元素的展现位次之差小于预设位次且与所述曝光日志记录的页面元素具有相同品类属性的页面元素。
16.如权利要求10所述的装置,其特征在于,所述曝光权重设置单元用于:
若所述曝光日志的点击标签指示该曝光日志记录的页面元素被用户点击过,则设置所述曝光日志的曝光权重为第一权重;
若所述曝光日志的点击标签指示该曝光日志记录的页面元素未被用户点击过,则设置所述曝光日志的曝光权重为第二权重;
其中,所述第二权重为第一权重减去所述归一化后的相似度影响值与预设修正值的乘积。
17.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项权利要求所述的点击率预估方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8任意一项所述方法的步骤。
CN201610848973.XA 2016-09-23 2016-09-23 一种点击率预估方法、装置及电子设备 Active CN106372249B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201610848973.XA CN106372249B (zh) 2016-09-23 2016-09-23 一种点击率预估方法、装置及电子设备
CA3070612A CA3070612A1 (en) 2016-09-23 2016-12-29 Click rate estimation
US16/335,928 US20190311395A1 (en) 2016-09-23 2016-12-29 Estimating click-through rate
PCT/CN2016/112949 WO2018053966A1 (zh) 2016-09-23 2016-12-29 点击率预估

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610848973.XA CN106372249B (zh) 2016-09-23 2016-09-23 一种点击率预估方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN106372249A true CN106372249A (zh) 2017-02-01
CN106372249B CN106372249B (zh) 2018-04-13

Family

ID=57898051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610848973.XA Active CN106372249B (zh) 2016-09-23 2016-09-23 一种点击率预估方法、装置及电子设备

Country Status (4)

Country Link
US (1) US20190311395A1 (zh)
CN (1) CN106372249B (zh)
CA (1) CA3070612A1 (zh)
WO (1) WO2018053966A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203686A (zh) * 2017-03-31 2017-09-26 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN109509010A (zh) * 2017-09-15 2019-03-22 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
CN109697636A (zh) * 2018-12-27 2019-04-30 拉扎斯网络科技(上海)有限公司 一种商户推荐方法、商户推荐装置、电子设备和介质
CN109858942A (zh) * 2018-11-06 2019-06-07 北京奇虎科技有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN110020129A (zh) * 2017-10-27 2019-07-16 腾讯科技(深圳)有限公司 点击率校正方法、预估方法、装置、计算设备及存储介质
CN110472039A (zh) * 2019-08-21 2019-11-19 上海络昕信息科技有限公司 一种内容摘要的生成方法、系统及相关装置
CN110674406A (zh) * 2019-09-29 2020-01-10 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN111144974A (zh) * 2019-12-04 2020-05-12 北京三快在线科技有限公司 一种信息展示方法及装置
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112884529A (zh) * 2021-03-24 2021-06-01 杭州网易云音乐科技有限公司 一种广告竞价方法、装置、设备及介质
CN113538053A (zh) * 2021-07-20 2021-10-22 深圳市炆石数据有限公司 用于品牌建设的ott资源位分类方法、系统及存储介质
CN113538054A (zh) * 2021-07-20 2021-10-22 深圳市炆石数据有限公司 Ott信息呈现位的价值计算分类方法、系统及存储介质
CN114357347A (zh) * 2021-12-28 2022-04-15 拓尔思信息技术股份有限公司 一种互联网文档的总访问量的估值方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158026B (zh) * 2021-03-08 2024-03-15 咪咕文化科技有限公司 物品分发方法、电子设备和存储介质
CN114662008B (zh) * 2022-05-26 2022-10-21 上海二三四五网络科技有限公司 基于点击位置因素改进的ctr热门内容计算方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185359A1 (en) * 2011-01-14 2012-07-19 Alibaba Group Holding Limited Ranking of query results based on individuals' needs
CN105701216A (zh) * 2016-01-13 2016-06-22 北京三快在线科技有限公司 一种信息推送方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593350B (zh) * 2012-08-14 2017-04-19 阿里巴巴集团控股有限公司 一种推荐推广关键词价格参数的方法和装置
CN103324696B (zh) * 2013-06-06 2016-06-22 合一信息技术(北京)有限公司 一种数据日志收集与统计分析系统和方法
CN104572734B (zh) * 2013-10-23 2019-04-30 腾讯科技(深圳)有限公司 问题推荐方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120185359A1 (en) * 2011-01-14 2012-07-19 Alibaba Group Holding Limited Ranking of query results based on individuals' needs
CN105701216A (zh) * 2016-01-13 2016-06-22 北京三快在线科技有限公司 一种信息推送方法及装置

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107203686A (zh) * 2017-03-31 2017-09-26 苏州艾隆信息技术有限公司 药品信息差异处理方法及系统
CN109509010A (zh) * 2017-09-15 2019-03-22 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
CN109509010B (zh) * 2017-09-15 2023-04-18 腾讯科技(北京)有限公司 一种多媒体信息处理方法、终端及存储介质
CN110020129A (zh) * 2017-10-27 2019-07-16 腾讯科技(深圳)有限公司 点击率校正方法、预估方法、装置、计算设备及存储介质
CN110020129B (zh) * 2017-10-27 2022-10-25 腾讯科技(深圳)有限公司 点击率校正方法、预估方法、装置、计算设备及存储介质
CN109858942A (zh) * 2018-11-06 2019-06-07 北京奇虎科技有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN109858942B (zh) * 2018-11-06 2023-12-15 三六零科技集团有限公司 推广信息展示方法、装置、电子设备及可读存储介质
CN109697636A (zh) * 2018-12-27 2019-04-30 拉扎斯网络科技(上海)有限公司 一种商户推荐方法、商户推荐装置、电子设备和介质
CN110472039A (zh) * 2019-08-21 2019-11-19 上海络昕信息科技有限公司 一种内容摘要的生成方法、系统及相关装置
CN110674406A (zh) * 2019-09-29 2020-01-10 百度在线网络技术(北京)有限公司 推荐方法、装置、电子设备及存储介质
CN111144974A (zh) * 2019-12-04 2020-05-12 北京三快在线科技有限公司 一种信息展示方法及装置
CN112749333B (zh) * 2020-07-24 2024-01-16 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112749333A (zh) * 2020-07-24 2021-05-04 腾讯科技(深圳)有限公司 资源搜索方法、装置、计算机设备和存储介质
CN112884529A (zh) * 2021-03-24 2021-06-01 杭州网易云音乐科技有限公司 一种广告竞价方法、装置、设备及介质
CN112884529B (zh) * 2021-03-24 2024-04-26 杭州网易云音乐科技有限公司 一种广告竞价方法、装置、设备及介质
CN113538053A (zh) * 2021-07-20 2021-10-22 深圳市炆石数据有限公司 用于品牌建设的ott资源位分类方法、系统及存储介质
CN113538053B (zh) * 2021-07-20 2023-09-01 深圳市爱易讯数据有限公司 用于品牌建设的ott资源位分类方法、系统及存储介质
CN113538054B (zh) * 2021-07-20 2023-09-01 深圳市爱易讯数据有限公司 Ott信息呈现位的价值计算分类方法、系统及存储介质
CN113538054A (zh) * 2021-07-20 2021-10-22 深圳市炆石数据有限公司 Ott信息呈现位的价值计算分类方法、系统及存储介质
CN114357347A (zh) * 2021-12-28 2022-04-15 拓尔思信息技术股份有限公司 一种互联网文档的总访问量的估值方法
CN114357347B (zh) * 2021-12-28 2024-04-26 拓尔思信息技术股份有限公司 一种互联网文档的总访问量的估值方法

Also Published As

Publication number Publication date
WO2018053966A1 (zh) 2018-03-29
CN106372249B (zh) 2018-04-13
CA3070612A1 (en) 2018-03-29
US20190311395A1 (en) 2019-10-10

Similar Documents

Publication Publication Date Title
CN106372249B (zh) 一种点击率预估方法、装置及电子设备
JP4747200B2 (ja) 広告品質の予測
CN103914468B (zh) 一种投放信息搜索的方法和装置
CN108460082B (zh) 一种推荐方法及装置,电子设备
US8290921B2 (en) Identification of similar queries based on overall and partial similarity of time series
CN107862022B (zh) 文化资源推荐系统
CN105912669B (zh) 用于补全搜索词及建立个体兴趣模型的方法及装置
WO2017190610A1 (zh) 目标用户定向方法、装置和计算机存储介质
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN105095187A (zh) 一种搜索意图识别方法及装置
CN110222975A (zh) 一种流失用户分析方法、装置、电子设备及存储介质
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
US20130110829A1 (en) Method and Apparatus of Ranking Search Results, and Search Method and Apparatus
US20120253945A1 (en) Bid traffic estimation
CN107146089A (zh) 一种刷单识别方法及装置,电子设备
CN107122467A (zh) 一种搜索引擎的检索结果评价方法及装置、计算机可读介质
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN105808762B (zh) 资源排序方法和装置
CN106445963B (zh) App平台的广告索引关键词自动生成方法和装置
CN106777282B (zh) 相关搜索的排序方法和装置
CN106033583A (zh) 一种应用于电子商务的广告竞价排名方法和系统
CN107590691B (zh) 一种信息发布方法及装置、存储介质、终端
CN104217030A (zh) 一种根据服务器搜索日志数据进行用户分类的方法和装置
CN110532351A (zh) 推荐词展示方法、装置、设备及计算机可读存储介质
CN108509499A (zh) 一种搜索方法及装置,电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant