CN105787767A - 一种广告点击率预估模型获取方法与系统 - Google Patents

一种广告点击率预估模型获取方法与系统 Download PDF

Info

Publication number
CN105787767A
CN105787767A CN201610119769.4A CN201610119769A CN105787767A CN 105787767 A CN105787767 A CN 105787767A CN 201610119769 A CN201610119769 A CN 201610119769A CN 105787767 A CN105787767 A CN 105787767A
Authority
CN
China
Prior art keywords
data
cluster
tensor
searching keyword
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610119769.4A
Other languages
English (en)
Inventor
陈海林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI TRUELAND INFORMATION TECHNOLOGY Co Ltd
Priority to CN201610119769.4A priority Critical patent/CN105787767A/zh
Publication of CN105787767A publication Critical patent/CN105787767A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种广告点击率预估模型获取方法与系统,获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据,根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据,建立张量,使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型,充分考虑了用户、查询关键词和广告之间的关系,使用特征降维和特征学习结合的方式,可以准确地进行广告点击率的预估。

Description

一种广告点击率预估模型获取方法与系统
技术领域
本发明涉及信息预测领域,特别是涉及一种广告点击率预估模型获取方法与系统。
背景技术
在线广告是互联网的商业模式之一,随着在线推广技术的发展,广告由“粗放式”投放正在向“精准化”投放转变,这一领域的研究称之为“计算广告学”。广告的点击率(CTR,Click-Through-Rate)是评价用户对广告的偏好程度的重要指标,对于广告的精准投放意义重大,因此点击率预估是信息检索和机器学习等领域研究的热点问题。
搜索广告呈现出数据量大、特征高维稀疏的特点,高维特征中有效信息(非0值)的维度很低,数据中包含的噪声会对真实信息干扰很大。已有的方法一般采用人工组合特征的方法来构造有用的特征,但是这种方法效率低并且不容易扩展,使得大多数CTR预估方法无法高效的在稀疏、高维的广告数据上获得准确的预估点击率。传统的解决方法是数据降维,如基于奇异值分解的SVD,抽取特征主成分的PCA,线性判别分析LDA等。但是这些方法在数据降维的同时,没有考虑广告点击数据呈现用户、查询和广告三维空间的内在关联,破坏了三者之间的内在联系,信息损失较大,无法精确地进行广告点击率预估。
发明内容
有鉴于此,本发明的主要目的在于提供一种广告点击率预估模型获取方法与系统,可以准确地进行广告点击率的预估。
为实现上述目的,本发明提供了一种广告点击率预估模型获取方法,包括:
获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后,得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据;
根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据;
根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量;
使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;
根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型。
优选地,所述历史点击日志数据包括:
由用户、查询关键词、广告和对应的广告展示次数组成的四元组作为唯一标识的各广告点击数据。
优选地,所述根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据包括:
根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵,根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵;
使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据,使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据,使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。
优选地,所述目标属性特征数据包括:
广告在返回页面的位置数据,广告数量数据、用户年龄数据和用户性别数据。
优选地,得到广告点击率预估模型后还包括:
根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。
本发明还提供了一种广告点击率预估模型获取系统,包括:
历史数据获取模块,用于获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后,得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据;
聚类降维模块,用于根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据;
张量建立模块,用于根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量;
张量降维模块,用于使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;
模型建立模块,用于根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型。
优选地,所述历史点击日志数据包括:
由用户、查询关键词、广告和对应的广告展示次数组成的四元组作为唯一标识的各广告点击数据。
优选地,所述聚类降维模块包括:
权重矩阵构建子模块,用于根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵,根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵;
聚类子模块,用于使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据,使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据,使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。
优选地,所述目标属性特征数据包括:
广告在返回页面的位置数据,广告数量数据、用户年龄数据和用户性别数据。
优选地,所述广告点击率预估模型获取系统还包括:
点击率预测模块,用于根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。
应用本发明提供的一种广告点击率预估模型获取方法与系统,获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据,根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据,建立张量,使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型,充分考虑了用户、查询关键词和广告之间的关系,使用特征降维和特征学习结合的方式,得到准确的广告点击率预估模型,从而可以准确地进行广告点击率的预估。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明一种广告点击率预估模型获取方法实施例一的流程图;
图2为本发明一种广告点击率预估模型获取方法实施例一的广告数据三维张量的塔克分解模型;
图3为本发明一种广告点击率预估模型获取方法实施例一的点击率预估模型获取流程图;
图4为本发明一种广告点击率预估模型获取系统实施例二的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
本发明提供了一种广告点击率预估模型获取方法,图1示出了本发明广告点击率预估模型获取方法的流程图,包括:
步骤S101:获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后,得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据;
当用户u提交查询关键词q后,搜索引擎会返回一组经过排序的广告列表,用户浏览返回列表并点击感兴趣的广告a。历史点击日志数据中的每条记录可以用一个四元组<u,q,a,s>唯一标识,u表示用户,q表示查询关键词,a表示广告,s表示给定<用户,查询,广告>情况下的展示次数。
步骤S102:根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据;
在历史点击日志数据中,用户之间、查询关键词之间以及广告之间都可能存在相似性,因此首先从相关性的角度对用户、查询关键词和广告三个维度分别进行聚类降维。
根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵,根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵;
使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据,使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据,使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。
例如用日志数据中提供的广告展示次数来建立广告-查询权重矩阵WNa*Nq,其中Na行表示广告数,Nq列表示查询数。Wij表示广告Ai对查询Qj的权重。
Q 1 ...... Q j Q N q A 1 W 1 , 1 ...... W 1 , j W 1 , N q ...... ...... ...... ...... ...... A i W i , 1 ...... W i , j W i , N q A N a W N a , 1 ...... W N a , j W N a , N q
对该广告-查询矩阵分别采用K-means算法进行聚类,查询集合进行一次降维处理,以降低张量分解的计算开销,针对广告维度的K-means算法流程如下:
输入:广告-查询矩阵WM*N,广告聚类簇数K;
输出:K个广告簇集合;
1.对广告-查询矩阵WM*N进行扫描,得到所有的M个广告和N个查询,分别记作A={a1,a2......,aM}和Q={q1,q2......,qM};
2.从M个广告中随机抽取K个作为最初的聚类中心点,记作T={t1,t2......,tM};
3.K个聚类集合{c1,c2......,ck}初始化为空集;
4.计算每个广告ai与各个聚类中心点ti之间的距离,计算公式如下:
D ( a i , t j ) = &Sigma; c &Element; G i j ( W a i - W a j ) 2 ;
其中Gij表示广告ai与作为聚类中心的广告ti共同展现的查询集合,分别是广告ai与ti的权重(展示次数)。
5.若D(ai,tj)=max(D(ai,t1),D(ai,t2),......,D(ai,tk)),则广告ai属于簇cj
6.计算同一聚类集合中所有广告的平均权重值,重新生成聚类中心;
7.如果聚类中心的偏差达到了设定的阈值,则聚类完成;否则转到第5步重新计算。
通过对广告的初始聚类,将具有相似查询的广告聚合到同一簇中,使得同一簇中的广告相似度尽可能的高。同样基于权重矩阵,对查询进行聚类,也就是说基于同一个广告-查询矩阵分别作聚类,聚类顺序不会影响后续的张量模型的建立。关于用户维度的聚类,同样的假设具有相同查询需求的用户具有相似性,用户的聚类直接由查询的聚类结果导出。同理对用户和查询关键词进行聚类后,将聚类结果保存在数据库中。
步骤S103:根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量;
基于聚类后的数据,利用聚类后的广告簇中广告的展示数之和作为三维空间中元素的权重,建立“用户-查询-广告-权重”四元关系〈ui,qj,ak,wi,j,k〉。
利用聚类后的用户数据、查询关键词和广告数据构建三维张量模型,用表示,三个维度的维度数分别是Ku,Kq,Ka
步骤S104:使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;
构建三维张量后,利用塔克张量分解法(TuckerFactorization),分解张量H,公式如下:
C表示张量H的核心张量(CoreTensor),类似于奇异值分解的对角矩阵,U,Q,A表示张量H在维度Ku,Kq,Ka上对应的特征矩阵,是张量H在对应三个维度上的主成分。
Tucker塔克分解的目的是找到一个与原始张量H近似的张量表示,并且最大程度保留原始的张量信息和结构信息。Tucker分解计算得到一个与原张量相近的张量表示,通过最小化下式得到:
min H | | H - H | | C &times; U u &times; Q q &times; A a = C ; U , Q , A ;
该公式表示原始张量与近似张量的近似程度,是优化的目标函数,通过最小化目标函数,以保证信息损失最小。
核心张量的表达式如下:
C=H×uUT×qQT×aAT
目标函数可以写成平方形式,即:
||H-C;U,Q,A||2
=||H||2-2>H×uUT×qQT×aAT,C>+||C||2
=||H||2-2<C,C>+||C||2
=||H||2-||C||2
=||H||2-||H×uUT×qQT×aAT||2
||H||2是一个常数,由原来的张量确定。因此,目标函数转化为上式右边的最大化问题的最优解,即:
max||H×uUT×qQT×aAT||2
上式可转化为:
||UTW||,W=H×qQT×aAT
||QTW||,W=H×uUT×aAT
||ATW||,W=H×uUT×qQT
在求最优解的过程中,需要固定其它维度的特征矩阵,即变量W,依次求解UT,QT,AT然后对UT,QT,AT进行SVD分解,则可求得最优解。对UT,QT,AT进行SVD分解时,首先展开张量H,分别在用户、查询、广告维度上展开张量H为矩阵,记作H1,H2,H3,三个矩阵的维度为:
H 1 &Element; R K u * K q * K a ;
H 2 &Element; R K u * K q * K a ;
H 3 &Element; R K u * K q * K a ;
在三个矩阵H1,H2,H3上应用奇异值分解(SVD),可得到:
H1∈U·C1·V1 T
H2∈Q·C2·V2 T
H3∈A·C3·V3 T
对于矩阵H1,H2,H3,需要确定三个维数的参数,分别是左奇异值矩阵U,Q,A中的维数C1,C2,C3。这三个参数决定张量H的核心张量C的维数,三个对角的奇异值矩阵C1,C2,C3是通过对张量H的展开矩阵H1,H2,H3进行奇异值分解得到的,而核心张量C的计算则是通过三个对角奇异值矩阵C1,C2,C3求得。维数c1,c2,c3的计算则通过对C1,C2,C3的对角奇异值从大到小按照比例计算而得。保留大的奇异值,按照比例删减小的奇异值,从而达到维数的归约、对原始张量降维的目的。本实施例采用的删减奇异值的比例设置为50%,即表示经过归约的维数等于c1,c2,c3的50%,删减奇异值的比例可根据需求进行设定调节。
由于通过维数归约,确定降维后的新维数参数计算降维后的新的核心张量C:
C = H &times; U c ^ 1 T u &times; Q c ^ 2 T q &times; A c ^ 3 T a ;
确定新核心张量C,以及新的特征矩阵即对原来的张量H进行降维后,构建得到新的降维后的近似张量H:
C = H &times; U c ^ 1 T u &times; Q c ^ 2 T q &times; A c ^ 3 T a .
图2为广告数据三维张量的Tucker分解模型。
步骤S105:根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型。
所述目标属性特征数据可包括:广告在返回页面的位置数据,广告数量数据、用户年龄数据和用户性别数据等,将上述特征和求出的近似张量作为支持向量机的输入,输入特征内容构成如下表1所示:
采用径向基RBF核函数,学习特征之间的非线性关系,得到广告点击率的预估模型,然后基于学习出的模型预测点击率。
如图3所示,为本实施例中广告点击率预估模型的获取流程图,分为特征降维和特征学习两部分。
应用本实施例提供的一种广告点击率预估模型获取方法,获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据,根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据,建立张量,使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型,充分考虑了用户、查询关键词和广告之间的关系,使用特征降维和特征学习结合的方式,得到准确的广告点击率预估模型,从而可以准确地进行广告点击率的预估。
本发明还提供了一种广告点击率预估模型获取系统,图4示出了本发明广告点击率预估模型获取系统实施例的结构示意图,包括:
历史数据获取模块101,用于获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后,得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据;
聚类降维模块102,用于根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据;
张量建立模块103,用于根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量;
张量降维模块104,用于使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;
模型建立模块105,用于根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型。
本实施例中,所述历史点击日志数据可包括:
由用户、查询关键词、广告和对应的广告展示次数组成的四元组作为唯一标识的各广告点击数据。
所述聚类降维模块102可包括:
权重矩阵构建子模块,用于根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵,根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵;
聚类子模块,用于使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据,使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据,使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。
所述目标属性特征数据可包括:
广告在返回页面的位置数据,广告数量数据、用户年龄数据和用户性别数据。
广告点击率预估模型获取系统还可包括:
点击率预测模块,用于根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。
应用本实施例提供的一种广告点击率预估模型获取系统,获取根据用户、查询关键词、查询结果中被点击的广告以及广告展示次数的数据生成的历史点击日志数据,根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据,建立张量,使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型,充分考虑了用户、查询关键词和广告之间的关系,使用特征降维和特征学习结合的方式,得到准确的广告点击率预估模型,从而可以准确地进行广告点击率的预估。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种广告点击率预估模型获取方法,其特征在于,包括:
获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后,得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据;
根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据;
根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量;
使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;
根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型。
2.根据权利要求1所述的广告点击率预估模型获取方法,其特征在于,所述历史点击日志数据包括:
由用户、查询关键词、广告和对应的广告展示次数组成的四元组作为唯一标识的各广告点击数据。
3.根据权利要求1所述的广告点击率预估模型获取方法,其特征在于,所述根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据包括:
根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵,根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵;
使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据,使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据,使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。
4.根据权利要求1所述的广告点击率预估模型获取方法,其特征在于,所述目标属性特征数据包括:
广告在返回页面的位置数据,广告数量数据、用户年龄数据和用户性别数据。
5.根据权利要求1所述的广告点击率预估模型获取方法,其特征在于,得到广告点击率预估模型后还包括:
根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。
6.一种广告点击率预估模型获取系统,其特征在于,包括:
历史数据获取模块,用于获取根据用户、查询关键词、查询结果中被点击的广告以及给定目标用户和目标查询关键词后,得到的目标查询结果中被点击的目标广告的广告展示次数的数据生成的历史点击日志数据;
聚类降维模块,用于根据所述广告展示次数数据,分别对所述用户、所述查询关键词和所述广告的数据进行聚类降维,分别得到聚类后的用户数据,聚类后的查询关键词数据和聚类后的广告数据;
张量建立模块,用于根据所述聚类后的用户数据、聚类后的查询关键词数据和聚类后的广告数据建立张量;
张量降维模块,用于使用塔克张量分解法对所述张量进行分解,得到所述张量降维后的近似张量;
模型建立模块,用于根据其他目标属性特征数据和所述近似张量,进行基于径向基函数的支持向量机学习,得到广告点击率预估模型。
7.根据权利要求6所述的广告点击率预估模型获取系统,其特征在于,所述历史点击日志数据包括:
由用户、查询关键词、广告和对应的广告展示次数组成的四元组作为唯一标识的各广告点击数据。
8.根据权利要求6所述的广告点击率预估模型获取系统,其特征在于,所述聚类降维模块包括:
权重矩阵构建子模块,用于根据所述广告展示次数数据、所述广告数据以及所述查询关键词数据建立广告与查询关键词关联的第一权重矩阵,根据所述广告展示次数数据、所述用户数据以及所述查询关键词数据建立用户与查询关键词关联的第二权重矩阵;
聚类子模块,用于使用K-means方法对所述第一权重矩阵进行针对用户数据的聚类得到聚类后的用户数据,使用K-means方法对所述第一权重矩阵进行针对查询关键词数据的聚类得到聚类后的查询关键词数据,使用K-means方法对所述第二权重矩阵进行针对用户数据的聚类得到聚类后的用户数据。
9.根据权利要求6所述的广告点击率预估模型获取系统,其特征在于,所述目标属性特征数据包括:
广告在返回页面的位置数据,广告数量数据、用户年龄数据和用户性别数据。
10.根据权利要求6所述的广告点击率预估模型获取系统,其特征在于,还包括:
点击率预测模块,用于根据所述广告点击率预估模型对给定查询关键词后的目标广告的点击率进行预测。
CN201610119769.4A 2016-03-03 2016-03-03 一种广告点击率预估模型获取方法与系统 Pending CN105787767A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610119769.4A CN105787767A (zh) 2016-03-03 2016-03-03 一种广告点击率预估模型获取方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610119769.4A CN105787767A (zh) 2016-03-03 2016-03-03 一种广告点击率预估模型获取方法与系统

Publications (1)

Publication Number Publication Date
CN105787767A true CN105787767A (zh) 2016-07-20

Family

ID=56386978

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610119769.4A Pending CN105787767A (zh) 2016-03-03 2016-03-03 一种广告点击率预估模型获取方法与系统

Country Status (1)

Country Link
CN (1) CN105787767A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106803190A (zh) * 2017-01-03 2017-06-06 北京掌阔移动传媒科技有限公司 一种广告个性化推送系统及方法
CN106815749A (zh) * 2017-01-20 2017-06-09 晶赞广告(上海)有限公司 广告投放图谱构建方法及广告投放图谱异常投放检测方法
CN106997550A (zh) * 2017-03-17 2017-08-01 常州大学 一种基于栈式自编码器的广告点击率预测的方法
CN107767174A (zh) * 2017-10-19 2018-03-06 厦门美柚信息科技有限公司 一种广告点击率的预测方法及装置
CN108229987A (zh) * 2016-12-14 2018-06-29 腾讯科技(深圳)有限公司 一种广告库存估算方法及装置
CN108241699A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108874794A (zh) * 2017-05-08 2018-11-23 广东原昇信息科技有限公司 一种实时sem关键词转化效果分析系统及其分析方法
CN110069691A (zh) * 2019-04-29 2019-07-30 百度在线网络技术(北京)有限公司 用于处理点击行为数据的方法和装置
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110263982A (zh) * 2019-05-30 2019-09-20 百度在线网络技术(北京)有限公司 广告点击率预估模型的优化方法和装置
CN110427578A (zh) * 2019-07-16 2019-11-08 盐城师范学院 一种基于深度机器学习的数字内容投放方法
CN111445282A (zh) * 2020-03-20 2020-07-24 支付宝(杭州)信息技术有限公司 基于用户行为的业务处理方法、装置及设备
CN112418896A (zh) * 2019-08-20 2021-02-26 北京国双科技有限公司 数据挖掘方法,装置、存储介质及电子设备
CN113435523A (zh) * 2021-06-29 2021-09-24 北京百度网讯科技有限公司 预测内容点击率的方法、装置、电子设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周永: "基于特征学习的广告点击率预估技术研究", 《万方数据知识服务平台》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229987A (zh) * 2016-12-14 2018-06-29 腾讯科技(深圳)有限公司 一种广告库存估算方法及装置
CN108241699A (zh) * 2016-12-26 2018-07-03 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106803190A (zh) * 2017-01-03 2017-06-06 北京掌阔移动传媒科技有限公司 一种广告个性化推送系统及方法
CN106815749A (zh) * 2017-01-20 2017-06-09 晶赞广告(上海)有限公司 广告投放图谱构建方法及广告投放图谱异常投放检测方法
CN106997550A (zh) * 2017-03-17 2017-08-01 常州大学 一种基于栈式自编码器的广告点击率预测的方法
CN108874794A (zh) * 2017-05-08 2018-11-23 广东原昇信息科技有限公司 一种实时sem关键词转化效果分析系统及其分析方法
CN107767174A (zh) * 2017-10-19 2018-03-06 厦门美柚信息科技有限公司 一种广告点击率的预测方法及装置
CN110209758A (zh) * 2019-04-18 2019-09-06 同济大学 一种基于张量分解的文本增量降维方法
CN110209758B (zh) * 2019-04-18 2021-09-03 同济大学 一种基于张量分解的文本增量降维方法
CN110069691A (zh) * 2019-04-29 2019-07-30 百度在线网络技术(北京)有限公司 用于处理点击行为数据的方法和装置
CN110069691B (zh) * 2019-04-29 2021-05-28 百度在线网络技术(北京)有限公司 用于处理点击行为数据的方法和装置
CN110263982A (zh) * 2019-05-30 2019-09-20 百度在线网络技术(北京)有限公司 广告点击率预估模型的优化方法和装置
CN110427578A (zh) * 2019-07-16 2019-11-08 盐城师范学院 一种基于深度机器学习的数字内容投放方法
CN110427578B (zh) * 2019-07-16 2020-06-02 盐城师范学院 一种基于深度机器学习的数字内容投放方法
CN112418896A (zh) * 2019-08-20 2021-02-26 北京国双科技有限公司 数据挖掘方法,装置、存储介质及电子设备
CN111445282A (zh) * 2020-03-20 2020-07-24 支付宝(杭州)信息技术有限公司 基于用户行为的业务处理方法、装置及设备
CN111445282B (zh) * 2020-03-20 2023-02-10 支付宝(杭州)信息技术有限公司 基于用户行为的业务处理方法、装置及设备
CN113435523A (zh) * 2021-06-29 2021-09-24 北京百度网讯科技有限公司 预测内容点击率的方法、装置、电子设备以及存储介质
CN113435523B (zh) * 2021-06-29 2023-09-26 北京百度网讯科技有限公司 预测内容点击率的方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN105787767A (zh) 一种广告点击率预估模型获取方法与系统
Wang et al. Billion-scale commodity embedding for e-commerce recommendation in alibaba
WO2020147594A1 (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
Mao et al. Multiobjective e-commerce recommendations based on hypergraph ranking
US7774227B2 (en) Method and system utilizing online analytical processing (OLAP) for making predictions about business locations
CN103064945B (zh) 基于本体的情境搜索方法
US8577930B2 (en) Measuring topical coherence of keyword sets
US20100306161A1 (en) Click through rate prediction using a probabilistic latent variable model
CN111259263B (zh) 一种物品推荐方法、装置、计算机设备及存储介质
CN103744966A (zh) 一种物品推荐方法、装置
CN106600302A (zh) 基于Hadoop的商品推荐系统
JP5859606B2 (ja) オンライン商取引プラットフォームにおける広告ソースおよびキーワードセットの適合
CN103544216A (zh) 一种结合图像内容和关键字的信息推荐方法及系统
CN104951468A (zh) 数据搜索处理方法和系统
CN103514239A (zh) 一种集成用户行为和物品内容的推荐方法及系统
Serrano Neural networks in big data and Web search
CN106157156A (zh) 一种基于用户社区的协作推荐系统
EP4131026A1 (en) System and method for multi-modal transformer-based catagorization
CN106339486A (zh) 一种基于大规模词汇树的增量学习的图像检索方法
CN101957825A (zh) 基于网页中图像、视频内容的图像搜索方法
Xie et al. Robust transfer integrated locally kernel embedding for click-through rate prediction
CN112446739B (zh) 一种基于分解机和图神经网络的点击率预测方法及系统
US20190325531A1 (en) Location-based candidate generation in matching systems
US20230049969A1 (en) Contextual geoanalytics engine in a data analytics system
Joppi et al. POP: mining POtential Performance of new fashion products via webly cross-modal query expansion

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160720

WD01 Invention patent application deemed withdrawn after publication