CN108734499A - 推广信息效果分析方法及装置、计算机可读介质 - Google Patents
推广信息效果分析方法及装置、计算机可读介质 Download PDFInfo
- Publication number
- CN108734499A CN108734499A CN201710278145.1A CN201710278145A CN108734499A CN 108734499 A CN108734499 A CN 108734499A CN 201710278145 A CN201710278145 A CN 201710278145A CN 108734499 A CN108734499 A CN 108734499A
- Authority
- CN
- China
- Prior art keywords
- factor
- promotion message
- value
- joint probability
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
- G06Q30/0244—Optimization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种推广信息效果分析方法及装置、计算机可读介质;方法包括:基于影响推广信息效果的因素、以及因素之间的依赖关系构建贝叶斯网络的网络结构;基于各因素的取值构造训练数据;基于训练数据确定因素的联合概率分布;查询因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到待分析推广信息的证据因素的取值为观测值的第二联合概率;计算第一联合概率与第二联合概率的比值,得到待分析推广信息的查询因素为给定值时,查询因素对待分析推广信息的推广信息效果的影响程度。实施本发明,能够精确分析出不同因素对推广信息效果的影响程度。
Description
技术领域
本发明涉及通信技术,尤其涉及一种推广信息效果分析方法及装置、计算机可读介质。
背景技术
互联网推广信息(本文中简称为推广信息,例如,广告)作为在互联网进行信息推广的典型技术,已经成为用户获取信息、以及推广信息主提升知名度和宣传产品的重要途径。
以推广信息为广告为例,为了优化广告投放的效果,广告系统需要获知影响广告效果的各种因素,从而能够根据各种因素如出价(出价的高低)、素材(质量的高低)等对广告效果(如点击率、广告投入等)的影响,一方面,供广告主了解不同因素对广告效果的影响,另一方面,根据不同因素的影响调整后期的广告投放,从而,在对广告系统的资源如广告位)低占用的基础上,实现广告效果的最优化。
相关技术提供的广告效果分析方案,存在以下问题:
1)不能精确确定因素对于广告效果的影响。
相关技术只能针对影响广告投放的因素进行定性的描述,给出不同因素对于广告效果的影响的定性描述如影响较大/较小等,对于广告主和广告系统运维人员来说,难以根据因素的定性影响调整后期的广告投放。
2)统计因素对于广告效果的影响具有片面性。
在广告的投放过程中,广告效果受到多个因素的影响,而且因素本身往往处于不断的变化中,相关技术无法准确区分广告效果发生变化具体是受一个因素还是多个因素影响,只能给出一个可能的估计,对于后期调整因素以提高广告效果而言不具有指导意义。
综上,相关技术对于精确、高效确定不同因素对于推广信息效果的影响,尚无有效解决方案。
发明内容
本发明实施例提供一种推广信息效果分析方法及装置、计算机可读介质,能够精确、高效分析出不同因素对推广信息效果的影响程度。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供一种推广信息效果分析方法,包括:
基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
基于各所述因素的取值构造训练数据;
基于所述训练数据确定所述因素的联合概率分布;
查询所述因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及所述待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
计算所述第一联合概率与所述第二联合概率的比值,得到所述待分析推广信息的查询因素为所述给定值时,所述查询因素对所述待分析推广信息的推广信息效果的影响程度。
第二方面,本发明实施例提供一种推广信息效果分析装置,包括:
网络结构单元,用于基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
数据构造单元,用于基于各所述因素的取值构造训练数据;
分布学习单元,用于基于所述训练数据确定所述因素的联合概率分布;
查询单元,用于查询所述因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及所述待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
所述查询单元,还用于计算所述第一联合概率与所述第二联合概率的比值,得到所述待分析推广信息的查询因素为所述给定值时,所述查询因素对所述待分析推广信息的推广信息效果的影响程度。
第三方面,本发明实施例提供一种推广信息效果分析装置,包括:
存储器,用于存储计算机程序;
处理器,用于通过执行所述存储器中存储的计算机程序时实现以下步骤:
网络结构单元,用于基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
数据构造单元,用于基于推广信息的各所述因素的取值构造训练数据;
分布学习单元,用于基于所述训练数据确定所述因素的联合概率分布;
查询单元,用于查询所述因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及所述待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
所述查询单元,还用于计算所述第一联合概率与所述第二联合概率的比值,得到所述待分析推广信息的查询因素为所述给定值时,所述查询因素对所述待分析推广信息的推广信息效果的影响程度。
第四方面,本发明实施例提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
网络结构单元,用于基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
数据构造单元,用于基于推广信息的各所述因素的取值构造训练数据;
分布学习单元,用于基于所述训练数据确定所述因素的联合概率分布;
查询单元,用于查询所述因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及所述待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
所述查询单元,还用于计算所述第一联合概率与所述第二联合概率的比值,得到所述待分析推广信息的查询因素为所述给定值时,所述查询因素对所述待分析推广信息的推广信息效果的影响程度。
本发明实施例具有这样的有益效果:
基于因素的条件概率分布确定贝叶斯网络中因素的联合概率分布,在已知证据因素的条件下,将查询因素对推广信息效果的影响程度的问题,转换为计算查询因素相对于证据因素的条件概率的问题,一方面,查询因素相对于证据因素的条件可以通过查询因素与证据因素的联合概率、与证据因素的联合概率的比值精确计算得到,对于任意推广信息而言,在获知一些因素的取值(证据因素)的情况下,可以获得查询因素(取值未知的因素)对推广信息效果的影响程度的精确量化表示;另一方面,根据需要查询因素可以为一个或多个,从而可以获得一个因素对推广信息效果的影响程度,也可获得多个因素共同作用时对推广信息效果的影响程度。
附图说明
图1是本发明实施例提供的贝叶斯网络的一个可选的结构示意图;
图2是本发明实施例的贝叶斯网络学习的一个可选的实现示意图;
图3是本发明实施例提供的推广信息系统的一个可选的功能结构示意图;
图4是本发明实施例提供的推广信息效果分析装置的一个可选的软/硬件结构示意图;
图5-1是本发明实施例提供的推广信息效果分析方法的一个可选的流程示意图;
图5-2是本发明实施例提供的推广信息效果分析方法的一个可选的流程示意图;
图6是本发明实施例提供的贝叶斯网络的网络结构的一个可选的示意图;
图7是本发明实施例提供的根据因素的影响程度进行推广信息投放调整的一个可选的示意图。
具体实施方式
以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本发明,并不用于限定本发明。另外,以下所提供的实施例是用于实施本发明的部分实施例,而非提供实施本发明的全部实施例,在不冲突的情况下,本发明实施例记载的技术方案可以任意组合的方式实施。
对本发明进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)推广信息效果,这里推广信息可以为广告等需要在互联网传播的信息,当推广信息为广告时,则推广信息效果即为广告效果(以下类似,不再重复电说明),基于推广信息点击率、推广信息转化率、推广信息等一个或多个可以量化表示的指标,表示推广信息在传播、转化等方面产生的作用。
2)因素,即影响推广信息效果的因素,本文中也称为推广信息的因素,因素的取值是随机的因此可以视为随机变量。
本文中,因素包括以下几个类型:
2.1)出价(Bid),推广信息主(有投放推广信息的需求的用户)针对推广信息的投放愿意支付的费用,出价的取值可以使用高、中、低这样离散的取值方式,也可以采用量化的连续取值方式;
2.2)定向(Target),推广信息投放的受众的维度,如年龄、地域等,定向的取值可以使用优、一般、差这样离散的表示定向准确度取值方式,也可以采用量化的连续取值方式;
2.3)素材(记为Creative),制作推广信息的图片、文字等媒体因素,素材的取值用于表示素材的质量,使用优、一般、差这样离散的表示素材质量的取值方式,也可以采用量化的连续取值方式;
2.4)点击率预测(pCTR,predict Click-Through Rate),基于历史推广信息的点击数据预估的推广信息的点击率,点击率预测取值可以使用高、中、低这样离散的表示点击率大小的取值方式,也可以采用量化的连续取值方式;
2.5)社交(Social),也可称为社交互动,用户在推广信息的曝光期间是否参与推广信息提供的互动,参与社交互动的频繁程度可以使用高、中、低等这样离散的取值方式;
2.6)负反馈率(NFBR,Negative Feed Back Rate),推广信息受众针对曝光的推广信息的反馈的比例,如:感兴趣程度的高、中、低这样离散的取值方式。
2.7)竞争环境(Comp_Evn,Competitive Environment),推广信息与其他定向相同或相似的推广信息在竞价排名的激烈程度,竞争环境的取值可以使用高、中、低这样离散的取值方式。
2.8)竞争力(Comp_Power,Competitive Power),表示推广信息与其他推广信息在社交、素材、负反馈率和出价方面等推广信息效果产生影响的整体度量,可以采用高、中、低来这样离散的取值方式。
2.9)性能(Performance),对前述的因素对推广信息效果的影响的整体度量,这样离散的取值方式。
需要指出的,上述因素的取值以离散的取值方式为例说明,当然,本发明实施例不排除对因素的取值采用量化的连续取值方式,例如,对于素材的质量,赋予在取值空间(1,10)中的值,数值以素材的质量的具有正相关的关系。
3)查询因素,即对于待分析推广信息而言取值未知的因素,即需要查询对推广信息效果的影响程度的因素。例如,对于素材来讲,如果因为各种原因导致无法直接统计投放的推广信息的素材质量,并需要查询在其他因素取值一定 (即其他因素的取值为日志数据统计分析得到、或通过其他方式如线下调查得到的观测值的情况下)素材对推广信息效果的影响,则素材为查询因素,由于查询因素属于随机变量,因此也称为查询变量(QueryVariables)。
4)证据因素,即对于投放的推广信息的影响的因素中取值已知(已经给定的)的因素,由于证据因素属于随机变量,因此也称为证据变量(Evidence Variables)。
5)贝叶斯网络,用于衡量不同因素对推广信息效果的影响程度;由给定数量的因素(作为随机变量)按照特定的网络结构和条件概率表组成。
网络结构是一个有向无环图(DAG,Directed Acyclic Graph),由因素(网络结构中每个节点代表一个因素)及连接这些因素的有向边构成,在网络结构中因素之间的有向边代表了因素之间的依赖关系(也称为因果关系),由原因因素(本文中也称为父因素,父节点)指向依赖原因因素的结果因素(本文中也称为子因素,子节点)。
例如,参见图1,图1是本发明实施例提供的贝叶斯网络的一个可选的结构示意图,网络结构中涉及因素a,b,c,其中,因素a,b作为原因因素,因素c是相对于原因因素a,b的结果因素。
6)学习,包括贝叶斯网络的网络结构的学习、以及网络参数的学习;参见图2,图2是本发明实施例的贝叶斯网络学习的一个可选的实现示意图,贝叶斯网络利用训练数据对先验的贝叶斯网络的修正,包括网络结构的学习和条件概率表的学习,网络结构的学习是利用训练数据集合先验知识确定网络节点,包括贝叶斯网络包括的节点及节点之间的有向的连接(依赖关系);参数的学习是在网络结构的基础上,确定各因素相对于原因因素的条件概率分布,或者,确定各因素与所依赖因素的联合概率分布。贝叶斯网络能够持续迭代学习,上次学习得到的后验贝叶斯网络能够变成下一次学习的先验贝叶斯网络,
7)条件概率表,与贝叶斯网络中的因素一一对应,即使用表格表示的因素相对于所依赖的全部原因因素(根据网络结构,所依赖的原因因素的数量为一个或两个以上)的条件概率分布,表达结果因素与各个因素之间的关系强度。就图1中的因素c的条件概率表而言,使用因素c相对于全部原因因素a,b的条件概率分布进行表达关系强度,设各因素的取值空间为(0,1),因素c的条件概率表的一个示例如表1所示:
表1
当一个因素不具有父因素时,该因素的条件概率分布使用先验概率表达,例如,就图1中的因素a而言,对应的条件概率表的一个示例如表2所示:
a | a=1 | a=0 |
P(a) | 0.4 | 0.6 |
表2
例如,就图1中的因素b而言,对应的条件概率表的一个示例如表3所示:
b | a=1 | a=0 |
P(b) | 0.3 | 0.7 |
表3
由于贝叶斯网络中的因素不具有连接关系的因素是条件独立的,因此贝叶斯网络中所有因素的联合概率分布P(x1,x2,x3,x4,...xn)等于因素xi相对于其原因因素Parents(xi)的条件概率分布P(xi|Parents(xi))的乘积,则 P(x1,x2,x3,x4,...xn)表示为:
其中,I为贝叶斯网络中因素xi的原因因素的数量。
仍以图1为例,根据贝叶斯定理,因素a,b,c的联合概率表示为原因因素、结果因素相对于原因因素的条件概率的乘积,例如:
P(a,b,c)=P(c|a,b)P(a)P(b);
因此,对于因素的条件概率分布表而言,也可以替换为各因素与所依赖因素的联合概率分布表。
8)条件概率,一个因素的取值在其他因素(一个或多个因素的取值确定时) 发生的概率,例如,对于因素a,b,c,P(c=1|a=2,b=3)为在以a=1、b=2作为条件时c=1的概率。
9)条件概率分布,一个或两个以上相对于其他的一个或两个以上的因素(取值一定)时的条件概率形成的分布函数,称为条件概率分布。
例如,在一个因素a,b取值为观测值即a=1,b=1的条件下,因素c的取值为不同值时的条件概率P(c|a=1,b=1)的分布情况,叫做c相对于a,b的条件概率分布。
10)先验条件概率分布,基于先验知识,对于贝叶斯网络中的各因素θ相对于所依赖因素的条件概率分布的一个推测。
11)后验条件概率分布,先验条件概率分布P(θ)相对于训练数据D的条件分布。
12)联合概率,多个因素取值的概率,如联合概率P(a=1,b=1,c=1)表示 a=1,b=1,c=1的概率。
13)联合概率分布,多个因素在取值为在给定的取值空间时形成的联合概率的分布函数,如P(a,b,c)在a,b,c的取值空间为(0,1)时的联合概率的分布函数。
14)独立事件,一个事件发生的概率对另一个事件发生的概率不产生影响,则成这个两个事件为独立事件;例如,取值的概率互不影响的两个或多个因素,则两个或多个因素相互独立;因素的多个取值的概率互不影响,则该因素的多个取值相互独立。
15)最大期望(EM,Expectation Maximization)算法,是指在贝叶斯网络中寻找变量的最大似然估计或者最大后验估计的算法,其中贝叶斯网络依赖于无法观测的隐藏因素,也称为隐藏变量(Latent Variable)。
最大期望算法包括两个交替进行的步骤:第一步是计算期望(E, Expectation),利用对隐藏因素的现有估计值,计算隐藏因素最大似然估计值;第二步是最大化(M,Maximization),最大化在E步骤上求得的最大似然值来计算参数的估计值。M步骤上找到的参数估计值被用于下一个E步骤的计算中,这个过程不断交替进行,直至满足收敛条件。
本发明实施例提供一种推广信息效果分析方法、以及实施推广信息效果分析方法的推广信息效果分析装置,推广信息效果分析装置可以耦合到推广信息系统中,针对不同因素对已经投放推广信息的推广信息效果的影响程度进行分析,如出价、素材等,根据影响程度进行调整,从而可以形成对推广信息效果进行调整的闭环,保证投放推广信息的效果。
实际应用中,推广信息效果分析装置的功能可以叠加到推广信息系统中的任意功能实体中,就推广信息效果分析装置作为推广信息效果分析端设置在推广信息系统为例进行说明。当然,推广信息效果分析装置的功能也可以设置在推广信息系统已有的任意功能实体如前端中,根据需要灵活实施,本发明实施例不排除任意在推广信息系统中实施推广信息效果分析装置的方式。
参见图3,图3是本发明实施例提供的推广信息系统10的一个可选的功能结构示意图,在图3中,涉及数据库11、投放端12、计费端13、前端14、排序端15和推广信息效果分析端16;分别进行说明。
数据库11用于进行推广信息系统10的各种业务数据、日志数据的存储,例如,包括:推广信息主通过前端14上传的待投放的推广信息/定向投放条件;投放端12投放推广信息的日志,如推广信息受众侧投放推广信息时推广信息受众是否参与推广信息中发起的社交,推广信息受众针对推广信息的反馈,如对推广信息是否感兴趣等;投放端12维护的一个待投放的推广信息队列(根据推广信息受众的访问流量是否符合定向投放条件、竞价排名等各种排序策略从数据库11的待投放推广信息中选择)投放推广信息的竞争环境。
投放端12,用于当推广信息受众产生针对互联网的访问流量时将推广信息队列中的推广信息投放到推广信息受众的访问流量(如网页、各种基于互联网的应用)中。
计费端13,用于根据为不同推广信息主投放推广信息的数据(如曝光量、点击量、推广信息转换效果的数量),以及推广信息主在投放推广信息时选定的计费方式(如按照曝光/点击/推广信息效果的计费)生成计费数据。
前端14,用于提供向推广信息系统10的网络访问方式(如基于图形界面),支持推广信息主针对待投放的推广信息进行设定,如接收推广信息主上传的投放推广信息、以及相关的定性投放条件,另外,还支持向推广信息主提供各种查询功能,如订单完成情况,推广信息效果统计等。
排序端15,用于根据推广信息主针对待投放推广信息的出价、以及其他排序策略对待投放的推广信息排序形成推广信息队列,按照推广信息队列中的优先级顺序向推广信息受众访问的流量中投放,并在数据库11中记录相关的投放数据。
推广信息效果分析端16,用于从数据库11提取推广信息投放的日志数据,提取出的影响推广信息效果的各种因素的数据,如出价、定向、素材、点击率预测、社交、负反馈率和竞争环境等。
就推广信息效果分析装置实施为推广信息效果分析端16时的软/硬件结构来说,参见图4,包括:硬件层、中间层、操作系统层和应用层。然而,本领域的技术人员应当理解,图4示出的推广信息效果分析端16的结构仅为示例,并不构成对推广信息效果分析端16结构的限定。例如,推广信息效果分析端 16可以根据实施需要设置较图4更多的组件,或者根据实施需要省略设置部分组件。
推广信息效果分析端16的硬件层包括处理器161、输入/输出接口163,存储器164以及网络接口162,组件可以经系统总线连接通信。
处理器161可以采用中央处理器(CPU)、微处理器(MCU,Microcontroller Unit)、专用集成电路(ASIC,Application Specific Integrated Circuit)或逻辑可编程门阵列(FPGA,Field-Programmable Gate Array)实现。
输入/输出接口163可以采用如显示屏、触摸屏、扬声器等输入/输出器件实现。
存储器164可以采用闪存、硬盘、光盘等非易失性存储介质实现,也可以采用双倍率(DDR,Double Data Rate)动态缓存等易失性存储介质实现,其中存储有用以执行上述推广信息效果分析方法的可执行指令。
网络接口162向处理器161提供外部数据如异地设置的存储器164的基于网络传输协议(TCP,Transfer Control Protocol)/用户数据协议(UDP,User Datagram Protocol)的访问能力。
驱动层包括用于供操作系统166识别硬件层并与硬件层各组件通信的中间件165,例如可以为针对硬件层的各组件的驱动程序的集合。
操作系统166用于提供面向用户(如推广信息主和推广信息系统运维人员) 的图形界面,操作系统166支持用户经由图形界面对设备的控制本发明实施例对上述设备的软件环境如操作系统类型、版本不做限定,例如可以是Linux操作系统和UNIX操作系统等。
应用层包括用于实现推广信息效果分析方法的相关应用,例如推广信息效果分析应用167,用于根据贝叶斯网络,在已知一些因素取值(即证据因素) 的条件下,量化评估不同给定值的查询因素(对推广信息效果的影响未知的因素)对待分析推广信息的推广信息效果产生的影响,将查询因素对待分析推广信息的推广信息效果的影响程度,使用查询因素(在不同取值的情况下)相对于其他因素即证据因素(取值已知的因素)的条件概率表示。
需要指出地,上述关于应用层的功能结构的划分仅仅是示例性地,可以对部分功能单元进行拆分,或者对部分功能单元进行合并,在实施本发明实施例记载的推广信息效果分析方法的基础上,本发明实施例中不排除使用其他的功能结构。
就推广信息效果分析端16执行本发明实施例提供的推广信息效果分析方法来说,参见图5-1,图5-1是本发明实施例提供的推广信息效果分析方法的一个可选的流程示意图,包括以下步骤:
步骤101,基于影响推广信息效果的因素、以及因素之间的依赖关系构建贝叶斯网络的网络结构。
本发明实施例提供的贝叶斯网络采用贝叶斯网络的形式,贝叶斯网络包括网络结构和条件概率分布两部分,分别进行说明。
在一个实施例中,就贝叶斯网络的网络结构而言,包括影响推广信息效果的因素、以及因素之间的依赖关系,影响推广信息的因素以及依赖关系均为先验的知识,就因素而言,包括:出价、定向、素材、推广信息点击率预测、社交、负反馈率、竞争力和性能。就因素的依赖关系而言,包括(以“->”连接一个依赖关系中被依赖与依赖的因素):
1)素材的依赖关系:素材->点击率预测;素材->社交;素材->负反馈率;
2)出价的依赖关系:出价->点击率预测;出价->社交;出价->竞争力;
3)定向的依赖关系:出价->点击率预测;出价->社交;出价->竞争力;
4)点击率预测的依赖关系:点击率预测->竞争力;
5)社交的依赖关系:社交->竞争力;
6)负反馈率的依赖关系:负反馈率->竞争力;
7)定向的依赖关系:定向->竞争环境;
8)竞争力的依赖关系:竞争力->性能;
9)竞争环境的依赖关系:竞争环境->性能。
在一个实施例中,采用如下的方式确定网络结构:
步骤1011,在具有依赖关系的因素中,确定被依赖的因素为原因因素,并确定以依赖于原因因素的因素为原因因素。
例如,以素材的依赖关系为例,素材为原因因素、点击率预测、社交和负反馈率为结果因素;再以出价的依赖关系为例,出价为原因因素,点击率预测、社交和竞争力为结果因素。其他因素的依赖关系可以根据上述说明而理解,不再一一说明。
步骤1012,建立从各结原因因素指向相应的结果因素的有向连接,得到由各因素以及有向连接构成的网络结构。
参见图6,图6是本发明实施例提供的贝叶斯网络的网络结构的一个可选的示意图,对于形成如图6所示的网络结构而言,在上述的每个依赖关系中通过建立从原因因素到结果因素的有向连接形成。
以图6示出的网络结构为例,根据原因因素与结果因素的依赖关系,建立以下有向连接:从素材指向点击率预测、社交和负反馈率的有向连接;从出价至点击率预测、社交和竞争力的有向连接;从出价至社交和竞争力的有向连接;从点击率预测至竞争力的有向连接;从社交至竞争力的有向连接;从负反馈率至竞争力的有向连接;从定向至竞争环境的有向连接;从竞争力至性能的有线连接;从竞争环境至性能的有线连接。
步骤102,基于各因素的取值构造训练数据。
在一个实施例中,在图3中,推广信息效果分析端16基于设定的采样频率,从数据库11获取已投放推广信息在采样时间(如5分钟)内日志数据,从采样的日志数据统计并分析出各因素(也就是图6中示出的影响推广信息效果的因素)在采样时间内的一个取值,对于每个已投放推广信息,影响该推广信息的推广信息效果的各因素在采样时间内的一个取值构成训练数据中的一个样本。
就采样频率而言,可以基于对推广信息效果影响程度的实时性需求设定,实时性需求越高则采用频率越高(二者正相关),例如,当需要了解竞争环境对于推广信息效果的影响程度时,由于对于推广信息投放的热点定向条件(如一线城市,消费能力高的人群)而言,推广信息系统10每天都会接收到大量的投放推广信息的订单并进行推广信息投放的排期,仅就一天而言,不同时刻上述热点定向条件的待投放推广信息也会发生变化(例如中午11点至1点的投放量会显著超出下午2点至3点投放量),因此竞争环境会频繁发生变化,有必要设定相对较高的采用频率(如10分钟采样一次),从而能够及时获知竞争环境对于推广信息效果的影响程度,对于推广信息主来说,可以及时调整后期的推广信息投放。
以图6示出的网络结构中的各个因素为例,当训练数据包括图6中全部因素的取值时该训练数据也称为完备训练数据;当训练数据未包括图6中全部因素的取值,即缺失某些因素(缺失因素)的取值(也称为缺失值)时,例如,从推广信息的日志数据没有统计出素材的取值(优/一般/差)时,该训练数据也称为不完备训练数据。
步骤103,基于训练数据确定影响推广信息效果的因素的联合概率分布。
根据图6示出的网络结构,参数θ表示全部的因素,如下:
θ=(Creative,Bid,Target,pCTR,Social,NFBR,...),那么,各因素的联合概率分布可以表示为:
P(θ)=
P(Creative,Bid,Target,pCTR,Social,NFBR,Comp_Power,Comp_Evn,...)=
P(Creative)*P(Bid)*P(Target)*P(CTR|Creative,Bid,Target)*
P(Social|Creative,Bid,Target)*P(NFBR|Creative,Bid,Target)*
P(Comp_Power|NFBR,Social,pCTR)*P(Target|Comp_Evn)*
P(Performance|Comp_Power,Comp_Evn)
就确定贝叶斯网络中因素的联合概率分布而言可以采用机器学习方式,实质上是通过训练数据不断训练机器学习模型,使得机器学习模型不断趋近联合概率分布的过程;通过上式可知,联合概率分布可以分解为多个条件概率分布,因此,上述过程也可以转换为学习确定各个因素的条件概率分布P(Xi|π(Xi)) 的过程;其中,Xi表示任一因素,π(Xi)表示Xi所依赖的因素(原因因素)。
根据在步骤102中是否得到完备的训练数据,进行联合概率分布学习的方式存在区别,下面分别进行说明。
在一个实施例中,当训练数据当包括全部因素的观测值(也就是针对投放推广信息的日志数据,从日志数据中获得全部因素的取值情况)时,说明训练数据是完备训练数据,根据贝叶斯估计方法学习因素的联合概率分布,包括如下步骤:
步骤1031a,初始化影响推广信息效果的全部的因素的先验概率分布。
因素的先验联合概率分布(函数)可以采用如多项分布等形式的分布,就所采用的先验联合概率分布来说,参数θ是未知的,随机生成参数θ并初始化为先验联合概率分布中的参数。
步骤1032a,计算先验联合概率分布相对于完备训练数据的条件概率,得到后验联合概率分布。
举例来说,采用参数的贝叶斯估计方法,引入如下三个假设:
1)全局独立假设:关于不同因素的参数θi**相互独立,即对于n个因素的联合概率分布P(θ)来说可以表示为:
其中,P(θi**)表示因素Xi相对于所依赖因素(即在图6 中代表Xi的节点的父节点)π(Xi)的概率。
2)局部独立假设:给定一个因素,如点击率预测,对应于该因素的原因因素π(Xi)(在图6中为代表点击率预测的节点的父节点)的不同取值相互独立,即:
其中,P(θij*)表示因素Xi所依赖因素(即在图6中代表Xi的节点的父节点) π(Xi)具有qi个取值的情况下,不同取值的π(Xi)的联合概率分布。
3)P(θij*)符合狄利克雷分布,即P(θij*)可表示为:
其中,αi为狄利克雷分布的参数,B(α)为贝塔分布。
基于以上三个假设,可以得出以多项分布形式表示的各因素的先验联合概率分布:
其中,n为因素的数量,ri为因素Xi的取值的数量,qi为π(Xi)取值的数量;αijk为狄利克雷分布的参数。
由于多项分布和狄利克雷分布共轭,使用条件概率的计算方式,可以得到在训练数据已知的条件下,贝叶斯网络中各因素的先验联合概率分布相对于训练数据的条件分布,即得到各因素的后验联合概率分布,表示为:
其中,D为训练数据,αijk是根据先验知识满足Xi=k,π(Xi)=j的样本的数量;mijk是根据训练数据满足Xi=k,π(Xi)=j的样本的数量;θijk是后验联合概率分布的参数变量,表示因素Xi所依赖因素(即在图6中代表Xi的节点的父节点)π(Xi)具有j个取值的条件下,因素Xi取第k个值时的条件概率,表示如下:
θijk=P(Xi=k|π(Xi)=j);
例如,在点击率预测的取值为高,出价的取值为高,负反馈率的取值为高的条件下,竞争力的条件概率表示为:
θComp_Power,(pCTR,Bid,Target)=(high,high,high),high=
P(Comp_Power=high|pCTR=high∩Bid=high∩NFBR=high)
在另一个实施例中,当训练数据中仅仅包括部分因素的条件概率分布的观测值时,说明训练数据是不完备训练数据,采用EM算法学习各因素的联合概率分布,包括迭代执行以下步骤:
步骤1031b,计算训练数据中缺失因素的估计值,将训练数据与缺失因素的估计值结合形成完备训练数据。
步骤1032b,计算初始化的先验联合概率分布相对于完备训练数据的条件概率,得到后验联合概率分布。
步骤1033b,迭代条件是否满足,如果满足,输出学习到的后验联合概率分布的参数为联合概率分布的参数的最终学习结果;如果未满足,将学习得到各因素的后验联合概率分布的参数,返回执行步骤1031b初始化为联合概率分布的参数。
示例性地,迭代条件可以为:1)学习得到的条件概率分布与初始化的各因素的条件概率分布的差异小于差异阈值;2)迭代次数到达次数阈值。
举例来说,对于图6中的隐节点对应的因素(训练数据中缺失取值的因素),也就是推广信息效果分析装置16无法通过日志数据获得取值的因素,例如缺失因素为素材时,从日志数据中无法统计出该素材的质量是高、一般或者低时,采用EM算法学习各因素的联合概率分布的具体流程如下:
随机初始化先验联合分布的参数,记为θ0;
在期望步骤(E-Step),基于参数θ0和网络结构,对缺失因素(如前述的素材)的取值进行估计(例如,计算缺失因素的取值的最大似然估计作为估计值),将缺失因素的估计值作为观测值,以使训练集中各因素的取值完整,相当于对训练数据中缺失取值的因素进行修复,使得训练数据包括全部因素的取值而成为完备训练数据。
在最大化步骤(M–Step),基于在修复后得到的完备训练数据,用前述(步骤1031a至步骤1032a)的贝叶斯估计方法估计后验联合概率分布的参数,记录为θt。
反复迭代执行E-Step和M-Step,直到连续两次迭代之后得到的后验联合分布的分布的参数的差异小于差异阈值,即参数收敛为止。
至此,贝叶斯网络中因素的联合概率分布已经确定,后续步骤中,通过计算证据因素已知的条件下查询因素的条件概率分布,来表示在证据因素的取值一定的条件下查询因素对推广信息效果的影响程度。而对于查询因素相对于证据因素的条件概率分布来说,根据贝叶斯定理可以转换为联合概率分布来表达,具体来说,转换为证据因素与查询因素的联合概率分布、与证据因素的联合概率分布的比值的形式;而因素的联合概率分布已经学习得到,因此通过查询可以得到查询因素取值为给定值时对推广信息效果影响的量化结果,结合步骤 104和步骤105进行说明。
步骤104,查询条件概率分布,得到当查询因素取值为给定值时、以及证据因素取值为观测值时的第一联合概率,并得到证据因素的取值为观测值的第二联合概率。
步骤105,基于查询因素取值为给定值时第一条件概率与第二条件概率的比值,得到查询因素的取值为给定值时的条件概率,将条件概率作为查询因素的取值为给定值时对推广信息效果的影响程度。
对于贝叶斯网络而言,网络结构以及因素的联合概率分布都已经确定。根据图6示出的网络结构,令θ=(Creative,Bid,Target,pCTR,Social,NFBR,...),基于贝叶斯网络,本发明实施例中将求解部分因素对推广信息效果的影响程度的问题,转换为计算查询因素相对于其他因素(也就是证据因素,即取值已知的因素)的条件概率分布的问题。根据贝叶斯定理,当查询因素为素材、出价和定向时,相对于其他因素(Other_factors)的条件概率分布可以表示为:
可见,条件概率分布的计算转换为:素材、出价、定向和其他因素的联合概率分布(第一联合概率分布)与其他因素的联合概率分布(第二联合概率分布)的比值。
具体来说,一个投放的推广信息,已知推广信息的点击率预测的取值为正常(normal),竞争力的取值为高(high),定向的精确度为高(high),当需要查询素材、出价、定向的取值均为高(high)时对推广信息效果的影响程度时,可以转换为以下条件概率的求解问题:
可见,就分析一条推广信息的推广信息效果受不同因素的影响程度的问题来说,相当于网络的结构和参数确定,已知道一些因素的取值,计算取值未知的因素在给予一个给定值时的条件概率的问题。
再举例来说,某条推广信息投放了一段时间,并且已经获知推广信息的点击率预测、负反馈率的取值(高,低),需要了解取值未知的因素如出价取值为高/中/低、素材取值为优/中/差、定向取值为好/中/差时对推广信息效果的影响程度,影响程度实质上是:当证据因素E为(pCTR,NFBR),取值为e=(高,低),该推广信息的素材、出价、定向的联合分布在E=e的时的条件概率,根据贝叶斯定理可以转换为证据因素与查询因素的联合概率分布 P(Creative,Bid,Target,E=e)与证据因素的联合概率分布P(E=e)的比值,表示为:
由于因素的联合概率分布已经通过前述步骤学习得到,因此通过查询联合概率分布可以得到P(Material,Bid,Target,E=e)以及P(E=e),做比值可以得到查询因素在不同给定值时的联合概率,作为出价、素材和定向在不同取值时对推广信息效果的影响程度。
例如,出价取值为高、素材取值为优、定向取值为好时,对推广信息效果的影响程度表示为:
影响程度表示了在点击率预测取值为高、负反馈率取值高的条件下出价取值为高、素材取值为优的条件概率,条件概率越大,说明出价取值为高、素材取值为优、定向取值对推广信息效果的影响越明显。
需要指出地,推广信息效果分析装置可以针对推广信息系统投放的全量推广信息维护一个贝叶斯网络,为提升查询因素对推广信息效果的影响程度的计算精度,推广信息效果分析装置将推广信息按照分类并基于每个类型的推广信息的日志数据对应构造训练数据,得到影响相应类型的推广信息效果的因素的联合概率分布,根据待分析推广信息归属的类型,在相应类型的联合概率分布中查询,得到查询因素对于待分析推广信息的推广信息效果的影响程度。
举例来说,参见图5-2,图5-2是本发明实施例提供的推广信息效果分析方法的一个可选的流程示意图,包括以下步骤:
步骤201,将推广信息划分为不同的类型。
在一个实施例中,推广信息效果分析装置根据推广信息所宣传产品类型、推广信息的出价、推广信息的定向、推广信息的点击率(包括点击率预测和实际点击率)、推广信息主中的一个或多个对推广信息划分为不同的类型,当然,上述分类方式仅为示例,本发明实施例中不排除其他对推广信息进行分类的方式,如推广信息自身的曝光方式的分类,如视频推广信息、音频推广信息和信息流推广信息等。
步骤202,基于影响推广信息效果的因素、以及因素之间的依赖关系构建贝叶斯网络的网络结构。
在一个实施例中,对于每个类型的对应的贝叶斯网络来说,推广信息效果分析装置均可以采用如图3所示的网络结构,对于根据因素的依赖关系构建网络结构的方式不再重复说明。当然,本发明实施例中不排除针对每个类型有针对性构建网络结构的方案。
步骤203,基于影响相应类型推广信息的推广信息效果的各所述因素的取值构造训练数据。
在一个实施例中,对于每个类型,推广信息效果分析装置根据相应类型的推广信息在采样时间(如8分钟)内的日志数据,分析出相应类型的推广信息的因素在每个采样时间内的取值形成一个样本。
举例来说,在图3中,推广信息效果分析端16每间隔一小时从数据库11 获取已投放推广信息在10分钟(采样时间)内的日志数据,从采样的日志数据中统计各因素的取值形成一个样本;日志数据包括已投放推广信息的因素(也就是图6中示出的影响推广信息效果的因素)在10分钟内的一个取值,对于每个已投放推广信息,影响该推广信息的推广信息效果的各因素在10分钟内的一个取值构成训练数据的一个样本。
步骤204,基于各所述类型的训练数据,确定影响相应类型推广信息的推广信息效果的各所述因素的联合概率分布。
利用针对每个类型构造的训练数据,利用机器学习方法学习得到影响该类型推广信息的推广信息效果的因素的联合概率分布;参考前述针对图5-1的说明,根据训练数据是否为完备数据,进行联合概率分布学习的方式存在区别,基于前述步骤103中的说明,可以轻易实施利用每个类型推广信息的训练数据联合概率分布的学习的方案,这里不再重复说明。
步骤205,确定查询因素的来源推广信息归属的类型。
步骤206,在相应类型的联合概率分布中进行查询,得到当查询因素取值为给定值时、以及证据因素取值为观测值时的第一联合概率,并得到证据因素的取值为观测值的第二联合概率。
步骤207,基于查询因素取值为给定值时第一条件概率与第二条件概率的比值,得到查询因素的取值为给定值时对推广信息效果的影响程度。
步骤206和步骤207查询使用的联合概率分布是在步骤205中待分析推广信息归属类型对应的联合概率分布,就在归属类型的联合概率分布中进行查询而言,与前述步骤105和步骤106记载的查询方式相同,这里不再重复说明。
在步骤201至步骤207的一个具体示例中,针对每个分类的推广信息,推广信息效果分析装置维护相应类型的训练数据,针对每个类型推广信息的日志数据,分析出记录影响该类型推广信息的推广信息效果的因素的取值,构造相应类型的训练数据。
例如,对于快速消费品推广信息和汽车推广信息,分别构建相应类型的训练数据,在快速消费品类型的训练数据中,对于每个消费品的推广信息的样本,记录有在一个采用时间内影响该推广信息的推广信息效果的各因素的取值。
推广信息效果分析装置基于各类型的训练数据进行学习,得到影响相应类型推广信息的推广信息效果的各因素的联合概率分布,例如,快速消费品类型推广信息的因素的联合概率分布、汽车推广信息的因素的联合概率分布。
推广信息效果分析装置根据查询因素的来源推广信息归属的类型,在相应类型的联合概率分布中进行查询,得到该类型的待分析推广信息的查询因素取值为给定值时、以及待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到待分析推广信息的证据因素的取值为观测值的第二联合概率;基于查询因素取值为不同给定值时第一联合概率与第二联合概率的比值,得到待分析推广信息的查询因素对待分析推广信息的推广信息效果的影响程度。
与利用全量推广信息的构造训练数据并学习全部因素的联合概率分别就而言,针对不同类型推广信息的训练数据学习联合概率分布,能够更加精确反映影响推广信息的因素的不同取值的分布情况,那么,通过证据因素与查询因素的联合概率、与证据因素的联合概率的比值来表示影响程度,必然更加精确表示查询因素对推广信息效果的影响程度。
根据上述推广信息效果分析方法,继续对图4示出的推广信息效果分析装置16实现推广信息效果分析功能167时所具有的功能结构进行说明,包括网络结构单元1671、数据构造单元1672、分布学习单元1673和查询单元1674,分别进行说明。
网络结构单元1671,用于基于影响推广信息效果的因素、以及因素之间的依赖关系构建贝叶斯网络的网络结构;网络结构的一个示例如图6所示,对于形成如图6所示的网络结构而言,根据因素之间的依赖关系,建立从原因因素到结果因素的有向连接。
具体来说,网络结构单元1671在具有依赖关系的因素中,确定被依赖的因素为原因因素,并确定以依赖于原因因素的因素为结果因素;建立从各原因因素指向相应的结果因素的有向连接,得到由各因素以及有向连接构成的网络结构。
参见图6,网络结构单元1671建立以下与以下因素对应节点的有向连接:从素材指向点击率预测、社交和负反馈率的有向连接;从出价至点击率预测、社交和竞争力的有向连接;从出价至社交和竞争力的有向连接;从点击率预测至竞争力的有向连接;从社交至竞争力的有向连接;从负反馈率至竞争力的有向连接;从定向至竞争环境的有向连接;从竞争力至性能的有线连接;从竞争环境至性能的有向连接。
数据构造单元1672,用于基于影响推广信息效果的各因素的取值构造训练数据,因素满足如下条件:各因素的取值相互独立;同一因素的不同取值相互独立;基于设定的采样频率,从数据库11获取已投放推广信息在采样时间(如 5分钟)内日志数据,从采样的日志数据统计、分析出各因素(也就是图6中示出的影响推广信息效果的因素)在采样时间内的一个取值,对于每个已投放推广信息,影响该推广信息的推广信息效果的各因素在采样时间内的一个取值构成训练数据中的一个样本。
分布学习单元1673,用于基于训练数据确定因素的联合概率分布;就确定贝叶斯网络中因素的联合概率分布而言可以采用机器学习方式,实质上是通过训练数据不断训练机器学习模型,使得机器学习模型不断趋近联合概率分布的过程。
根据训练数据是否为完毕训练数据,学习联合概率分布的方式存在区别。
例如,分布学习单元1673,还用于当训练数据为完备训练数据时,初始化先验联合概率分布的参数;计算完备训练数据相对于所述参数的联合概率,得到所述参数的似然度;计算所述参数的似然度与所述先验联合概率分布的乘积,得到后验联合概率分布。
例如,分布学习单元1673,还用于当训练数据为不完备训练数据时,迭代执行以下处理直至满足迭代条件:计算所述训练数据中缺失因素的估计值,将所述训练数据与所述缺失因素的估计值结合形成完备训练数据;计算初始化先验联合概率分布相对于所述完备训练数据的条件概率,得到后验联合概率分布;例如,迭代调价可以为:学习得到的后验联合概率分布与所述先验联合概率分布的差异小于差异阈值;迭代次数到达次数阈值。
查询单元1674,用于查询因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到待分析推广信息的证据因素的取值为观测值的第二联合概率;计算第一联合概率与第二联合概率的比值,得到待分析推广信息的查询因素为所述给定值时,查询因素对待分析推广信息的推广信息效果的影响程度。
另外,本发明实施例还提供针对每个类型的推广信息构造训练数据,从而形成对应每个类型推广信息的因素的联合概率分布,那么,对于待分析推广信息而言,根据所归属类型的联合概率分布,在相应的联合概率分布中查询并计算得到影响程度。
举例来说,网络结构单元1671将推广信息划分为不同的类型;针对每个类型,基于相应类型的影响推广信息效果的因素、以及相应类型的因素之间的依赖关系,构建与各类型的推广信息对应的贝叶斯网络的网络结构;分布学习单元基于各所述类型的训练数据,确定影响相应类型推广信息的推广信息效果的所述因素的联合概率分布;查询单元1674,还用于根据查询因素的来源推广信息归属的类型,在相应类型的贝叶斯网络的联合概率分布中进行查询,得到当待分析推广信息的查询因素取值为给定值时、以及待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到待分析推广信息的所述证据因素的取值为观测值的第二联合概率,计算第一联合概率与第二联合概率的比值,得到待分析推广信息的查询因素为给定值时,查询因素对待分析推广信息的推广信息效果的影响程度。
以推广信息为广告为例,再对本发明实施例提供的广告效果分析方案的一个实际应用进行说明,参见图7,图7是本发明实施例提供的根据查询因素对广告效果的影响程度而对广告投放进行调整的一个可选的示意图,对于影响广告效果的因素而言,假定素材(质量优劣)、出价(的高低)和定向(精确与否) 为取值未知的因素,广告主需要了解这三个因素对广告效果的影响程度以对后期向广告系统上传的素材、出价和定向进行调整。
根据本发明实施例前述提供的广告效果分析方法,在图3中,广告主通过前端14向推广信息效果分析端16查询到影响所投放广告的因素中,素材、出价和定向的取值未知,其他因素的取值已经由推广信息效果分析端16从数据库 11读取的日志数据进行统计分析得到,广告主需要获知素材、出价和定向对所投放广告的广告效果产生的影响,从而决定是否更换素材、出价和定向投放条件。
广告主向前端14提交查询因素以及给定值,这里假设广告主提交素材、出价和定向的两组给定值:(优,高,精确)、(一般,中,一般);推广信息效果分析端16根据广告主提交的查询因素计算影响程度,计算查询因素在给定值时相对于证据因素的条件概率,作为查询因素在给定值时对于广告效果的影响程度;需要指出地,如果存在证据因素中取值未知的因素的情况,可以采用变量消元法去除其影响。
根据前文所述,这里的条件概率分布可以根据推广信息系统10处理的全量广告的日志构造的训练数据学习得到,也可以根据待分析广告的类型(如广告主行业、广告宣传产品的类别等)的广告的日志数据构造的训练数据学习得到,后者能够更加符合因素实际的联合概率分布,提升影响程度的精确性。
假定推广信息效果分析端16计算得到如下影响程度:
素材、出价和定向的取值为(优,高,精确)相对于证据因素的条件概率为80%;
素材、出价和定向的取值为(一般,中,一般)时相对于证据因素的条件概率为30%;
广告主通过比较素材、出价和定向的两组取值的条件概率,可以获知当前素材、出价和定向合理的概率远大于不合理的可能性,因此目前暂不需要对向推广信息系统10提交的素材、出价和广告定向投放条件进行调整。
需要指出地,当某广告的证据因素的取值为根据广告投放的日志数据实时统计分析得到的观测值时,根据构建训练数据时从日志数据的采样频率,可以在广告阶段、广告投放结束之后对因素的影响程度进行量化评估;当证据因素的取值为根据先验知识取得的观测值时,能够在广告投放之前评估查询因素对广告效果的影响,从而在广告投放前、广告投放中、广告投放后不同阶段都能够评估查询因素对于广告效果的影响。
综上所述,本发明实施例具有以下有益效果:
1)查询因素相对于证据因素的条件可以通过查询因素与证据因素的联合概率、与证据因素的联合概率的比值精确计算得到,对于任意推广信息而言,在获知一些因素的取值(证据因素)的情况下,可以获得查询因素(取值未知的因素)对推广信息效果的影响程度的精确量化表示,实现了对推广信息效果的定量分析,更加科学,更加合理;
2)根据需要查询因素可以为一个或多个,从而可以获得一个因素对推广信息效果的影响程度,也可获得多个因素共同作用时对推广信息效果的影响程度。
3)在无法获得影响推广信息效果的因素的实际取值的情况下,通过给因素分配给定值,即可获得该因素对于推广信息效果的影响程度。
4)涵盖因素在推广信息投放前、推广信息投放中、推广信息投放后不同阶段对于推广信息效果的影响。
本领域的技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储系统、随机存取存储器(RAM,Random Access Memory)、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机系统(可以是个人计算机、服务器、或者网络系统等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储系统、RAM、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (17)
1.一种推广信息效果分析方法,其特征在于,包括:
基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
基于各所述因素的取值构造训练数据;
基于所述训练数据确定所述因素的联合概率分布;
查询所述因素的联合概率分布,得到当待分析推广信息的查询因素的取值为给定值时、以及所述待分析推广信息的证据因素的取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
计算所述第一联合概率与所述第二联合概率的比值,得到所述查询因素的取值为所述给定值时,对所述待分析推广信息的推广信息效果的影响程度。
2.如权利要求1所述的方法,其特征在于,所述基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构,包括:
在具有依赖关系的因素中,确定被依赖的因素为原因因素,并确定以依赖于所述原因因素的因素为结果因素;
建立从各所述原因因素指向相应的结果因素的有向连接,得到由各所述因素以及所述有向连接构成的所述网络结构。
3.如权利要求2所述的方法,其特征在于,所述建立从各所述原因因素指向相应的结果因素的有向连接,得到由各所述因素以及所述有向连接构成的网络结构,包括:
建立以下因素所对应的节点之间的有向连接:从素材指向点击率预测、社交和负反馈率的有向连接;从出价至所述点击率预测、所述社交和竞争力的有向连接;从所述出价至所述社交和所述竞争力的有向连接;从所述点击率预测至所述竞争力的有向连接;从所述社交至所述竞争力的有向连接;从所述负反馈率至所述竞争力的有向连接;从所述定向至竞争环境的有向连接;从所述竞争力至性能的有线连接;从所述竞争环境至所述性能的有向连接。
4.如权利要求1所述的方法,其特征在于,所述基于所述训练数据确定所述因素的联合概率分布,包括:
当所述训练数据为完备训练数据时,执行以下处理:
初始化先验联合概率分布;
计算所述先验联合概率分布相对于所述完备训练数据的条件概率,得到后验联合概率分布。
5.如权利要求1所述的方法,其特征在于,所述基于所述训练数据确定所述因素的联合概率分布,包括:
当所述训练数据为不完备训练数据时,迭代执行以下处理直至满足迭代条件:
计算所述训练数据中缺失因素的估计值,将所述训练数据与所述缺失因素的估计值结合形成完备训练数据;
计算初始化的先验联合概率分布相对于所述完备训练数据的条件概率,得到后验联合概率分布。
6.如权利要求5所述的方法,其特征在于,所述迭代条件包括以下至少之一:
学习得到的后验联合概率分布与所述先验联合概率分布的差异小于差异阈值;
迭代次数到达次数阈值。
7.如权利要求1所述的方法,其特征在于,还包括:
基于满足如下条件的所述因素的取值构造所述训练数据:
各所述因素的取值为独立事件;
同一所述因素的不同取值为独立事件。
8.如权利要求1所述的方法,其特征在于,所述基于推广信息的各所述因素的取值构造训练数据,基于所述训练数据确定所述因素的联合概率分布,包括:
将所述推广信息划分为不同的类型;
基于影响相应类型推广信息的推广信息效果的所述因素的取值,构造训练数据;
基于各所述类型的训练数据,确定影响相应类型推广信息的推广信息效果的所述因素的联合概率分布;
所述查询各所述因素的联合概率分布,包括:
根据所述查询因素的来源推广信息归属的类型,在相应类型的联合概率分布中进行查询。
9.一种推广信息效果分析装置,其特征在于,包括:
网络结构单元,用于基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
数据构造单元,用于基于各所述因素的取值构造训练数据;
分布学习单元,用于基于所述训练数据确定所述因素的联合概率分布;
查询单元,用于查询所述因素的联合概率分布,得到当待分析推广信息的查询因素的取值为给定值时、以及所述待分析推广信息的证据因素的取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
所述查询单元,还用于计算所述第一联合概率与所述第二联合概率的比值,得到所述查询因素的取值为所述给定值时,对所述待分析推广信息的推广信息效果的影响程度。
10.如权利要求9所述的推广信息效果分析装置,其特征在于,
所述网络结构单元,还用于在具有依赖关系的因素中,确定被依赖的因素为原因因素,并确定以依赖于所述原因因素的因素为结果因素;
建立从各所述原因因素指向相应的结果因素的有向连接,得到由各所述因素以及所述有向连接构成的所述网络结构。
11.如权利要求10所述的推广信息效果分析装置,其特征在于,
所述网络结构单元,还用于建立以下因素对应节点之间的有向连接:从素材指向点击率预测、社交和负反馈率的有向连接;从出价至所述点击率预测、所述社交和竞争力的有向连接;从所述出价至所述社交和所述竞争力的有向连接;从所述点击率预测至所述竞争力的有向连接;从所述社交至所述竞争力的有向连接;从所述负反馈率至所述竞争力的有向连接;从所述定向至竞争环境的有向连接;从所述竞争力至性能的有线连接;从所述竞争环境至所述性能的有向连接。
12.如权利要求9所述的推广信息效果分析装置,其特征在于,
所述分布学习单元,还用于当所述训练数据为完备训练数据时,执行以下处理:初始化先验联合概率分布;计算所述先验联合概率分布相对于所述完备训练数据的条件概率,得到后验联合概率分布。
13.如权利要求9所述的推广信息效果分析装置,其特征在于,
所述分布学习单元,还用于当所述训练数据为不完备训练数据时,迭代执行以下处理直至满足迭代条件:
计算所述训练数据中缺失因素的估计值,将所述训练数据与所述缺失因素的估计值结合形成完备训练数据;
计算初始化的先验联合概率分布相对于所述完备训练数据的条件概率,得到后验联合概率分布。
14.如权利要求9所述的推广信息效果分析装置,其特征在于,
所述数据构造单元,还用于基于满足如下条件的所述因素的取值构造所述训练数据:
各所述因素的取值为独立事件;
同一所述因素的不同取值为独立事件。
15.如权利要求9所述的推广信息效果分析装置,其特征在于,
所述数据构造单元,还用于将所述推广信息划分为不同的类型;基于影响相应类型推广信息的推广信息效果的各所述因素的取值构造训练数据;
所述分布学习单元,还用于基于各所述类型的训练数据,确定影响相应类型推广信息的推广信息效果的所述因素的联合概率分布;
所述查询单元,还用于根据所述查询因素的来源推广信息归属的类型,在相应类型的联合概率分布中进行查询。
16.一种推广信息效果分析装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于通过执行所述存储器中存储的计算机程序时实现以下步骤:
基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
基于推广信息的各所述因素的取值构造训练数据;
基于所述训练数据确定所述因素的联合概率分布;
查询所述因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及所述待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
计算所述第一联合概率与所述第二联合概率的比值,得到所述待分析推广信息的查询因素为所述给定值时,所述查询因素对所述待分析推广信息的推广信息效果的影响程度。
17.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
基于影响推广信息效果的因素、以及所述因素之间的依赖关系构建贝叶斯网络的网络结构;
基于推广信息的各所述因素的取值构造训练数据;
基于所述训练数据确定所述因素的联合概率分布;
查询所述因素的联合概率分布,得到当待分析推广信息的查询因素取值为给定值时、以及所述待分析推广信息的证据因素取值为观测值时的第一联合概率,并得到所述待分析推广信息的所述证据因素的取值为所述观测值的第二联合概率;
计算所述第一联合概率与所述第二联合概率的比值,得到所述待分析推广信息的查询因素为所述给定值时,所述查询因素对所述待分析推广信息的推广信息效果的影响程度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710278145.1A CN108734499B (zh) | 2017-04-25 | 2017-04-25 | 推广信息效果分析方法及装置、计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710278145.1A CN108734499B (zh) | 2017-04-25 | 2017-04-25 | 推广信息效果分析方法及装置、计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108734499A true CN108734499A (zh) | 2018-11-02 |
CN108734499B CN108734499B (zh) | 2022-03-11 |
Family
ID=63934867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710278145.1A Active CN108734499B (zh) | 2017-04-25 | 2017-04-25 | 推广信息效果分析方法及装置、计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734499B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784978A (zh) * | 2018-12-19 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于大数据的广告竞争力计算方法、装置、介质及设备 |
CN111242239A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 一种训练样本选取方法、装置、以及计算机存储介质 |
WO2020215209A1 (zh) * | 2019-04-23 | 2020-10-29 | 日本电气株式会社 | 预测操作结果的方法、电子设备和计算机程序产品 |
CN113159579A (zh) * | 2021-04-23 | 2021-07-23 | 网易(杭州)网络有限公司 | 一种素材的分析方法、装置、电子设备及存储介质 |
CN113452533A (zh) * | 2020-03-24 | 2021-09-28 | 中国移动通信集团山东有限公司 | 计费自巡检、自愈合方法、装置、计算机设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011113A1 (en) * | 2005-03-17 | 2007-01-11 | Ali Mosleh | System and methods for assessing risk using hybrid causal logic |
CN102317962A (zh) * | 2008-12-12 | 2012-01-11 | 纽约市哥伦比亚大学理事会 | 机器优化装置、方法和系统 |
CN103745080A (zh) * | 2013-12-02 | 2014-04-23 | 国家电网公司 | 基于贝叶斯模型的电网操作人因可靠性评估方法及装置 |
CN106055560A (zh) * | 2016-05-18 | 2016-10-26 | 上海申腾信息技术有限公司 | 一种基于统计机器学习方法的分词字典数据采集方法 |
-
2017
- 2017-04-25 CN CN201710278145.1A patent/CN108734499B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070011113A1 (en) * | 2005-03-17 | 2007-01-11 | Ali Mosleh | System and methods for assessing risk using hybrid causal logic |
CN102317962A (zh) * | 2008-12-12 | 2012-01-11 | 纽约市哥伦比亚大学理事会 | 机器优化装置、方法和系统 |
CN103745080A (zh) * | 2013-12-02 | 2014-04-23 | 国家电网公司 | 基于贝叶斯模型的电网操作人因可靠性评估方法及装置 |
CN106055560A (zh) * | 2016-05-18 | 2016-10-26 | 上海申腾信息技术有限公司 | 一种基于统计机器学习方法的分词字典数据采集方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784978A (zh) * | 2018-12-19 | 2019-05-21 | 平安科技(深圳)有限公司 | 基于大数据的广告竞争力计算方法、装置、介质及设备 |
WO2020215209A1 (zh) * | 2019-04-23 | 2020-10-29 | 日本电气株式会社 | 预测操作结果的方法、电子设备和计算机程序产品 |
CN111242239A (zh) * | 2020-01-21 | 2020-06-05 | 腾讯科技(深圳)有限公司 | 一种训练样本选取方法、装置、以及计算机存储介质 |
CN111242239B (zh) * | 2020-01-21 | 2023-05-30 | 腾讯科技(深圳)有限公司 | 一种训练样本选取方法、装置、以及计算机存储介质 |
CN113452533A (zh) * | 2020-03-24 | 2021-09-28 | 中国移动通信集团山东有限公司 | 计费自巡检、自愈合方法、装置、计算机设备和存储介质 |
CN113452533B (zh) * | 2020-03-24 | 2022-08-02 | 中国移动通信集团山东有限公司 | 计费自巡检、自愈合方法、装置、计算机设备和存储介质 |
CN113159579A (zh) * | 2021-04-23 | 2021-07-23 | 网易(杭州)网络有限公司 | 一种素材的分析方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108734499B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108734499A (zh) | 推广信息效果分析方法及装置、计算机可读介质 | |
Islam et al. | Empirical prediction models for adaptive resource provisioning in the cloud | |
Agarwal et al. | Estimating rates of rare events with multiple hierarchies through scalable log-linear models | |
Mokryn et al. | Will this session end with a purchase? Inferring current purchase intent of anonymous visitors | |
US7680746B2 (en) | Prediction of click through rates using hybrid kalman filter-tree structured markov model classifiers | |
US20200065852A1 (en) | Reallocation of electronic resources using a predictive model of attribution | |
CN111444395A (zh) | 获取实体间关系表达的方法、系统和设备、广告召回系统 | |
Pan et al. | Sparse factorization machines for click-through rate prediction | |
Huang et al. | Optimal inventory control with sequential online auction in agriculture supply chain: An agent-based simulation optimisation approach | |
Geebelen et al. | QoS prediction for web service compositions using kernel-based quantile estimation with online adaptation of the constant offset | |
CN111340244A (zh) | 预测方法、训练方法、装置、服务器及介质 | |
US11410203B1 (en) | Optimized management of online advertising auctions | |
Pardoe et al. | TacTex09: a champion bidding agent for ad auctions. | |
Du et al. | Improving real-time bidding using a constrained markov decision process | |
Feng et al. | Reserve price optimization for first price auctions in display advertising | |
Deng et al. | Calibrating user response predictions in online advertising | |
Chaudhuri et al. | Ranking and calibrating click-attributed purchases in performance display advertising | |
Park | MLP modeling for search advertising price prediction | |
Silva et al. | A categorical clustering of publishers for mobile performance marketing | |
Ni et al. | Robust factorization machines for credit default prediction | |
Shariat et al. | Online evaluation of bid prediction models in a large-scale computational advertising platform: decision making and insights | |
Mardanlou et al. | Statistical plant modeling and simulation in online advertising | |
Ormandi et al. | Scalable multidimensional hierarchical bayesian modeling on spark | |
Wu et al. | Learning over categorical data using counting features: With an application on click-through rate estimation | |
Lin et al. | Content Promotion for Online Content Platforms with the Diffusion Effect |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |