CN108229986B - 信息点击预测中的特征构建方法、信息投放方法和装置 - Google Patents
信息点击预测中的特征构建方法、信息投放方法和装置 Download PDFInfo
- Publication number
- CN108229986B CN108229986B CN201611152416.0A CN201611152416A CN108229986B CN 108229986 B CN108229986 B CN 108229986B CN 201611152416 A CN201611152416 A CN 201611152416A CN 108229986 B CN108229986 B CN 108229986B
- Authority
- CN
- China
- Prior art keywords
- user
- data
- tree
- information
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
Abstract
本公开揭示了一种信息点击预测中的特征构建方法、信息投放方法和装置。所述方法包括:获取用户行为数据,并通过用户行为数据得到信息点击行为用户数据;加载信息点击行为用户数据进行模型训练得到两个以上的树模型;通过树模型得到用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量;存储用户特征向量,用户特征向量被用于相应用户的信息点击预测。此用户特征向量即被用于相应用户的信息点击预测,这一过程不需要依赖于人工实现,而是由模型自动学习得到相应的特征的,节省了人力,在时间上特征构造的周期也被相应缩短,并且由于是基于信息点击行为用户数据而实现的模型自动学习过程,因此特征的准确性也得到提高。
Description
技术领域
本公开涉及大数据应用技术领域,特别涉及一种信息点击预测中的特征构建方法、信息投放方法和装置。
背景技术
随着互联网应用技术的发展,互联网已经逐渐成为人们生活中不可或缺的一部分,并且随之发展、演变出互联网中各种不同的用户群体。
互联网中进行的个性化信息投放,是指广告信息等各种个性化信息被投放至用户侧网页页面的过程。随着不同用户群体的存在,所进行的个性化信息投放,是有针对性的根据不同用户群体实现的,以使得所投放的个性化信息是所在的用户群体期望点击浏览的。也就是说,在所进行的个性化信息投放中,期望投放的个性化信息能够具备较高的信息点击概率。
较高信息点击概率的个性化信息投放,是基于用户所属用户群体的精准识别实现的,而互联网中不同用户群体的识别,实质是一特征工程的特征构造过程,以此来得到用于表示相应用户状况的特征,具备相同特征的一类用户构成一用户群体。
现有的特征构造过程是依赖于人工实现的。具体而言,主要通过人工根据自身业务知识或者经验进行特征构造,周期较长,并且特征的准确性也亟待提高。
发明内容
为了解决相关技术中存在的个性化信息的针对性投放中特征构造的周期较长,准确性较差的技术问题,本公开提供了一种信息点击预测中的特征构建方法、信息投放方法和装置。
一种信息点击预测中的特征构建方法,所述方法包括:
获取用户行为数据,并通过所述用户行为数据得到信息点击行为用户数据;
加载所述信息点击行为用户数据进行模型训练得到两个以上的树模型;
通过所述两个以上的树模型得到所述用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量;
存储所述用户特征向量,所述用户特征向量被用于相应用户的信息点击预测。
一种信息投放方法,所述方法包括:
接收用户的个性化信息投放请求;
根据所述个性化信息投放请求中指示的用户得到相应用户行为数据的用户特征向量,所述用户特征向量是所述相应用户行为数据通过自身训练的树模型输出的;
通过所述用户特征向量进行所述用户对个性化信息的信息点击预测得到待投放的个性化信息;
向所述用户请求的个性化信息投放页面投放所述个性化信息。
一种信息点击预测中的特征构建装置,所述装置包括:
用户数据获取模块,用于获取用户行为数据,并通过所述用户行为数据得到信息点击行为用户数据;
模型训练模块,用于加载所述信息点击行为用户数据进行模型训练得到两个以上的树模型;
特征形成模块,用于通过所述两个以上的树模型得到所述用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量;
存储模块,用于存储所述用户特征向量,所述用户特征向量被用于相应用户的信息点击预测。
一种信息投放装置,所述装置包括:
请求接收模块,用于接收用户的个性化信息投放请求;
特征向量获得模块,用于根据所述个性化信息投放请求中指示的用户得到相应用户行为数据的用户特征向量,所述用户特征向量是所述相应用户行为数据通过自身训练的树模型输出的;
信息选取模块,用于通过所述用户特征向量进行所述用户对个性化信息的信息点击预测得到待投放的个性化信息;
信息投放模块,用于向所述用户请求的个性化信息投放页面投放所述个性化信息。
本公开的实施例提供的技术方案可以包括以下有益效果:
为实现个性化信息投放中的信息点击预测,将获取用户行为数据,并通过用户行为数据得到信息点击行为用户数据,加载信息点击行为用户数据进行模型训练得到两个以上的树模型,通过两个以上的树模型得到用户行为数据分别对应于每一树模型的特征,至此,所有树模型对应的特征便形成用户特征向量,存储用户特征向量,此用户特征向量即被用于相应用户的信息点击预测,这一过程不需要依赖于人工实现,而是由模型自动学习得到相应的特征的,节省了人力,在时间上特征构造的周期也被相应缩短,并且由于是基于信息点击行为用户数据而实现的模型自动学习过程,因此特征的准确性也得到提高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本公开所涉及的实施环境的示意图;
图2是根据一示例性实施例示出的一种装置的框图;
图3是根据一示例性实施例示出的一种信息点击预测中的特征构建方法的流程图;
图4是根据图3对应实施例示出的对加载信息点击行为用户数据进行模型训练得到两个以上的树模型步骤的细节进行描述的流程图;
图5是根据图3对应实施例示出的对通过两个以上的树模型得到用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量步骤的细节进行描述的流程图;
图6是根据一示例性实施例示出的一种信息投放方法的流程图;
图7是根据一个示例性实施例示出的用户特征向量输出的示意图;
图8是根据一示例性实施例示出的两个树模型的示意图;
图9是根据一示例性实施例示出的用户行为数据和用户特征向量二者之间的转换过程示意图;
图10是根据一示例性实施例示出的一种信息点击预测中的特征构建装置的框图;
图11是根据图10对应实施例示出的对模型训练模块的细节进行描述的框图;
图12是根据图10对应实施例示出的对特征形成模块的细节进行描述的框图;
图13是根据一示例性实施例示出的一种信息投放装置的流程图。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本公开所涉及的实施环境的示意图。该实施环境包括:服务器侧110和终端侧130。
服务器侧110可以是一服务器集群,用于实现个性化信息的投放,以及为个性化信息的精准投放而实现的特征构造,将所构造的特征应用于信息点击概率预测即可实现个性化信息的精准投放。
终端侧130将接收服务器侧投放的个性化信息,此个性化信息是与特征相符的。
图2是根据一示例实施例示出的一种装置的框图。例如,装置200可以是图1所示实施环境中实现服务器侧110的服务器。
参见图2,图2是本发明一示例性实施例提供的一服务器的结构示意图。该装置200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在服务器200上执行存储介质230中的一系列指令操作。服务器200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络c接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。下图3、图4、图5和图6所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的装置结构。
图3是根据一示例性实施例示出的一种信息点击预测中的特征构建方法的流程图。该信息点击预测中的特征构建方法适用于图1所示实施环境的服务器侧110,该服务器侧110中的服务器在一个示例性实施例中可以是图2所示的装置。如图3所示,该信息点击预测中的特征构建方法,可以由服务器侧110执行,可以包括以下步骤。
在步骤310中,获取用户行为数据,并通过用户行为数据得到信息点击行为用户数据。
其中,用户行为数据,是描述用户行为的各种数据,在其基础上可以得到信息点击行为用户数据。信息点击行为用户数据,是由终端侧用户对信息触发的点击行为而产生的。任一用户在对互联网的信息进行访问时,都可以获得其所对应的信息点击行为数据。
具体的,信息点击行为用户数据,可以是随着用户所点击的信息而产生的用户画像数据等。例如,根据用户的信息点击行为而获得的事实数据为用户打的标签,即为用户画像数据。
例如,在一个示例性实施例的具体实现中,可以预先配置所需要的数据源,信息点击行为用户数据的获取,大致包括四个层次:数据获取层、数据转化层、数据分析层和数据价值层。
首先,在数据获取层,从配置的数据源获取数据,并进行数据的解读,如,获得数据上报场景、数据内容,并进行数据统计及数据准确性校验。可以理解的,配置的数据源,存储了流式上报的各种数据,此流式上报的数据,是由用户所在的客户端流式的上报至数据源的数据。因此,将首先为信息点击预测的实现配置数据源,以便于能够获得海量客户端中反映用户行为,甚至于用户的信息点击行为的各种数据。
其次,在数据转化层,基于数据获取层的数据解读,完成数据清洗,如空值、无效用户清除的过程,以获得用户行为数据。
然后,在数据分析层,基于数据转化层,构建用户行为宽表得到统计层数据。在此数据分析层中,预先构建了用户行为宽表,用户行为宽表,用于粗略标示用户行为数据所对应的用户行为,由于仅仅是为用户行为数据进行粗略的用户行为标示,因此,其与业务无关,也即,为用户行为数据所标示的,并不限于信息点击行为,其它用户行为,也将被标示。
最后,在数据价值层,根据统计层数据,基于业务为用户打上标签。数据价值层用于为所实现的业务基于用户行为数据而进行用户画像,进而获得用户所对应的标签,以及对应的信息点击行为用户数据。通过此数据价值层,即可从用户行为数据中获得信息点击行为用户数据,进而方便在后续的实现中基于信息点击行为用户数据而构建相应的特征。
在此过程中,统计层数据为事实数据,还未给用户打上标签,后续基于统计层数据,根据业务为每个用户打上偏好标签,如阅读文章类型的偏好等,至此,用户画像数据构建完成,可以作为信息点击行为用户数据。
在一示例性实施例中,通过接入各种平台而获得用户在此平台中点击信息实现信息浏览而产生的信息点击行为用户数据。例如,此平台可以是社交网络平台等。
随着信息点击行为用户数据的获得,相当于获得了相应用户的信息点击行为描述数据,精准的反映了相应用户进行互联网访问时触发进行的信息点击。
可以理解的,信息点击行为用户数据中对应的信息,并不限于诸如广告信息等的个性化信息,也可以是通过网页页面呈现的其它信息。
在步骤330中,加载信息点击行为用户数据进行模型训练得到两个以上的树模型。
其中,通过载入所有信息点击行为用户数据而进行的模型训练过程输出两个以上的树模型。此模型训练过程,是非线性模型的训练过程。在一个示例性实施例中,非线性模型,包括GBDT(Gradient Booting Decision Tree,梯度提升决策树)模型和DNN((DeepNeural Networks,深度神经网络)模型。
通过以信息点击行为用户数据为样本而进行的模型训练,输出至少两棵决策树,此决策树即为树模型。
树模型用于识别信息点击行为用户数据中对应的特征。
在一个示例性实施例中,可以基于集成学习中的boosting思想,通过信息点击行为用户数据所进行的模型训练过程即为多次迭代过程,每次迭代都在减少残差的梯度方向新建立一棵决策树,迭代的次数即为决策树的棵数。
在步骤350中,通过两个以上的树模型得到用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量。
其中,在通过前述步骤完成了模型训练之后,即可使用训练好的模型,即通过树模型识别用户行为数据所对应的特征,树模型识别用户行为数据所获得的特征,是与一个维度相对应的,即对应于一个维度的特征用于标示相应用户与此维度相符的可能性。例如,此特征可以是对应于某一类广告信息维度的,比如,所对应的广告信息维度为汽车类广告信息维度,则对应于此维度的特征,则标示了相应用户点击此类维度广告信息的可能性,即概率。
具体的,通过模型训练所获得的两个以上的树模型为每一用户行为数据得到映射的特征。对于一用户行为数据而言,一个树模型便为其对应了一个维度的特征,由此,用户行为数据在所有树模型所对应的特征即可构成了这一用户行为数据所对应的用户特征向量。
此过程中用户特征向量的获得,是通过训练出的树模型输出的,并且树模型是基于信息点击用户数据的模型训练过程获得的,因此,将使得用户特征向量具备一定程度的准确性,进而精准反映用户的信息点击行为,为后续所进行的个性化信息的点击预测提供准确的数据依据。
在步骤370中,存储用户特征向量,用户特征向量被用于相应用户的信息点击预测。
其中,在通过树模型得到用户行为数据映射的用户特征向量之后,便对此用户特征向量进行存储,以便于后续对相应用户进行信息点击预测时,能够根据用户特征向量进行精准预测以及个性化信息的精准投放。
在一个示例性实施例中,用户特征向量的存储,可以通过HDFS(HadoopDistributed File System,Hadoop分布式文件系统)数据库实现,进而保证用户特征向量能够进行有序的持久化存储。
通过如上所述的过程,为服务器侧信息点击预测的实现提供了特征的构造过程,基于所获得的信息点击行为用户数据而自动通过模型学习得到相应的用户特征向量,较为省时省力,且精准的反映了用户对信息的点击行为。
如上所述的过程,可以是周期性进行的,例如,周期性的获取用户行为数据,并在其基础上得到信息点击行为用户数据,以进行周期性的特征构建过程,也可以是实时进行的,在产生一批量的用户行为数据时立即进行,在此不进行限定,将根据实际运营的需要进行灵活调整。
图4是根据图3对应实施例示出的对步骤330的细节进行描述的流程图。该步骤330,如图4所示,可以包括以下步骤。
在步骤331中,进行信息点击行为用户数据的数据格式处理得到模型训练数据。
其中,所进行的模型训练,其输入的数据,都应当是一统一数据格式的,因此,在进行模型训练之前,信息点击行为用户数据作为原始数据,需要将其处理为模型训练所需要的数据格式。
具体而言,将按照进行模型训练所对应的数据格式,对信息点击行为用户数据进行数据格式上的转换。在一个示例性实施例中,预先为所进行的模型训练指定了数据格式,具体而言,此数据格式,定义了模型训练数据中包含用户所对应的多个样本,以及样本的数据形式、样本之间的连接关系等,在此,所指的样本,即为相应用户的一条信息点击行为用户数据。
在步骤333中,对模型训练数据进行GBDT模型训练得到两个以上的树模型。
其中,所指的GBDT模型训练,是指对模型训练数据进行多次迭代,通过多次迭代而生成相应棵决策树的过程。具体而言,在模型训练数据所进行的每一次迭代都将在减少残差的梯度方向新建立一棵决策树,即树模型。
将前述步骤得到每一信息点击行为用户数据作为模型训练数据输入GBDT模型中,进行训练,进而得到输出的两个以上树模型。
树模型是在GBDT模型训练中通过两次以上的迭代过程分别输出的,因此,在通过GBDT模型训练得到的树模型中,相互之间存在着时间上的先后顺序。前面的树模型,可实现大多数信息点击行为用户数据的模型训练数据的特征区分;后面的树模型,则是作用于经过前面的树模型,仍然存在着对应于较大残差的样本,此样本在数量上是少数存在的,对应于较大残差的少数样本的特征区分。
因此,通过GBDT模型训练而获得的两个以上的树模型,将能够提高信息点击行为用户数据相关特征,即用户侧特征识别的准确性。
图5是根据图3对应实施例示出的对步骤350的细节进行描述的流程图。该步骤350,如图5所示,可以包括以下步骤。
在步骤351中,在通过模型训练数据进行模型训练得到的两个以上的树模型中,逐一进行用户行为数据在树模型的遍历得到模型训练数据在每一树模型的叶子节点位置。
其中,通过图3对应实施例的步骤330,或者图4对应实施例,获得由信息点击行为用户数据所得到的两个以上树模型之后,对于步骤310所获得的所有用户行为数据,将针对每一用户行为数据通过树模型得到对应的特征。
可以理解的,树模型中,节点用于指示对应的特征,无论根节点,还是叶子节点,均有其对应的特征,并且从根节点到叶子节点,所对应的特征是顺次进行细化的。
对于每一用户行为数据,以此用户行为数据为每一树模型中的输入,自动学习得到从根节点到叶子节点的路径,即对此用户行为数据在树模型中进行节点的匹配,进而是得到与此用户行为数据最为匹配的叶子节点,由此,即可获得从根节点到叶子节点的路径,根节点到叶子节点的路径代表一类用户群体,如前所述的,每一节点均有其对应的特征,因此,根节点到叶子节点的路径,对应了一系列的特征,进而这一系列的特征便构成了用户行数据在树模型中的一个特征组合,,由此,获得的特征组合由于是对应了从根节点到叶子节点的一系列特征的,因此具备非常好的可解释性,具体而言,因为特征组合所对应的从根节点到叶子节点的路径,实质对应于一分类规则的准确描述,所以实现了准确解释,进而使得相应的特征组合具备非常好的可解释性,并且比对人工进行的特征组合,提升了效率。
用户行为数据在树模型中定位的叶子节点位置,叶子节点位置即指示了对应的特征。
在步骤353中,根据模型训练数据在所有树模型的叶子节点位置得到相应用户行为数据对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量。
其中,用户行为数据在一树模型的叶子节点位置映射了一个维度的特征,以此类推,通过所有树模型中叶子节点位置即可映射得到多个维度的特征,由此,多个维度的特征形成用户特征向量。
在此需要补充说明的是,与前述描述相类似的,用户行为数据,在输入训练好的树模型之前,将对其进行处理,以使其数据格式是与树模型相符合的。
在一个示例性实施例中,步骤353,可以包括以下步骤。
根据用户行为数据在树模型的叶子节点位置进行编码,得到相应用户行为数据在一个维度的特征,对应于所有树模型的特征形成多个维度的用户特征向量。
其中,对用户行为数据在树模型的叶子节点位置编码,以实现特征的数值化表示,进而方便后续所进行的信息点击概率预测。
在一个示例性实施例中,叶子位置节点的编码,可以是哈希编码,编码得到一个长整型数值,N个树模型对应N个哈希编码而获得的特征,至此便完成了特征输出,得到多个维度的用户特征向量。
在一个示例性实施例中,在得到多个维度的用户特征向量之后,还可将用户特征向量处理成所需格式输出至HDFS数据库。
图6是根据一示例性实施例示出的一种信息投放方法的流程图。该信息投放方法,如图6所示,可以包括以下步骤。
在步骤510中,接收用户的个性化信息投放请求。
其中,用户的个性化信息投放请求,是终端侧向服务器侧发起的,用于请求获得个性化信息的请求。
在一个示例性实施例中,用户的个性化信息投放请求,可以是随着用户发起的网页页面加载请求进行的,进而用于请求网页页面投放的个性化信息。例如,终端侧向服务器侧请求的网页页面中广告位所投放的广告信息。
在步骤530中,根据个性化信息投放请求中指示的用户得到相应用户行为数据的用户特征向量,用户特征向量是相应用户行为数据通过自身训练的树模型输出的。
其中,在发起的个性化信息投放请求以及用户行为数据、用户特征向量中,可以通过一定的用户标识信息标示用户,进而使得用户在数据上是以用户标识信息的形式存在的。例如,用户标识信息可以是用户在社交网络应用中的用户标识,也可以是用户所在终端侧的终端标识,还可以是其它唯一标识用户的数据,在此不进行限定。
在此,可以理解的,用户有其所对应的用户行为数据,进而有其所对应的用户特征向量,此用户特征向量是由用户对应的信息点击行为用户数据通过树模型映射而得到的。
服务器侧在通过前述步骤接收到用户的个性化信息投放请求之后,根据指示的用户得到其用户行为数据通过自身训练的树模型而输出的用户特征向量,在当前所请求进行的个性化信息投放中,用户特征向量将作为个性化信息的选取依据,进而有针对性的准确选取出个性化信息,便于实现个性化信息的精准投放。
具体的,根据用户特征向量,可以获知相应用户最为可能点击的个性化信息,因此,在此用户请求进行个性化信息投放时,为此用户选取其最为可能点击的个性化信息。
在步骤550中,通过用户特征向量进行用户对个性化信息的信息点击预测得到待投放的个性化信息。
其中,根据前述示例性实施例描述的,用户特征向量是对用户行为进行数值化的描述,因此,可以根据用户特征向量预估得到用户对个性化信息点击的概率,即与用户特征向量所对应维度相符的个性化信息,所预估的用户点击此个性化信息的概率,个性化信息与用户特征向量所对应特征进行匹配而获得的匹配度,匹配度越高,则预估用户点击此个性化信息的概率越大,进而选取个性化信息点击概率最高的个性化信息作为待投放的个性化信息。
在步骤570中,向用户请求的个性化信息投放页面投放个性化信息。
其中,在用户请求的个性化信息投放页面中进行个性化信息的投放,以此使得与用户最为匹配的个性化信息被展示于其所显示的页面中,能够提高个性化信息的投放效果。
例如,个性化信息投放页面,可以是广告信息投放页面,而个性化信息,则是广告信息。
通过如上所述的过程,实现了个性化信息的精准投放,在准确实现个性信息的信息点击预测之后,通过所获得的个性化信息点击的概率而获得个性化信息精准投放的效果。
由此,可通过如上所述的过程,实现了效果广告投放平台,进而保障了广告投放效果。
以广告信息为例,结合具体应用场景,描述该广告信息的点击概率预测和精准投放的过程,此过程将是借助于用户特征向量实现的。例如,图7是根据一个示例性实施例示出的用户特征向量输出的示意图。
如图7所示,以用户行为数据中信息点击行为用户数据作为模型训练数据输入,分别执行步骤610和步骤630来通过GBDT模型训练而获得至少两个树模型。
然后在用户行为数据和获得的树模型的配合下进行用户行为数据的特征转换,即执行步骤650,以输出新特征。
此过程是用户行为数据在各个树模型中定位叶子节点位置,并对此进行哈希编码而实现的。
图8是根据一示例性实施例示出的两个树模型的示意图。假设GBDT模型训练出两个树模型,用户行为数据为x,则如图8所示,树模型710和树模型730中,每个节点代表一个特征的二元分裂。如,年龄大于24岁,往左遍历,年龄小于24岁,往右遍历,直至到达叶子节点,得到用户行为数据在树模型710或树模型730中的唯一位置,并且用户行为数据在每一树模型的叶子节点位置是唯一的,因此,遍历两个树模型得到用户行为数据的二维用户特征向量。
图9是根据一示例性实施例示出的用户行为数据和用户特征向量二者之间的转换过程。
用户行为数据包含M个统计值,经过GBDT树模型转换,得到N维用户特征向量,其中,N表示树模型的数量,M表示为统计值所对应的维度数量。
通过如上所述的过程,能够保证用户特征向量具备广告点击率预估的效果,并且能够根据实际情况,为用户特征向量的进一步优化提供可能性。
下述为本公开装置实施例,可以用于执行本公开上述服务器侧110执行的信息点击预测中的特征构建方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开信息点击预测中的特征构建方法实施例。
图10是根据一示例性实施例示出的一种信息点击预测中的特征构建装置的框图,该信息点击预测中的特征构建装置可以用于图1所示实施环境中的服务器侧110,执行图3所示的信息点击预测中的特征构建方法的全部步骤。如图10所示,该信息点击预测中的特征构建装置包括但不限于:用户数据获得模块810、模型训练模块830、特征形成模块850和存储模块870。
用户数据获取模块810,用于用户行为数据,并通过用户行为数据得到获取信息点击行为用户数据。
模型训练模块830,用于加载信息点击行为用户数据进行模型训练得到两个以上的树模型。
特征形成模块850,用于通过两个以上的树模型得到用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量。
存储模块870,用于存储用户特征向量,用户特征向量被用于相应用户的信息点击预测。
图11是根据图10对应实施例示出的对模型训练模块的细节进行描述的框图。如图11所示,模型训练模块830,可以包括但不限于:格式处理单元831和训练执行单元833。
格式处理单元831,用于进行信息点击行为用户数据的数据格式处理得到模型训练数据。
训练执行单元833,用于对模型训练数据进行GBDT模型训练得到两个以上的树模型。
图12是根据图10对应实施例示出的对特征形成模块的细节进行描述的框图。该特征形成模块850,如图12所示,可以包括但不限于:叶子节点定位单元851和特征转换单元853。
叶子节点定位单元851,用于在通过模型训练数据进行模型训练得到的两个以上的树模型中,逐一进行用户行为数据在树模型的遍历得到用户行为数据在每一树模型的叶子节点位置。
特征转换单元853,用于根据用户行为数据在所有树模型的叶子节点位置得到相应用户行为数据对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量。
在一个示例性实施例中,特征转换单元853进一步用于根据用户行为数据在树模型的叶子节点位置进行编码,得到相应用户行为数据在一个维度的特征,对应于所有树模型的特征形成多个维度的用户特征向量。
图13是根据一示例性实施例示出的一种信息投放装置的流程图。该信息投放装置,如图13所示,可以包括但不限于:请求接收模块910、特征向量获得模块930、信息选取模块950和信息投放模块970。
请求接收模块910,用于接收用户的个性化信息投放请求。
特征向量获得模块930,用于根据个性化信息投放请求中指示的用户得到相应用户行为数据的用户特征向量,用户特征向量是相应用户行为数据通过自身训练的树模型输出的。
信息选取模块950,用于通过用户特征向量进行用户对个性化信息的信息点击预测得到待投放的个性化信息。
信息投放模块970,用于向用户请求的个性化信息投放页面投放个性化信息。
可选的,本公开还提供一种服务器,该服务器可以用于图1所示实施环境中,执行图3、图4和图5任一所示的信息点击预测中的特征构建方法的全部或者部分步骤。所述服务器包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行:
获取用户行为数据,并通过所述用户行为数据得到信息点击行为用户数据;
加载所述信息点击行为用户数据进行模型训练得到两个以上的树模型;
通过所述两个以上的树模型得到所述用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量;
存储所述用户特征向量,所述用户特征向量被用于相应用户的信息点击预测。
可选的,本公开还提供一种服务器,所述服务器包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行:
接收用户的个性化信息投放请求;
根据所述个性化信息投放请求中指示的用户得到相应用户行为数据的用户特征向量,所述用户特征向量是所述相应用户行为数据通过自身训练的树模型输出的;
通过所述用户特征向量进行所述用户对个性化信息的信息点击预测得到待投放的个性化信息;
向所述用户请求的个性化信息投放页面投放所述个性化信息。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (13)
1.一种信息点击预测中的特征构建方法,其特征在于,所述方法包括:
从配置的数据源获取数据,并进行数据的解读;
对解读后数据进行数据清洗,获得用户行为数据;
根据所述用户行为数据,构建用户行为宽表得到统计层数据;
根据统计层数据,构建用户画像数据,并将所述用户画像数据作为信息点击行为用户数据;
加载所述信息点击行为用户数据进行模型训练得到两个及以上的树模型;所述两个及以上的树模型中相互树模型之间存在时间先后顺序;在所述两个及以上的树模型中,前面的树模型用于进行大多数信息点击行为用户数据的模型训练数据的特征区分,后面的树模型用于对经过前面的树模型且存在着较大残差的样本进行特征区分;
通过所述两个及以上的树模型得到所述用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量;所述用户行为数据在每个所述树模型遍历所得的叶子节点位置是唯一的,所述用户特征向量是基于对遍历所有树模型所得的叶子节点位置进行哈希编码所确定,所述用户行为数据在每个树模型的叶子节点位置对应映射一个维度的特征,遍历N个数模型得到用户行为数据的N维用户特征向量,其中N为大于等于2的整数;
存储所述用户特征向量,所述用户特征向量被用于相应用户的信息点击预测。
2.根据权利要求1所述的方法,其特征在于,所述加载所述信息点击行为用户数据进行模型训练得到两个及以上的树模型,包括:
进行所述信息点击行为用户数据的数据格式处理得到模型训练数据;
对所述模型训练数据进行GBDT模型训练得到两个及以上的树模型。
3.根据权利要求2所述的方法,其特征在于,所述通过所述两个及以上的树模型得到用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量,包括:
在通过所述模型训练数据进行模型训练得到的两个及以上的树模型中,逐一进行所述用户行为数据在所述树模型的遍历得到所述用户行为数据在每一树模型的叶子节点位置;
根据所述用户行为数据在所有树模型的叶子节点位置得到相应用户行为数据对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量。
4.根据权利要求3所述的方法,其特征在于,所述根据所述模型训练数据在所述树模型的叶子节点位置得到相应用户行为数据对应于每一树模型的特征,所述树模型对应的特征形成用户特征向量,包括:
根据所述用户行为数据在所述树模型的叶子节点位置进行编码,得到相应用户行为数据在一个维度的特征,对应于所有树模型的特征形成多个维度的用户特征向量。
5.一种信息投放方法,其特征在于,所述方法包括:
接收用户的个性化信息投放请求;
根据所述个性化信息投放请求中指示的用户,从配置的数据源获取数据,并进行数据的解读;
对解读后数据进行数据清洗,获得用户行为数据;
根据所述用户行为数据,构建用户行为宽表得到统计层数据;
根据统计层数据,构建用户画像数据,并将所述用户画像数据作为信息点击行为用户数据;
根据所述信息点击行为用户数据得到相应用户行为数据的用户特征向量,所述用户特征向量是所述相应用户行为数据通过自身训练的两个及以上的树模型输出的;所述两个及以上的树模型中相互树模型之间存在时间先后顺序;在所述两个及以上的树模型中,前面的树模型用于进行大多数信息点击行为用户数据的模型训练数据的特征区分,后面的树模型用于对经过前面的树模型且存在着较大残差的样本进行特征区分;所述用户行为数据在每个所述树模型遍历所得的叶子节点位置是唯一的,所述用户特征向量是基于对遍历所有树模型所得的叶子节点位置进行哈希编码所确定,所述用户行为数据在每个树模型的叶子节点位置对应映射一个维度的特征,遍历N个数模型得到用户行为数据的N维用户特征向量,其中N为大于等于2的整数;
通过所述用户特征向量进行所述用户对个性化信息的信息点击预测得到待投放的个性化信息;
向所述用户请求的个性化信息投放页面投放所述个性化信息。
6.一种信息点击预测中的特征构建装置,其特征在于,所述装置包括:
用户数据获取模块,用于从配置的数据源获取数据,并进行数据的解读;对解读后数据进行数据清洗,获得用户行为数据;根据所述用户行为数据,构建用户行为宽表得到统计层数据;根据统计层数据,构建用户画像数据,并将所述用户画像数据作为信息点击行为用户数据;
模型训练模块,用于加载所述信息点击行为用户数据进行模型训练得到两个及以上的树模型;所述两个及以上的树模型中相互树模型之间存在时间先后顺序;在所述两个及以上的树模型中,前面的树模型用于进行大多数信息点击行为用户数据的模型训练数据的特征区分,后面的树模型用于对经过前面的树模型且存在着较大残差的样本进行特征区分;
特征形成模块,用于通过所述两个及以上的树模型得到所述用户行为数据分别对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量;所述用户行为数据在每个所述树模型遍历所得的叶子节点位置是唯一的,所述用户特征向量是基于对遍历所有树模型所得的叶子节点位置进行哈希编码所确定,所述用户行为数据在每个树模型的叶子节点位置对应映射一个维度的特征,遍历N个数模型得到用户行为数据的N维用户特征向量,其中N为大于等于2的整数;
存储模块,用于存储所述用户特征向量,所述用户特征向量被用于相应用户的信息点击预测。
7.根据权利要求6所述的装置,其特征在于,所述模型训练模块包括:
格式处理单元,用于进行所述信息点击行为用户数据的数据格式处理得到模型训练数据;
训练执行单元,用于对所述模型训练数据进行GBDT模型训练得到两个及以上的树模型。
8.根据权利要求7所述的装置,其特征在于,所述特征形成模块包括:
叶子节点定位单元,用于在通过所述模型训练数据进行模型训练得到的两个及以上的树模型中,逐一进行所述用户行为数据在所述树模型的遍历得到所述用户行为数据在每一树模型的叶子节点位置;
特征转换单元,用于根据所述用户行为数据在所有树模型的叶子节点位置得到相应用户行为数据对应于每一树模型的特征,所有树模型对应的特征形成用户特征向量。
9.根据权利要求8所述的装置,其特征在于,所述特征转换单元进一步用于根据所述用户行为数据在所述树模型的叶子节点位置进行编码,得到相应用户行为数据在一个维度的特征,对应于所有树模型的特征形成多个维度的用户特征向量。
10.一种信息投放装置,其特征在于,所述装置包括:
请求接收模块,用于接收用户的个性化信息投放请求;
特征向量获得模块,用于根据所述个性化信息投放请求中指示的用户,从配置的数据源获取数据,并进行数据的解读;对解读后数据进行数据清洗,获得用户行为数据;根据所述用户行为数据,构建用户行为宽表得到统计层数据;根据统计层数据,构建用户画像数据,并将所述用户画像数据作为信息点击行为用户数据;根据所述信息点击行为用户数据得到相应用户行为数据的用户特征向量,所述用户特征向量是所述相应用户行为数据通过自身训练的两个及以上的树模型输出的;所述两个及以上的树模型中相互树模型之间存在时间先后顺序;在所述两个及以上的树模型中,前面的树模型用于进行大多数信息点击行为用户数据的模型训练数据的特征区分,后面的树模型用于对经过前面的树模型且存在着较大残差的样本进行特征区分;所述用户行为数据在每个所述树模型遍历所得的叶子节点位置是唯一的,所述用户特征向量是基于对遍历所有树模型所得的叶子节点位置进行哈希编码所确定,所述用户行为数据在每个树模型的叶子节点位置对应映射一个维度的特征,遍历N个数模型得到用户行为数据的N维用户特征向量,其中N为大于等于2的整数;
信息选取模块,用于通过所述用户特征向量进行所述用户对个性化信息的信息点击预测得到待投放的个性化信息;
信息投放模块,用于向所述用户请求的个性化信息投放页面投放所述个性化信息。
11.一种服务器,其特征在于,所述服务器包括:
处理器;以及用于存储处理器可执行指令的存储器;
其中,所述处理器用于执行如权利要求1-4任一所述的信息点击预测中的特征构建方法。
12.一种服务器,其特征在于,所述服务器包括:
处理器;以及用于存储处理器可执行指令的存储器;
其中,所述处理器用于执行如权利要求5所述的信息投放方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序,所述程序由处理器加载并执行以实现如权利要求1-4任一所述的信息点击预测中的特征构建方法或权利要求5所述的信息投放方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611152416.0A CN108229986B (zh) | 2016-12-14 | 2016-12-14 | 信息点击预测中的特征构建方法、信息投放方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611152416.0A CN108229986B (zh) | 2016-12-14 | 2016-12-14 | 信息点击预测中的特征构建方法、信息投放方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108229986A CN108229986A (zh) | 2018-06-29 |
CN108229986B true CN108229986B (zh) | 2021-07-16 |
Family
ID=62638473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611152416.0A Active CN108229986B (zh) | 2016-12-14 | 2016-12-14 | 信息点击预测中的特征构建方法、信息投放方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108229986B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710928B (zh) * | 2018-12-17 | 2022-08-19 | 新华三大数据技术有限公司 | 非结构化文本的实体关系抽取方法及装置 |
CN109685583B (zh) * | 2019-01-10 | 2020-12-25 | 博拉网络股份有限公司 | 一种基于大数据的供应链需求预测方法 |
CN109767269B (zh) * | 2019-01-15 | 2022-02-22 | 网易(杭州)网络有限公司 | 一种游戏数据的处理方法和装置 |
CN110334074B (zh) * | 2019-07-09 | 2021-09-17 | 西安点告网络科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN110688553A (zh) * | 2019-08-13 | 2020-01-14 | 平安科技(深圳)有限公司 | 基于数据分析的信息推送方法、装置、计算机设备及存储介质 |
CN110855564B (zh) * | 2019-10-12 | 2022-09-30 | 深圳壹账通智能科技有限公司 | 路由路径智能选择方法、装置、设备及可读存储介质 |
CN111475392B (zh) * | 2020-04-08 | 2022-05-20 | 北京字节跳动网络技术有限公司 | 生成预测信息的方法、装置、电子设备和计算机可读介质 |
CN111783143B (zh) * | 2020-07-24 | 2023-05-09 | 支付宝(杭州)信息技术有限公司 | 用户数据的业务模型使用确定方法、装置及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5440394B2 (ja) * | 2010-05-31 | 2014-03-12 | ソニー株式会社 | 評価予測装置、評価予測方法、及びプログラム |
JP2014182713A (ja) * | 2013-03-21 | 2014-09-29 | Dainippon Printing Co Ltd | 動線予測装置、動線予測方法、及び、プログラム |
CN103778555A (zh) * | 2014-01-21 | 2014-05-07 | 北京集奥聚合科技有限公司 | 基于用户标签的用户属性挖掘方法和系统 |
US20160055498A1 (en) * | 2014-08-20 | 2016-02-25 | Mastercard International Incorporated | Obtaining consumer survey responses at point of interaction for use to predict purchasing behavior |
CN105608604A (zh) * | 2015-12-30 | 2016-05-25 | 合一网络技术(北京)有限公司 | 一种品牌广告效果优化的连续计算方法 |
CN105631711A (zh) * | 2015-12-30 | 2016-06-01 | 合一网络技术(北京)有限公司 | 一种广告投放方法及装置 |
CN105868847A (zh) * | 2016-03-24 | 2016-08-17 | 车智互联(北京)科技有限公司 | 一种购物行为的预测方法及装置 |
-
2016
- 2016-12-14 CN CN201611152416.0A patent/CN108229986B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108229986A (zh) | 2018-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108229986B (zh) | 信息点击预测中的特征构建方法、信息投放方法和装置 | |
US9990558B2 (en) | Generating image features based on robust feature-learning | |
JP7343568B2 (ja) | 機械学習のためのハイパーパラメータの識別および適用 | |
US10354201B1 (en) | Scalable clustering for mixed machine learning data | |
CN108399564B (zh) | 信用评分方法及装置 | |
CN109961080B (zh) | 终端识别方法及装置 | |
US11729286B2 (en) | Feature-based network embedding | |
CN111144937A (zh) | 广告素材确定方法、装置、设备及存储介质 | |
CN111914159B (zh) | 一种信息推荐方法及终端 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN108549909B (zh) | 基于众包的对象分类方法及对象分类系统 | |
US20190273789A1 (en) | Establishing and utilizing behavioral data thresholds for deep learning and other models to identify users across digital space | |
US11109085B2 (en) | Utilizing one hash permutation and populated-value-slot-based densification for generating audience segment trait recommendations | |
CN113220657B (zh) | 数据处理方法、装置及计算机设备 | |
JP2021068448A (ja) | データマッピングのための方法、装置、及びシステム | |
CN115496970A (zh) | 图像任务模型的训练方法、图像识别方法以及相关装置 | |
CN109582854B (zh) | 用于生成信息的方法和装置 | |
CN113254649B (zh) | 敏感内容识别模型的训练方法、文本识别方法及相关装置 | |
CN113947185B (zh) | 任务处理网络生成、任务处理方法、装置、电子设备及存储介质 | |
US11531917B1 (en) | Probabilistic forecasting with nonparametric quantile functions | |
CN114519593A (zh) | 资源召回模型更新方法、装置、电子设备及存储介质 | |
CN113190730A (zh) | 一种区块链地址的分类方法及装置 | |
CN111459990A (zh) | 对象处理方法、系统及计算机可读存储介质和计算机设备 | |
CN116611506B (zh) | 用户分析模型训练方法、用户标签确定方法和装置 | |
CN113792163B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |