CN110490389B - 点击率预测方法、装置、设备及介质 - Google Patents
点击率预测方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN110490389B CN110490389B CN201910798499.8A CN201910798499A CN110490389B CN 110490389 B CN110490389 B CN 110490389B CN 201910798499 A CN201910798499 A CN 201910798499A CN 110490389 B CN110490389 B CN 110490389B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- click rate
- sample data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种点击率预测方法、装置、设备及介质,属于网络技术领域。本发明通过根据各个特征出现的次数或每个特征的重要度设置信息对特征进行划分,根据划分结果确定不同特征组合时对应的模型参数是否需要调整,进行模型训练,得到点击率预测模型。该点击率预测方法既考虑了不同特征组合点击率预测的影响,又降低了点击率预测模型的训练和优化难度,提高了点击率预测模型的准确度。
Description
技术领域
本发明涉及网络技术领域,特别涉及一种点击率预测方法、装置、设备及介质。
背景技术
随着互联网的日益壮大,各类在线应用平台可以为用户提供大量的新闻、广告等内容,但用户可能只对其中的一部分内容感兴趣,因此需要挑选用户感兴趣的内容进行展示,吸引用户点击。针对这个问题,可以使用点击率预测方法,通过点击率预测模型,得到特定用户对内容的点击率预测结果,根据点击率预测结果为特定用户展示点击率预测结果较高的内容。
目前,在点击率预测模型中会考虑样本数据中的所有特征两两组合情况,使用一个对称矩阵来表示两两组合的特征对应需要调整的模型参数,但所有需要调整的模型参数组成的对称矩阵的特征维数巨大,增加了模型训练的计算复杂度。进一步的,点击率预测模型可以使用因子分解机(Factorization Machine,FM)模型,该模型将上述对称矩阵分解为一个高矩阵和它转置的乘积,降低了模型训练的计算复杂度,但由于对对称矩阵进行了分解,使得模型变成了非凸模型,进而造成模型优化非常困难。
在上述实现方式中,由于计算复杂度和模型优化困难问题,影响点击率预测模型的训练,降低了最终点击率预测结果准确度。
发明内容
本发明实施例提供了一种点击率预测方法、装置、设备及介质,可以解决相关技术中点击率预测模型训练既要降低计算复杂度又要便于优化的问题。所述技术方案如下:
一方面,提供了一种点击率预测方法,该方法包括:
获取多个样本数据,每个样本数据包括多个特征,该多个特征包括用户信息和多媒体数据信息;
根据该多个特征中每个特征的出现次数或每个特征的重要度设置信息,确定初始模型中任两个特征组合后的组合特征对应的模型参数,该模型参数用于体现该组合特征对点击率的影响程度,该模型参数包括第一模型参数和第二模型参数,该第一模型参数为在模型训练过程中需要调整的参数,该第二模型参数为0;
基于该多个样本数据的多个特征,对该初始模型的第一模型参数进行调整,得到点击率预测模型;
当获取到待预测的数据时,将该数据输入该点击率预测模型中,输出该数据的点击率预测结果。
在一种可能实现方式中,该根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,该方法还包括:
对该多个样本数据进行抽样,得到每个特征的出现次数;
根据该每个特征的出现次数,确定第一特征和第二特征。
在一种可能实现方式中,该根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,包括:
提取该多个样本数据中每个样本数据的特征,得到每个样本数据对应的特征向量,该特征向量中每位向量值用于表示一个特征;
统计多个该特征向量中任一位向量值为目标值的次数,将该次数作为该位向量值对应的特征的出现次数;
根据该出现次数,确定该第一特征和该第二特征。
在一种可能实现方式中,该获取多个样本数据的过程包括下述任一项:
从数据库中提取该多个样本数据;
实时获取样本数据,得到多个样本数据。
一方面,提供了一种点击率预测装置,该装置包括:
获取模块,用于获取多个样本数据,每个样本数据包括多个特征,该多个特征包括用户信息和多媒体数据信息;
确定模块,用于根据该多个特征中每个特征的出现次数或每个特征的重要度设置信息,确定初始模型中任两个特征组合后的组合特征对应的模型参数,该模型参数用于体现该组合特征对点击率的影响程度,该模型参数包括第一模型参数和第二模型参数,该第一模型参数为在模型训练过程中需要调整的参数,该第二模型参数为0;
调整模块,用于基于该多个样本数据的多个特征,对该初始模型的第一模型参数进行调整,得到点击率预测模型;
输出模块,用于当获取到待预测的数据时,将该数据输入该点击率预测模型中,输出该数据的点击率预测结果。
在一种可能实现方式中,该确定模块还用于:
根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,该第一特征的出现次数大于该第二特征的出现次数,基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数;
根据该多个特征中每个特征的重要度设置信息,确定第一特征和第二特征,该第一特征的重要度大于该第二特征的重要度,基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数。
在一种可能实现方式中,该确定模块还用于:
对该多个样本数据进行抽样,得到每个特征的出现次数;
根据该每个特征的出现次数,确定第一特征和第二特征。
在一种可能实现方式中,该确定模块还用于:
将出现次数最多的前目标数量的特征确定为第一特征,将该多个特征中该第一特征之外的特征确定为第二特征;
将出现次数大于次数阈值的特征确定为第一特征,将出现次数小于或等于该次数阈值的特征确定为第二特征。
在一种可能实现方式中,该确定模块还用于:
当该组合特征为两个不同的第一特征的组合或第一特征和第二特征的组合时,将该组合特征对应的模型参数确定为该第一模型参数;
当该组合特征为同一个第一特征的组合或任意两个第二特征的组合时,将该组合特征对应的模型参数确定为该第二模型参数。
在一种可能实现方式中,该确定模块还用于:
当多个组合特征为同一个第一特征与不同的第二特征的组合时,将该组合特征对应的模型参数确定为同一第一模型参数。
在一种可能实现方式中,该确定模块还用于:
提取该多个样本数据中每个样本数据的特征,得到每个样本数据对应的特征向量,该特征向量中每位向量值用于表示一个特征;
统计多个该特征向量中任一位向量值为目标值的次数,将该次数作为该位向量值对应的特征的出现次数;
根据该出现次数,确定该第一特征和该第二特征。
在一种可能实现方式中,该获取模块还用于:
从数据库中提取该多个样本数据;
实时获取样本数据,得到多个样本数据。
在一种可能实现方式中,该调整模块还用于:
将该多个样本数据输入该初始模型,输出每个样本数据的预测点击率,每个样本数据携带有目标点击率;
根据该目标点击率和该预测点击率,获取该预测点击率的准确度;
基于该准确度,对该初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到该点击率预测模型。
在一种可能实现方式中,该装置还包括:
分批模块,用于对该多个样本数据进行分批处理,得到至少一批样本数据;
输入模块,用于将每批样本数据输入该初始模型,得到每批样本数据中每个样本数据的预测点击率;
该获取模块还用于:
根据每个样本数据的该目标点击率和该预测点击率,获取每个样本数据的预测点击率的准确度;
获取每批样本数据的预测点击率的平均准确度;
该调整模块还用于:
基于该平均准确度,对该初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到该点击率预测模型。
一方面,提供了一种计算机设备,该计算机设备包括一个或多个处理器和一个或多个存储器,该一个或多个存储器中存储有至少一条指令,该指令由该一个或多个处理器加载并执行以实现该点击率预测方法所执行的操作。
一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,该指令由处理器加载并执行以实现该点击率预测方法所执行的操作。
本发明实施例提供的技术方案带来的有益效果至少可以包括:
本发明实施例提供的技术方案,通过根据各个特征出现的次数或每个特征的重要度设置信息对特征进行划分,根据划分结果确定不同特征组合时对应的模型参数是否需要调整,进行模型训练,得到点击率预测模型。该点击率预测方法既考虑了不同特征组合点击率预测的影响,又降低了点击率预测模型的训练和优化难度,提高了点击率预测模型的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种点击率预测方法的实施环境;
图2是本发明实施例提供的一种点击率预测方法流程图;
图3是本发明实施例提供的一种点击率预测系统架构示意图;
图4是本发明实施例提供的一种训练模块示意图;
图5是本发明实施例提供的一种点击率预测装置结构示意图;
图6是本发明实施例提供的一种终端的结构示意图;
图7是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种点击率预测方法的实施环境,参见图1,该实施环境中可以包括数据库110和服务器120,也可以单独是服务器120。
在实施环境包括数据库110和服务器120时,数据库110可以存储有多条样本数据,该样本数据可以是用户的历史点击数据。服务器120可以用于训练点击率预测模型,在训练点击率预测模型时,服务器120可以通过网络从数据库110中获取样本数据用于训练点击率预测模型。
在实施环境仅包括服务器120时,服务器120可以用于接收用户的历史点击数据和训练点击率预测模型,该服务器120在训练点击率预测模型时,可以实时接收样本数据,根据接收到的样本数据训练点击率预测模型。
图2是本发明实施例提供的一种点击率预测方法流程图,参见图2,该方法包括:
201、计算机设备获取多个样本数据,每个样本数据包括多个特征,该多个特征包括用户信息和多媒体数据信息。
本发明实施例中,该计算机设备可以为终端或者服务器。每个样本数据可以包括多个特征,该多个特征包括用户信息和多媒体数据信息,其中用户信息可以包括用户性别和用户年龄等属性信息,多媒体数据信息是多媒体内容的信息,可以包括点击类别、名称、长度或大小等信息。
该多个样本数据可以为用户的历史点击数据,例如,该多个样本数据可以是任一平台用户对该平台内任一内容的点击数据,每个样本数据包括一名用户的一次点击数据。在一个具体示例中,该样本数据为新闻类内容时,样本数据中的用户信息可以包括用户性别和用户年龄等信息,多媒体数据信息可以包括新闻类型和新闻区域,其中新闻类型可以包括体育新闻类、娱乐新闻类和社会新闻类,新闻区域可以包括国内新闻和国外新闻。
计算机设备获取多个样本数据的过程可以通过下述方式一至方式二中任一项实现:
方式一、计算机设备从数据库中提取该多个样本数据。
该方式一中,计算机设备可以根据多个样本数据离线训练点击率预测模型。在离线训练方式中,该数据库中可以存储有样本数据,计算机设备训练模型时,从中提取即可。
方式二、计算机设备实时获取样本数据,得到多个样本数据。
该方式二中,计算机设备可以实时获取样本数据,从而根据样本数据在线训练点击率预测模型。例如,计算机设备可以获取目标时间段内的线上点击数据,该目标时间段可以为过去一段时间,例如可以获取过去一天、一周或一个月的线上点击数据。在一种可能实现方式中,计算机设备还可以对该目标时间段内的线上点击数据进行抽样,得到多个样本数据。
202、该计算机设备根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,该第一特征的出现次数大于该第二特征的出现次数。
通过对多个样本数据中每个特征出现次数的统计,对每个特征进行了划分,将每个特征划分为第一特征和第二特征,第一特征为出现次数较多特征,对点击率预测结果的影响较大,第二特征为出现次数较少特征,对点击率预测结果的影响较小,通过此步骤对特征的划分,便于进一步根据划分结果确定特征组合后的组合特征对应的模型参数。
在一种可能实现方式中,该计算机设备根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征的过程,可以直接对多个样本数据中每个特征的出现次数进行统计,然后根据统计结果,确定第一特征和第二特征。
在另一种可能实现方式中,该计算机设备还可以先将多个样本数据处理为特征向量,再统计每个特征的出现次数,划分确定第一特征和第二特征,具体步骤可以为:
第一步、计算机设备提取该多个样本数据中每个样本数据的特征,得到每个样本数据对应的特征向量,该特征向量中每位向量值用于表示一个特征。
其中,每个样本数据的特征可以包括多种,每个特征可以用于表示样本数据的一种信息,也可以由多个特征来表示该样本数据的一种信息。例如,可以将用户年龄这种信息划分为10个区间,每个区间均为一个特征,该信息则可以用10个特征来表示,区间间隔可以为10岁,则20岁到29岁可以是第三个区间。
在一种可能实现方式中,计算机设备将多个样本数据中的特征提取出来后,可以对特征进行离散、量化等处理,由于特征是经过离散化的,特征向量各个位的向量值可以用0和1来表示。例如在上述关于年龄的举例中,如果某一样本数据的用户信息中的用户年龄是25岁,该用户年龄是在20岁到29岁年龄区间,则样本数据的用户年龄相关部分的特征为[0,0,1,0,0,0,0,0,0,0]。当特征向量的某一位的向量值是1时,说明该特征向量具有这一维度对应的特征,也即是这一位对应的特征出现了。
计算机设备提取到多个样本数据中每个样本数据的特征,将提取到的特征拼接到一起可以得到每个样本数据对应的特征向量,特征向量中每位向量值用于表示一个特征。例如,在一个具体示例中,特征向量可以用xt表示,每个样本数据中一共包含用户年龄、视频类型和视频时长这三种信息,其中用户年龄信息由十个特征来表示,提取后处理为[0,0,1,0,0,0,0,0,0,0],视频类型信息由五个特征来表示,提取后处理为[0,0,1,0,0],视频时长信息由十个特征来表示,提取后处理为[0,0,0,0,0,0,0,0,0,1],将样本数据中提取到的特征拼接到一起也即是将上述三种信息的特征进行拼接,最终得到的特征向量共二十五位,也即是共包括二十五个特征,特征向量xt具体可以为[0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,1],各信息对应的特征拼接顺序可以由技术人员进行设置,本发明对此不作限定。
第二步、计算机设备统计多个该特征向量中任一位向量值为目标值的次数,将该次数作为该位向量值对应的特征的出现次数。
在一种可能实现方式中,特征进行了离散、量化等处理,计算机设备可以统计第一步得到的每个样本数据对应的特征向量中同一位向量值为1的次数,统计出的次数即为该位向量值对应的特征的出现次数。
第三步、计算机设备根据该出现次数,确定该第一特征和该第二特征。
在本发明实施例中确定第一特征和第二特征的过程可以为下述方式一至方式二中的任一项:
方式一、将该出现次数最多的前目标数量的特征确定为第一特征,将该多个特征中该第一特征之外的特征确定为第二特征。计算机设备通过上述对各个特征出现次数的统计,可以按照出现次数对各个特征进行由大到小的排序,将出现次数排序处于前目标数量位的特征确定为第一特征,将出现次数排序处于目标数量位之后的特征确定为第二特征。该目标数量可以由技术人员进行设置,本发明对此不作限定。例如,目标数量可以设置为k,当k等于5时,将出现次数最多的前5个特征确定为第一特征,其余特征确定为第二特征,其中,k为正整数。
方式二、将该出现次数大于次数阈值的特征确定为第一特征,将该出现次数小于或等于该次数阈值的特征确定为第二特征。计算机设备通过上述对各个特征出现次数的统计,可以将出现次数和次数阈值进行比较,将出现次数大于次数阈值的特征确定为第一特征,将出现次数小于或等于次数阈值的特征确定为第二特征。该次数阈值可以由技术人员进行设置,本发明对此不作限定。例如,该次数阈值可以设置为10,将出现次数大于10次的特征确定为第一特征,将出现次数小于或等于10次的特征确定为第二特征。
上述三个步骤中,计算机设备在步骤201中获取到多个样本数据后,可以对该多个样本数据进行统计,来确定第一特征和第二特征,在一种可能实现方式中,计算机设备还可以对步骤201获取到的多个样本数据进行抽样,对抽样的样本数据进行统计,来确定第一特征和第二特征。
在一种具体可能实现方式中,步骤202可以为下述第一步至第二步:
第一步、该计算机设备对该多个样本数据进行抽样,得到每个特征的出现次数。具体地,该计算机设备对该多个样本数据进行抽样,通过对该抽样得到的样本数据中每个特征出现次数的统计,得到每个特征的出现次数。
第二步、该计算机设备根据该每个特征的出现次数,确定第一特征和第二特征。该确定第一特征和第二特征的过程可以为有多种方式,具体可以为上述确定第一特征和第二特征过程的方式一至方式二中的任一项。
203、该计算机设备基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数。
该模型参数用于体现该组合特征对点击率的影响程度,该模型参数包括第一模型参数和第二模型参数,该第一模型参数为在模型训练过程中需要调整的参数,该第二模型参数为0。
在一种可能实现方式中,计算机设备确定初始模型中任两个特征组合后的组合特征对应的模型参数的过程可以包括下述步骤一至步骤二:
步骤一、当该组合特征为两个不同的第一特征的组合或第一特征和第二特征的组合时,将该组合特征对应的模型参数确定为该第一模型参数。在一种可能实现方式中,步骤一具体可以包括两种情况:
情况一、当该组合特征为两个不同的第一特征的组合时,将该组合特征对应的模型参数确定为该第一模型参数。
情况二、当该组合特征第一特征和第二特征的组合时,将该组合特征对应的模型参数确定为同一第一模型参数。
步骤二、当该组合特征为同一个第一特征的组合或任意两个第二特征的组合时,将该组合特征对应的模型参数确定为该第二模型参数。在一种可能实现方式中,步骤二具体可以包括三种情况:
情况三、当该组合特征为同一个第一特征的组合时,由于特征本身的组合对点击率预测结果没有影响,将该组合特征对应的模型参数确定为该第二模型参数。
情况四、当该组合特征为两个不同的第二特征的组合时,将该组合特征对应的模型参数确定为该第二模型参数。由于第二特征的出现次数小于第一特征的出现次数,因此第二特征对点击率预测结果的影响小于第一特征,两个第二特征组合后的组合特征对点击率预测结果的影响更较小,因此在点击率预测模型中不考虑这种组合对点击率预测结果的影响。
情况五、当该组合特征为两个相同的第二特征的组合时,由于特征本身的组合对点击率预测结果没有影响,将该组合特征对应的模型参数确定为该第二模型参数。
例如,点击率预测结果可以通过下述公式得到:
其中,w是初始模型的线性部分的模型参数,M是初始模型中任两个特征组合后的组合特征对应的模型参数,xt为特征向量,pt为该初始模型的预测值,t代表分批获取样本数据时,样本数据所属的数据批次。
该公式使用过程中,可以将样本数据按照步骤202中计算机设备提取该多个样本数据中每个样本数据的特征,得到每个样本数据对应的特征向量的步骤将样本数据处理为特征向量xt。
例如,d为特征向量中的特征总位数,也即是特征总数,则M是d*d的对称矩阵,在该初始模型中,上述第一特征和第二特征可以分别为高频特征和低频特征,高频特征即为出现次数较多的特征,对点击率预测结果影响较大,较为重要。低频特征即为出现次数较少的特征,对点击率预测结果影响较大,同高频特征比较起来不太重要。
该初始模型中对称矩阵M中模型参数可以按下述规则确定:
Mi,i=0;
Mi,j=Mj,i=pi,j对于所有i<j,并且对应该特征向量维数i,j都是高频特征;
Mi,j=Mj,i=qi对应该特征向量维数i是高频特征,j是低频特征;
Mi,j=Mj,i=0对应该特征向量维数i,j都是低频特征。
对称矩阵M中Mi,i=0与上述情况三和情况五对应,Mi,j=Mj,i=pi,j对于所有i<j,并且对应该特征向量维数i,j都是高频特征的情况与上述情况一对应,Mi,j=Mj,i=0对应该特征向量维数i,j都是低频特征的情况与上述情况四对应。
在一种可能实现方式中,当多个组合特征为同一个第一特征与不同的第二特征的组合时,将该组合特征对应的模型参数确定为同一第一模型参数。具体地,在该组合特征为第一特征和第二特征的组合,且该组合特征中该第一特征相同的情况下,该第一特征和任意一个该第二特征组合形成组合特征,将该组合特征对应的模型参数确定为同一个第一模型参数。由于第二特征的出现次数小于第一特征的出现次数,因此第二特征对点击率预测结果的影响小于第一特征,因此在初始模型中主要考虑对点击率预测结果的影响较大的第一特征,不同第二特征和相同的第一特征组合后的组合特征对点击率的影响相同。例如,上述对称矩阵M中Mi,j=Mj,i=qi对应该特征向量维数i是高频特征,j是低频特征的这种情况。由例如,当第一特征只有X1、X2、X3三个特征,第二特征只有Y1、Y2、Y3三个特征,X1与Y1组合时组合特征对应的模型参数确定为Z1,X1与Y2组合时组合特征对应的模型参数确定为Z1,X1与Y3组合时组合特征对应的模型参数确定为Z1,其中Z1为第一模型参数。
在一种可能实现方式中,可以假设特征向量的前k维对应特征为高频特征,后面d-k维对应特征为低频特征,此时该初始模型中对称矩阵M中模型参数分布如下:
上述对称矩阵M中共有个参数。所以总的空间复杂度是O(d+k2)。在一种可能实现方式中,可以取/>即在步骤202确定第一特征和第二特征的过程中,确定k个特征为第一特征,则该初始模型的计算复杂度和线性模型相当。
上述步骤202和步骤203为计算机设备根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,该第一特征的出现次数大于该第二特征的出现次数,基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数的过程,该过程中可以按照上述步骤202和步骤203的方法先根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,然后再基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数,本发明实施例对此不进行限定。
在一种可能实现方式中,计算机设备可以在步骤201后,根据该多个特征中每个特征的重要度设置信息,确定第一特征和第二特征,该第一特征的重要度大于该第二特征的重要度,基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数。其中每个特征的重要度设置信息可以由技术人员进行设置,将技术人员借助业务逻辑认为对于点击率预测结果较为重要的特征设置为第一特征,对于点击率预测结果较不重要的特征设置为第二特征,本发明实施例对此不进行限定。计算机设备通过重要度设置信息确定好第一特征和第二特征后,可以按照步骤203确定初始模型中任两个特征组合后的组合特征对应的模型参数。
204、该计算机设备基于该多个样本数据的多个特征,对该初始模型的第一模型参数进行调整,得到点击率预测模型。
计算机设备通过上述步骤确定好初始模型中任两个特征组合后的组合特征对应的模型参数,也即是需要调整的第一模型参数后,对初始模型进行模型训练,调整该第一模型参数。
具体模型训练过程可以为:计算机设备将多个样本数据输入初始模型,由初始模型对输入数据进行处理,输出点击率预测结果,基于点击率预测结果和多个样本数据中携带的真实的点击结果,对第一模型参数进行调整,不断提高该初始模型点击率预测的准确率,最终得到点击率预测模型。
在一种可能实现方式中,该调整过程可以通过下述步骤一至步骤三实现:
步骤一、将该多个样本数据输入该初始模型,输出每个样本数据的预测点击率,每个样本数据携带有目标点击率。
目标点击率为每个样本数据中用户是否点击了内容,在一种可能实现方式中,可以用1代表点击,0代表没有点击。
步骤二、根据该目标点击率和该预测点击率,获取该预测点击率的准确度。
该准确度可以用来该初始模型点击率预测的准确程度,可以有多种表示方法。
在一种可能实现方式中,预测点击率的准确度可以用损失值来表示,该损失值可以基于目标点击率和预测点击率通过损失函数得到。在一种具体实现方式中,准确度可以用误差表示,也即是用该损失值与目标点击率的比例来表示。
在另一种可能实现方式中,预测点击率的准确度可以用奖励表示也即是用预测点击率与目标点击率的比例来表示。
步骤三、基于该准确度,对该初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到该点击率预测模型。
基于准确度不断调整第一模型参数,使得准确度不断变高,点击率预测模型的点击率预测结果准确率不断变高。
在一种可能实现方式中,预测点击率的准确度用损失函数来计算损失值表示,基于该准确度,对初始模型的第一模型参数进行调整的过程可以是基于该损失函数的梯度,利用优化算法不断对初始模型的第一模型参数进行调整,使该损失函数的梯度不断减小,直至满足目标条件。其中,该目标条件可以是损失值收敛,也可以是调整参数的次数达到目标迭代次数。使用的优化算法可以是在线梯度下降(Online Gradient Descent)、遵循正规化的领导者近端(Follow The Regularized Leader Proximal,FTRL-Proximal)和正则化对偶平均法(regularized dual averageing method,RDA)等算法。
在一种可能实现方式中,计算机设备可以对步骤201中获取的多个样本数据分批处理,获得不同批次的样本数据,具体步骤可以为:
对该多个样本数据进行分批处理,得到至少一批样本数据,将每批样本数据输入该初始模型,得到每批样本数据中每个样本数据的预测点击率,也即是上述步骤一的过程。
根据每个样本数据的该目标点击率和该预测点击率,获取每个样本数据的预测点击率的准确度,获取每批样本数据的预测点击率的平均准确度,也即是上述步骤二的过程。
基于该平均准确度,对该初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到该点击率预测模型,也即是上述步骤三的过程。
在一种可能实现方式中,上述每批样本数据可以以批次为下标,区分不同批次。例如在上述步骤203中举例的公式中,批次为t的样本数据,经初步处理的某一样本数据包括(xt,yt)两部分,其中xt为特征向量,yt为用户真实点击与否,将处理后的样本数据输入公式后得到点击率预测结果pt,基于批次为t的样本数据中每一个样本数据的pt和yt,获取每个样本数据的损失函数的梯度也即是预测点击率的准确度,获取批次t中所有样本数据损失函数梯度的平均值也即是平均准确度,基于损失函数梯度的平均值对对称矩阵M中的第一模型参数进行调整。
在一个具体的可能实现方式中,初始模型中还可以由第三模型参数,第三模型参数并不是组合特征对应的,样本数据中每个特征都对应有第三模型参数,每个特征都对应的第三模型参数部分通过线性计算表示在初始模型中,在模型训练中基于目标点击率和预测点击率,对第一模型参数和第三模型参数同时进行调整,得到点击率预测模型。
例如,上述步骤203中举例的公式中w中即为每个特征对应的第三模型参数,在模型训练中基于目标点击率和预测点击率,对w和对称矩阵M中的模型参数同时进行调整,得到点击率预测模型。
205、当该计算机设备获取到待预测的数据时,将该数据输入该点击率预测模型中,输出该数据的点击率预测结果。
当该计算机设备获取到待预测的数据时,将该待预测的数据输入点击率预测模型,由该点击率预测模型根据该待预测数据进行预测,最终输出待预测的数据点击率预测结果。其中,该待预测的数据可以包括待预测用户信息和待预测多媒体数据信息。
当该计算机设备获取到待预测的数据时,可以提取待预测的数据中的多个特征,将该多个特征输入点击率预测模型,通过上述步骤201-步骤204点击率预测模型中的参数,计算点击率预测结果并输出。
例如,该计算机设备提取待预测的数据中的多个特征,将待预测数据处理成特征向量xt,输入点击率预测模型,通过特征向量xt与通过上述步骤201-步骤204确定的对称矩阵M和w中的模型参数,计算并输出点击率预测结果pt。
基于上述点击率预测方法在具体实现中可以有多种具体实现方式,可以由不同的系统中完成,图3是点击率预测系统的一种具体举例。
下面提供一个点击率预测方法的具体应用实例,图3是本发明实施例提供的一种点击率预测系统架构示意图,参见图3。该点击率预测系统获取样本数据的来源有两种,一种是通过线上数据流获取,还有一种是通过数据库获取。因此该点击率预测系统对点击率预测模型的训练过程包括离线训练过程和在线训练过程。
离线训练过程:
首先从数据库中的数据进行抽样,经过特征处理平台,经过特征处理生成特征向量,基于特征向量统计各个特征的出现次数,基于该出现次数确定每个特征所属特征频次。此过程为上述步骤201和步骤202。然后分批获取数据库中样本数据,一个批次可以含多条样本或者可以只含一条样本,经过特征处理生成特征向量。将上述特征向量和特征频次发送训练模块。
如图4所示,该训练模块包括一个参数服务器和多个计算节点,参数服务器用来存储维护模型参数,计算节点负责计算。每一个批次的样本数据对应的特征向量流入一个计算节点。计算节点从参数服务器获取模型参数,然后根据每一个批次的样本数据对应的特征向量计算损失函数的梯度并求平均,然后基于该平均梯度,利用优化算法来更新参数。该优化算法可以为Online Gradient Descent、FTRL-Proximal和RDA算法等。
更新完成后,计算节点将更新的参数上传至参数服务器。
在线训练过程:
首先从线上的数据进行抽样,经过特征处理平台,经过特征处理生成特征向量,基于特征向量统计各个特征的出现次数,基于该出现次数确定每个特征所属特征频次。此过程为上述步骤201和步骤202。然后分批获取线上数据流中样本数据,一个批次可以含多条样本或者可以只含一条样本,经过特征处理生成特征向量。将上述特征向量和特征频次发送训练模块。
每一个批次的样本数据对应的特征向量流入一个计算节点。计算节点从参数服务器获取模型参数,然后根据每一个批次的样本数据对应的特征向量计算损失函数的梯度并求平均,然后基于该平均梯度,利用优化算法来更新参数。
重复上述在训练模块对模型训练的步骤,直至人为关闭训练过程,得到点击率预测模型,此过程为上述步骤203和步骤204。然后与上述步骤205相同,由预测模块对待预测数据进行预测。
本发明实施例提供的方法,通过根据各个特征出现的次数或每个特征的重要度设置信息对特征进行划分,根据划分结果确定不同特征组合时对应的模型参数是否需要调整,进行模型训练,得到点击率预测模型。该点击率预测方法既考虑了不同特征组合点击率预测的影响,又降低了点击率预测模型的训练和优化难度,提高了点击率预测模型的准确度。
图5是本发明实施例提供的一种点击率预测装置结构示意图,参见图5,该装置包括获取模块501、确定模块502、调整模块503和输出模块504。
获取模块501,用于获取多个样本数据,每个样本数据包括多个特征,该多个特征包括用户信息和多媒体数据信息。
确定模块502,用于根据该多个特征中每个特征的出现次数或每个特征的重要度设置信息,确定初始模型中任两个特征组合后的组合特征对应的模型参数,该模型参数用于体现该组合特征对点击率的影响程度,该模型参数包括第一模型参数和第二模型参数,该第一模型参数为在模型训练过程中需要调整的参数,该第二模型参数为0。
调整模块503,用于基于该多个样本数据的多个特征,对该初始模型的第一模型参数进行调整,得到点击率预测模型。
输出模块504,用于当获取到待预测的数据时,将该数据输入该点击率预测模型中,输出该数据的点击率预测结果。
在一种可能实现方式中,该确定模块还用于:
根据该多个样本数据中每个特征的出现次数,确定第一特征和第二特征,该第一特征的出现次数大于该第二特征的出现次数,基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数;
根据该多个特征中每个特征的重要度设置信息,确定第一特征和第二特征,该第一特征的重要度大于该第二特征的重要度,基于该第一特征和第二特征,确定初始模型中任两个特征组合后的组合特征对应的模型参数。
在一种可能实现方式中,该确定模块还用于:
对该多个样本数据进行抽样,得到每个特征的出现次数;
根据该每个特征的出现次数,确定第一特征和第二特征。
在一种可能实现方式中,该确定模块还用于:
将出现次数最多的前目标数量的特征确定为第一特征,将该多个特征中该第一特征之外的特征确定为第二特征;
将出现次数大于次数阈值的特征确定为第一特征,将该出现次数小于或等于该次数阈值的特征确定为第二特征。
在一种可能实现方式中,该确定模块还用于:
当该组合特征为两个不同的第一特征的组合或第一特征和第二特征的组合时,将该组合特征对应的模型参数确定为该第一模型参数;
当该组合特征为同一个第一特征的组合或任意两个第二特征的组合时,将该组合特征对应的模型参数确定为该第二模型参数。
在一种可能实现方式中,该确定模块还用于:
当多个组合特征为同一个第一特征与不同的第二特征的组合时,将该组合特征对应的模型参数确定为同一第一模型参数。
在一种可能实现方式中,该确定模块还用于:
提取该多个样本数据中每个样本数据的特征,得到每个样本数据对应的特征向量,该特征向量中每位向量值用于表示一个特征;
统计多个该特征向量中任一位向量值为目标值的次数,将该次数作为该位向量值对应的特征的出现次数;
根据该出现次数,确定该第一特征和该第二特征。
在一种可能实现方式中,该获取模块还用于:
从数据库中提取该多个样本数据;
实时获取样本数据,得到多个样本数据。
在一种可能实现方式中,该调整模块还用于:
将该多个样本数据输入该初始模型,输出每个样本数据的预测点击率,每个样本数据携带有目标点击率;
根据该目标点击率和该预测点击率,获取该预测点击率的准确度;
基于该准确度,对该初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到该点击率预测模型。
在一种可能实现方式中,该装置还包括:
分批模块,用于对该多个样本数据进行分批处理,得到至少一批样本数据;
输入模块,用于将每批样本数据输入该初始模型,得到每批样本数据中每个样本数据的预测点击率;
该获取模块还用于:
根据每个样本数据的该目标点击率和该预测点击率,获取每个样本数据的预测点击率的准确度;
获取每批样本数据的预测点击率的平均准确度;
该调整模块还用于:
基于该平均准确度,对该初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到该点击率预测模型。
需要说明的是:上述实施例提供的点击率预测的装置在点击率预测时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的点击率预测的装置与点击率预测的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例提供的装置,通过根据各个特征出现的次数或每个特征的重要度设置信息对特征进行划分,根据划分结果确定不同特征组合时对应的模型参数是否需要调整,进行模型训练,得到点击率预测模型。该点击率预测方法既考虑了不同特征组合点击率预测的影响,又降低了点击率预测模型的训练和优化难度,提高了点击率预测模型的准确度。
上述计算机设备可以提供为终端或服务器,例如,图6是本发明实施例提供的一种终端的结构示意图。该终端600可以是:智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端600包括有:一个或多个处理器601和一个或多个存储器602。
处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本发明中方法实施例提供的点击率预测方法。
在一些实施例中,终端600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头606、音频电路607和电源609中的至少一种。
外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本发明对此不加以限定。
显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置终端600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端600的不同表面或呈折叠设计;在再一些实施例中,显示屏605可以是柔性显示屏,设置在终端600的弯曲表面上或折叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器615以及接近传感器616。
加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器612可以检测终端600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时,可以检测用户对终端600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
接近传感器616,也称距离传感器,通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮屏状态切换为息屏状态;当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图6中示出的结构并不构成对终端600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图7是本发明实施例提供的一种服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(central processing units,CPU)701和一个或多个的存储器702,其中,该一个或多个存储器702中存储有至少一条指令,该至少一条指令由该一个或多个处理器701加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由处理器执行以完成上述实施例中的点击率预测方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (17)
1.一种点击率预测方法,其特征在于,所述方法包括:
获取多个样本数据,每个样本数据包括多个特征,每个所述特征用于指示所述样本数据的用户信息和多媒体数据信息中任一种信息;
根据所述多个特征中每个特征的出现次数或每个特征的重要度设置信息,确定第一特征和第二特征,所述第一特征的出现次数大于所述第二特征的出现次数,或所述第一特征的重要度大于所述第二特征的重要度;
当初始模型中任两个特征组合后的组合特征为两个不同的第一特征的组合或第一特征和第二特征的组合时,将所述组合特征对应的模型参数确定为第一模型参数,当所述组合特征为同一个第一特征的组合或任意两个第二特征的组合时,将所述组合特征对应的模型参数确定为第二模型参数,所述模型参数用于体现所述组合特征对点击率的影响程度,所述第一模型参数为在模型训练过程中需要调整的参数,所述第二模型参数的取值为0;
基于所述多个样本数据的多个特征,对所述初始模型的第一模型参数进行调整,得到点击率预测模型;
当获取到待预测的数据时,将所述数据输入所述点击率预测模型中,输出所述数据的点击率预测结果,所述待预测的数据为待预测用户信息和待预测多媒体数据信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个特征中每个特征的出现次数或每个特征的重要度设置信息,确定第一特征和第二特征,所述第一特征的出现次数大于所述第二特征的出现次数,或所述第一特征的重要度大于所述第二特征的重要度,包括:
根据所述多个样本数据中每个特征的出现次数,确定第一特征和第二特征,所述第一特征的出现次数大于所述第二特征的出现次数;
根据所述多个特征中每个特征的重要度设置信息,确定第一特征和第二特征,所述第一特征的重要度大于所述第二特征的重要度。
3.根据权利要求2所述的方法,其特征在于,所述确定第一特征和第二特征的过程包括下述任一项:
将出现次数最多的前目标数量的特征确定为第一特征,将所述多个特征中所述第一特征之外的特征确定为第二特征;
将出现次数大于次数阈值的特征确定为第一特征,将出现次数小于或等于所述次数阈值的特征确定为第二特征。
4.根据权利要求1所述的方法,其特征在于,所述当初始模型中任两个特征组合后的组合特征为两个不同的第一特征的组合或第一特征和第二特征的组合时,将所述组合特征对应的模型参数确定为第一模型参数,包括:
当多个组合特征为同一个第一特征与不同的第二特征的组合时,将所述组合特征对应的模型参数确定为同一第一模型参数。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个样本数据的多个特征,对所述初始模型的第一模型参数进行调整,得到点击率预测模型,包括:
将所述多个样本数据输入所述初始模型,输出每个样本数据的预测点击率,每个样本数据携带有目标点击率;
根据所述目标点击率和所述预测点击率,获取所述预测点击率的准确度;
基于所述准确度,对所述初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到所述点击率预测模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述多个样本数据输入所述初始模型,输出每个样本数据的预测点击率,包括:
对所述多个样本数据进行分批处理,得到至少一批样本数据;
将每批样本数据输入所述初始模型,得到每批样本数据中每个样本数据的预测点击率;
所述根据所述目标点击率和所述预测点击率,获取所述预测点击率的准确度,包括:
根据每个样本数据的所述目标点击率和所述预测点击率,获取每个样本数据的预测点击率的准确度;
获取每批样本数据的预测点击率的平均准确度;
所述基于所述准确度,对所述初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到所述点击率预测模型,包括:
基于所述平均准确度,对所述初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到所述点击率预测模型。
7.一种点击率预测装置,其特征在于,所述装置包括:
获取模块,用于获取多个样本数据,每个样本数据包括多个特征,每个所述特征用于指示所述样本数据的用户信息和多媒体数据信息中任一种信息;
确定模块,用于:
根据所述多个特征中每个特征的出现次数或每个特征的重要度设置信息,确定第一特征和第二特征,所述第一特征的出现次数大于所述第二特征的出现次数,或所述第一特征的重要度大于所述第二特征的重要度;
当初始模型中任两个特征组合后的组合特征为两个不同的第一特征的组合或第一特征和第二特征的组合时,将所述组合特征对应的模型参数确定为第一模型参数,当所述组合特征为同一个第一特征的组合或任意两个第二特征的组合时,将所述组合特征对应的模型参数确定为第二模型参数,所述模型参数用于体现所述组合特征对点击率的影响程度,所述模型参数包括第一模型参数和第二模型参数,所述第一模型参数为在模型训练过程中需要调整的参数,所述第二模型参数的取值为0;
调整模块,用于基于所述多个样本数据的多个特征,对所述初始模型的第一模型参数进行调整,得到点击率预测模型;
输出模块,用于当获取到待预测的数据时,将所述数据输入所述点击率预测模型中,输出所述数据的点击率预测结果,所述待预测的数据为待预测用户信息和待预测多媒体数据信息。
8.根据权利要求7所述的装置,其特征在于,所述确定模块用于:
根据所述多个样本数据中每个特征的出现次数,确定第一特征和第二特征,所述第一特征的出现次数大于所述第二特征的出现次数;
根据所述多个特征中每个特征的重要度设置信息,确定第一特征和第二特征,所述第一特征的重要度大于所述第二特征的重要度。
9.根据权利要求8所述的装置,其特征在于,所述确定模块用于:
对所述多个样本数据进行抽样,得到每个所述特征的出现次数;
根据每个所述特征的出现次数,确定所述第一特征和所述第二特征。
10.根据权利要求8所述的装置,其特征在于,所述确定模块用于下述任一项:
将出现次数最多的前目标数量的特征确定为第一特征,将所述多个特征中所述第一特征之外的特征确定为第二特征;
将出现次数大于次数阈值的特征确定为第一特征,将出现次数小于或等于所述次数阈值的特征确定为第二特征。
11.根据权利要求7所述的装置,其特征在于,所述确定模块用于:
当多个组合特征为同一个第一特征与不同的第二特征的组合时,将所述组合特征对应的模型参数确定为同一第一模型参数。
12.根据权利要求7所述的装置,其特征在于,所述确定模块用于:
提取所述多个样本数据中每个所述样本数据的特征,得到每个所述样本数据对应的特征向量,所述特征向量中每位向量值用于表示一个特征;
统计多个所述特征向量中任一位向量值为目标值的次数,将所述次数作为所述位向量值对应的特征的出现次数;
根据所述出现次数,确定所述第一特征和所述第二特征。
13.根据权利要求7所述的装置,其特征在于,所述获取模块还用于:
从数据库中提取所述多个样本数据;
实时获取样本数据,得到所述多个样本数据。
14.根据权利要求7所述的装置,其特征在于,所述调整模块用于:
将所述多个样本数据输入所述初始模型,输出每个样本数据的预测点击率,每个样本数据携带有目标点击率;
根据所述目标点击率和所述预测点击率,获取所述预测点击率的准确度;
基于所述准确度,对所述初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到所述点击率预测模型。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:
分批模块,用于对所述多个样本数据进行分批处理,得到至少一批样本数据;
输入模块,用于将每批样本数据输入所述初始模型,得到每批样本数据中每个样本数据的预测点击率;
所述获取模块还用于:
根据每个样本数据的所述目标点击率和所述预测点击率,获取每个样本数据的预测点击率的准确度;
获取每批样本数据的预测点击率的平均准确度;
所述调整模块还用于:
基于所述平均准确度,对所述初始模型的第一模型参数进行调整,直至符合目标条件时,停止调整,得到所述点击率预测模型。
16.一种计算机设备,其特征在于,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条指令,所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求6任一项所述的点击率预测方法所执行的操作。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的点击率预测方法所执行的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910798499.8A CN110490389B (zh) | 2019-08-27 | 2019-08-27 | 点击率预测方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910798499.8A CN110490389B (zh) | 2019-08-27 | 2019-08-27 | 点击率预测方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110490389A CN110490389A (zh) | 2019-11-22 |
CN110490389B true CN110490389B (zh) | 2023-07-21 |
Family
ID=68554544
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910798499.8A Active CN110490389B (zh) | 2019-08-27 | 2019-08-27 | 点击率预测方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110490389B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113495986A (zh) * | 2020-03-20 | 2021-10-12 | 华为技术有限公司 | 数据处理的方法与装置 |
CN113065066B (zh) * | 2021-03-31 | 2024-05-07 | 北京达佳互联信息技术有限公司 | 预测方法、装置、服务器及存储介质 |
CN115809372B (zh) * | 2023-02-03 | 2023-06-16 | 中国科学技术大学 | 基于解耦不变学习的点击率预测模型的训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445954A (zh) * | 2015-08-07 | 2017-02-22 | 北京奇虎科技有限公司 | 一种业务对象的展示方法和装置 |
CN108520442A (zh) * | 2018-04-10 | 2018-09-11 | 电子科技大学 | 一种基于融合结构的展示广告点击率预测方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130346182A1 (en) * | 2012-06-20 | 2013-12-26 | Yahoo! Inc. | Multimedia features for click prediction of new advertisements |
CN104572734B (zh) * | 2013-10-23 | 2019-04-30 | 腾讯科技(深圳)有限公司 | 问题推荐方法、装置及系统 |
CN103996088A (zh) * | 2014-06-10 | 2014-08-20 | 苏州工业职业技术学院 | 基于多维特征组合逻辑回归的广告点击率预测方法 |
CN106156878B (zh) * | 2015-04-21 | 2020-09-15 | 深圳市腾讯计算机系统有限公司 | 广告点击率矫正方法及装置 |
CN109509010B (zh) * | 2017-09-15 | 2023-04-18 | 腾讯科技(北京)有限公司 | 一种多媒体信息处理方法、终端及存储介质 |
CN109816412B (zh) * | 2017-11-21 | 2022-11-29 | 腾讯科技(深圳)有限公司 | 一种训练模型生成方法、装置、设备和计算机存储介质 |
CN110020877B (zh) * | 2018-01-09 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 点击率的预测方法、点击率的确定方法及服务器 |
CN108510313A (zh) * | 2018-03-07 | 2018-09-07 | 阿里巴巴集团控股有限公司 | 一种信息转化率的预测、信息推荐方法和装置 |
CN109460513B (zh) * | 2018-10-31 | 2021-01-08 | 北京字节跳动网络技术有限公司 | 用于生成点击率预测模型的方法和装置 |
CN109543066B (zh) * | 2018-10-31 | 2021-04-23 | 北京达佳互联信息技术有限公司 | 视频推荐方法、装置和计算机可读存储介质 |
-
2019
- 2019-08-27 CN CN201910798499.8A patent/CN110490389B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106445954A (zh) * | 2015-08-07 | 2017-02-22 | 北京奇虎科技有限公司 | 一种业务对象的展示方法和装置 |
CN108520442A (zh) * | 2018-04-10 | 2018-09-11 | 电子科技大学 | 一种基于融合结构的展示广告点击率预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110490389A (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299315B (zh) | 多媒体资源分类方法、装置、计算机设备及存储介质 | |
CN110163405B (zh) | 通行时间确定方法、装置、终端及存储介质 | |
CN111696532B (zh) | 语音识别方法、装置、电子设备以及存储介质 | |
CN110490389B (zh) | 点击率预测方法、装置、设备及介质 | |
CN111027490B (zh) | 人脸属性识别方法及装置、存储介质 | |
CN110796248A (zh) | 数据增强的方法、装置、设备及存储介质 | |
CN111581958A (zh) | 对话状态确定方法、装置、计算机设备及存储介质 | |
CN111738365B (zh) | 图像分类模型训练方法、装置、计算机设备及存储介质 | |
CN111432245A (zh) | 多媒体信息的播放控制方法、装置、设备及存储介质 | |
CN110162956A (zh) | 确定关联账户的方法和装置 | |
CN111613213B (zh) | 音频分类的方法、装置、设备以及存储介质 | |
CN111416996B (zh) | 多媒体文件检测方法、播放方法、装置、设备及存储介质 | |
CN114691860A (zh) | 文本分类模型的训练方法、装置、电子设备及存储介质 | |
CN113343709B (zh) | 意图识别模型的训练方法、意图识别方法、装置及设备 | |
CN111310701B (zh) | 手势识别方法、装置、设备及存储介质 | |
CN114897158A (zh) | 数据处理模型的训练方法、数据处理方法、装置及设备 | |
CN110096707B (zh) | 生成自然语言的方法、装置、设备及可读存储介质 | |
CN113609387A (zh) | 播放内容推荐方法、装置、电子设备及存储介质 | |
CN112560903A (zh) | 图像美学信息的确定方法、装置、设备及存储介质 | |
CN112418295A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN111797754A (zh) | 图像检测的方法、装置、电子设备及介质 | |
CN111652432A (zh) | 用户属性信息的确定方法、装置、电子设备及存储介质 | |
CN110795465B (zh) | 用户规模预估方法、装置、服务器及存储介质 | |
CN113657652B (zh) | 流动量的预测方法、装置、设备及可读存储介质 | |
CN110458289B (zh) | 多媒体分类模型的构建方法、多媒体分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |