CN109992710B - 点击率预估方法、系统、介质和计算设备 - Google Patents
点击率预估方法、系统、介质和计算设备 Download PDFInfo
- Publication number
- CN109992710B CN109992710B CN201910113437.9A CN201910113437A CN109992710B CN 109992710 B CN109992710 B CN 109992710B CN 201910113437 A CN201910113437 A CN 201910113437A CN 109992710 B CN109992710 B CN 109992710B
- Authority
- CN
- China
- Prior art keywords
- information
- user
- click rate
- click
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Evolutionary Biology (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施方式提供了一种点击率预估方法,包括:基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;基于训练样本集进行逻辑回归训练,以获得逻辑回归模型;基于逻辑回归模型,生成第一嵌入式向量,其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值;以及基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,点击率预测模型用于预估用户对待推荐信息的点击率。本发明以嵌入式向量为纽带,既保留前者的记忆能力,又兼顾后者的泛化能力,极大提升点击率预估准确性。本发明的实施方式还提供了一种点击率预估系统、一种介质和一种计算设备。
Description
技术领域
本发明的实施方式涉及数据处理领域,更具体地,本发明的实施方式涉及一种点击率预估方法及系统、一种介质和一种计算设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
推荐系统的主要工作是解决信息过载的问题,为用户从海量的信息中筛选出最有价值的信息。点击率(Predict Click Through Rate,简称为PCTR)预估技术是衡量一个推荐系统性能的重要指标,在推荐系统中具有非常重要的作用,其主要任务是预测推荐系统所推荐的某个推荐内容被用户点击的可能性,其实质上是一个二分类的问题,输出是介于0(不感兴趣)和1(感兴趣)之间的概率。
目前,已经出现了一些点击率的预估算法,例如,线性模型(Linear Model,简称为LM)的点击率预估算法、因子分解机模型(Factorization Machine,简称为FM)的点击率预估算法、深度神经网络(Deep Neural Network,简称为DNN)的点击率预估算法以及支持向量机(Support Vector Machine,简称为SVM)的点击率预估算法等。
发明内容
然而,在实现本发明构思的过程中,发明人发现相关技术中至少存在如下问题:线性模型,例如逻辑回归(Logistic Regression,简称为LR)简单、易扩展、可解释性强、记忆能力强,但是需要做大量的特征工程来获取有效的基础特征,以及组合基础特征得到对应的组合特征。而基于嵌入层的FM和DNN算法虽然可以在很少的特征工程情况下,通过训练学习低维度的嵌入向量(Embedding Vector,简称为EV)来学习训练集中从未出现过的组合特征,泛化能力强。但是,当用户-特征矩阵是稀疏的且是高秩的情况下,例如用户有特殊的爱好,或特征工程比较小众,则很难有效的学习出低维度的特征,甚至过度泛化,使得点击率预测结果都是非0,降低预测结果的准确性。
因此,在现有技术中,点击率的预估方法无法兼顾逻辑回归模型的记忆能力以及深度神经网络的泛化能力,可能会导致向用户推荐的内容并不符合用户的兴趣点,降低了用户体验,这是非常令人烦恼的过程。
为此,非常需要一种改进的点击率预估方法,以克服现有技术的点击率预估方法导致的上述技术问题,以提高点击率预估的准确度,向用户提供更准确更有针对性的推荐信息。
在本上下文中,本发明的实施方式期望提供一种准确地预估待推荐信息点击率的方法。
在本发明实施方式的第一方面中,提供了一种点击率预估方法,包括:基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;基于所述训练样本集进行逻辑回归训练,以获得逻辑回归模型;基于所述逻辑回归模型,生成第一嵌入式向量,其中,所述第一嵌入式向量用于表征所述每个第一特征信息对应的权重值;以及基于所述第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,所述点击率预测模型用于预估所述用户对待推荐信息的点击率。
在本发明的一个实施例中,所述基于用户的多个历史点击信息对应的第一特征信息,获得训练样本集包括:按照预设规则从所述第一特征信息中筛选出目标特征;以及基于所述目标特征,获得训练样本集,其中,所述训练样本集的样本数量与所述目标特征的特征数量满足预设占比。
在本发明的另一实施例中,所述方法还包括:获取所述待推荐信息的第二特征信息;基于所述第二特征信息,获得测试样本集;以及基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率。
在本发明的又一个实施例中,上述基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率包括:将所述测试样本集输入所述逻辑回归模型;基于所述逻辑回归模型的输出结果,生成第二嵌入式向量,其中,所述第二嵌入式向量用于表征所述每个第二特征信息对应的权重值;将所述第二嵌入式向量输入所述点击率预测模型;以及根据所述点击率预估模型的输出结果,预估所述用户对所述待推荐信息的点击率。
在本发明的又一个实施例中,所述第一特征信息包括以下中的至少一种:用户信息、文章信息、环境信息。
在本发明的又一个实施例中,其中:所述用户信息包括用户的基础属性信息和用户的行为信息;所述文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;所述环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。
在本发明实施方式的第二方面中,提供了一种介质,存储有计算机可执行指令,上述指令在被处理单元执行时用于实现上述任一项上述的方法。
在本发明实施方式的第三方面中,提供了一种点击率预估系统,包括:第一获得模块,用于基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;第一训练模块,用于基于所述训练样本集进行逻辑回归训练,以获得逻辑回归模型;生成模块,用于基于所述逻辑回归模型,生成第一嵌入式向量,其中,所述第一嵌入式向量用于表征所述每个第一特征信息对应的权重值;以及第二训练模块,用于基于所述第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,所述点击率预测模型用于预估所述用户对待推荐信息的点击率。
在本发明的又一个实施例中,所述第一获得模块包括:筛选子模块,用于按照预设规则从所述第一特征信息中筛选出目标特征;以及获得子模块,用于基于所述目标特征,获得训练样本集,其中,所述训练样本集的样本数量与所述目标特征的特征数量满足预设占比。
在本发明的又一个实施例中,所述系统还包括:第二获得模块,用于获取所述待推荐信息的第二特征信息;第三获得模块,用于基于所述第二特征信息,获得测试样本集;以及预估模块,用于基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率。
在本发明的又一个实施例中,所述预估模块包括:第一输入子模块,用于将所述测试样本集输入所述逻辑回归模型;生成子模块,用于基于所述逻辑回归模型的输出结果,生成第二嵌入式向量,其中,所述第二嵌入式向量用于表征所述每个第二特征信息对应的权重值;第二输入子模块,用于将所述第二嵌入式向量输入所述点击率预测模型;以及预估子模块,用于根据所述点击率预估模型的输出结果,预估所述用户对所述待推荐信息的点击率。
在本发明的又一个实施例中,所述第一特征信息包括以下中的至少一种:用户信息、文章信息、环境信息。
在本发明的又一个实施例中,所述用户信息包括用户的基础属性信息和用户的行为信息;所述文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;所述环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。
在本发明实施方式的第四方面中,提供了一种计算设备,包括:处理单元;以及存储单元,存储有计算机可执行指令,上述指令在被处理单元执行时用于实现上述任一项上述的方法。
根据本发明实施方式的点击率预估方法,基于与用户的多个历史点击信息对应的第一特征信息,获得的训练样本集进行逻辑回归训练,以获得逻辑回归模型,再基于逻辑回归模型,生成第一嵌入式向量,即每个第一特征信息对应的权重值,最后基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,以预估用户对待推荐信息的点击率。本发明的点击率预估方法与传统最具代表性的LR和DNN相比,以嵌入式向量为中间纽带,将LR模型与DNN模型有机结合,既可以保留LR模型的记忆能力,又可以兼顾DNN模型在不需要大量的特征工程的情况下就能够学习特有特征的泛化能力,极大地提升点击率预估的准确性,实现向用户提供更准确更有针对性的推荐信息的技术效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的系统架构;
图2示意性地示出了根据本发明实施例的点击率预估方法的流程图;
图3示意性地示出了根据本发明实施例的获得训练样本集的流程图;
图4示意性地示出了根据本发明另一实施例的点击率预估方法的流程图;
图5示意性地示出了根据本发明实施例的基于测试样本集和点击率预测模型,预估用户对待推荐信息的点击率的流程图;
图6示意性地示出了现有技术中的点击率预估模型的结构图;
图7示意性地示出了本发明实施例的点击率预估模型的结构图;
图8示意性地示出了根据本发明实施例的点击率预估系统的框图一;
图9示意性地示出了根据本发明实施例的第一获得模块的框图;
图10示意性地示出了根据本发明实施例的点击率预估系统的框图二;
图11示意性地示出了根据本发明实施例的预估模块的框图;
图12示意性地示出了根据本发明实施例的用于实现点击率预估方法的计算机可读存储介质产品的示意图;以及
图13示意性地示出了根据本发明实施例的用于实现点击率预估方法的计算设备的框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本发明可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种点击率预估的方法、介质、点击率预估的系统(装置)和计算设备。
在本文中,需要理解的是,本发明所涉及的术语包括逻辑回归,点击率,神经网络,嵌入式向量,记忆能力以及泛化能力。其中:逻辑回归(Logistic Regression,简称为LR)又称逻辑回归分析,是一种广义的线性回归分析模型,用于对样本进行分类以估计某种事物的可能性,比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某内容被用户点击的可能性等。这里用的是“可能性”,而非数值上的“概率”。因为逻辑回归模型输出的结果一般是离散的,并非数学定义中的概率值,该结果往往用于和其他特征值加权求和,不可以直接当做概率值来用。根据实际的分类任务,输出的结果可以只有有限多个输出值,也可以是一区间内的数值。例如,对推荐系统给用户推荐的待推荐信息而言,逻辑回归模型输出的结果为0代表用户对待推荐信息点击的可能性较低,即不感兴趣,而1代表用户对待推荐信息点击的可能性较高,即感兴趣。若输出结果只有两个值{0,1}时,0表示不感兴趣,1表示感兴趣;若输出结果是[0,1]区间内的数值,则通过预设一个阈值,例如0.5,在输出的结果大于0.5时,将该待推荐信息归类到1这一类,在输出的结果小于0.5时,将该待推荐信息归类到0这一类。这样,针对每次给用户推荐的待推荐信息,经过逻辑回归分析,就可以将该待推荐信息归类到0或1。点击率指网站或者APP上指定内容被点击和曝光的次数之比,点击率通常是推荐系统中衡量的重要指标。神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。神经网络包含:输入层、隐藏层、输出层,设计网络时,输入层和输出层节点数固定,隐藏层可自由指定。神经网络中的每个神经元节点接受上一层神经元的输出值作为本神经元的输入值,并将输入值传递给下一层,输入层神经元节点会将输入属性值直接传递给下一层(隐藏层或输出层)。在多层神经网络中,上层节点的输出和下层节点的输入之间具有一个函数关系,称为激活函数。神经元是以生物神经系统的神经细胞为基础的生物模型,把神经元数学化,产生神经元模型,神经网络中的每层由神经元模型组成,神经元模型是一个包含输入、输出与计算功能的模型;Embedding(词嵌入)在数学上表示一个mapping(映射),f:X→Y,也就是一个function(功能函数),其中该函数是injective(就是我们所说的单射函数,每个Y只有唯一的X对应,反之亦然)和structure-preserving的函数(结构保存,比如在X所属的空间上X1<X2,那么映射后在Y所属空间上同理Y1<Y2)。记忆能力表示在推荐中将历史数据重现的能力,线性模型可以利用交叉特征去有效地记忆稀疏特征之间的相互作用。泛化能力表示基于数据相关性的传递性。神经网络可以通过挖掘特征之间的相互作用,提升模型的泛化能力。此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
在实现本发明构思的过程中,发明人发现相关技术中至少存在如下问题:点击率的预估方法无法兼顾逻辑回归模型的记忆能力以及深度神经网络的泛化能力,可能导致向用户推荐的内容并不符合用户的兴趣点。
本发明的实施方式提供了一种点击率预估方法,包括:基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;基于训练样本集进行逻辑回归训练,以获得逻辑回归模型;基于逻辑回归模型,生成第一嵌入式向量,其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值;以及基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,点击率预测模型用于预估用户对待推荐信息的点击率。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1详细阐述本发明实施例的点击率预估方法的系统架构。
图1示意性地示出了根据本发明实施方式的系统架构10。需要注意的是,图1所示仅为可以应用本发明实施方式的系统架构的示例,以帮助本领域技术人员理解本发明的技术内容,但并不意味着本发明实施方式不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构10可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本发明实施方式所提供的点击率预估方法一般可以由服务器105执行。相应地,本发明实施方式所提供的点击率预估装置一般可以设置于服务器105中。本发明实施方式所提供的点击率预估方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本发明实施方式所提供的点击率预估装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
可以理解的是,一般情况下,推荐系统在推荐文章、视频、图片等内容时,都会考虑用户的兴趣特征,为用户定制个性化的阅读内容。
使用本发明提供的技术方案,基于与用户的多个历史点击信息对应的第一特征信息,获得的训练样本集进行逻辑回归训练,以获得逻辑回归模型,再基于逻辑回归模型,生成第一嵌入式向量,即每个第一特征信息对应的权重值,最后基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,以预估用户对待推荐信息的点击率。本发明的点击率预估方法与传统最具代表性的LR和DNN相比,以嵌入式向量为中间纽带,将LR模型与DNN模型有机结合,既可以保留LR模型的记忆能力,又可以兼顾DNN模型在不需要大量的特征工程的情况下就能够学习特有特征的泛化能力,极大地提升点击率预估的准确性,实现向用户提供更准确更有针对性的推荐信息的技术效果。
示例性方法
下面结合图1的系统架构,参考图2来描述根据本发明示例性实施方式的点击率预估方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本发明实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本发明。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本发明的实施方式提供了一种点击率预估方法,包括:基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;基于训练样本集进行逻辑回归训练,以获得逻辑回归模型;基于逻辑回归模型,生成第一嵌入式向量,其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值;以及基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,点击率预测模型用于预估用户对待推荐信息的点击率。
图2示意性地示出了根据本发明实施例的点击率预估方法的流程图。
如图2所示,该点击率预估方法包括操作S210~S240。其中:
在操作S210,基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性。
作为一种可选的实施例,第一特征信息包括以下中的至少一种:用户信息、文章信息、环境信息。
更具体地,作为一种可选的实施例,用户信息包括用户的基础属性信息和用户的行为信息;文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。
例如,用户的基础属性信息可以包括但不限于用户姓名、性别、年龄、职业等等;用户的行为信息可以包括但不限于:用户点击了什么、没点击什么,等等。
例如,文章的基础属性信息可以包括但不限于文章的类别(如娱乐、体育、段子,等等),文章的长度,文章的形式,文章的发布时间,文章来源,文章标题,文章在过去一段时间的点击率,等等。
例如,当前的网络环境状况可以包括但不限于用户当前使用的是WIFI、3G、还是4G网络,等等;用户使用的设备可以包括但不限于安卓机、苹果机,等等。
由于每个用户在不同的时间段内可能兴趣爱好会有所变化,因此在实际操作时,可以设定一个时间段,基于该时间段内用户的历史点击信息(日志),针对给用户推荐的每条内容,获取这些推荐内容各自对应的第一特征信息,基于该第一特征信息获得训练样本集。
可以理解的是,逻辑回归模型的输出结果用于表示用户对推荐内容执行点击的可能性,那么,对于一个初始的逻辑回归模型来说,训练逻辑回归模型的过程就是根据已知的训练样本集确定逻辑回归模型中各特征信息对应的回归系数即权重值的过程。由于逻辑回归模型属于有监督的学习方法,因此,训练样本集除了包括第一特征信息(自变量)之外,还包括用户对推荐内容是否有点击的结果(应变量)。具体地,第一特征信息中包含的特征信息的个数为自变量的个数。用户对推荐内容有点击的结果,Label标记为1,反之,用户对推荐内容无点击的结果,Label标记为0,相应地,用户对推荐内容有点击行为的训练样本为正样本,用户对推荐内容无点击行为的训练样本为负样本。
在操作S220,基于训练样本集进行逻辑回归训练,以获得逻辑回归模型。
在逻辑回归模型的训练阶段,可以利用获得的训练样本集和初始的逻辑回归模型,以训练样本集中的每条训练样本对应的特征信息作为输入的自变量,获得输出的应变量结果,进行逻辑回归训练,以确定逻辑回归模型的模型参数,使得利用训练样本中的自变量和该模型参数确定的逻辑回归模型,得到的输出结果接近于训练样本中应变量这一标准结果。
在操作S230,基于逻辑回归模型,生成第一嵌入式向量,其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值。
根据本发明的示例性实施方式,对于每条训练样本对应的特征的多个维度离散化处理后,其维度会超过原始维度,为了避免因维度压缩所带来的信息损失,需要将离散后的维度重新恢复至原始维度。基于训练好的LR模型,生成特征维度的嵌入式(embedding)向量,即LR模型中特征信息的权重值向量,对于离散化后的特征信息的权重进行求和处理,即将embedding向量的长度固定为特征信息的维度,避免因维度压缩所带来的信息损失。
在操作S240,基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,点击率预测模型用于预估用户对待推荐信息的点击率。
根据本发明的示例性实施方式,基于第一嵌入式向量(以下也称为embedding向量)进行DNN训练,最终生成特定格式,如pd格式的模型,方便线上利用最终生成的点击率预测模型预估用户对待推荐信息的点击率。
需要说明的是,可以通过评估指标来评估点击率预测模型,在点击率预测模型符合上述评估指标,且预测结果有比较明显的提高时,才会确定其为训练后的点击率预测模型。评估指标包括但不限于AUC(Area Under the Curve)、LOSS(损失)、Precision(精确度)。
以下将结合实施例一对上述操作S210~S240进行详细阐述。
实施例一:
推荐系统给用户123推荐过10篇文章,用户123点击了2篇,则共计生成10条样本,包括2条正样本,8条负样本。
在操作S210中,以基于与用户的多个历史点击信息对应的第一特征信息,获得一条正训练样本为例。
从日志中初步抽取的数据为:【用户ID,用户的历史兴趣,点击(曝光)时间,文章的主题,文章类别,手机类型,刷新次数】。
与第一特征信息对应的数值为:【123,明星/NBA/玄幻/…,2012-10-22∶12∶12∶23,留学/费用/…,体育|NBA,iphone,3】。
与初步抽取的数据对应的第一特征信息生成:如上所示,从日志中初步抽取的数据包括7个维度,每个维度中的数据可能是单值,也可能是多值,其中,用户ID,点击(曝光)时间,文章类别,手机类型,刷新次数是单值,用户的历史兴趣,文章的主题是多值,对于逻辑回归模型来说,会对多值进行离散化处理,离散化后的第一特征信息如下:
【123,明星,NBA,玄幻,中午,留学,费用,体育_NBA,iphone,2-4次】。
由此基于与用户的多个历史点击信息对应的第一特征信息,得出一条训练样本,同理可得多条训练样本。在操作S220,基于上述获得的包含2条正训练样本以及8条负训练样本的训练样本集进行逻辑回归训练,以获得逻辑回归模型。该逻辑回归训练方法可以采用任意公知的训练方法,此处不再赘述。
在操作S230,基于逻辑回归模型,生成第一嵌入式向量。其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值。经过特征信息提炼和筛选,最终训练出的逻辑回归模型的模型参数结果为:123这一特征信息的权重值为0.11;明星这一特征信息的权重值为0.1;特征信息NBA为0.2;玄幻这一特征信息的权重值为0.3。
考虑到从日志中初步抽取的原始数据是7个维度,而离散化之后一般可能会超过7个维度,但向量化后会需要重新恢复7个维度,因此,可以对多值的特征信息对应的权重值进行求和处理,这样可以将嵌入式向量的长度与原始特征数据的维度保持一致。例如,用户ID特征信息是单值的,则用户ID这一特征信息对应的向量值可以直接取权重值0.11,而用户的历史兴趣是多值的(包含明星、NBA以及玄幻),其中,明星这一特征信息对应的向量值为0.1,NBA这一特征信息对应的向量值为0.2,玄幻这一特征信息对应的向量值为0.3,则用户的历史兴趣这一特征信息对应的权重值为0.1、0.2和0.3的累加值,即0.6,则生成的特征信息【用户ID,用户的历史兴趣】对应的向量值就是【0.11,0.6】。
对于其他训练样本,同理将其维度与上述训练样本中特征信息的维度统一,使得每条训练样本相对于其他训练样本来说都是稠密数据。
在操作S240,基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型。将产生的稠密训练样本数据作为深度神经网络模型的输入数据,进行DNN训练。输出格式大概如下:
a.深度神经网络训练模型的预设参数:包括但不限于学习率0.78,网络多少层:3,每层神经元的个数[100,60,60],优化算法:FTRL,激活函数:RELU。其中网络多少层:3,每层神经元的个数[100,60,60]表示:网路配置3层,第一层100个神经元,第二层和第三层各60个神经元。
b.神经元的权重,每个神经元都有一个权重。
预测过程可以理解为基于每层每个神经元进行线性计算(取决于用什么激活函数),最终每条测试样本会输出一个预测结果,对该预测结果再利用sigmoid函数进行处理,即可将数值压缩到0-1之间,得到一个[0,1]区间内的概率值,概率值越大,点击可能性越大,反之,概率值越小,点击可能性越小。通过预设阈值,将大于该预设阈值的概率值归类为1,小于该预设阈值的概率值归类为0,即可以将该概率值归类成点击率的预估结果。例如,预设阈值为0.5,若计算得到的概率值为0.8,大于该预设阈值0.5,则将点击率预估结果归类为1,即用户有点击该待推荐信息的可能性,若计算得到的概率值为0.3,小于该预设阈值0.5,则将点击率预估结果归类为0,即用户无点击该待推荐信息的可能性。
与现有技术训练点击率预估模型时仅仅获取各历史点击信息的基础特征信息,并将其组合成对应的组合特征信息,进而利用这一组合特征信息训练点击率预估模型,导致模型的特征不够丰富,预估结果不够准确相比,本发明实施例在训练点击率预估模型时,不仅会获取各历史点击信息的基础特征信息,而且还会深度挖掘这些历史点击信息之间内在的隐含特征信息,进而将所有的基础特征信息和对应的隐含特征信息组合在一起,从而得到内容更丰富的组合特征信息,并以此训练点击率预估模型,因而能够提高预估结果的准确度。
下面参考图3~图5,结合具体实施例对图2所示的点击率预估方法做进一步说明。
图3示意性地示出了根据本发明实施例的获得训练样本集的流程图。
在该实施例中,除了包括上文参考图2描述的操作S210~S240之外,还进一步限定了前述操作S210。为了描述的简洁起见,这里省略对操作S220~S240的描述。
如图3所示,前述操作S210(基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集)包括操作S310和S320,其中:
在操作S310,按照预设规则从所述第一特征信息中筛选出目标特征。
在操作S320,基于所述目标特征,获得训练样本集,其中,所述训练样本集的样本数量与所述目标特征的特征数量满足预设占比。
根据本发明的实施方式,在获得训练样本集之前,可以对第一特征信息进行预处理、筛选,以减少运算量,提高模型的训练速度。
可以理解的是,原始数据的采集和特征信息的提取,是整个机器学习中最重要的两个环节,其本身就决定了整个模型的上限。因此,对获取的原始数据,如日志,可以进行数据清洗和预处理,获得处理后的日志数据,以去除干扰数据的影响。进一步地,基于处理后的日志数据进行筛选,以得到有效的目标特征。在交叉特征方面(例如多值的特征信息),结合本领域技术人员的经验,提炼出多个意义重大的交叉特征信息,去掉一些贡献比较低的特征信息。
例如,可以通过单个特征的AUC指标来筛选重要特征信息。其中,某个特征对应的AUC面积越大,说明该特征越重要,贡献较高;反之,AUC面积越小,说明该特征越不重要,贡献较低。
根据本发明的实施方式,还可以设置一预设占比,该预设占比用于表征训练样本的中正负训练样本的数量与目标特征总数量的比值,如10%,使得正负训练样本的比例控制在目标特征总数量的10%之内。
通过本发明的示例性实施方式,设置预设占比,使得正负样本的比例与目标特征的特征数量满足预设占比,可以有效防止过拟合/欠拟合,提高逻辑线性训练结果的可靠性。
图4示意性地示出了根据本发明另一实施例的点击率预估方法的流程图。
如图4所示,在该实施例中,除了包括上文参考图2描述的操作S210~S240之外,还包括操作S410~S430。为了描述的简洁起见,这里省略对操作S210~S240的描述。其中:
在操作S410,获取待推荐信息的第二特征信息。
其中,第二特征信息与第一特征信息类似,也包括以下中的至少一种:用户信息、文章信息、环境信息。并且,用户信息包括用户的基础属性信息和用户的行为信息;文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。更详细的内容可以参照前述实施中关于第一基础特征信息的描述,在此不再赘述。
此外,与第一特征信息不同的是,第二特征信息是用于表征待推荐信息的特征属性的。
在操作S420,基于第二特征信息,获得测试样本集。
其中,基于第二特征信息,获得测试样本集的方法与基于第一特征信息,获得训练样本集的方法相同,在此不再赘述。
在操作S430,基于测试样本集和点击率预测模型,预估用户对待推荐信息的点击率。
通过本发明实施例,既可以在不需要大量的特征工程的情况下学习到用户特有的行为,又可以保持足够的泛化能力,结合LR模型与DNN模型得到的AUC相比之前仅适用LR模型有较大优化,点击率预估结果准确度有较大提升。
图5示意性地示出了根据本发明实施例的基于测试样本集和点击率预测模型,预估用户对待推荐信息的点击率的流程图。
如图5所示,该方法包括操作S510~S540。其中:
在操作S510,将测试样本集输入逻辑回归模型。
在操作S520,基于逻辑回归模型的输出结果,生成第二嵌入式向量,其中,第二嵌入式向量用于表征每个第二特征信息对应的权重值。
其中,基于逻辑回归模型的输出结果,生成第二嵌入式向量的方法与基于逻辑回归模型,生成第一嵌入式向量的方法相同,在此不再赘述。
在操作S530,将第二嵌入式向量输入点击率预测模型。
在操作S540,根据点击率预估模型的输出结果,预估用户对待推荐信息的点击率。
将第二嵌入向量输入训练好的点击率预测模型,可以得到点击率预估结果,直接根据点击率预估结果的大小或将该点击率预估结果进行归类(0或1),即可获得用户对待推荐信息的点击率。
可以理解的是,推荐系统一般会给用户推荐多条待推荐信息,那么,用户对待推荐信息的点击率的预测过程也是对多条待推荐信息的点击率结果的排序过程,即对多条待推荐信息的点击率预估计算得分进行排序,按照排序的高低给用户做推荐。具体地:
a.基于多条待推荐信息中各条待推荐信息的第二特征信息,生成测试样本。
b.从逻辑回归模型中获取第二特征信息中各特征信息所对应的特征权重;
c.执行特征权重的离散化,生成特征维度的嵌入式向量,对于离散化后的特征权重进行求和处理,即将嵌入式向量长度固定为第二特征信息的维度;
d.执行点击率预测。将嵌入式向量输入点击率预估模型,根据模型的输出结果,预估用户对待推荐信息的点击率。
例如,基于待推荐信息1获得测试样本1,基于待推荐信息2获得测试样本2,基于待推荐信息3获得测试样本3,基于待推荐信息4获得测试样本4,基于待推荐信息5获得测试样本5。
从逻辑回归模型中获取第二特征信息中各特征信息所对应的特征权重。对特征权重做离散化以及求和等处理,将嵌入式向量长度固定为第二特征信息的维度,将嵌入式向量输入点击率预估模型。最终得出测试样本集的点击率预估概率值分别为:测试样本1为0.51,测试样本2为0.67,测试样本3为0.24,测试样本4为0.89,测试样本5为0.71。
由于点击率预估概率值从大到小的测试样本分别为:测试样本4,测试样本5,测试样本2,测试样本1,测试样本3。因此,给用户推荐的5条待推荐信息的优先顺序为:待推荐信息4,待推荐信息5,待推荐信息2,待推荐信息1,待推荐信息3。
通过本发明实施例,利用嵌入向量将逻辑回归和深度网络训练结合,充分利用各自的优势来兼顾记忆力和泛化能力,很大程度上提高点击率预测的准确性。
图6示意性地示出了现有技术中的点击率预估模型的结构图。
如图6所示,现有技术中的点击率预估模型主要通过逻辑回归模型进行预测。逻辑回归模型是一个线性模型,需要进行大量的特征工程来获取有效的单特征,以及组合单特征得到对应的组合特征。线性关系可以利用组合单特征去有效地记忆单特征之间已经表现出来的相互关系,但是无法挖掘组合特征之间的内在的相互关系以及特征之间的传递性。
图7示意性地示出了本发明实施例的点击率预估模型的结构图。
如图7所示,不需要进行大量的特征工程来获取有效的单特征,以及组合单特征得到对应的组合特征,不仅可以提炼出多个意义重大的交叉特征,通过单特征筛选重要特征,最终训练生成逻辑回归模型,还可以基于训练好的逻辑回归模型,生成特征维度的嵌入式向量,即逻辑回归模型特征权重值向量;对于离散化后的特征权重进行求和处理,即将嵌入式向量长度固定为特征维度,以避免因维度压缩所带来的信息损失,基于嵌入式向量进行深度神经网络训练,以得到点击率预估模型。根据本发明实施例的点击率预估模型,以嵌入式向量为中间纽带,将逻辑回归模型与深度神经网络模型有机结合,既可以保留逻辑回归模型的记忆能力,又可以兼顾深度神经网络模型在不需要大量的特征工程的情况下就能够学习特有特征的泛化能力,极大地提升点击率预估的准确性,实现向用户提供更准确更有针对性的推荐信息的技术效果。
示例性装置
在介绍了本发明示例性实施方式的示例性方式之后,接下来,参考图8对本发明示例性实施方式的用于实现上述点击率预估方法的点击率预估系统进行详细阐述。
图8示意性地示出了根据本发明实施例的点击率预估系统的框图一。
如图8所示,该点击率预估系统800包括第一获得模块810、第一训练模块820、生成模块830和第二训练模块840。
该点击率预估系统800可以用来实现参考图2至图5所示的方法。
第一获得模块810,用于基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性。
第一训练模块820,用于基于所述训练样本集进行逻辑回归训练,以获得逻辑回归模型。
生成模块830,用于基于所述逻辑回归模型,生成第一嵌入式向量,其中,所述第一嵌入式向量用于表征所述每个第一特征信息对应的权重值。
第二训练模块840,用于基于所述第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,所述点击率预测模型用于预估所述用户对待推荐信息的点击率。
作为一种可选的实施例,第一特征信息包括以下中的至少一种:用户信息、文章信息、环境信息。
更具体地,作为一种可选的实施例,用户信息包括用户的基础属性信息和用户的行为信息;文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。
与现有技术训练点击率预估模型时仅仅获取各历史点击信息的基础特征信息,并将其组合成对应的组合特征信息,进而利用这一组合特征信息训练点击率预估模型,导致模型的特征不够丰富,预估结果不够准确相比,本发明实施例在训练点击率预估模型时,不仅会获取各历史点击信息的基础特征信息,而且还会深度挖掘这些历史点击信息之间内在的隐含特征信息,进而将所有的基础特征信息和对应的隐含特征信息组合在一起,从而得到内容更丰富的组合特征信息,并以此训练点击率预估模型,因而能够提高预估结果的准确度。
图9示意性地示出了根据本发明实施例的第一获得模块的框图。
如图9所示,上述第一获得模块810包括筛选子模块910和获得子模块920。其中:
筛选子模块910,用于按照预设规则从所述第一特征信息中筛选出目标特征。
获得子模块920,用于基于所述目标特征,获得训练样本集,其中,所述训练样本集的样本数量与所述目标特征的特征数量满足预设占比。
通过本发明的示例性实施方式,设置预设占比,使得正负样本的比例与目标特征的特征数量满足预设占比,可以有效防止过拟合/欠拟合,提高逻辑线性训练结果的可靠性。
图10示意性地示出了根据本发明实施例的点击率预估系统的框图二。
如图10所示,上述点击率预估系统800除了包括前述第一获得模块810、第一训练模块820、生成模块830和第二训练模块840之外,还包括第二获得模块1010、第三获得模块1020和预估模块1030。其中:
第二获得模块1010,用于获取所述待推荐信息的第二特征信息。
第三获得模块1020,用于基于所述第二特征信息,获得测试样本集。
预估模块1030,用于基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率。
通过本发明实施例,既可以在不需要大量的特征工程的情况下学习到用户特有的行为,又可以保持足够的泛化能力,结合LR模型与DNN模型得到的AUC相比之前仅适用LR模型有较大优化,点击率预估结果准确度有较大提升。
图11示意性地示出了根据本发明实施例的预估模块的框图。
如图11所示,上述预估模块1030包括第一输入子模块1110、生成子模块1120、第二输入子模块1130和预估子模块1140。其中:
第一输入子模块1110,用于将所述测试样本集输入所述逻辑回归模型。
生成子模块1120,用于基于所述逻辑回归模型的输出结果,生成第二嵌入式向量,其中,所述第二嵌入式向量用于表征所述每个第二特征信息对应的权重值。
第二输入子模块1130,用于将所述第二嵌入式向量输入所述点击率预测模型。
预估子模块1140,用于根据所述点击率预估模型的输出结果,预估所述用户对所述待推荐信息的点击率。
通过本发明实施例,利用嵌入向量将LR和DNN结合,充分利用各自的优势来兼顾记忆力和泛化能力,很大程度上提高点击率预测的准确性。
根据本发明的示例性实施例,模块、子模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本发明示例性实施例的模块、子模块中的任意一个或多个可以被拆分成多个模块来实现。根据本发明示例性实施例的模块、子模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本发明示例性实施例的模块、子模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,第一获得模块810、第一训练模块820、生成模块830和第二训练模块840、第二获得模块1010、第三获得模块1020和预估模块1030中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的示例性实施例,第一获得模块810、第一训练模块820、生成模块830和第二训练模块840、第二获得模块1010、第三获得模块1020和预估模块1030中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,第一获得模块810、第一训练模块820、生成模块830和第二训练模块840、第二获得模块1010、第三获得模块1020和预估模块1030中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块程序被计算机运行时,可以执行相应模块的功能。
通过本发明实施例,基于与用户的多个历史点击信息对应的第一特征信息,获得的训练样本集进行逻辑回归训练,以获得逻辑回归模型,再基于逻辑回归模型,生成第一嵌入式向量,即每个第一特征信息对应的权重值,最后基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,以预估用户对待推荐信息的点击率。本发明的点击率预估方法与传统最具代表性的LR和DNN相比,以嵌入式向量为中间纽带,将LR模型与DNN模型有机结合,既可以保留LR模型的记忆能力,又可以兼顾DNN模型在不需要大量的特征工程的情况下学习特有特征的泛化能力,极大地提升点击率预估的准确性,实现向用户提供更准确更有针对性的推荐信息的技术效果。
示例性介质
在介绍了本发明示例性实施方式的示例性装置之后,接下来,参考图12对本发明示例性实施方式的、用于存储有计算机可执行指令,该指令在被处理单元执行时用于实现图2至图5中的点击率预估方法的介质进行描述。
在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在设备上运行时,程序代码用于使设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的信息发送方法中的操作(或步骤),例如,设备可以执行如图2中所示的操作S210,基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性。操作S220,基于训练样本集进行逻辑回归训练,以获得逻辑回归模型。操作S230,基于逻辑回归模型,生成第一嵌入式向量,其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值。操作S240,基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,点击率预测模型用于预估用户对待推荐信息的点击率。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
如图12所示,描述了根据本发明的实施方式的信息处理的程序产品120,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆,RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java,C++等,还包括常规的过程式程序设计语言-诸如“C”,语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)一连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图13对本发明示例性实施方式的计算设备进行描述,该计算设备包括处理单元和存储单元,存储单元存储有计算机可执行指令,上述指令在被上述处理单元执行时用于实现图2至图5中的点击率预估方法进行描述。
本发明实施例还提供了一种计算设备。所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在一些可能的实施方式中,根据本发明的计算设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中,所述存储单元存储有程序代码,当所述程序代码被所述处理单元执行时,使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的信息呈现方法中的步骤。例如,所述处理单元可以执行如图2中所示的操作S210,基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性。操作S220,基于训练样本集进行逻辑回归训练,以获得逻辑回归模型。操作S230,基于逻辑回归模型,生成第一嵌入式向量,其中,第一嵌入式向量用于表征每个第一特征信息对应的权重值。操作S240,基于第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,点击率预测模型用于预估用户对待推荐信息的点击率。
下面参照图13来描述根据本发明的这种实施方式的用于信息处理的计算设备130。如图13所示的计算设备130仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,计算设备130以通用计算设备的形式表现。计算设备130的组件可以包括但不限于:上述至少一个处理单元1301、上述至少一个存储单元1302、连接不同系统组件(包括存储单元1302和处理单元1301)的总线1303。
总线1303包括地址总线、数据总线和控制总线。
存储单元1302可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)13021和/或高速缓存存储器13022,还可以进一步包括只读存储器(ROM)13023。
存储单元1302还可以包括具有一组(至少一个)程序模块13024的程序/实用工具13025,这样的程序模块13024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
计算设备130也可以与一个或多个外部设备1304(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/0)接口1305进行。并且,计算设备130还可以通过网络适配器1306与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1306通过总线1303与计算设备130的其它模块通信。应当明白,尽管图中未示出,可以结合计算设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所发明的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种点击率预估方法,包括:
基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;
基于所述训练样本集进行逻辑回归训练,以获得逻辑回归模型;
基于所述逻辑回归模型,生成第一嵌入式向量,其中,所述第一嵌入式向量用于表征所述每个第一特征信息对应的权重值,所述权重值包括由所述第一特征信息离散化后获得的权重进行求和处理得到的权重值;以及
基于所述第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,所述点击率预测模型用于预估所述用户对待推荐信息的点击率;
获取所述待推荐信息的第二特征信息,其中,第二特征信息用于表征待推荐信息的特征属性;
基于所述第二特征信息,获得测试样本集;以及
基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率;
其中,所述基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率包括:
将所述测试样本集输入所述逻辑回归模型;
基于所述逻辑回归模型的输出结果,生成第二嵌入式向量,其中,所述第二嵌入式向量用于表征所述每个第二特征信息对应的权重值;
将所述第二嵌入式向量输入所述点击率预测模型;以及
根据所述点击率预测模型的输出结果,预估所述用户对所述待推荐信息的点击率。
2. 根据权利要求1所述的方法,其中,所述基于用户的多个历史点击信息对应的第一特征信息,获得训练样本集包括:
按照预设规则从所述第一特征信息中筛选出目标特征;以及
基于所述目标特征,获得训练样本集,其中,所述训练样本集的样本数量与所述目标特征的特征数量满足预设占比。
3.根据权利要求1至2中任一项所述的方法,其中,所述第一特征信息包括以下中的至少一种:用户信息、文章信息、环境信息。
4.根据权利要求3所述的方法,其中:
所述用户信息包括用户的基础属性信息和用户的行为信息;
所述文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;
所述环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。
5.一种点击率预估系统,包括:
第一获得模块,用于基于与用户的多个历史点击信息对应的第一特征信息,获得训练样本集,其中,每个第一特征信息用于表征对应历史点击信息的特征属性;
第一训练模块,用于基于所述训练样本集进行逻辑回归训练,以获得逻辑回归模型;
生成模块,用于基于所述逻辑回归模型,生成第一嵌入式向量,其中,所述第一嵌入式向量用于表征所述每个第一特征信息对应的权重值,所述权重值包括由所述第一特征信息离散化后获得的权重进行求和处理得到的权重值;以及
第二训练模块,用于基于所述第一嵌入式向量进行深度神经网络训练,以获得点击率预测模型,其中,所述点击率预测模型用于预估所述用户对待推荐信息的点击率;
第二获得模块,用于获取所述待推荐信息的第二特征信息;
第三获得模块,用于基于所述第二特征信息,获得测试样本集;以及
预估模块,用于基于所述测试样本集和所述点击率预测模型,预估所述用户对所述待推荐信息的点击率;
其中,所述预估模块包括:
第一输入子模块,用于将所述测试样本集输入所述逻辑回归模型;
生成子模块,用于基于所述逻辑回归模型的输出结果,生成第二嵌入式向量,其中,所述第二嵌入式向量用于表征所述每个第二特征信息对应的权重值;
第二输入子模块,用于将所述第二嵌入式向量输入所述点击率预测模型;以及
预估子模块,用于根据所述点击率预测模型的输出结果,预估所述用户对所述待推荐信息的点击率。
6. 根据权利要求5所述的系统,其中,所述第一获得模块还包括:
筛选子模块,用于按照预设规则从所述第一特征信息中筛选出目标特征;以及
获得子模块,用于基于所述目标特征,获得训练样本集,其中,所述训练样本集的样本数量与所述目标特征的特征数量满足预设占比。
7.根据权利要求5至6中任一项所述的系统,其中,所述第一特征信息包括以下中的至少一种:用户信息、文章信息、环境信息。
8.根据权利要求7所述的系统,其中:
所述用户信息包括用户的基础属性信息和用户的行为信息;
所述文章信息包括文章的基础属性信息和文章的历史曝光日志和点击日志;
所述环境信息包括当前的网络环境状况、用户使用的设备、用户访问的时间段。
9.一种介质,存储有计算机可执行指令,所述指令在被处理单元执行时用于实现权利要求1至4中任一项所述的方法。
10. 一种计算设备,包括:
处理单元;以及
存储单元,存储有计算机可执行指令,所述指令在被处理单元执行时用于实现权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113437.9A CN109992710B (zh) | 2019-02-13 | 2019-02-13 | 点击率预估方法、系统、介质和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910113437.9A CN109992710B (zh) | 2019-02-13 | 2019-02-13 | 点击率预估方法、系统、介质和计算设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109992710A CN109992710A (zh) | 2019-07-09 |
CN109992710B true CN109992710B (zh) | 2021-10-15 |
Family
ID=67129819
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910113437.9A Active CN109992710B (zh) | 2019-02-13 | 2019-02-13 | 点击率预估方法、系统、介质和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109992710B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362774B (zh) * | 2019-07-17 | 2021-09-28 | 上海交通大学 | 点击率预估模型的建立方法及系统 |
CN110377521B (zh) * | 2019-07-23 | 2022-11-18 | 郑州阿帕斯科技有限公司 | 一种目标对象验证方法及装置 |
CN110598845B (zh) * | 2019-08-13 | 2023-04-07 | 中国平安人寿保险股份有限公司 | 数据处理方法、装置、计算机设备和存储介质 |
CN112541776B (zh) * | 2019-09-20 | 2024-08-16 | 北京达佳互联信息技术有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN110750653B (zh) * | 2019-10-22 | 2023-01-06 | 中国工商银行股份有限公司 | 信息处理方法、装置、电子设备及介质 |
CN110825966B (zh) * | 2019-10-31 | 2022-03-04 | 广州市百果园信息技术有限公司 | 一种信息推荐的方法、装置、推荐服务器和存储介质 |
CN110807693A (zh) * | 2019-11-04 | 2020-02-18 | 上海喜马拉雅科技有限公司 | 专辑的推荐方法、装置、设备和存储介质 |
CN110909176B (zh) * | 2019-11-20 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 数据推荐方法、装置、计算机设备以及存储介质 |
CN112948704B (zh) * | 2019-11-26 | 2024-06-04 | 北京达佳互联信息技术有限公司 | 用于信息推荐的模型训练方法、装置、电子设备以及介质 |
CN111046294A (zh) * | 2019-12-27 | 2020-04-21 | 支付宝(杭州)信息技术有限公司 | 点击率预测方法、推荐方法、模型、装置及设备 |
CN113129046A (zh) * | 2019-12-31 | 2021-07-16 | 上海哔哩哔哩科技有限公司 | 点击率预测方法、装置以及计算机设备 |
CN111242310B (zh) * | 2020-01-03 | 2023-04-18 | 深圳市雅阅科技有限公司 | 特征有效性评估方法、装置、电子设备及存储介质 |
CN111241394B (zh) * | 2020-01-07 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、计算机可读存储介质及电子设备 |
CN111754287B (zh) * | 2020-02-14 | 2024-07-23 | 北京沃东天骏信息技术有限公司 | 物品筛选方法、装置、设备和存储介质 |
CN111429175B (zh) * | 2020-03-18 | 2022-05-27 | 电子科技大学 | 稀疏特征场景下进行点击转化预测的方法 |
CN113496304B (zh) * | 2020-04-03 | 2024-03-08 | 北京达佳互联信息技术有限公司 | 网络媒介信息的投放控制方法、装置、设备及存储介质 |
CN113590908A (zh) * | 2020-04-30 | 2021-11-02 | 中国石油化工股份有限公司 | 基于注意力机制的资讯推荐方法 |
CN111611488B (zh) * | 2020-05-21 | 2022-09-30 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备 |
CN111339433B (zh) * | 2020-05-21 | 2020-08-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的信息推荐方法、装置、电子设备 |
CN113722578A (zh) * | 2020-05-25 | 2021-11-30 | 北京沃东天骏信息技术有限公司 | 数据处理方法和装置 |
CN112749330B (zh) * | 2020-06-05 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 信息推送方法、装置、计算机设备和存储介质 |
CN111784062A (zh) * | 2020-07-07 | 2020-10-16 | 上海携旅信息技术有限公司 | 点击概率预测方法、系统、电子设备和介质 |
CN113763000B (zh) * | 2020-08-20 | 2024-08-20 | 北京沃东天骏信息技术有限公司 | 对象点击量的确定方法及装置 |
CN112182381B (zh) * | 2020-09-28 | 2022-09-13 | 上海嗨普智能信息科技股份有限公司 | 数据处理方法、电子设备及介质 |
CN112149037B (zh) * | 2020-09-28 | 2024-03-19 | 微梦创科网络科技(中国)有限公司 | 基于逻辑回归的实时识别异常关注的方法及系统 |
CN112256768B (zh) * | 2020-11-04 | 2021-08-27 | 贝壳找房(北京)科技有限公司 | 模型离线训练评估方法、装置、介质和电子设备 |
CN113763092B (zh) * | 2020-11-10 | 2024-09-24 | 北京沃东天骏信息技术有限公司 | 推荐商品的方法、装置、设备和计算机可读介质 |
CN112508613B (zh) * | 2020-12-09 | 2024-03-19 | 天津狮拓信息技术有限公司 | 一种商品推荐方法、装置、电子设备和可读存储介质 |
CN112784157A (zh) * | 2021-01-20 | 2021-05-11 | 网易传媒科技(北京)有限公司 | 行为预测模型的训练方法、行为预测方法及装置、设备 |
CN113778979A (zh) * | 2021-01-21 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种直播点击率的确定方法和装置 |
CN112966577B (zh) * | 2021-02-23 | 2022-04-01 | 北京三快在线科技有限公司 | 一种模型训练以及信息提供的方法及装置 |
CN113051472B (zh) * | 2021-03-23 | 2024-07-05 | 北京百度网讯科技有限公司 | 点击通过率预估模型的建模方法、装置、设备以及存储介质 |
CN113435523B (zh) * | 2021-06-29 | 2023-09-26 | 北京百度网讯科技有限公司 | 预测内容点击率的方法、装置、电子设备以及存储介质 |
CN113409090B (zh) * | 2021-07-05 | 2024-07-05 | 中国工商银行股份有限公司 | 广告点击率预测模型的训练方法、预测方法及装置 |
CN113794900B (zh) * | 2021-08-31 | 2023-04-07 | 北京达佳互联信息技术有限公司 | 视频处理方法和装置 |
CN113743906A (zh) * | 2021-09-09 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 一种确定业务处理策略的方法和装置 |
CN115129975B (zh) * | 2022-05-13 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 推荐模型训练方法、推荐方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437111A (zh) * | 2017-07-31 | 2017-12-05 | 杭州朗和科技有限公司 | 基于神经网络的数据处理方法、介质、装置和计算设备 |
CN108629630A (zh) * | 2018-05-08 | 2018-10-09 | 广州太平洋电脑信息咨询有限公司 | 一种基于特征交叉联合深度神经网络的广告推荐方法 |
CN108647251A (zh) * | 2018-04-20 | 2018-10-12 | 昆明理工大学 | 基于宽深度门循环联合模型的推荐排序方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080306830A1 (en) * | 2007-06-07 | 2008-12-11 | Cliquality, Llc | System for rating quality of online visitors |
CN103996088A (zh) * | 2014-06-10 | 2014-08-20 | 苏州工业职业技术学院 | 基于多维特征组合逻辑回归的广告点击率预测方法 |
CN108830416B (zh) * | 2018-06-13 | 2020-02-18 | 四川大学 | 基于用户行为的广告点击率预测方法 |
CN108875916B (zh) * | 2018-06-27 | 2021-07-16 | 北京工业大学 | 一种基于gru神经网络的广告点击率预测方法 |
-
2019
- 2019-02-13 CN CN201910113437.9A patent/CN109992710B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107437111A (zh) * | 2017-07-31 | 2017-12-05 | 杭州朗和科技有限公司 | 基于神经网络的数据处理方法、介质、装置和计算设备 |
CN108647251A (zh) * | 2018-04-20 | 2018-10-12 | 昆明理工大学 | 基于宽深度门循环联合模型的推荐排序方法 |
CN108629630A (zh) * | 2018-05-08 | 2018-10-09 | 广州太平洋电脑信息咨询有限公司 | 一种基于特征交叉联合深度神经网络的广告推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109992710A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992710B (zh) | 点击率预估方法、系统、介质和计算设备 | |
JP7206288B2 (ja) | 音楽推薦方法、装置、コンピューティング機器及び媒体 | |
JP7564332B2 (ja) | 融合パラメータの特定方法及び装置、情報推奨方法及び装置、パラメータ測定モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN111210335B (zh) | 用户风险识别方法、装置及电子设备 | |
CN110110233B (zh) | 信息处理方法、装置、介质和计算设备 | |
CN110717597B (zh) | 利用机器学习模型获取时序特征的方法和装置 | |
CN110866040B (zh) | 用户画像生成方法、装置和系统 | |
CN113409090B (zh) | 广告点击率预测模型的训练方法、预测方法及装置 | |
CN111583018A (zh) | 一种基于用户金融表现分析的授信策略管理方法、装置和电子设备 | |
WO2023050143A1 (zh) | 一种推荐模型训练方法及装置 | |
CN111178687A (zh) | 金融风险分类方法、装置及电子设备 | |
CN111191677B (zh) | 用户特征数据生成方法、装置及电子设备 | |
CN113128773A (zh) | 地址预测模型的训练方法、地址预测方法及装置 | |
CN112989182A (zh) | 信息处理方法、装置、信息处理设备及存储介质 | |
CN117670366A (zh) | 风险预测方法、装置、设备、介质和程序产品 | |
CN113254761A (zh) | 特定行为信息智能预警系统及方法 | |
CN116738276A (zh) | 目标预测方法和多任务学习模型的训练方法 | |
CN116956204A (zh) | 多任务模型的网络结构确定方法、数据预测方法及装置 | |
CN113568739B (zh) | 用户资源额度分配方法、装置及电子设备 | |
JP2024530998A (ja) | ウェブデータのための機械学習支援自動タクソノミー | |
CN113159877B (zh) | 数据处理方法、装置、系统、计算机可读存储介质 | |
CN118069933B (zh) | 一种基于机器智能的应用系统集成方法及系统 | |
CN113610631B (zh) | 用户策略调整方法、装置及电子设备 | |
CN111818001A (zh) | 异常访问检测方法及装置、电子设备和计算机可读介质 | |
CN117743673A (zh) | 资源召回方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |