CN115618035A

CN115618035A - 一种基于图片曝光转化率预测模型的图片推荐方法

Info

Publication number: CN115618035A
Application number: CN202211260773.4A
Authority: CN
Inventors: 宇文瑾; 薛铸鑫; 郝创博; 徐锋; 史小龙; 李子博; 邓大伟; 王宇浩; 隋悦
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-01-17
Anticipated expiration: 2042-10-14
Also published as: CN115618035B

Abstract

本发明涉及一种基于图片曝光转化率预测模型的图片推荐方法，属于互联网图片电商搜索技术领域，解决了现有多目标优化方法效果不佳的问题。获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息，形成训练样本集。建立图片的曝光转化率预测模型CTCVR并训练，根据损失函数进行反向传播直至收敛。利用模型对所有图片进行处理，得到每张图片的点击率CTR、CVR、CTCVR以及图文相关值IMR,选取IMR值大于阈值的图片，并将选的图片按照CTCVR值由大至小的顺序推荐给用户。实现了一个模型完成多任务多目标的预测，使多个任务目标之间相互促进和约束，提高了模型的泛化性能，解决了深度转化过程中的样本偏差和数据稀疏问题。

Description

一种基于图片曝光转化率预测模型的图片推荐方法

技术领域

本发明涉及互联网图片电商搜索技术领域，尤其涉及一种基于图片曝光转化率预测模型的图片推荐方法。

背景技术

随着自媒体等信息行业的发展及版权保护的推进，国内发展了一批以授权图片使用为主体业务的公司。一方面仅使用图片的描述文本信息准确度不高，需要利用图像信息来进一步优化结果和输入词的相关性。另一方面图片搜索的用户兴趣和用户行为强相关，如何在保证相关性的前提下引入个性化。比如金融领域的作者和娱乐领域的作者同时搜索“北京”，金融领域作者对北京金融峰会的现场图片有更高的意愿，娱乐领域的作者对某明星现身北京的路透图片有更高的意愿。因此需要引入个性化在保证结果相关性的前提下进一步提升用户的付费率。用户付费是一个深度转化场景，存在曝光展现，用户点击，加入购物车，付款成单等多个阶段。具体而言这是一个多目标优化问题，存在多个目标之间相互关联的情况。以互联网图片电商搜索领域中图片的点击率CTR(Click-Through-Rate)、转化率CVR(Conversion Rate)和曝光转化率CTCVR(Click-Through&ConVersion Rate)为例，这几个目标存在关联关系。多模型融合是进行多目标优化的传统方式，对每个目标训练一个模型，每个模型算出一个分数，然后根据自身业务的特点，通过某种方式将这些分数综合起来，计算出一个总的分数再进行排序，综合分数的计算通常会根据不同目标的重要性设定相应的参数来调节。在实际操作中的主要问题有1)样本选择偏差(SSB)问题；2)数据稀疏(DS)问题，3)在线服务计算量大，多个目标间重要性难以量化等，导致传统多目标优化方法效果不佳。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种基于图片曝光转化率预测模型的图片推荐方法，用以解决现有的数据稀疏导致模型准确率低，在线服务计算量大，多个目标间重要性难以量化的问题。

本发明实施例一方面提供了一种基于图片曝光转化率预测模型的图片推荐方法，包括如下步骤：

获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息，形成训练样本集；

建立图片曝光转化率预测模型，所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击购买率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR；

基于所述训练样本集对图片曝光转化率预测模型进行训练，根据损失函数进行反向传播，并利用AdaGRad算法更新模型中各参数的步长，直至损失函数收敛，得到训练好的图片曝光转化率预测模型；

将用户输入的检索词输入至所述预测模型，利用所述预测模型对图片库中所有图片进行处理，得到每张图片的CTR、CVR、CTCVR以及IMR，选取IMR值大于阈值的图片，并将选的图片按照CTCVR值由大至小的顺序推荐给用户。

进一步的，所述预测模型还包括输入层、Embedding层；所述输入层用于接收训练样本集中的数据，并将数据编码成维度相同的特征向量后送入Embedding层；所述Embedding层将所有的特征向量进行分域，形成第一独立特征域、第二独立特征域以及共享特征域；

所述的第一独立特征域为用户的历史点击图片信息对应的特征向量；所述的第二独立特征域为用户的历史购买图片信息对应的特征向量；

所述的共享特征域包括用户的注册信息、用户输入的检索词、与检索词匹配的图片信息对应的特征向量。

进一步的，对所述预测模型进行训练时，将第一独立特征域和共享特征域的特征向量输入至第一DeepFM模型，将第二独立特征与和共享特征域中的特征向量输入至第二DeepFM模型，将第一独立特征域、第二独立特征与和共享特征域中的特征向量输入至NN模型。

进一步的，所述第一DeepFM模型的输出表示为：

其中，其中，w∈R^d,R^d为d维实数空间，V_i∈R^k，R^k为k维实数空间，k为embedding向量长度，w为d维权重向量，d表示特征总数，V_i是第i个特征的特征向量，<w,x>表示向量w和特征x做内积，用于计算一阶特征的重要性，<V_i,V_j>表示第i个特征的特征向量和第j个特征的特征向量做内积。

进一步的，所述NN模型的输出表示为：

其中，y_NNIMR为NN模型输出的IMR值，y_NNCTR为NN模型输出的CTR值，y_NNCVR为NN模型输出的CVR值；σ表示激活函数；

|H|是隐层数，α^H为最后一层隐层的输出，

分别为NN模型中IMR部分、CTR部分、CVR部分的权重，

分别为NN模型中IMR部分、CTR部分、CVR部分的偏差。

进一步的，所述图片的曝光点击率CTR、点击购买率CVR通过如下公式得到：

sigmiod是激活函数。

进一步的，所述的损失函数表示为：

θ_imr,θ_ctr,θ_ctcvr是NN模型、第一DeepFM模型和第二DeepFM模型的IMR、CTR、CTCVR的网络参数，l(·)是交叉熵损失函数，N是训练集样本数；d_ctr是CTR任务特征个数、d_cvr是CVR任务特征个数。

进一步的，所述历史点击图片信息包括图片的文字描述信息和图片的RGB信息；所述历史购买图片信息包括图片文字描述信息和图片RGB信息；所述与检索词匹配的图片信息包括图片供应商、图片关键词、图片文字描述信息、图片的RGB信息。

进一步的，所述历史点击图片信息、历史购买图片信息以及与检索词匹配的图片信息中的图片RGB信息经过Resenet50编码得到维度相同的特征向量；

历史点击图片信息、历史购买图片信息中的图片文字描述信息通过Transformer编码得到维度相同的特征向量；

所述用户注册信息、用户输入的检索词以及与检索词匹配的图片信息中的图片供应商、图片关键词通过SplitEmbedding进行哈希编码得到维度相同的特征向量。

另一方面，本发明提供了一种基于图片曝光转化率预测模型的图片推荐系统，包括以下模块：模型建立模块，用于建立图片曝光转化率预测模型，所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击购买率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR；

训练模块，基于所述训练样本集对图片曝光转化率预测模型进行训练，根据损失函数进行反向传播，并利用AdaGRad算法更新模型中各参数的步长，直至损失函数收敛，得到训练好的图片曝光转化率预测模型；

图片推荐模块，用于将用户输入的检索词输入至所述预测模型，利用所述预测模型对图片库中所有图片进行处理，得到每张图片的CTR、CVR、CTCVR以及IMR，选取IMR值大于阈值的图片，并将选的图片按照CTCVR值由大至小的顺序推荐给用户。

本发明实施例提供的一种基于图片曝光转化率预测模型的图片搜索方法有益效果至少在于：

1、本申请提出了共享特征域与独立特征域的分域思想，对于各目标有自己独立的输入特征，比如点击特征作为点击率的独立特征输入，转化特征则作为转化率的独立特征输入，而一些公共信息如用户信息图片信息等作为共用的输入特征。

2、建立图片曝光转化率预测模型，所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击购买率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR，实现了一个模型预测点击率、转化率和曝光转化率、图文相关性多个目标，并使多目标得到优化；

3、基于所述训练样本集对图片曝光转化率预测模型进行训练，根据损失函数进行反向传播，并利用AdaGRad算法更新模型中各参数的步长，直至损失函数收敛，得到训练好的图片曝光转化率预测模型，所述模型通过反向传播，采用联合学习的方式使得模型之间能交换特征组合的信息，进而使得任务之间相互促进，相互约束，提高了模型的泛化性能；

4、本申请的预测模型同时对三个子模型即第一DeepFM模型、第二DeepFM模型以及NN模型同时进行训练，在点击曝光率CVR的样本数量远远小于曝光点击CTR的样本数量的情况下，利用样本数量比较多的CTR任务，从CTR任务学习到一些处理后的高维抽象的特征交叉或者部分参数应用到CVR任务的学习，可以一定程度上缓解CVR任务数据稀疏问题，解决了深度转化过程中的样本偏差和数据稀疏问题。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1本发明实施例中图片推荐方法流程图；

图2本发明实施例中的预测模型示意图；

具体实施方式

下面结合附图1具体描述本发明的具体实施方案，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

本发明的一个具体实施例，公开了一种基于图片曝光转化率预测模型的图片推荐方法，基于全空间模型和深度因子分解机思想，设计一种可以同时优化点击率CTR、转化率CVR、曝光转化率CTCVR以及图文相关值IMR的多目标模型，用一个模型端到端的完成多目标任务。如图1所示，包括以下步骤：

S1.获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息，形成训练样本集；

S2.建立图片曝光转化率预测模型，所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击购买率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR；

S3.基于所述训练样本集对图片曝光转化率预测模型进行训练，根据损失函数进行反向传播，并利用AdaGRad算法更新模型中各参数的步长，直至损失函数收敛，得到训练好的图片曝光转化率预测模型；

S4.将用户输入的检索词输入至所述预测模型，利用所述预测模型对图片库中所有图片进行处理，得到每张图片的CTR、CVR、CTCVR以及IMR，选取IMR值大于阈值的图片，并将选的图片按照CTCVR值由大至小的顺序推荐给用户。

与现有技术相比，本实施例提供的方法使得一个模型能对多任务多目标进行预测，采用联合学习的方式使得模型之间能交换特征组合的信息，进而使得多任务目标之间相互促进，相互约束，提高了模型的泛化性能，解决了深度转化过程中的样本偏差和数据稀疏问题。；

所述的多任务多目标为图文相关性、点击率、转化率和曝光转化率；所述的泛化性能是指模型对新鲜样本的适应能力。

具体地，步骤S1中，获取的用户注册信息包括：包括年龄、性别、所在地、薪水收入。用户注册信息通过用户注册时主动填写获取。

用户输入的检索词为历史上某个时间点用户输入的检索词，例如用户输入“北京地安门”，则系统按照CTCVR值由大到小的顺序推送出与北京地安门相关的图片，选取第一张图片(即CTCVR值最大的一张图片)，获取该图片的图片信息作为与检索词匹配的图片信息；其中与检索词相匹配的图片信息包括供应商、图片关键词、图片文字描述信息、图片RGB信息；供应商为图片中商品的供应商；图片关键词为图片中描述商品的关键词；所述图片文字描述信息包括图片对应商品的文字介绍；图片RGB信息为图片本身的像素信息。

图片的文字描述信息包括对图片上展示内容的具体描述，以及图片编号、作者、尺寸、大小、拍摄时间等信息。

示例性的，在如下场景下：用户搜索的关键词为面霜，则系统推送出与面霜相匹配的多张图片，选取CTCVR值最大的一张图片，例如为欧莱雅品牌的一个面霜，则该图片的供应商为欧莱雅，图片关键词为面霜。图片文字描述信息包括对展示的欧莱雅面霜的具体描述，包括：欧莱雅面霜的名称、价格、参数、评价、品牌和供应商等，还包括将该图片的编号、作者、尺寸、大小、拍摄时间等信息。图片RGB信息即为图片的像素信息。

其中，用户输入的检索词在用户输入之后即可获取；与检索词相匹配的图片信息由图片供应商主动提供；

历史点击图片信息为用户输入检索词的时间点之前的用户点击过的图片的信息，包括图片文字描述信息和图片RGB信息；文字描述信息图片上展示内容的具体描述，以及图片编号、作者、尺寸、大小、拍摄时间等信息。图片RGB信息为图片本身的像素信息。

历史购买图片信息为用户输入检索词的时间点之前的用户购买过的图片的信息，包括图片文字描述信息和图片RGB信息；文字描述信息图片上展示内容的具体描述，以及图片编号、作者、尺寸、大小、拍摄时间等信息；图片RGB信息为图片本身的像素信息。

所述历史点击图片信息以及历史购买图片信息通过网页端埋点收集获取。

获取到上述用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息后，将这些信息中的文本信息和RGB信息集合在一起形成训练样本集。

具体地，如图2所示，步骤S2中建立的图片曝光转化率预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击购买率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR。

进一步地，为实现特征的分域以便更好的训练预测模型，所述模型还包括：

输入层，用于接收训练样本集中的数据，并将数据编码成维度相同的特征向量后送入Embedding层；Embedding层，将所有的特征向量进行分域，形成第一独立特征域、第二独立特征域以及共享特征域；

具体的，输入层通过如下方式将样本集中的数据编码成维度相同的特征向量：

所述历史点击图片信息、历史购买图片信息以及与检索词匹配的图片信息中的图片RGB信息经过Resenet50编码得到维度相同的特征向量；

历史点击图片信息、历史购买图片信息中的图片文字描述信息以及与检索词匹配的图片信息中的图片文字描述信息通过Transformer编码得到维度相同的特征向量；

所述用户注册信息、用户输入的检索词以及与检索词匹配的图片信息中的供应商、图片关键字通过SplitEmbedding进行哈希编码得到维度相同的特征向量。

具体的，编码后得到特征向量的维度均相同，均为128维的特征向量。

在完成embedding层的分域后，本方案主要训练了三个子模型，其中两个FM模型会通过低阶交叉完成对应目标的记忆工作，而共享的NN模型则会通过联合训练的方式为两个目标共同服务，完成模型的推理和泛化任务。

具体说来，两个DeepFM模型的训练过程类似于深度因子分解机的因子分解部分，会通过特征域中的原始特征的一维权重求和以及embedding层之间内积的二维特征交叉得到最后的预测值。

具体的，第一DeepFM模型，用于输出特征交叉组合及特征记忆，输出表示为：

其中，w∈R^d，R^d为d维实数空间，V_i∈R^k，R^k为k维实数空间，k为embedding向量长度，w为d维权重向量，d表示特征总数，V_i是第i个特征的特征向量，<w,x>表示向量w和特征x做内积，用于计算一阶特征的重要性，<V_i,V_j>表示第i个特征的特征向量和第j个特征的特征向量做内积，x_j1、x_j2代表第j₁、j₂个特征取值。

NN模型，采用三层隐层，结构为(400，300，200)。NN部分的输入即为joiner和Gramian Matrixembedding层的输出，这里将上述两部分的输出级联后表示为：

α⁽⁰⁾＝[e₁,e₂,....,e_m]

其中e_i为第i个中间特征，m为中间特征数；然后将a⁽⁰⁾输入到深度神经网络中，正向过程如下：

α^(l+1)＝σ(W^(l)α^(l)+b^(l))

这里的l是层深，σ是激活函数，a^(l),w^(l),b^(l)分别是输出、模型权重和第l层的偏差。之后，生成一个密集的实值特征向量，该特征向量最终被输入到用于IMR，CTR和CVR预测的sigmiod函数中，最终得到IMR，CTR和CVR的NN部分如下：

其中，y_NNIMR为NN模型输出的IMR值，y_NNCTR为NN模型输出的CTR值，y_NNCVR为NN模型输出的CVR值；σ表示激活函数；|H|是隐层数，α^H为最后一层隐层的输出，W^|H|+1，b^|H|+1为权重和偏差

分别为NN模型中IMR部分、CTR部分、CVR部分的权重，

分别为NN模型中IMR部分、CTR部分、CVR部分的偏差。

值得注意的是，这里的NN模型输入层仅包含共享特征域的embedding结果，同时在训练过程中，隐层是共用的，也就是最后一层隐层的输出α^H是相同的，但是对应的权重W^H+1和偏差b^H+1是不同的。最后，通过如下公式结合FM和NN的结果，得到CTR和CVR的最终预测结果，而IMR任务和个性化无关，因此不使用FM模型拟合，只采用NN模型的输出。

其中，sigmiod是激活函数。

在得到最终的CTR和CVR之后，模型基于CTR和CVR得到图片的曝光转化率CTCVR，即将曝光点击率CTR与点击转化率CVR相乘后即可得到曝光转化率CTCVR。

具体地，步骤S3中在对预测模型进行训练时，将第一独立特征域和共享特征域的特征向量输入至第一DeepFM模型，将第二独立特征与和共享特征域中的特征向量输入至第二DeepFM模型，将第一独立特征域、第二独立特征与和共享特征域中的特征向量输入至NN模型。

将特征向量输入相应模型后，根据损失函数进行反向传播，并利用AdaGRad算法更新模型中各参数的步长，直至损失函数收敛，得到训练好的图片曝光转化率预测模型。

具体的，训练时可以根据所需预测精度设置迭代的次数。

借鉴全空间多目标任务中的思想，本方案也将基于全部的曝光样本用于建模，也就是围绕IMR，CTR和CTCVR来构建损失函数。首先在整个空间上建模时，对个性化指标CTR和CTCVR应用下列等式：

其中，p(y＝1，z＝1|x)和p(y＝1|x)，x，y，z均为随机变量，取值为0或1，p(x＝1)＝1，代表曝光事件，p(y＝1)代表用户点击的概率，p(z＝1)代表用户转化的概率,上文提到，通过估计CTCVR和CTR，可以在整个输入空间χ上得到CVR，这直接解决了样本选择偏差问题。乘积形式使三个相关联且共同训练的估计量能够利用数据的顺序模式，并在训练过程中相互交流信息。最终根据IMR，CTR和CTCVR的输出确定损失函数定义如下：

这里的θ_imr,θctr和θctcvr是NN模型、第一DeepFM模型和第二DeepFM模型的网络参数，l(·)是交叉熵损失函数。N是训练集样本数、dctr是CTR任务特征个数、dcvr是CVR任务特征个数。

进一步地，步骤S4具体包括：

S41.获取用户输入的检索词；

S42.图片曝光转化率预测模型CTCVR根据用户输入的检索词对图片库中所有图片进行处理，得到每张图片的CTR(Click-Through-Rate，曝光点击率)、CVR(ConversionRate，点击转化率)、CTCVR以及图文相关值(IMR)；

S43.选取IMR值大于阈值的图片，并将选的图片按照CTCVR值由大至小的顺序推荐给用户。

具体的，上述阈值可以根据实际需要进行设置，当需要推送较多的图片时，该阈值可以适当降低，当需要推送较为精确匹配的图片，该阈值可以适当提高。

进一步地，本发明还提供了一种基于图片曝光转化率预测模型的图片推荐系统，包括：训练样本集生成模块、模型建立模块、模型训练模块和图片推荐模块。

训练样本集生成模块，用于获取用户注册信息、用户输入的检索词、与检索词匹配的图片信息、用户历史点击图片信息、历史购买图片信息，形成训练样本集；

模型建立模块，用于建立图片曝光转化率预测模型，所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击购买率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR；

模型训练模块，基于所述训练样本集对图片曝光转化率预测模型进行训练，根据损失函数进行反向传播，并利用AdaGRad算法更新模型中各参数的步长，直至损失函数收敛，得到训练好的图片曝光转化率预测模型；

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于图片曝光转化率预测模型的图片推荐方法，其特征在于，所述方法包括如下步骤：

建立图片曝光转化率预测模型，所述预测模型包括第一DeepFM模型、第二DeepFM模型、NN模型，其中第一DeepFM模型和NN模型用于预测图片的曝光点击率CTR，第二DeepFM和NN模型用于预测图片的点击转化率CVR，所述NN模型还用于预测图片的图文相关性IMR；模型基于图片CTR和CVR得到图片的曝光转化率CTCVR；

2.根据权利要求1的方法，其特征在于，

所述预测模型还包括输入层、Embedding层；所述输入层用于接收训练样本集中的数据，并将数据编码成维度相同的特征向量后送入Embedding层；所述Embedding层将所有的特征向量进行分域，形成第一独立特征域、第二独立特征域以及共享特征域；

3.根据权利要求2的方法，其特征在于，对所述预测模型进行训练时，将第一独立特征域和共享特征域的特征向量输入至第一DeepFM模型，将第二独立特征与和共享特征域中的特征向量输入至第二DeepFM模型，将第一独立特征域、第二独立特征与和共享特征域中的特征向量输入至NN模型。

4.根据权利要求3的方法，其特征在于所述第一DeepFM模型的输出表示为：

其中，w∈R^d,R^d为d维实数空间，V_i∈R^k，R^k为k维实数空间，k为embedding向量长度，,w为d维权重向量，d表示特征总数，V_i是第i个特征的特征向量，<w,x>表示向量w和特征x做内积，用于计算一阶特征的重要性，<V_i,V_j>表示第i个特征的特征向量和第j个特征的特征向量做内积，x_j1、x_j2代表第j₁、j₂个特征取值。

5.根据权利要求4的方法，其特征在于所述NN模型的输出表示为：