CN114706481A

CN114706481A - 一种基于眼动特征与DeepFM的直播购物兴趣度预测方法

Info

Publication number: CN114706481A
Application number: CN202210369501.1A
Authority: CN
Inventors: 石秀金; 李�昊; 于守健
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2022-04-09
Filing date: 2022-04-09
Publication date: 2022-07-05

Abstract

一种基于眼动特征与DeepFM的直播购物兴趣度预测方法，对经过眼动仪输出后的直播视频进行注视时间相关的数据处理。利用封装后的跟踪模型对于直播售卖物品进行跟踪。建立跟踪框为用户视点与目标区域。基于得到用户的眼动数据，并引入协作信息图，通过协作信息图将用户行为和项目知识编码为统一的关系图；基于DeepFM架构，在深度神经网络上添加自注意力机制提高模型对于关键信息的学习能力；输出结果并通过二元交叉熵损失函数Logloss以及AUC评判模型精度。本发明基于用户历史浏览数据(含眼动数据)训练模型。使用者可通过此模型预测用户对于直播商品的兴趣度大小，以供相关人员调整直播策略、提升直播中用户的体验。

Description

一种基于眼动特征与DeepFM的直播购物兴趣度预测方法

技术领域

本发明涉及推荐系统领域，尤其涉及一种基于眼动特征与DeepFM的直播购物兴趣度预测方法。

背景技术

网上直播购物现已成为人们日常购物获取信息的渠道之一。了解用户对直播过程的感兴趣程度，不但能够改进商家直播策略、提升用户观看直播的满意度，而且能够帮助设计者开发更人性化的直播交互方式、提升用户体验。因此，研究用户观看购物直播的兴趣度有着很大的现实意义。

眼动特征是指被测者在观看直播时眼球的数据特征。传统上，眼动技术是可以用在医学、心理学、营销学等不同学科领域的分析工具。在视觉评价的过程中，眼球跟踪与一些数据处理手段相结合的方法可以获取个体认知过程中的细粒度信息，在多种场景检测中取得了令人满意的结果。

当前对直播购物兴趣度的评估多采用“黑箱”式研究，即依靠观看者的自我表述来反映对直播的兴趣程度。这种对兴趣度的判定不仅带有观看者的主观因素，也受到很多客观因素如环境、心情等等影响，很难真正反映出观看者对直播购物兴趣度的影响。随着神经网络的发展，点击率预估技术也越来越多地被用于兴趣度预估模型，但这种研究忽略了很多客观信息，例如直播购物中商品的详细程度、眼动参数等一些可能很重要的因素。因此有必要将这些因素引入直播购物兴趣度模型中。

眼动技术的应用遍布于众多领域中，用来完成推荐任务或分类任务。在推荐任务中指标AUC(Area Under Curve)的提升绝大多数为2％-10％不等，在各自研究问题上都得出了针对性的结论或模型。但其模型大多为机器学习的方法且所用样本数较小，多为几十至几百个，为实验带来了一定的偶然因素，模型的学习能力与准确性有进一步的提升空间。

在兴趣度模型方面，现有的兴趣度预估模型主要分为两类，分别为基于机器学习的点击率预估模型与基于深度学习的点击率预估模型。基于机器学习的兴趣度预估模型又主要分为单一模型以及组合模型预测两大类，在单一模型中，逻辑回归、决策树等是较为常见的模型，在模型组合方面，GBDT+LR、FwFM等是其中较为常见的模型，但基于机器学习的兴趣度预估模型更依赖人工对特征的处理，在应用模型前期需要大量的人工特征工程。基于深度学习的兴趣度预估模型在兴趣度预估领域通过探索特征间的高阶组合，展现出了很好的效果，其中Wide&Deep、FGCNN、DeepFM等是其中较为常见的模型。

在直播兴趣度预估相关研究中，眼动数据并未作为数据维度被用在模型中。

发明内容

本发明克服现有方法的缺陷，提出了一种基于眼动特征与DeepFM的直播购物兴趣度预测方法。该技术基于用户历史浏览数据(含眼动数据)训练模型。使用者可通过此模型预测用户对于直播商品的兴趣度大小，以供相关人员调整直播策略、提升直播中用户的体验。

一种基于眼动特征与DeepFM的直播购物兴趣度预测方法，包括如下步骤：

S1、对经过眼动仪输出后的直播视频进行注视时间相关的数据处理；利用封装后的跟踪模型对于直播售卖物品进行跟踪；建立跟踪框为用户视点与目标区域，当目标区域覆盖用户视点时，判定重合即对应时间内用户视点正关注该区域；

S2、基于步骤S1得到用户的眼动数据，并引入协作信息图，通过协作信息图将用户行为和项目知识编码为统一的关系图；

S3、基于DeepFM架构，在深度神经网络上添加自注意力机制提高模型对于关键信息的学习能力；

S4、输出结果并通过二元交叉熵损失函数Logloss以及AUC评判模型精度。

本发明的预测方法可以分成两个阶段，分别为眼动数据捕获阶段与预测阶段。数据捕获阶段中，通过自动化的过程与眼动仪配套软件获取用户对于单一区域关注的各项参数。在预测阶段中，拼接用户行为信息、自身信息与眼动信息作为输入，经过预测模型并输出预测值。提出了FDIMP算法来解决直播视频处理的任务，在提高跟踪模型对于目标和背景的判别能力、减少迭代次数的基础下提供了从视频中输出所需数据的自动化功能，处理过后填充原有数据集为兴趣度直播模型作准备。基于DeepFM架构，引入协作信息图后对眼动数据进行嵌入编码。在深度神经网络上添加自注意力机制提高模型对于关键信息的学习能力。

相比于现有同研究下的推荐方法，本发明的优点有：

1)首次将眼动因素应用于直播购物领域研究，通过信息填充对原有数据集增加数据维度。

2)设计了一套自动眼动数据采集算法FDIMP来自动化地提取眼动参数。旨在自动化提取眼动特征的模型与一种直播购物兴趣度模型，利用改进的深度学习模型增强模型预测的可靠性与准确性。

3)融合DeepFM架构与多头注意力机制，建立了一种基于DeepFM的直播购物兴趣度预测方法。

附图说明

为更清楚地说明本发明的实施方案，以下对所需附图进行简单的介绍：

图1为本发明某一实施案例的技术方案流程图，展现了基于深度特征融合的点击率预估方法的大概技术方案。

图2为本发明提出的协作信息图结构。

图3为本发明所使用的多模态信息编码器。

图4为一个经典的DNN模型。

图5为全连接层数对AUC的影响

具体实施方式

本发明的目的在于解决现有技术中存在的问题，并提供了一种基于眼动特征与DeepFM的直播购物兴趣度预测方法。本发明具体采用的技术方案如下：

如图1所示为技术方案流程图，该方案具体包括如下步骤：

S1、对经过眼动仪输出后的直播视频进行注视时间相关的数据处理。利用封装后的跟踪模型对于直播售卖物品进行跟踪。建立跟踪框为用户视点与目标区域，当目标区域覆盖用户视点时，判定重合即对应时间内用户视点正关注该区域。

步骤S1具体包括以下步骤：

S11、采用视频序列中的随机样本进行训练，即从某一帧及前面抽取三帧作为训练集，从该帧后面抽取三帧作为测试集，将提取后目标区域的特征进行池化得到初始化的特征图像，生成三维(4*4*n)的特征过滤器。用初始化好的过滤器结合目标区域的背景信息进行优化，采用迭代的方式得到优化后的过滤器。

过滤器搭配MSE进行优化，由于负样例较多，且负样例的label统称为0，这就要求模型足够复杂，这种情况下对负样例进行判别，将会导致模型偏向于学习负样例，而不是区分负样例和正样例。为了解决这样的问题，在Loss中加入了权重，并参考SVM中的HingeLoss，将scoremap中大量的负样例过滤掉。而对于正样例区域，采用MSELoss，因此最终的残差函数如下所示：

r(s,c)＝v_c·(m_cs+(1-m_c)max(0,s)-y_c)

在公式中，下标c代表对中心点的依赖程度。v_c为权重，m_c(t)∈[0,1]为Mask，在背景区域，m_c≈0，在物体对应区域m_c≈1，在背景区域使用HingeLoss，在物体区域使用MSELoss。

S12、利用封装后的数据处理算法对直播售卖物品进行跟踪，需要建立跟踪框为用户视点与目标区域。当目标区域覆盖用户视点时判定重合，即对应时间内用户视点正关注该区域。对于演示的售卖物品、直播主播、背景、评论区、活动券区进行如上方法的信息采集。

S2、基于步骤S1得到用户的眼动数据，并引入协作信息图。通过协作信息图将用户行为和项目知识编码为统一的关系图。

步骤S2具体包括以下步骤：

S21、如图2所示，定义一个用户项二部图{(e_u,y_ui,e_i)|e_u∈U,e_i∈I}，其中e_u是一个用户实体，y_ui表示用户之间的链接u及项目i，e_i表示项目实体，u和i分别表示用户和项目集。当两者之间存在相互作用时，y_ui为1。协作信息图将新增数据维度合并到其中，其中每个用户的行为都可以表示为一个三元组(e_u，Interact，ei)。Interact＝1表示存在额外的交互关系e_u和e_i，从而用户信息图可以和新增维度集成为一个统一的图。

S22、如图3所示多模态信息编码器以新增维度实体与原始信息实体作为输入，通过协作信息图将关系行为(relation)和项目知识(item，entity)编码为统一的关系图。协作信息图将新增数据维度合并到其中。利用实体编码器和注意层为每个实体学习新的实体表示，新实体表示法在保留自身信息的同时，聚合了相邻实体的信息。转化成稠密向量后在下面的步骤中用新的实体表示嵌入。

S3、基于Deepfm架构，在深度神经网络上添加自注意力机制提高模型对于关键信息的学习能力。

步骤S3具体包括以下步骤：

S31、预测模型引入了DNN对嵌入编码后的特征向量x进行全连接层级联，建立了一个回归或者分类模型。图4给出了一个经典的DNN模型，其每一个神经元的输出为上一层神经元的线性加权值作非线性映射之后的相应，即对于l+1层神经元而言，其输出相应值为：

其中W^(l)，a^(l)和b^(l)分别表示第l层第权重矩阵、第l层神经元第输出相应、连接第l层和第l+1层第偏置值向量。

为非线性映射函数，常用如下Sigmoid函数或ReLU函数。

S32、在兴趣度模型中，用户对商品特征中对某些数据与某些眼动数据可能都是关键因素。单注意力网络尚不足以捕获多个方面的表征。使用多头注意力网络共同关注来自不同位置、不同表征空间的信息，模拟来自多个感兴趣视图的用户偏好。在兴趣交互层中，将序列本身作为数据的键、值向量，其输出的向量可以从神经网络先前的隐藏输出中聚合。

S4、输出结果并通过二元交叉熵损失函数Logloss以及AUC(Area Under Curve)评判模型精度。其中，Logloss定义为：

N为测试集上样本总数量，y⁽ⁱ⁾和

分别为测试集合上第i个样本的类别真值和预测用户点击的概率值；

AUC的定义为ROC曲线下坐标轴所闭包的区域面积为：

其中，R为阈值，fpr为假阳率；不同分类阈值可以得到不同假阳率下的真阳率曲线，即ROC。

进一步地，表1给出了本发明中主流的兴趣预估模型与增加眼动数据维度后、增加自注意力机制后各改进模型的性能参数。

表1不同改进下的测试集AUC值

图5给出了自适应残差DNN的全连接层数对AUC的影响。可以看出，在卷积核为 4*4时AUC值最高为0.8566，同时LOSS值为0.5988。实验结果表明，DNN全连接层数的选择对于模型的泛化性能有重要影响。

Claims

1.一种基于眼动特征与DeepFM的直播购物兴趣度预测方法，包括如下步骤：

2.根据权利要求1所述的直播购物兴趣度预测方法，其特征在于上述步骤S1具体包括以下子步骤：

S11、采用视频序列中的随机样本进行训练，即从某一帧及前面抽取三帧作为训练集，从该帧后面抽取三帧作为测试集，将提取后目标区域的特征进行池化得到初始化的特征图像，生成三维的特征过滤器；用初始化好的过滤器结合目标区域的背景信息进行优化，采用迭代的方式得到优化后的过滤器；

在Loss中加入了权重，并参考SVM中的HingeLoss，将scoremap中大量的负样例过滤掉；对于正样例区域，采用MSELoss，最终的残差函数如下所示：

r(s,c)＝v_c·(m_cs+(1-m_c)max(0,s)-y_c)

在公式中，下标c代表对中心点的依赖程度；v_c为权重，m_c(t)∈[0,1]为Mask，在背景区域，m_c≈0，在物体对应区域m_c≈1，在背景区域使用HingeLoss，在物体区域使用MSELoss；

S12、利用封装后的数据处理算法对直播售卖物品进行跟踪，需要建立跟踪框为用户视点与目标区域；当目标区域覆盖用户视点时判定重合，即对应时间内用户视点正关注该区域；对于演示的售卖物品、直播主播、背景、评论区、活动券区进行信息采集。

3.根据权利要求2所述的直播购物兴趣度预测方法，其特征在于上述步骤S1具体包括以下子步骤S2具体包括以下步骤：

S21、定义一个用户项二部图{(e_u,y_ui,e_i)|e_u∈U,e_i∈I}，其中e_u是一个用户实体，y_ui表示用户之间的链接u及项目i，e_i表示项目实体，u和i分别表示用户和项目集；当两者之间存在相互作用时，y_ui为1；协作信息图将新增数据维度合并到其中，其中每个用户的行为都可以表示为一个三元组(e_u，Interact，ei)；Interact＝1表示存在额外的交互关系e_u和e_i，从而用户信息图和新增维度集成为一个统一的图；

S22、多模态信息编码器以新增维度实体与原始信息实体作为输入，利用实体编码器和注意层为每个实体学习新的实体表示，新实体表示法在保留自身信息的同时，聚合了相邻实体的信息。

4.根据权利要求3所述的直播购物兴趣度预测方法，其特征在于上述步骤S3具体包括以下子步骤：

S31、预测模型引入了DNN对嵌入编码后的特征向量x进行全连接层级联，建立了一个回归或者分类模型；DNN模型中每一个神经元的输出为上一层神经元的线性加权值作非线性映射之后的相应，即对于l+1层神经元而言，其输出相应值为：

其中W^(l)，a^(l)和b^(l)分别表示第l层第权重矩阵、第l层神经元第输出相应、连接第l层和第l+1层第偏置值向量；

为非线性映射函数，采用Sigmoid函数或ReLU函数：

S32、在兴趣度模型中，使用多头注意力网络共同关注来自不同位置、不同表征空间的信息，模拟来自多个感兴趣视图的用户偏好；在兴趣交互层中，将序列本身作为数据的键、值向量，其输出的向量从神经网络先前的隐藏输出中聚合。

5.根据权利要求4所述的直播购物兴趣度预测方法，其特征在于上述步骤S4输出结果并通过二元交叉熵损失函数Logloss以及AUC评判模型精度；其中，Logloss定义为：

N为测试集上样本总数量，y⁽ⁱ⁾和

AUC的定义为ROC曲线下坐标轴所闭包的区域面积为：