CN112699271A - 一种提升用户在视频网站留存时间的视频推荐系统方法 - Google Patents

一种提升用户在视频网站留存时间的视频推荐系统方法 Download PDF

Info

Publication number
CN112699271A
CN112699271A CN202110026449.5A CN202110026449A CN112699271A CN 112699271 A CN112699271 A CN 112699271A CN 202110026449 A CN202110026449 A CN 202110026449A CN 112699271 A CN112699271 A CN 112699271A
Authority
CN
China
Prior art keywords
model
deep
data
feature extraction
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110026449.5A
Other languages
English (en)
Other versions
CN112699271B (zh
Inventor
何明
刘宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202110026449.5A priority Critical patent/CN112699271B/zh
Publication of CN112699271A publication Critical patent/CN112699271A/zh
Application granted granted Critical
Publication of CN112699271B publication Critical patent/CN112699271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提升用户在视频网站留存时间的视频推荐系统方法,包括以下步骤:数据预处理、深度兴趣交叉网络模型构建、模型训练及结果生成。本发明中的深度兴趣交叉网络模型整体上被划分为数据转换模块、低阶特征提取模块、交叉网络特征提取模块、深度兴趣特征提取模块。将三个特征提取模块以并行的方式进行训练,同时三个特征共享同一个数据层以加快模型的收敛速度。通过该机制我们可以深入挖掘用户的历史兴趣偏好,从中筛选出能够代表用户兴趣的内容,进而增强该内容的权重提升推荐系统的准确性。本发明除了能够提升视频网站推荐系统的准确性外,还可以将本发明的模型应用到电商、音乐等网站中,具有较好的移植性。

Description

一种提升用户在视频网站留存时间的视频推荐系统方法
技术领域
本发明属于深度学习技术领域,是一种有效的能够提升用户在视频网站留存时间的新方法。
背景技术
近些年来随着信息网络基础技术的发展,互联网各领域的内容层出不穷,互联网用户接触到的信息爆炸式增长,尤其移动互联网的到来,人们从信息匮乏时代步入了信息过载时代。在这种时代背景下,用户面临着五花八门的信息内容,很难从中找到自己感兴趣的内容。而信息也越来越难以展示给感兴趣的用户,推荐系统就是在此背景下应运而生,推荐系统选取精准的信息推荐给用户。
在推荐系统模型中,特征对许多商业模型的成功起着核心作用,由于使用原始特征很少会产生最佳结果,因此数据科学家通常会花费大量的工作来转换原始特征,以此提升推荐系统的准确性。但是传统的特征交叉工程有着以下不可避免的缺点:为了获得高质量的交叉特征需要付出高昂的代价。因为在商业互联网中,推荐系统常常需要应用在不同的业务场景中,而不同的业务场景就需要不同的业务专家来进行特征的筛选和交叉,这就需要花费大量时间探索产品数据中的潜在模式。尤其像在视频网站等Web规模推荐系统之类的大规模预测系统中,传统的推荐系统模型已不在适用。
深度学习技术是机器学习领域中一个新的研究方向,深度学习技术以机器学习中的神经网络为架构基础模仿大脑的神经元之间传递,处理信息的模式。由于其强大的特征提取能力和灵活性,目前已经成为各智能领域专家研究的热点。近些年来,深度学习技术在计算机视觉、语音识别、自然语言理解等领域额取得了巨大的成功,越来越多的研究人员将深度学习技术应用于推荐系统模型当中。
深度学习技术逐渐被应用到推荐系统模型中,如FNN,PNN,AFM等模型。这些模型虽然在提升推荐系统准确性上有一定的效果,但是也存在明显的不足。这些模型只是在传统的机器学习上拼接深度神经网络进行串行训练,学习的特征不够全面,更不能挖掘出用户代表性的特征,模型准确率从提升始终有限。
发明内容
针对现有技术中存在的上述问题,本发明提出一种有效的能够提升用户在视频网站留存时间的新方法。本发明的技术方案是:首先,本发明中的深度兴趣交叉网络模型整体上被划分为数据转换模块、低阶特征提取模块、交叉网络特征提取模块、深度兴趣特征提取模块。不同于传统的视频推荐系统模型,我们将三个特征提取模块以并行的方式进行训练,同时三个特征共享同一个数据层以加快模型的收敛速度。其中低阶特征模块负责提取数据中的一阶特征和二阶特征,交叉网络特征模块以显式地方式提取高阶特征。而深度兴趣网络则可以隐式地提取高阶特征,丰富高阶特征的内容。此外,我们将注意力机制引入深度兴趣网络模块。通过该机制我们可以深入挖掘用户的历史兴趣偏好,从中筛选出能够代表用户兴趣的内容,进而增强该内容的权重提升推荐系统的准确性。
本发明所采用的技术方案是:
一种有效的能够提升用户在视频网站留存时间的新方法,包括以下步骤:数据预处理、深度兴趣交叉网络模型构建、模型训练及结果生成。
步骤1,数据预处理:数据预处理流程方式为唯一属性特征处理、缺失值处理、异常值处理。整个数据预处理由pandas框架完成,首先将数据中属性值唯一的特征进行删除以提高样本之间的区分度,如果不将此类特征删除,样本间的区分度会低,通过这样的数据得到的模型预测准确率会降低。然后进行缺失值的处理,对于分类特征的缺失值,随机选择相邻样本的属性值进行填充;对于连续特征的缺失值,计算其余样本特征累加和的平均数进行属性值的填充,这里不选择相邻特征对连续特征缺失值进行填充,主要在于平均数更能反应该特征整体分布的情况。最后处理特征中的异常值以防止对模型的训练产生负面影响,可能会导致模型收敛性差,通过k-means算法进行聚类检测离群点,然后进行样本的删除。
步骤2,深度兴趣交叉网络模型的构建:按照以三个特征提取模块并行训练作为的设计架构,通过自底向上逐步建立各个处理模块的方式搭建深度兴趣交叉网络模型。
步骤2.1,建立数据转换模块,将预处理后的数据映射到低维的稠密向量空间,转换后的数据可以直接被输送到深度兴趣交叉网络模型进行训练。同时,预处理后的数据经过数据转换模块加工后,数据被映射成低维的向量,极大降低了模型参数量从而加快模型的训练速度。
步骤2.2,构建低阶特征提取模块,低阶特征模块构建以因子分解机(Factorization Machines)为核心。将因子分解机引入到该模块中可以进行自动化地进行特征组合,学习一阶特征和二阶特征。
步骤2.3,构建交叉网络特征提取模块,交叉网络特征模块可以弥补深度神经网络的不足。交叉网络特征模块也是对高阶特征进行学习,但是该学习以显示地方式进行,通过数学公式可以直接看出每层的特征是如何进行交互的,交叉网络特征模块可以提升模型整体的可解释性。
步骤2.4,构建深度兴趣特征提取模块,深度兴趣特征提取模块由深度神经网络与Attention机制串行组成。深度神经网络可以端到端隐式地学习高阶特征,而此处Attention机制得引入可以加强用户历史行为中的有效信息,降低无效信息的影响从而挖掘出用户具有代表性的内容。
步骤3,确定损失函数,损失函数定义如下:
模型最终输出
Figure BDA0002890421930000031
的损失函数定义为:
Figure BDA0002890421930000032
其中,loss表示二元交叉熵损失。
步骤4,网络训练:步骤3中的二元交叉熵损失值loss是进行模型训练至关重要的参数。在本步骤中通过loss值进行神经网络的反向传播运算,进行模型参数的迭代更新。通过定义的循环次数,不断的进行计算loss值-反向传播loss值优化模型参数的过程,对模型进行训练直到模型收敛
步骤5,通过步骤4训练好的深度兴趣交叉网络模型,在测试数据集上进行模型测验,得到评价指标结果。
附图说明
图1是本发明方法的流程图;
图2是数据预处理前后的对比图;
图3是本发明的深度兴趣交叉网络结构示意图;
图4是部分模块缺失的模型预测结果对比图;
图5是本发明方法和其他方法的评价指标结果比较图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本实施例中,任务目标是训练深度兴趣交叉网络模型使之可以在数据集上进行模型的预测,得到模型推荐的准确率。使用的数据集来自MovivLens的ml-20m,此数据集描述了5星之内的电影不受限制的标记,用于给出用户推荐。数据集包含了138493个用户对27278个电影的20000263个评分和465564个标签
参见图1所示,本实施例方法的具体步骤如下:
步骤1,数据预处理:数据预处理流程方式为唯一属性特征处理、缺失值处理、异常值处理。整个数据预处理由pandas框架完成,首先将数据中属性值唯一的特征进行删除以提高样本之间的区分度,如果不将此类特征删除,样本间的区分度会低,通过这样的数据得到的模型预测准确率会降低。然后进行缺失值的处理,对于分类特征的缺失值,随机选择相邻样本的属性值进行填充,示例为图2的第一行;对于连续特征的缺失值,计算其余样本特征累加和的平均数进行属性值的填充,示例为图2的第二行。这里不选择相邻特征对连续特征缺失值进行填充,主要在于平均数更能反应该特征整体分布的情况。最后处理特征中的异常值以防止对模型的训练产生负面影响,可能会导致模型收敛性差,通过k-means算法进行聚类检测离群点,然后进行样本的删除。
步骤2,深度兴趣交叉网络模型的构建:按照以三个特征提取模块并行训练作为的设计架构,通过自底向上逐步建立各个处理模块的方式搭建深度兴趣交叉网络模型。
步骤2.1,建立数据转换模块,将预处理后的数据映射到低维的稠密向量空间,转换后的数据可以直接被输送到深度兴趣交叉网络模型进行训练。同时,预处理后的数据经过数据转换模块加工后,数据被映射成低维的向量,极大降低了模型参数量从而加快模型的训练速度。
步骤2.2,构建低阶特征提取模块,低阶特征模块构建以因子分解机(Factorization Machines)为核心。将因子分解机引入到该模块中可以进行自动化地进行特征组合,学习一阶特征和二阶特征。
步骤2.3,构建交叉网络特征提取模块,交叉网络特征模块可以弥补深度神经网络的不足。交叉网络特征模块也是对高阶特征进行学习,但是该学习以显示地方式进行,通过数学公式可以直接看出每层的特征是如何进行交互的,交叉网络特征模块可以提升模型整体的可解释性。
步骤2.4,构建深度兴趣特征提取模块,深度兴趣特征提取模块由深度神经网络与Attention机制串行组成。深度神经网络可以端到端隐式地学习高阶特征,而此处Attention机制得引入可以加强用户历史行为中的有效信息,降低无效信息的影响从而挖掘出用户具有代表性的内容。
步骤3,确定损失函数,损失函数定义如下:
模型最终输出
Figure BDA0002890421930000041
的损失函数定义为:
Figure BDA0002890421930000042
其中,loss表示二元交叉熵损失。
步骤4,网络训练:步骤3中的二元交叉熵损失值loss是进行模型训练至关重要的参数。在本步骤中通过loss值进行神经网络的反向传播运算,进行模型参数的迭代更新。通过定义的循环次数,不断的进行计算loss值-反向传播loss值优化模型参数的过程,对模型进行训练直到模型收敛。本实施例在GPU为NVidia GeForce 2080Ti(16G)的主机上运行,Iteration为100,批量大小为512,基础学习率为10-4,使用Adam优化器优化网络参数,使用的两个评价指标为AUC和Logloss,公式如下:
Figure BDA0002890421930000051
Figure BDA0002890421930000052
步骤5,通过步骤4训练好的深度兴趣交叉网络模型,在测试数据集上进行模型测验,得到评价指标结果。
图4所示为分析三个特征提取模块分别对整个深度兴趣交叉网络模型的影响,通过控制变量法每次去除一个模块而经过模型训练得到的测试结果,从图中AUC和Logloss的变化可以看出,低阶特征提取模块在三个模块中对整体模型的影响最小,而深度兴趣模块对整体模型的影响最高。
图5为本发明方法和其他方法的评价指标结果比较图,从图中可以看到本发明方法的AUC值高于其他模型,而Logloss损失值低于其他模型,证明本模型的优越性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进,将声明所示损失函数用在其他网络中等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种提升用户在视频网站留存时间的视频推荐系统方法,其特征在于,包括以下步骤:
步骤一、获取视频网站用户的数据集,并进行数据预处理;
步骤二、在进行数据预处理后,使用Pytorch深度学习框架,搭建深度兴趣交叉网络模型;
步骤三、定义损失函数;
步骤四、通过损失函数对深度兴趣交叉网络模型进行训练;
步骤五、使用步骤四训练好的深度兴趣交叉网络模型对测试数据进行测试,得到结果后与原始数据集中的结果进行比较,从而计算出模型推荐的准确率。
2.根据权利要求1所述的一种提升用户在视频网站留存时间的视频推荐系统方法,其特征在于,在步骤一中,数据预处理流程包括唯一属性特征处理、缺失值处理、异常值处理。整个数据预处理由pandas框架完成,首先将视频网站用户的数据集中的数据中属性值唯一的特征进行删除提高样本间区分度。然后进行缺失值的处理,对于分类特征的缺失值,随机选择相邻样本的属性值进行填充;对于连续特征的缺失值,计算其余样本特征累加和的平均数进行属性值的填充。最后处理特征中的异常值以防止对模型的训练产生负面影响,通过k-means算法进行聚类检测离群点,然后进行样本的删除。
3.根据权利要求1所述的一种提升用户在视频网站留存时间的视频推荐系统方法,其特征在于,在步骤二中,按照以三个特征提取模块并行训练作为的设计架构,通过自底向上逐步建立各个处理模块的方式搭建深度兴趣交叉网络模型,具体包括以下步骤:
步骤21、建立数据转换模块,将预处理后的数据映射到低维的稠密向量空间,转换后的数据可以直接被输送到深度兴趣交叉网络模型进行训练。同时,预处理后的数据经过数据转换模块加工后,数据被映射成低维的向量,极大降低了模型参数量从而加快模型的训练速度。
步骤22、构建低阶特征提取模块,低阶特征模块构建以因子分解机为核心。将因子分解机引入到该模块中进行自动化地进行特征组合,学习一阶特征和二阶特征。
步骤23、构建交叉网络特征提取模块,交叉网络特征模块可以弥补深度神经网络的不足。交叉网络特征模块对高阶特征进行学习,交叉网络特征模块提升模型整体的可解释性。
步骤24、构建深度兴趣特征提取模块,深度兴趣特征提取模块由深度神经网络与Attention机制串行组成。深度神经网络端到端隐式地学习高阶特征。
4.根据权利要求1所述的一种提升用户在视频网站留存时间的视频推荐系统方法,其特征在于,在步骤三中,深度兴趣交叉网络模型损失函数定义如下:最终输出
Figure FDA0002890421920000021
的损失函数定义为:
Figure FDA0002890421920000022
其中,losso表示二元交叉熵损失,y为每个样本的标签值;
Figure FDA0002890421920000023
为模型预测样本值为1或0时的概率值。
5.根据权利要求1所述的一种提升用户在视频网站留存时间的视频推荐系统方法,其特征在于,在步骤四中,使用预处理的数据集对神经网络模型进行训练,直至其收敛,使用的两个评价指标为AUC和Logloss,公式如下:
Figure FDA0002890421920000024
Figure FDA0002890421920000025
其中,AUC为受试者工作特征曲线下的面积,M为正类样本的数目,N为负类样本的数目。insi为样本的下标,
Figure FDA0002890421920000026
代表预测概率超过的该样本的数目。Logloss表示二元交叉熵损失,y为每个样本的标签值,取值为0或1.
Figure FDA0002890421920000027
为模型预测样本值为1或0时的概率值。
CN202110026449.5A 2021-01-08 2021-01-08 一种提升用户视频网站留存时间的推荐方法 Active CN112699271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110026449.5A CN112699271B (zh) 2021-01-08 2021-01-08 一种提升用户视频网站留存时间的推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110026449.5A CN112699271B (zh) 2021-01-08 2021-01-08 一种提升用户视频网站留存时间的推荐方法

Publications (2)

Publication Number Publication Date
CN112699271A true CN112699271A (zh) 2021-04-23
CN112699271B CN112699271B (zh) 2024-02-02

Family

ID=75513646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110026449.5A Active CN112699271B (zh) 2021-01-08 2021-01-08 一种提升用户视频网站留存时间的推荐方法

Country Status (1)

Country Link
CN (1) CN112699271B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897168A (zh) * 2022-06-20 2022-08-12 支付宝(杭州)信息技术有限公司 风控模型的基于知识表征学习的融合训练方法和系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727855A (zh) * 2019-08-28 2020-01-24 广东工业大学 一种基于改进因子分解机的个性化推荐方法
CN111737578A (zh) * 2020-06-22 2020-10-02 陕西师范大学 一种推荐方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110727855A (zh) * 2019-08-28 2020-01-24 广东工业大学 一种基于改进因子分解机的个性化推荐方法
CN111737578A (zh) * 2020-06-22 2020-10-02 陕西师范大学 一种推荐方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114897168A (zh) * 2022-06-20 2022-08-12 支付宝(杭州)信息技术有限公司 风控模型的基于知识表征学习的融合训练方法和系统

Also Published As

Publication number Publication date
CN112699271B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN113255844B (zh) 基于图卷积神经网络交互的推荐方法及系统
CN109857457B (zh) 一种在双曲空间中学习源代码中的函数层次嵌入表示方法
CN110677284A (zh) 一种基于元路径的异构网络链路预测的方法
CN112580636B (zh) 一种基于跨模态协同推理的图像美学质量评价方法
CN112559764A (zh) 一种基于领域知识图谱的内容推荐方法
CN113806494A (zh) 一种基于预训练语言模型的命名实体识别方法
CN115114409B (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
CN116049450A (zh) 一种基于距离聚类的支持多模态的图文检索方法及装置
CN113822419A (zh) 一种基于结构信息的自监督图表示学习运行方法
CN115982480A (zh) 基于协同注意力网络和对比学习的序列推荐方法及系统
CN117690178B (zh) 一种基于计算机视觉的人脸图像识别方法与系统
CN114239730B (zh) 一种基于近邻排序关系的跨模态检索方法
CN117591969B (zh) 一种基于ipc标签共现的规则检核方法及系统
CN112699271B (zh) 一种提升用户视频网站留存时间的推荐方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN110738245A (zh) 一种面向科学数据分析的自动聚类算法选择系统及方法
CN106033546A (zh) 基于自上而下学习的行为分类方法
CN111984842A (zh) 银行客户数据处理方法及装置
CN113360772B (zh) 一种可解释性推荐模型训练方法与装置
CN112529637B (zh) 基于情景感知的服务需求动态预测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant