CN107515909B - 一种视频推荐方法及系统 - Google Patents

一种视频推荐方法及系统 Download PDF

Info

Publication number
CN107515909B
CN107515909B CN201710687544.3A CN201710687544A CN107515909B CN 107515909 B CN107515909 B CN 107515909B CN 201710687544 A CN201710687544 A CN 201710687544A CN 107515909 B CN107515909 B CN 107515909B
Authority
CN
China
Prior art keywords
video
reinforcement learning
information data
user
learning network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710687544.3A
Other languages
English (en)
Other versions
CN107515909A (zh
Inventor
张桐
刘海宝
汪念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunnet Bate Technology Co Ltd
Original Assignee
Shenzhen Yunnet Bate Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunnet Bate Technology Co Ltd filed Critical Shenzhen Yunnet Bate Technology Co Ltd
Priority to CN201710687544.3A priority Critical patent/CN107515909B/zh
Priority to PCT/CN2017/112123 priority patent/WO2019029046A1/zh
Publication of CN107515909A publication Critical patent/CN107515909A/zh
Application granted granted Critical
Publication of CN107515909B publication Critical patent/CN107515909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频推荐方法,包括:采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。本发明还公开了一种视频推荐系统。本发明能够有效提高视频推荐的准确率和推荐速度。

Description

一种视频推荐方法及系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种视频推荐方法及系统。
背景技术
随着各类视频平台内容的不断丰富和快速地更新速度特点,用户在面对过量的信息却很难找到自己真正感兴趣的内容,因此为用户推荐符合其兴趣品味的视频内容,提高视频推荐的准确率已经成为各大视频平台运营商重点的研究领域之一。
目前常用的推荐算法包括基于内容、知识、图谱的推荐,协同过滤推荐等。其中运用较多的是协同过滤推荐,包含基于用户的协同过滤和基于物品的协同过滤两类推荐算法,协同过滤在不同的应用场景下可以产生较高的准确率,但当用户数或物品数较多时推荐系统的性能则会受到限制,同时难以解决冷启动问题。
发明内容
本发明针对现有技术中存在的问题,提供了一种视频推荐方法及系统,能够有效提高视频推荐的准确率和推荐速度。
本发明就上述技术问题而提出的技术方案如下:
一方面,本发明提供一种视频推荐方法,包括:
采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
进一步地,所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型,具体包括:
根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;
将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频,具体包括:
将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网络输出一个训练初始推荐视频;
将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
进一步地,所述根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频,具体包括:
将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
若判定用户观看所述奖励期望值最大的视频,则将所述奖励期望值最大的视频作为用户的推荐视频。
进一步地,在所述将所述奖励期望值最大的视频作为用户的推荐视频之后,还包括:
将所述推荐视频添加到所述历史行为信息数据中,并根据添加后的历史行为信息数据,基于所述因子分解机模型和所述训练后的强化学习网络模型,继续获取用户的推荐视频,直到获取预设数量的推荐视频为止。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
根据所采集的视频信息数据,计算视频与视频之间的相似性,获得视频相似矩阵;
根据所述视频相似矩阵,建立状态概率转移矩阵;
根据用户观看视频所产生的行为信息数据,获得用户对视频的评分矩阵;
根据所述状态概率转移矩阵和所述评分矩阵,建立所有用户对所有视频的预测评分矩阵。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
对所采集的数据进行清洗和入库,以将所采集的数据转换为结构化数据,并存入数据库。
另一方面,本发明提供一种视频推荐系统,包括:
采集模块,用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
模型训练模块,用于根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
推荐视频获取模块,用于获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;以及,
模型优化模块,用于记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
进一步地,所述模型训练模块具体包括:
模型建立单元,用于根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
训练视频获取单元,用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
奖励值计算单元,用于根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
模型更新单元,用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;以及,
模型训练单元,用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述推荐视频获取模块具体包括:
初始推荐视频获取单元,用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
预视频推荐集合获取单元,用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
视频输出单元,用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
视频判断单元,用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;以及,
推荐视频获取单元,用于在判定用户观看所述奖励期望值最大的视频时,将所述奖励期望值最大的视频作为用户的推荐视频。
本发明实施例提供的技术方案带来的有益效果是:
通过采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据,建立因子分解机模型,同时训练强化学习网络模型,以基于因子分解机模型和训练后的强化学习网络模型为用户进行个性化的视频推荐,并根据用户对推荐视频的实际反馈信息,不断优化因子分解机模型和训练后的强化学习网络模型,以将所推荐的视频结果产生的回报率最大化,从而提高推荐的速率和准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的视频推荐方法的流程示意图;
图2是本发明实施例一提供的视频推荐方法中视频推荐原理图;
图3是本发明实施例二提供的视频推荐系统的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
实施例一
本发明实施例提供了一种视频推荐方法,参见图1,该方法包括:
S1、采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
S2、根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
S3、获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
S4、记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
需要说明的是,在视频推荐中,数据采集主要包括三个部分:用户信息、视频信息和用户观看视频所产生的行为信息。其中,用户信息具体包括用户ID、性别、年龄、职业、星座、学历、所在地区等用户属性信息;视频信息具体包括视频ID、视频名称、上线时间、出品人、导演演员、视频内容所属类型等标签信息(如爱情片、战争片、文艺片等);行为信息具体包括用户对视频所产生的一系列历史行为信息,可能是评分、评论、点赞、收藏、点击、观看(包含观看时间,观看起始点,快进等具体信息)、在线缓存或下载等用户行为信息。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
对所采集的数据进行清洗和入库,以将所采集的数据转换为结构化数据,并存入数据库。
需要说明的是,在采集数据后,对采集的数据进行清洗和入库等预处理工作流程,具体包括:用户或视频所带属性标签的向量化表达,其中可用word2vec工具对语句或词汇进行向量化表示;用户对视频所产生的历史行为数据,除显性行为(如评分、收藏等行为)外,对其他各类行为类型设置一定的权重参数,从而得到用户对某一视频的综合评分情况。同时,用户观看视频的时间特征也是一个较为重要的因素,在时间序列上反映了用户的兴趣变化和当前视频喜好倾向。将所采集的数据通过预处理后变换为结构化数据,并存入数据库。
进一步地,所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型,具体包括:
根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;
将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
需要说明的是,将所采集的数据进行训练数据和测试数据的分割。其中,训练数据用于建立因子分解机模型,主要通过用户ID、视频ID、用户对视频的评分、观看时间等形成用户-视频数据对,并结合用户信息、视频信息进行矩阵因子分解,求解用户和视频之间一定数量的隐形因子特征,并采用随机梯度下降或最小二乘法或蒙特卡洛算法对因子分解机模型进行优化训练。
因子分解机模型的作用主要是为用户产生一定数量的预推荐视频集合。向因子分解机模型输入某一用户的当前状态,即截止到当前为止用户观看视频的历史行为信息数据,并设置需要为该用户推荐的视频个数,运行因子分解机模型,即可输出该用户的预推荐视频集合。预推荐视频集合包括top-K个预推荐视频,其中top-K参数设定为全部可推荐视频总数的20%。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频,具体包括:
将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网络输出一个训练初始推荐视频;
将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
需要说明的是,强化学习网络模型包括Actor、Critic、Actor target、Critictarget网络结构,其中,Actor和Critic网络结构为全连接神经网络。在训练强化学习网络模型时,先初始化Actor、Critic、Actor target、Critic target网络结构。进而,随机获取某一用户的当前状态,即所采集的行为信息数据,并将该行为信息数据输入至强化学习网络模型中,由Actor网络产生一个初始动作,即一个训练初始推荐视频。将用户的当前状态和Actor网络产生的初始动作作为一个假设新状态,输入至因子分解机模型中,获得该用户的训练视频推荐集合,其中具有top-K个预推荐训练视频。将因子分解机模型产生的训练视频推荐集合返回至强化学习网络模型中,作为Actor网络可选择的动作集合空间,搜索迭代该动作集合空间,通过Critic网络计算产生一个最终执行动作,即选择一个奖励期望值最大的视频进行推荐。其中,最终执行动作通过以下公式计算获得:
Figure BDA0001377111220000111
其中,a表示最终执行动作,Ak表示动作集合空间,
Figure BDA0001377111220000112
表示Critic网络在状态s中采取动作aj能够得到的奖励期望值,θQ为Critic网络权重参数,arg max表示选择奖励期望值最大的动作。
映射到实际情景下,用户对Critic网络产生的最终执行动作的反馈分为两种情况,一种是点击该推荐视频,一种是忽略该推荐视频。在强化学习网络模型训练的虚拟模拟中,决定用户是否会点击或观看推荐视频,是通过预先建立的用户-视频的状态概率转移矩阵计算得到,而用户选择最终执行动作的奖励值是通过用户-视频的预测评分矩阵计算得到。
基于预测评分矩阵计算用户在当前状态下选择最终执行动作的奖励值,并将该最终执行动作(即用户观看了该奖励期望值最大的视频的观看行为数据)添加到用户的历史行为信息数据中,得到用户的新状态。将用户当前状态、观看行为数据、奖励值、新状态存入回放缓存中。在回放缓存中进行mini-batch采样,更新强化学习网络结构权值参数,以更新强化学习网络模型。其中,强化学习网络结构权值参数包括Critic网络的权值参数、Actor网络的权值参数和Critic target、Actor target网络权重参数。
通过最小化损失函数L(θQ)更新Critic网络的权值参数,其更新公式如下:
Figure BDA0001377111220000121
Figure BDA0001377111220000122
其中,yi表示目标输出,ri表示奖励值,γ表示奖励折扣系数,
Figure BDA0001377111220000123
表示Actor网络在状态si+1下选择执行动作ai+1的策略函数,
Figure BDA0001377111220000124
表示在状态si+1中采取动作ai+1能够得到的最大奖励值,θQ′为Critic target网络权重参数,θQ为Critic网络权重参数。
利用采样梯度更新Actor网络的权值参数,其更新公式如下:
Figure BDA0001377111220000131
其中,θπ表示Actor网络权重参数,
Figure BDA0001377111220000132
表示Actor网络在状态s下对应于动作空间的映射函数,
Figure BDA0001377111220000133
表示括号内式子对权重θπ的求导数。
另外,Critic target、Actor target网络权重参数的更新公式如下:
θQ′←τθQ+(1-τ)θQ′
θπ′←τθπ+(1-τ)θπ′
其中,τ表示相关系数,θQ、θπ分别表示Critic、Actor网络权重参数,θQ′、θπ′分别表示Critic target、Actor target网络权重参数。
在更新强化学习网络结构权值参数后,将用户的新状态输入至强化学习网络模型,以循环执行上述步骤,持续迭代对强化学习网络结构权值参数进行更新,直到完成强化学习网络模型的训练为止。
进一步地,所述根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频,具体包括:
将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
若判定用户观看所述奖励期望值最大的视频,则将所述奖励期望值最大的视频作为用户的推荐视频。
需要说明的是,在建立因子分解机模型和训练强化学习网络模型后,利用建立的因子分解机模型和训练好的强化学习网络模型对用户进行个性化推荐。先获取用户ID,将用户当前状态,即用户截止到当前所观看视频的历史行为信息数据,输入至训练好的强化学习网络模型中,Actor网络输出一个初始推荐视频,再将用户当前状态与初始推荐视频组成用户新状态输入至当前最新的因子分解机模型中,得到具有top-K个视频的预视频推荐集合。将预视频推荐集合返回至Critic网络中,输出一个奖励期望值最大的视频。经过状态概率转移矩阵计算用户是否会观看Critic网络输出的奖励期望值最大的视频,若状态概率转移矩阵计算出用户最终会观看该视频,则将该视频作为最终的推荐视频。
进一步地,在所述将所述奖励期望值最大的视频作为用户的推荐视频之后,还包括:
将所述推荐视频添加到所述历史行为信息数据中,并根据添加后的历史行为信息数据,基于所述因子分解机模型和所述训练后的强化学习网络模型,继续获取用户的推荐视频,直到获取预设数量的推荐视频为止。
需要说明的是,将推荐视频加入到用户的历史行为信息数据中作为用户的新状态,输入至训练后的强化学习网络模型,循环执行上述步骤,每循环迭代一次可能输出一个推荐视频,其中循环迭代次数取决于需要为用户进行推荐的视频数量,所有推荐视频构成推荐视频集合,展示给用户。
记录用户对推荐视频集合中的推荐视频的实际反馈信息,即用户在实际操作中对推荐视频集合中的推荐视频的观看情况。根据该实际反馈信息,重复上述因子分解机模型和强化学习网络模型的训练步骤,以更新因子分解机模型和强化学习网络模型,进而再根据更新后的因子分解机模型和强化学习网络模型,执行上述视频推荐步骤,获得对用户进行推荐的最新推荐视频。
进一步地,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
根据所采集的视频信息数据,计算视频与视频之间的相似性,获得视频相似矩阵;
根据所述视频相似矩阵,建立状态概率转移矩阵;
根据用户观看视频所产生的行为信息数据,获得用户对视频的评分矩阵;
根据所述状态概率转移矩阵和所述评分矩阵,建立所有用户对所有视频的预测评分矩阵。
其中,预测评分矩阵计算出的预测评分即为用户选择某一视频的奖励值,当预测评分越大,则认为用户选择该视频的可能性越大。
参见图2,是本发明实施例所提供的视频推荐方法的原理图。先对用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据进行采集和预处理,获取用户状态,将用户状态输入至Actor网络,输出一个预推荐视频,再将用户状态和预推荐视频假设为新状态,输入至因子分解机模型,输出具有top-K个视频的预推荐视频集合,再将预推荐视频集合返回至Critic网络,输出一个最终动作1,将最终动作1添加到用户状态中作为新状态,继续进行视频推荐,以获得最终动作2、最终动作3、……、最终动作N,将N个最终动作构建的视频推荐集合推荐给用户。
本发明实施例能够利用因子分解机模型在推荐上的优势和深度神经网络的结构特点,基于深度强化学习的理论框架Actor-Critic结构构建一种视频个性化推荐方法,其中强化学习网络模型利用因子分解机模型所产生的预推荐视频集合,通过神经网络选择推荐后可获得奖励值最大的视频,然后将用户状态和强化学习智能体形成交互系统,不断地为用户生成推荐视频,最终构成为用户进行个性化推荐的视频集合。在实现推荐的过程中,将大规模离散动作抽象为强化学习过程中的连续动作,在提高推荐速度的同时也保证了推荐的准确率。
实施例二
本发明实施例提供了一种视频推荐系统,能够实现上述视频推荐方法的所有流程,参见图3,所述视频推荐系统包括:
采集模块1,用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
模型训练模块2,用于根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
推荐视频获取模块3,用于获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;以及,
模型优化模块4,用于记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型。
进一步地,所述模型训练模块具体包括:
模型建立单元,用于根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
训练视频获取单元,用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
奖励值计算单元,用于根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
模型更新单元,用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;以及,
模型训练单元,用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止。
进一步地,所述强化学习网络模型包括Actor网络和Critic网络;
所述推荐视频获取模块具体包括:
初始推荐视频获取单元,用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
预视频推荐集合获取单元,用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
视频输出单元,用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
视频判断单元,用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;以及,
推荐视频获取单元,用于在判定用户观看所述奖励期望值最大的视频时,将所述奖励期望值最大的视频作为用户的推荐视频。
本发明实施例能够利用因子分解机模型在推荐上的优势和深度神经网络的结构特点,基于深度强化学习的理论框架Actor-Critic结构构建一种视频个性化推荐方法,其中强化学习网络模型利用因子分解机模型所产生的预推荐视频集合,通过神经网络选择推荐后可获得奖励值最大的视频,然后将用户状态和强化学习智能体形成交互系统,不断地为用户生成推荐视频,最终构成为用户进行个性化推荐的视频集合。在实现推荐的过程中,将大规模离散动作抽象为强化学习过程中的连续动作,在提高推荐速度的同时也保证了推荐的准确率。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种视频推荐方法,其特征在于,包括:
采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型;
其中,所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型,具体包括:
根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;
将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止;
其中,所述强化学习网络模型包括动作Actor网络和评价者Critic网络;
所述将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频,进一步具体包括:
将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网络输出一个训练初始推荐视频;
将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
2.如权利要求1所述的视频推荐方法,其特征在于,所述根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频,具体包括:
将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
若判定用户观看所述奖励期望值最大的视频,则将所述奖励期望值最大的视频作为用户的推荐视频。
3.如权利要求2所述的视频推荐方法,其特征在于,在所述将所述奖励期望值最大的视频作为用户的推荐视频之后,还包括:
将所述推荐视频添加到所述历史行为信息数据中,并根据添加后的历史行为信息数据,基于所述因子分解机模型和所述训练后的强化学习网络模型,继续获取用户的推荐视频,直到获取预设数量的推荐视频为止。
4.如权利要求2所述的视频推荐方法,其特征在于,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
根据所采集的视频信息数据,计算视频与视频之间的相似性,获得视频相似矩阵;
根据所述视频相似矩阵,建立状态概率转移矩阵;
根据用户观看视频所产生的行为信息数据,获得用户对视频的评分矩阵;
根据所述状态概率转移矩阵和所述评分矩阵,建立所有用户对所有视频的预测评分矩阵。
5.如权利要求1所述的视频推荐方法,其特征在于,在所述根据所采集的数据建立因子分解机模型,并训练强化学习网络模型之前,还包括:
对所采集的数据进行清洗和入库,以将所采集的数据转换为结构化数据,并存入数据库。
6.一种视频推荐系统,其特征在于,包括:
采集模块,用于采集用户信息数据、视频信息数据和用户观看视频所产生的行为信息数据;
模型训练模块,用于根据所采集的数据建立因子分解机模型,并训练强化学习网络模型;
推荐视频获取模块,用于获取用户截止到当前所观看视频的历史行为信息数据,并根据所述历史行为信息数据,基于所述因子分解机模型和训练后的强化学习网络模型,获得用户的推荐视频;
模型优化模块,用于记录用户对所述推荐视频的实际反馈信息,并根据所述实际反馈信息优化所述因子分解机模型和所述训练后的强化学习网络模型;
其中,所述模型训练模块具体包括:
模型建立单元,用于根据所采集的数据求解用户与视频之间的隐形因子特征,并根据所述隐形因子特征建立所述因子分解机模型;
训练视频获取单元,用于将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频;
奖励值计算单元,用于根据预先建立的预测评分矩阵,计算用户观看所述奖励期望值最大的训练视频的奖励值,并将用户的观看行为数据添加到所述行为信息数据中;
模型更新单元,用于根据所述行为信息数据、所述奖励值、所述观看行为数据和添加后的行为信息数据,更新强化学习网络结构权值参数,以更新所述强化学习网络模型;以及,
模型训练单元,用于将所述添加后的行为信息数据输入至更新后的强化学习网络模型和所述因子分解机模型,以继续更新所述强化学习网络结构权值参数,直到完成所述强化学习网络模型的训练为止;
其中,所述强化学习网络模型包括动作Actor网络和评价者Critic网络;所述训练视频获取单元将所采集的行为信息数据输入至所述强化学习网络模型和所述因子分解机模型,计算获得一个奖励期望值最大的训练视频具体包括:
将所采集的行为信息数据输入至所述强化学习网络模型,由所述Actor网络输出一个训练初始推荐视频;
将所述行为信息数据和所述训练初始推荐视频输入至所述因子分解机模型,获得训练视频推荐集合;
将所述训练视频推荐集合返回至所述强化学习网络模型,由所述Critic网络计算输出一个奖励期望值最大的训练视频。
7.如权利要求6所述的视频推荐系统,其特征在于,
所述推荐视频获取模块具体包括:
初始推荐视频获取单元,用于将所述历史行为信息数据输入至所述训练后的强化学习网络模型,由所述Actor网络输出一个初始推荐视频;
预视频推荐集合获取单元,用于将所述历史行为信息数据和所述初始推荐视频输入至所述因子分解机模型,获得预视频推荐集合;
视频输出单元,用于将所述预视频推荐集合返回至所述训练后的强化学习网络模型,由所述Critic网络输出一个奖励期望值最大的视频;
视频判断单元,用于根据预先建立的状态概率转移矩阵模拟判断用户是否观看所述奖励期望值最大的视频;
推荐视频获取单元,用于在判定用户观看所述奖励期望值最大的视频时,将所述奖励期望值最大的视频作为用户的推荐视频。
CN201710687544.3A 2017-08-11 2017-08-11 一种视频推荐方法及系统 Active CN107515909B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710687544.3A CN107515909B (zh) 2017-08-11 2017-08-11 一种视频推荐方法及系统
PCT/CN2017/112123 WO2019029046A1 (zh) 2017-08-11 2017-11-21 一种视频推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710687544.3A CN107515909B (zh) 2017-08-11 2017-08-11 一种视频推荐方法及系统

Publications (2)

Publication Number Publication Date
CN107515909A CN107515909A (zh) 2017-12-26
CN107515909B true CN107515909B (zh) 2020-05-19

Family

ID=60723054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710687544.3A Active CN107515909B (zh) 2017-08-11 2017-08-11 一种视频推荐方法及系统

Country Status (2)

Country Link
CN (1) CN107515909B (zh)
WO (1) WO2019029046A1 (zh)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108566287A (zh) * 2018-01-08 2018-09-21 福建星瑞格软件有限公司 一种基于深度学习的集群服务器运维优化方法
CN108280165B (zh) * 2018-01-18 2020-05-05 四川大学 基于状态转移的奖励值音乐推荐方法
CN110097191B (zh) * 2018-01-29 2024-02-27 松下电器(美国)知识产权公司 信息处理方法以及信息处理系统
CN108388624B (zh) * 2018-02-12 2022-05-17 科大讯飞股份有限公司 多媒体信息推荐方法及装置
CN108537624B (zh) * 2018-03-09 2021-08-03 西北大学 一种基于深度学习的旅游服务推荐方法
CN108490784B (zh) * 2018-04-19 2024-01-12 云南佳叶现代农业发展有限公司 基于强化学习的烟叶烘烤曲线推荐方法
CN109062919B (zh) * 2018-05-31 2021-06-15 腾讯科技(深圳)有限公司 一种基于深度强化学习的内容推荐方法及装置
CN108810573B (zh) * 2018-06-14 2022-01-04 广东互通宽带网络服务有限公司 一种支持向量机进行智能流量缓存预测的方法及系统
CN108900594B (zh) * 2018-06-21 2021-03-19 中国联合网络通信集团有限公司 移动视频的优化方法、装置及系统
CN110737799B (zh) * 2018-07-03 2023-06-27 阿里巴巴集团控股有限公司 视频搜索的方法、装置、设备和介质
CN108921221B (zh) * 2018-07-04 2022-11-18 腾讯科技(深圳)有限公司 用户特征的生成方法、装置、设备及存储介质
CN109033460A (zh) * 2018-08-30 2018-12-18 优视科技新加坡有限公司 一种信息流中的排序方法、装置和设备/终端/服务器
CN109388731A (zh) * 2018-08-31 2019-02-26 昆明理工大学 一种基于深度神经网络的音乐推荐方法
CN110933499B (zh) * 2018-09-19 2021-12-24 飞狐信息技术(天津)有限公司 一种视频点击率的预估方法及装置
CN109543066B (zh) 2018-10-31 2021-04-23 北京达佳互联信息技术有限公司 视频推荐方法、装置和计算机可读存储介质
WO2020113128A1 (en) * 2018-11-29 2020-06-04 January, Inc. Systems, methods, and devices for biophysical modeling and response prediction
CN111263229B (zh) * 2018-11-30 2023-06-16 南京超聚通信科技有限公司 一种视频分发方法、装置及电子设备
CN109408729B (zh) * 2018-12-05 2022-02-08 广州市百果园信息技术有限公司 推荐物料确定方法、装置、存储介质和计算机设备
CN109451038A (zh) * 2018-12-06 2019-03-08 北京达佳互联信息技术有限公司 一种信息推送方法、装置、服务器及计算机可读存储介质
CN111382307B (zh) * 2018-12-27 2023-10-17 深圳Tcl新技术有限公司 一种基于深度神经网络的视频推荐方法、系统及存储介质
CN111385659B (zh) * 2018-12-29 2021-08-17 广州市百果园信息技术有限公司 一种视频推荐方法、装置、设备及存储介质
CN109831684B (zh) * 2019-03-11 2022-08-19 深圳前海微众银行股份有限公司 视频优化推荐方法、装置及可读存储介质
CN111753182B (zh) * 2019-03-28 2024-05-17 北京达佳互联信息技术有限公司 多媒体信息推荐方法、装置、电子设备及可读存储介质
CN110135951B (zh) * 2019-05-15 2021-07-27 网易(杭州)网络有限公司 游戏商品的推荐方法、装置及可读存储介质
US11281734B2 (en) * 2019-07-03 2022-03-22 International Business Machines Corporation Personalized recommender with limited data availability
US11983609B2 (en) 2019-07-10 2024-05-14 Sony Interactive Entertainment LLC Dual machine learning pipelines for transforming data and optimizing data transformation
CN110413893B (zh) * 2019-07-31 2024-09-03 腾讯科技(北京)有限公司 对象推送方法、装置、计算机设备及存储介质
CN110727855A (zh) * 2019-08-28 2020-01-24 广东工业大学 一种基于改进因子分解机的个性化推荐方法
CN110851699A (zh) * 2019-09-16 2020-02-28 中国平安人寿保险股份有限公司 基于深度强化学习的信息流推荐方法、装置、设备及介质
CN110659947A (zh) * 2019-10-11 2020-01-07 沈阳民航东北凯亚有限公司 商品推荐方法及装置
CN110851707B (zh) * 2019-10-11 2021-06-04 筑客网络技术(上海)有限公司 一种用于建材招投标平台的智能推荐方法
CN112699910B (zh) * 2019-10-23 2024-07-12 北京达佳互联信息技术有限公司 生成训练数据的方法、装置、电子设备及存储介质
CN112712385B (zh) * 2019-10-25 2024-01-12 北京达佳互联信息技术有限公司 广告推荐方法、装置、电子设备及存储介质
CN110825966B (zh) * 2019-10-31 2022-03-04 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质
CN110851651B (zh) * 2019-11-08 2022-07-22 杭州小影创新科技股份有限公司 一种个性化视频推荐方法及系统
CN111104595B (zh) * 2019-12-16 2023-04-07 华中科技大学 一种基于文本信息的深度强化学习交互式推荐方法及系统
CN111158546B (zh) * 2019-12-27 2022-02-11 北京奇艺世纪科技有限公司 媒体信息的展示方法和装置、存储介质、电子装置
CN111159558B (zh) * 2019-12-31 2023-07-18 支付宝(杭州)信息技术有限公司 一种推荐列表的生成方法、装置和电子设备
CN113254795B (zh) * 2020-02-11 2023-11-07 北京京东振世信息技术有限公司 一种推荐模型的训练方法和装置
CN111858846A (zh) * 2020-03-05 2020-10-30 北京嘀嘀无限科技发展有限公司 一种信息处理方法及装置
CN111488488A (zh) * 2020-04-10 2020-08-04 杭州趣维科技有限公司 一种基于图挖掘的用户兴趣探测方法
CN113596528B (zh) * 2020-04-30 2022-10-04 北京达佳互联信息技术有限公司 视频推送模型的训练方法、装置、服务器及存储介质
CN112507104B (zh) * 2020-12-18 2022-07-22 北京百度网讯科技有限公司 对话系统获取方法、装置、存储介质及计算机程序产品
CN112529636A (zh) * 2020-12-18 2021-03-19 平安科技(深圳)有限公司 商品推荐方法、装置、计算机设备及介质
CN113065060B (zh) * 2021-02-18 2022-11-29 山东师范大学 基于深度学习的教育平台课程推荐方法及系统
CN113207010B (zh) * 2021-06-02 2022-06-17 清华大学 模型训练方法、直播推荐方法、设备、存储介质
US20230164569A1 (en) * 2021-11-24 2023-05-25 Samsung Electronics Co., Ltd. System and method for selecting 5g n3iwf server based on context-aware selection criteria
CN115065872A (zh) * 2022-06-17 2022-09-16 联通沃音乐文化有限公司 一种影音视频的智能推荐方法及系统
CN117235366B (zh) * 2023-09-19 2024-06-18 北京学说科技有限公司 基于内容关联性的协同推荐方法及系统
CN117440182B (zh) * 2023-10-25 2024-06-07 北京华星酷娱文化传媒有限公司 一种基于视频内容分析和用户标签的智能推荐方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339562A (zh) * 2008-08-15 2009-01-07 北京航空航天大学 引入兴趣模型反馈更新机制的门户个性化推荐服务系统
CN105488216A (zh) * 2015-12-17 2016-04-13 上海中彦信息科技有限公司 基于隐式反馈协同过滤算法的推荐系统及方法
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9064017B2 (en) * 2011-06-01 2015-06-23 D2L Corporation Systems and methods for providing information incorporating reinforcement-based learning and feedback
CN102957950A (zh) * 2012-07-23 2013-03-06 华东师范大学 一种用于视频推荐的用户隐式评分方法
US9483158B2 (en) * 2013-04-08 2016-11-01 Art.Com, Inc. Discovering and presenting décor harmonized with a décor style
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN104156472B (zh) * 2014-08-25 2018-05-08 北京四达时代软件技术股份有限公司 一种视频推荐方法及系统
CN104331411B (zh) * 2014-09-19 2018-01-09 华为技术有限公司 推荐项目的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101339562A (zh) * 2008-08-15 2009-01-07 北京航空航天大学 引入兴趣模型反馈更新机制的门户个性化推荐服务系统
CN105488216A (zh) * 2015-12-17 2016-04-13 上海中彦信息科技有限公司 基于隐式反馈协同过滤算法的推荐系统及方法
CN106940801A (zh) * 2016-01-04 2017-07-11 中国科学院声学研究所 一种用于广域网络的深度强化学习推荐系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于SVD的协同过滤推荐算法研究;陈清浩;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160131;I138-960 *

Also Published As

Publication number Publication date
WO2019029046A1 (zh) 2019-02-14
CN107515909A (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
CN107515909B (zh) 一种视频推荐方法及系统
RU2725659C2 (ru) Способ и система для оценивания данных о взаимодействиях пользователь-элемент
US11574207B2 (en) Proximal factorization machine interface engine
CN110807150B (zh) 信息处理方法及装置、电子设备和计算机可读存储介质
CN103329151B (zh) 基于话题聚类的推荐
US9600581B2 (en) Personalized recommendations on dynamic content
CN110851699A (zh) 基于深度强化学习的信息流推荐方法、装置、设备及介质
CN110162698B (zh) 一种用户画像数据处理方法、装置及存储介质
CN112632403B (zh) 推荐模型的训练方法、推荐方法、装置、设备和介质
CN108431833A (zh) 端到端深度协作过滤
CN110413888B (zh) 一种书籍推荐方法及装置
CN109508419A (zh) 一种基于知识学习的推荐方法和系统
US20150356658A1 (en) Systems And Methods For Serving Product Recommendations
CN111652378B (zh) 学习来选择类别特征的词汇
US20220171760A1 (en) Data processing method and apparatus, computer-readable storage medium, and electronic device
CN110781377B (zh) 一种文章推荐方法、装置
CN111242310A (zh) 特征有效性评估方法、装置、电子设备及存储介质
CN114202061A (zh) 基于生成对抗网络模型及深度强化学习的物品推荐方法、电子设备及介质
CN110175895A (zh) 一种物品推荐方法及装置
CN110297885B (zh) 实时事件摘要的生成方法、装置、设备及存储介质
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN113688306A (zh) 一种基于强化学习的推荐策略生成方法及装置
CN112269943A (zh) 一种信息推荐系统及方法
CN113836388A (zh) 信息推荐方法、装置、服务器及存储介质
CN110851708A (zh) 负样本的抽取方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 518000 floor 14, Hangsheng science and technology building, No. 8, South 6th Road, high tech Zone, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen yunnet bate Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Qianhai Shenzhen Hong Kong cooperation zone before Bay Road No. 1 building 201 room A (located in Shenzhen Qianhai business secretary Co. Ltd.)

Applicant before: SHENZHEN NAIFEI TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant