CN107911719A

CN107911719A - 视频动态推荐装置

Info

Publication number: CN107911719A
Application number: CN201711034839.7A
Authority: CN
Inventors: 徐常胜; 张天柱; 高君宇
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-10-30
Filing date: 2017-10-30
Publication date: 2018-04-13
Anticipated expiration: 2037-10-30
Also published as: CN107911719B

Abstract

本发明涉及社交媒体的视频挖掘和分析技术领域，具体提供了一种视频动态推荐装置，旨在解决如何准确地刻画用户的动态兴趣和视频推荐。为此目的，本发明中的视频动态推荐装置包括视频推荐模型，其可以依据一个或多个历史时刻的视频信息，获取当前时刻的推荐视频。具体地，视频推荐模型包括语义学习单元、用户行为分析单元、循环神经网络、用户相关性挖掘单元和模型训练单元。上述单元不仅可以充分挖掘视频语义信息、用户兴趣信息和不同用户兴趣的相关程度，还可以依据挖掘到的信息进行视频推荐，即实现了对用户观看视频偏好的动态刻画，提高了视频推荐的准确性，特别是提高了对互联网网络在线视频动态推荐的准确性。

Description

视频动态推荐装置

技术领域

本发明涉及社交媒体的视频挖掘和分析技术领域，具体涉及一种视频动态推荐装置。

背景技术

互联网的普及带动了信息化数字化的全面发展，网络视频也得到了快速发展。目前，为了保证互联网用户能够从大量的网络视频中快速获取其感兴趣的视频信息，可以采用视频推荐算法刻画用户兴趣，进而实现视频推荐。但是，在网络视频快速更新的情况下用户的兴趣会不断地动态漂移，而当前的视频推荐算法不能捕捉用户随时间变化的动态兴趣，因此无法准确地的刻画用户兴趣，进而降低了视频推荐的准确性。

发明内容

为了解决现有技术中的上述问题，即为了解决如何准确地刻画用户的动态兴趣和视频推荐，本发明提供了一种视频动态推荐装置。

具体地，本发明中的视频动态推荐装置包括视频推荐模型，其配置为依据一个或多个历史时刻的视频信息，获取当前时刻的推荐视频；所述视频推荐模型包括语义学习单元、用户行为分析单元、循环神经网络、用户相关性挖掘单元和模型训练单元；

所述语义学习单元，配置为对预设训练集内的视频样本进行语义学习，得到视觉语义特征v_e和文本语义特征w_e；

所述用户行为分析单元，配置为对所述视频样本进行用户行为分析，得到用户的历史感兴趣主题特征u和历史观看视频特征u；

所述循环神经网络的输出信号为推荐视频的概率分布，在初始时刻的输入信号为T_uu，在后续时刻的输入信号为其中，所述T_u为能够将历史感兴趣主题特征u映射到所述视觉语义特征v_e或文本语义特征w_e对应维度的映射矩阵，所述T_x为能够将历史观看视频特征u映射到所述视觉语义特征v_e或文本语义特征w_e对应维度的映射矩阵；所述v_{e_out}和w_{e_out}分别为依据循环神经网络得到的前一时刻最终推荐视频对应的视觉语义特征和文本语义特征；

所述用户相关性挖掘单元，配置为对所述视频样本进行用户相关性挖掘，得到满足相关性判断条件的用户集合，并且依据所述用户集合内各用户对应的视频样本优化所述循环神经网络；

所述模型训练单元，配置为对所述语义学习单元、用户行为分析单元、循环神经网络和用户相关性挖掘单元进行统一训练。

进一步地，本发明提供的一个优选技术方案为：

所述模型训练单元包括如下式所示的统一训练损失函数L：

其中，所述L_rec(u)为所述循环神经网络的损失函数，所述U为所述预设训练集对应的用户集合，所述u为用户集合U内用户的序号；所述L_sem为所述语义学习单元的损失函数；所述L_int为所述用户行为分析单元的损失函数；所述L_rel为所述用户相关性挖掘单元的损失函数；所述θ为视频推荐模型中待学习权重的集合，所述||θ||₂为集合θ的2范数；所述λ₁、λ₂、λ₃和λ₄均为预设的参数。

进一步地，本发明提供的一个优选技术方案为：

所述语义学习单元包括视觉特征提取子单元、文本特征提取子单元和特征变换子单元；

所述视觉特征提取子单元，配置为提取所述视频样本的视觉特征v；

所述文本特征提取子单元，配置为提取所述视频样本的文本特征w；

所述特征变换子单元，配置为按照下式所示的方法将所述视觉特征v和文本特征w映射到同一维度，以得到所述视觉语义特征v_e和文本语义特征w_e：

其中，所述T_v和T_w分别为能够将所述视觉特征v和文本特征w映射到同一维度的映射矩阵，且所述D_v和D_w分别为视觉特征v和文本特征w的维度，所述D_e为视觉语义特征v_e和文本语义特征w_e的维度，所述R为实数。

进一步地，本发明提供的一个优选技术方案为：

所述语义学习单元的损失函数如下式所示：

其中，所述v_e和v'_e分别为预设训练集内任意两个视频样本的视觉语义特征，所述w_e和w'_e分别为所述的任意两个视频样本的文本语义特征，所述V_e和W_e分别为视觉语义特征集合和文本语义特征集合；所述τ₁为第一阈值。

进一步地，本发明提供的一个优选技术方案为：

所述用户行为分析单元包括历史感兴趣主题特征分析子单元和历史观看视频特征分析子单元；

所述历史感兴趣主题特征分析子单元，配置为按照下式所示的方法获取所述预设训练集对应用户的历史感兴趣主题特征u：

其中，所述N_u为用户的历史行为个数，所述m_i为用户第i个历史行为对应的概率分布，所述λ为衰减参数，所述t_i为所述的第i个历史行为对应的历史时刻，所述t为当前时刻；

所述历史观看视频特征分析子单元，配置为按照下式所示的方法获取所述预设训练集对应用户的历史观看视频特征u：

其中，所述N_e为用户的历史视频观看个数，所述为用户第j个历史观看视频的视觉语义特征，所述为用户第j个历史观看视频的文本语义特征，所述λ'为衰减参数，所述t_j为所述的第j个历史观看视频对应的历史时刻。

进一步地，本发明提供的一个优选技术方案为：

所述用户行为分析单元的损失函数如下式所示：

其中，所述D_u和D_x分别为历史感兴趣主题特征u和历史观看视频特征u的维度，所述D_e为视觉语义特征v_e和文本语义特征w_e的维度，所述R为实数。

进一步地，本发明提供的一个优选技术方案为：

所述循环神经网络的损失函数如下式所示：

其中，所述N_r和a分别为推荐视频的总数和序号；所述N_v和b分别为预设训练集中视频样本的总数和序号；所述T_p为推荐视频的概率分布矩阵；所述和分别为概率分布矩阵T_p中的第a行元素和第b行元素；所述为基于用户u，循环神经网络的隐藏层在当前时刻t的输出特征。

进一步地，本发明提供的一个优选技术方案为：

所述用户相关性挖掘单元的损失函数如下式所示：

其中，所述h^α为基于用户α，循环神经网络的隐藏层在最后一时刻的输出特征；所述h^β为基于用户β，循环神经网络的隐藏层在最后一时刻的输出特征；所述h^γ为基于用户γ，循环神经网络的隐藏层在最后一时刻的输出特征；所述τ₂为第二阈值；

所述(α,β,γ)为满足相关性判断条件的用户三元组，所述H为多个所述用户三元组构成的集合。

进一步地，本发明提供的一个优选技术方案为：

所述相关性判断条件如下式所示：

Rel(α,β)＞Rel(α,γ)

其中，所述Rel(α,β)为用户α和用户β的相关程度，所述Rel(α,γ)为用户α和用户γ的相关程度，并且

所述L_α、

L_β和L_γ分别为预设训练集内用户α、用户β和用户γ观看视频的集合。

与最接近的现有技术相比，上述技术方案至少具有以下有益效果：

1、本发明中语义学习单元可以将视频样本中的视觉特征和文本特征映射到一个共同的语义空间，使得用户行为分析单元和循环神经网络能够有效利用具有不同模态的视觉和文本信息。

2、本发明中用户行为分析单元可以对用户观看视频的偏好进行量化分析，同时将历史感兴趣主题特征u和历史观看视频特征u映射到前述视觉语义特征v_e和文本语义特征w_e对应的语义空间，能够减小用户行为信息与视频语义信息之间的差距，使得循环神经网络可以有效利用上述用户行为信息与视频语义信息，提高输出结果的准确性。

3、本发明中循环神经网络可以依据一个历史时刻的用户行为信息及其对应视频的视频语义信息，得到当前时刻的一个推荐视频。同时，循环神经网络还可以依据多个历史时刻的用户行为信息及其对应视频的视频语义信息，得到当前时刻的多个推荐视频，即实现了对用户观看视频偏好的动态刻画，提高了视频推荐的准确性，特别是提高了对互联网网络在线视频动态推荐的准确性。

4、本发明中模型训练单元可以对语义分析单元、用户行为分析单元、循环神经网络和用户相关性挖掘单元进行统一训练，使得语义分析单元、用户行为分析单元、循环神经网络和用户相关性挖掘单元在满足各自约束条件的情况下，还可以兼顾其他单元的约束限制，使得视频推荐模型能够高效地捕捉用户高层次的兴趣变化。

附图说明

图1是本发明实施例中视频推荐模型的结构示意图。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本实施例中视频动态推荐装置可以包括视频推荐模型，该视频推荐模型可以依据历史时刻的视频信息，获取当前时刻的推荐视频。具体地，该视频推荐模型可以依据多个历史时刻的视频信息，获取当前时刻多个推荐视频。例如，视频推荐模型依据5个历史时刻的视频信息，得到5个推荐视频。

参阅附图1，图1示例性示出了本实施例中视频推荐模型的结构。如图1所示，本实施例中视频推荐模型可以包括语义学习单元11、用户行为分析单元12、循环神经网络13、用户相关性挖掘单元14和模型训练单元15。其中，语义学习单元11可以配置为对预设训练集内的视频样本进行语义学习，得到视觉语义特征v_e和文本语义特征w_e。用户行为分析单元12可以配置为对预设训练集内的视频样本进行用户行为分析，得到用户的历史感兴趣主题特征u和历史观看视频特征u。循环神经网络13可以依据视觉语义特征v_e、文本语义特征w_e、历史感兴趣主题特征u和历史观看视频特征u，得到推荐视频的概率分布。用户相关性挖掘单元14可以配置为对预设训练集内的视频样本进行用户相关性挖掘，得到满足相关性判断条件的用户集合，并且依据用户集合内各用户对应的视频样本优化循环神经网络13。模型训练单元15可以配置为对语义学习单元11、用户行为分析单元12、循环神经网络13和用户相关性挖掘单元14进行统一训练。

具体地，本实施例中预设训练集内的视频样本可以为任意包含视觉信息和文本信息，如图像和文字，的视频。在本实施例的一个优选实施方案中，视频样本可以为在线视频网站中，如Youtube，中爬取得到的兼具视觉信息和文本信息的视频。

进一步地，本实施例中语义学习单元11可以包括视觉特征提取子单元、文本特征提取子单元、特征变换子单元和损失函数L_sem。

本实施例中视觉特征提取子单元可以配置为提取视频样本的视觉特征v。例如，视觉特征提取子单元可以采用卷积神经网络领域中C3D网络的fc6层提取视频样本，得到4096维视觉特征v。其中，C3D网络可以采用《Tran D,Bourdev L,Fergus R,et al.Learningspatiotemporal features with 3d convolutional networks[C]//Proceedings of theIEEE International Conference on Computer Vision.2015:4489-4497》所公开的方法。

文本特征提取子单元可以配置为提取视频样本的文本特征w。例如，文本特征提取子单元可以采用卷积神经网络领域中CNN句子模型的最后一层提取视频样本，得到300维文本特征w。

特征变换子单元可以将配置为按照下式(1)所示的方法将视觉特征提取子单元提取得到的视觉特征v，以及文本特征提取子单元提取得到的文本特征w映射到同一维度，从而得到具有相同维度的视觉语义特征v_e和文本语义特征w_e。

公式(1)中各参数含义为：

T_v和T_w分别为能够将视觉特征v和文本特征w映射到同一纬度的映射矩阵，且D_v和D_w分别为视觉特征v和文本特征w的维度，D_e为视觉语义特征v_e和文本语义特征w_e的维度，R为实数。如前所述，采用C3D网络的fc6层可以提取到4096维视觉特征v，采用CNN句子模型可以提取到300维文本特征w，因此本实施例中D_v＝4096，D_w＝300。在本实施例的一个优选实施方案中，可以将视觉语义特征v_e和文本语义特征w_e的维度D_e设置为300，并采用均值为0且方差为1的高斯分布对映射矩阵T_v和T_w进行初始化。

损失函数L_sem可以对视觉语义特征v_e和文本语义特征w_e进行优化，得到最优的映射矩阵T_v和T_w。本实施例中损失函数L_sem如下式(2)所示：

公式(2)中各参数含义为：

v_e和v′_e分别为预设训练集内任意两个视频样本的视觉语义特征，w_e和w′_e分别为所述的任意两个视频样本的文本语义特征，V_e和W_e分别为视觉语义特征集合和文本语义特征集合。τ₁为第一阈值，如τ₁＝0.3。

本实施例中通过语义学习单元11可以将视频样本中的视觉特征和文本特征映射到一个共同的语义空间，使得用户行为分析单元12和循环神经网络13能够有效利用具有不同模态的视觉和文本信息。本领域技术人员可以理解，上述语义学习单元11还可以用于将视频样本中其他不同模态的信息映射到一个共同的语义空间，同时在提取不同模态的信息时，需要根据待提取信息的类型选择可用的方法。在本实施例的一个优选实施方案中，可以将视频样本中的听觉特征和文本特征映射到一个共同的语义空间，也可以将视频样本中的听觉特征和视觉特征映射到一个共同的语义空间。

进一步地，本实施例中用户行为分析单元12可以包括历史感兴趣主题特征分析子单元、历史观看视频特征分析子单元和损失函数L_int。

本实施例中历史感兴趣主题特征分析子单元可以配置为按照下式(3)所示的方法获取预设训练集对应用户的历史感兴趣主题特征u：

公式(3)中各参数含义为：

N_u为用户的历史行为个数，m_i为用户第i个历史行为对应的概率分布，λ为衰减参数，t_i为所述的第i个历史行为对应的历史时刻，t为当前时刻。本实施例中历史行为指的是用户对视频的历史操作行为，如对视频评论、转发或评论等操作行为。在本实施例的一个优选实施方案中，可以采用基于神经网络的主题模型获取用户第i个历史行为对应的概率分布。例如，可以采用《David M Blei and Michael I Jordan.2003.Modeling annotateddata.In SIGIR.127–134.》所公开的方法获取用户历史行为对应的概率分布。

历史观看视频特征分析子单元可以配置为按照下式(4)所示的方法获取预设训练集对应用户的历史观看视频特征u：

公式(4)中各参数含义为：

N_e为用户的历史视频观看个数，为用户第j个历史观看视频的视觉语义特征，为用户第j个历史观看视频的文本语义特征，λ'为衰减参数，t_j为所述的第j个历史观看视频对应的历史时刻。

损失函数L_int可以对历史感兴趣主题特征u和历史观看视频特征u进行优化，得到最优的映射矩阵T_u和T_x。本实施例中用户行为分析单元的损失函数L_int如下式(5)所示：

公式(5)中各参数含义为：

U为历史感兴趣主题特征u的集合，U为历史观看视频特征u的集合。T_u为能够将历史感兴趣主题特征u映射到视觉语义特征v_e或文本语义特征w_e对应维度的映射矩阵，T_x为能够将历史观看视频特征u映射到视觉语义特征v_e或文本语义特征w_e对应维度的映射矩阵，其中，D_u和D_x分别为历史感兴趣主题特征u和历史观看视频特征u的维度，D_e为视觉语义特征v_e和文本语义特征w_e的维度，R为实数。

本实施例中用户行为分析单元12可以对用户观看视频的偏好进行量化分析，同时将历史感兴趣主题特征u和历史观看视频特征u映射到前述视觉语义特征v_e和文本语义特征w_e对应的语义空间，能够减小用户行为信息与视频语义信息之间的差距，使得循环神经网络13可以有效利用上述用户行为信息与视频语义信息，提高输出结果的准确性。

进一步地，本实施例中循环神经网络13的输出信号为推荐视频的概率分布，循环神经网络13在初始时刻的输入信号为T_uu，在后续时刻的输入信号为其中，v_{e_out}和w_{e_out}分别为依据循环神经网络得到的前一时刻最终推荐视频对应的视觉语义特征和文本语义特征。在本实施例的一个优选实施方案中，循环神经网络可以采用GRU深度学习模型。

本实施例中循环神经网络包括如下式(6)所示的损失函数：

公式(6)中各参数含义为：

N_r和a分别为推荐视频的总数和序号。N_v和b分别为预设训练集中视频样本的总数和序号。T_p为推荐视频的概率分布矩阵；和分别为概率分布矩阵T_p中的第a行元素和第b行元素；为基于用户u，循环神经网络的隐藏层在当前时刻t的输出特征。在本实施例的一个优选实施方案中，N_r＝5，且采用均值为0且方差为1的高斯分布对概率分布矩阵T_p进行初始化。

本实施例中在通过循环神经网络13得到待推荐视频的概率分布后，可以将概率最大的待推荐视频作为最终的推荐视频。进一步第，本实施例中循环神经网络13可以依据一个历史时刻的用户行为信息及其对应视频的视频语义信息，得到当前时刻的一个推荐视频。同时，本实施例中循环神经网络13还可以依据多个历史时刻的用户行为信息及其对应视频的视频语义信息，得到当前时刻的多个推荐视频，即实现了对用户观看视频偏好的动态刻画，提高了视频推荐的准确性，特别是提高了对互联网网络在线视频动态推荐的准确性。

进一步地，本实施例中用户相关性挖掘单元14包括如下式(7)所示的损失函数L_rel：

公式(7)中各参数含义为：

h^α为基于用户α，循环神经网络的隐藏层在最后一时刻的输出特征。h^β为基于用户β，循环神经网络的隐藏层在最后一时刻的输出特征。h^γ为基于用户γ，循环神经网络的隐藏层在最后一时刻的输出特征。τ₂为第二阈值。(α,β,γ)为满足相关性判断条件的用户三元组，H为多个用户三元组构成的集合。

本实施例中相关性判断条件如下式(8)所示：

Rel(α,β)＞Rel(α,γ) (8)

公式(8)中各参数含义为：

Rel(α,β)为用户α和用户β的相关程度，Rel(α,γ)为用户α和用户γ的相关程度，且用户β可以表示为用户α对应的正样本用户，用户γ可以表示为用户α对应的负样本用户。

本实施例中可以采用如下式(9)所示的方法计算用户α和用户β的相关程度Rel(α,β)，以衡量衡量用户α和用户β的相关性：

本实施例中可以采用如下式(10)所示的方法计算用户α和用户γ的相关程度Rel(α,γ)，以衡量衡量用户α和用户γ的相关性：

公式(9)和公式(10)中各参数含义为：L_α、L_β和L_γ分别为预设训练集内用户α、用户β和用户γ观看视频的集合。L_α∩L_β表示集合L_α与集合L_β的交集，L_α∪L_β表示集合L_α与集合L_β的并集，L_α∩L_γ表示集合L_α与集合L_γ的交集，L_α∪L_γ表示集合L_α与集合L_γ的并集。

本实施例中用户相关性挖掘单元14能够进一步优化循环神经网络13，提高循环神经网络13输出结果的准确性。

进一步地，本实施例中模型训练单元15包括如下式(11)所示的统一训练损失函数L：

公式(11)中各参数含义为：

L_rec(u)为循环神经网络13的损失函数，U为预设训练集对应的用户集合，u为用户集合U内用户的序号。L_sem为语义学习单元11的损失函数。L_int为用户行为分析单元12的损失函数。L_rel为用户相关性挖掘单元14的损失函数。θ为视频推荐模型中待学习权重的集合，||θ||₂为集合θ的2范数，λ₁、λ₂、λ₃和λ₄均为预设的参数。其中，视频推荐模型中待学习权重可以包括映射矩阵T_v、T_w、T_u、T_x，以及循环神经网络13中的所有待学习权重。在本实施例的一个优选实施方案中，λ₁＝0.2、λ₂＝0.4、λ₃＝0.2和λ₄＝0.0001。

本实施例中通过模型训练单元15可以对语义分析单元11、用户行为分析单元12、循环神经网络13和用户相关性挖掘单元14进行统一训练，使得语义分析单元11、用户行为分析单元12、循环神经网络13和用户相关性挖掘单元14在满足各自约束条件的情况下，还可以兼顾其他单元的约束限制，使得视频推荐模型能够高效地捕捉用户高层次的兴趣变化。

本领域技术人员可以理解，上述视频推荐模型还包括一些其他公知结构，例如处理器、控制器、存储器等，其中，存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等，处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等，为了不必要地模糊本公开的实施例，这些公知的结构未在图1中示出。

应该理解，图1中的各个模单元的数量仅仅是示意性的。根据实际需要，各模块可以具有任意的数量。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在本发明的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的服务器、客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，PC程序和PC程序产品)。这样的实现本发明的程序可以存储在PC可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的PC来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种视频动态推荐装置，其特征在于，所述装置包括视频推荐模型，其配置为依据一个或多个历史时刻的视频信息，获取当前时刻的推荐视频；所述视频推荐模型包括语义学习单元、用户行为分析单元、循环神经网络、用户相关性挖掘单元和模型训练单元；

2.根据权利要求1所述的装置，其特征在于，所述模型训练单元包括如下式所示的统一训练损失函数L：

<mrow> <mi>L</mi> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>U</mi> </mrow> </msub> <msub> <mi>L</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>1</mn> </msub> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>2</mn> </msub> <msub> <mi>L</mi> <mi>int</mi> </msub> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>3</mn> </msub> <msub> <mi>L</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>l</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&lambda;</mi> <mn>4</mn> </msub> <mo>|</mo> <mo>|</mo> <mi>&theta;</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>

3.根据权利要求1所述的装置，其特征在于，

4.根据权利要求1-3任一项所述的装置，其特征在于，

所述语义学习单元的损失函数如下式所示：

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>L</mi> <mrow> <mi>s</mi> <mi>e</mi> <mi>m</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>e</mi> </msub> <mo>,</mo> <msub> <mi>W</mi> <mi>e</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>v</mi> <mi>e</mi> </msub> <mo>&Element;</mo> <msub> <mi>V</mi> <mi>e</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>e</mi> </msub> <mo>,</mo> <msubsup> <mi>w</mi> <mi>e</mi> <mo>&prime;</mo> </msubsup> <mo>&Element;</mo> <msub> <mi>W</mi> <mi>e</mi> </msub> </mrow> </munder> <mi>max</mi> <mrow> <mo>(</mo> <mrow> <mn>0</mn> <mo>,</mo> <msub> <mi>&tau;</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>e</mi> </msub> <msub> <mi>w</mi> <mi>e</mi> </msub> <mo>+</mo> <msub> <mi>v</mi> <mi>e</mi> </msub> <msubsup> <mi>w</mi> <mi>e</mi> <mo>&prime;</mo> </msubsup> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>+</mo> <munder> <mi>&Sigma;</mi> <mrow> <msub> <mi>v</mi> <mi>e</mi> </msub> <mo>,</mo> <msubsup> <mi>v</mi> <mi>e</mi> <mo>&prime;</mo> </msubsup> <mo>&Element;</mo> <msub> <mi>V</mi> <mi>e</mi> </msub> <mo>,</mo> <msub> <mi>w</mi> <mi>e</mi> </msub> <mo>&Element;</mo> <msub> <mi>W</mi> <mi>e</mi> </msub> </mrow> </munder> <mi>max</mi> <mrow> <mo>(</mo> <mrow> <mn>0</mn> <mo>,</mo> <msub> <mi>&tau;</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>v</mi> <mi>e</mi> </msub> <msub> <mi>w</mi> <mi>e</mi> </msub> <mo>+</mo> <msubsup> <mi>v</mi> <mi>e</mi> <mo>&prime;</mo> </msubsup> <msub> <mi>w</mi> <mi>e</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>

5.根据权利要求1所述的装置，其特征在于，

<mrow> <mi>u</mi> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>u</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>u</mi> </msub> </munderover> <msub> <mi>m</mi> <mi>i</mi> </msub> <mo>&CenterDot;</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <mi>&lambda;</mi> <mo>|</mo> <mi>t</mi> <mo>-</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>|</mo> </mrow> </msup> </mrow>

<mrow> <mi>u</mi> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>N</mi> <mi>e</mi> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>e</mi> </msub> </munderover> <mrow> <mo>(</mo> <msubsup> <mi>v</mi> <mi>e</mi> <mi>j</mi> </msubsup> <mo>&CirclePlus;</mo> <msubsup> <mi>w</mi> <mi>e</mi> <mi>j</mi> </msubsup> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&lambda;</mi> <mo>&prime;</mo> </msup> <mo>|</mo> <mi>t</mi> <mo>-</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> </mrow> </msup> </mrow>

6.根据权利要求1、2或5所述的装置，其特征在于，

所述用户行为分析单元的损失函数如下式所示：

<mrow> <msub> <mi>L</mi> <mi>int</mi> </msub> <mrow> <mo>(</mo> <mi>U</mi> <mo>,</mo> <mi>U</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>u</mi> <mo>&Element;</mo> <mi>U</mi> <mo>,</mo> <mi>u</mi> <mo>&Element;</mo> <mi>U</mi> </mrow> </munder> <mo>|</mo> <mo>|</mo> <msub> <mi>T</mi> <mi>u</mi> </msub> <mi>u</mi> <mo>-</mo> <msub> <mi>T</mi> <mi>x</mi> </msub> <mi>u</mi> <mo>|</mo> <msubsup> <mo>|</mo> <mn>2</mn> <mn>2</mn> </msubsup> </mrow>

7.根据权利要求1或2所述的装置，其特征在于，

所述循环神经网络的损失函数如下式所示：

<mrow> <msub> <mi>L</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>c</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>u</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>a</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>r</mi> </msub> </munderover> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>exp</mi> <mo>{</mo> <msubsup> <mi>T</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>t</mi> <mi>u</mi> </msubsup> <mo>}</mo> </mrow> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>b</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>N</mi> <mi>v</mi> </msub> </msubsup> <mi>exp</mi> <mo>{</mo> <msubsup> <mi>T</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>b</mi> <mo>)</mo> </mrow> </msubsup> <msubsup> <mi>h</mi> <mi>t</mi> <mi>u</mi> </msubsup> <mo>}</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

8.根据权利要求1或2所述的装置，其特征在于，

所述用户相关性挖掘单元的损失函数如下式所示：

<mrow> <msub> <mi>L</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>l</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>H</mi> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mrow> <mo>(</mo> <mi>&alpha;</mi> <mo>,</mo> <mi>&beta;</mi> <mo>,</mo> <mi>&gamma;</mi> <mo>)</mo> <mo>&Element;</mo> <mi>H</mi> </mrow> </munder> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>,</mo> <msub> <mi>&tau;</mi> <mn>2</mn> </msub> <mo>-</mo> <msup> <mi>h</mi> <mi>&alpha;</mi> </msup> <msup> <mi>h</mi> <mi>&beta;</mi> </msup> <mo>+</mo> <msup> <mi>h</mi> <mi>&alpha;</mi> </msup> <msup> <mi>h</mi> <mi>&gamma;</mi> </msup> <mo>)</mo> </mrow> </mrow>

9.根据权利要求8所述的装置，其特征在于，

所述相关性判断条件如下式所示：

Rel(α,β)＞Rel(α,γ)

所述L_α、L_β和L_γ分别为预设训练集内用户α、用户β和用户γ观看视频的集合。