CN115203471B

CN115203471B - 一种基于注意力机制的多模融合视频推荐方法

Info

Publication number: CN115203471B
Application number: CN202211119231.5A
Authority: CN
Inventors: 李燕燕; 倪美芹; 陈刚; 张松
Original assignee: Shandong Baoshengxin Information Technology Co ltd
Current assignee: Shandong Baoshengxin Information Technology Co ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2022-11-18
Anticipated expiration: 2042-09-15
Also published as: CN115203471A

Abstract

一种基于注意力机制的多模融合视频推荐方法，包括如下步骤：S1.从用户历史数据记录数据库中获取多模数据；S2.从待推荐视频数据库中筛选候选视频；S3.构造基于注意力机制的多模融合视频推荐模型；S4.获取视频推荐列表。相较于现有技术，本发明方法首先通过计算数据库中视频描述数据与用户偏好的历史视频描述数据的相似度，筛选获得候选视频，再将候选视频以及实时采集的用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型，获得视频推荐列表，在保证实时性的同时提高了视频推荐的准确性和个性化。

Description

一种基于注意力机制的多模融合视频推荐方法

技术领域

本发明属于特定人群视频推荐技术领域，尤其涉及一种基于注意力机制的多模融合视频推荐方法。

背景技术

随着互联网产业的飞速发展和移动终端的普及，各种信息资源的产生及传播规模呈指数级增长，但随之而来的信息过载问题却日益严重，能够实现感兴趣信息的高效分发的推荐系统是解决信息过载最有效的方式之一，大数据推荐系统已经逐渐成为信息领域的研究热点。

目前，视频的个性化推荐的方法包括基于协同过滤的推荐方法、基于内容的推荐方法、以及混合推荐方法等，传统的协同过滤推荐算法解决冷启动问题的性能不好，基于内容的推荐方法充分考虑了用户对视频的偏好历史行为，如播放、收藏、关注、推荐等，却未深入挖掘视频内容，在结合多模态数据进行推荐时，多模态数据在推荐模型中所起的作用等同，导致现有视频推荐技术存在推荐准确性和个性化不足的问题。

特别是针对特定人群，例如心理不健康人群，受矫正人群等也需要进行教育矫正，而视频矫正也是教育矫正的重要组成部分，如何推送、推荐合适的矫正内容，是目前急需解决的问题。

发明内容

针对以上问题，本发明提出一种基于注意力机制的多模融合视频推荐方法，解决现有视频推荐技术中存在的推荐准确性和个性化不足的问题。

为了达到上述目的，本发明采取了以下具体技术方案：

S1. 从用户历史数据记录数据库中获取多模数据，所述多模数据包括：用户偏好的历史视频数据、用户画像数据、环境数据，所述用户偏好的历史视频数据为：用户观看、收藏及分享过的视频数据，所述用户画像数据表征用户基本信息，包括：用户的年龄、性别、身份，所述环境数据为：用户的物理位置，所述视频数据包括视频及其描述数据；

S2. 从待推荐视频数据库中筛选候选视频，提取用户偏好的历史视频的描述数据的描述数据的第一特征向量，同时提取待推荐视频数据库中视频的第二特征向量，计算第一特征向量与第二特征向量的相似度，将相似度值大于预设阈值的待推荐视频数据库中的视频作为候选视频；

S3.构造基于注意力机制的多模融合视频推荐模型，利用多模数据对所述推荐模型进行训练，所述推荐模型包括基于注意力与门控循环单元的视频特征提取子网络、用户画像特征提取子网络、环境特征提取单元、多层感知器及激活函数层，通过所述基于注意力与门控循环单元的视频特征提取子网络提取视频内容特征，所述用户画像特征提取子网络采用多任务卷积神经网络识别用户基本信息，根据识别的用户基本信息及其对应的置信度得到用户画像特征，环境特征提取单元将用户的物理位置信息归一化处理后形成环境特征，将提取的视频内容特征、用户画像特征及环境特征进行拼接，输入多层感知器，最后利用激活函数获得推荐概率；

S4. 获取视频推荐列表，实时采集用户图像及物理位置信息，将候选视频数据、用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型，依据输出的所述推荐概率从大到小对候选视频进行排序，输出前M个视频形成视频推荐列表。

进一步地，步骤S2还包括：所述视频的描述数据包括视频ID、视频标题、关键词tag，将视频的描述数据输入到全连接多层感知器，输出所述视频的描述数据的特征向量，计算所述第一特征向量与所述第二特征向量的余弦相似度，用以表征视频之间的相似程度。

进一步地，步骤S3中基于注意力与门控循环单元的视频特征提取子网络，首先提取视频关键帧，调整帧数量为固定值，形成视频帧序列，将该视频帧序列输入卷积神经网络提取空间特征，获得空间特征序列，将所述空间特征序列输入门控循环单元提取时序特征，获得时序特征序列，最后计算所述时序特征序列结果的平均值作为该视频的特征向量，提取候选视频和所有历史视频的特征向量，将所有历史视频的特征向量输入注意力层获得加权平均向量，将候选视频特征向量与该加权平均向量拼接后作为所述基于注意力与门控循环单元的视频特征提取子网络的输出，所述注意力层的注意力权值为历史视频与候选视频的相似度值。

进一步地，步骤S3中所述多任务卷积神经网络为一个级联检测网络，第一级检测网络检测包含人脸和肢体的人体目标，分别裁剪出人脸和躯干图像，分别输入第二级的年龄性别分类网络和身份分类网络，包含人脸和肢体的人体图像输入到训练后的多任务卷积神经网络，由年龄性别分类网络提取人脸特征输出年龄、性别的分类结果及其对应的置信度，由身份分类网络提取服装特征输出身份的分类结果及其对应的置信度，将输出的用户年龄、性别和身份的分类结果归一化后与对应的置信度相乘，然后拼接形成用户画像特征。

进一步地，物理位置信息可由移动终端的GPS或移动终端连接的无线网络获取。

相较于现有技术，本发明方法首先通过计算数据库中视频描述数据与用户偏好的历史视频描述数据的相似度，筛选获得候选视频，再将候选视频以及实时采集的用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型，获得视频推荐列表，在保证实时性的同时提高了视频推荐的准确性和个性化，构建的推荐模型采用基于注意力与门控循环单元的视频特征提取子网络提取视频内容特征，注意力机制的引入使得模型考虑了用户对于历史视频内容的不同偏好程度，门控循环单元能够有效提取视频内容的时序特征，实现了视频内容的准确识别，同时，用户画像特征提取子网络利用识别的用户信息的置信度对用户信息进行加权，使得置信度越高的用户信息在推荐时所起的作用越大，进一步提升了视频推荐的个性化程度。

附图说明

图1为基于注意力机制的多模融合视频推荐方法流程示意图；

图2 为基于注意力与门控循环单元的视频特征提取子网络结构示意图。

具体实施方式

本发明提供一种基于注意力机制的多模融合视频推荐方法。为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明一实施例公开了一种基于注意力机制的多模融合视频推荐方法，包括以下步骤:

具体地，用户历史数据记录数据库中记录了相互关联的及用户偏好的历史视频数据、用户画像数据、环境数据，其中，视频数据包括视频及其描述数据，用户的物理位置为不同的监区或监舍；

S2. 从待推荐视频数据库中筛选候选视频，提取用户偏好的历史视频的描述数据的第一特征向量，同时提取待推荐视频数据库中视频的第二特征向量，计算第一特征向量与第二特征向量的相似度，将相似度值大于预设阈值的待推荐视频数据库中的视频作为候选视频；

具体地，可以采用现有的word2vec、fastNLP等词嵌入模型分别将待推荐视频数据库中视频的描述数据及用户偏好的历史视频的描述数据转化为实向量，构成所述第一特征向量和第二特征向量，然后利用现有技术计算两个向量的相似度，如基于欧式距离的相似度计算方法、基于夹角余弦的相似度计算方法、基于相关系数的相似度计算方法等，本发明不做具体限定；

具体的，基于注意力与门控循环单元的视频特征提取子网络如图2所示，首先提取视频关键帧，视频中的关键帧体现视频中各个镜头的显著特征，通过视频关键帧的提取能够提高视频内容识别的效率和精度，关键帧的提取可采用现有的帧间差法、光流分析法、聚类方法以及深度学习法等，本发明不做具体限定，然后根据待采样的视频帧数量增加或删除关键帧之间的视频帧，获得视频帧序列X＝{x₁ ,x₂，… ,x_n}，n表示采样的视频帧数量，将该视频帧序列输入卷积神经网络提取空间特征，获得空间特征序列V＝{v₁ ,v₂ ,… ,v_n}， v_i表示第i帧视频图像的特征向量（i=1,2,…,n），将所述空间特征序列输入门控循环单元提取时序特征，获得时序特征序列H＝{h₁ ,h₂ ,… ,h_n}，h_i表示第i帧视频图像的时序特征向量（i=1,2,…,n），每个时序特征向量的维度为待识别动作类型的数量m，其中，门控循环单元（Gated Recurrent Unit, GRU）根据当前的输入Vt和前一个节点传递的隐藏状态信息 ht-1，更新重置门r和更新门z状态，基于重置门计算隐藏状态信息

，最后基于更新门对隐藏状态进行更新，具体公式如下：

(1)

(2)

(3)

(4)

其中，

为sigmoid激活函数，

为Hadamard Product，即矩阵元素相乘，tanh为双曲正切激活函数，

、

、

、

、

、

均为带学习的权矩阵参数，最后计算所述时序特征序列结果的平均值作为该视频的特征向量

，在训练阶段，可以将视频的特征向量经过softmax层全连接操作预测视频类别，将输出视频类别与类别标签的误差通过反向传播不断迭代调整权重，获得模型参数

、

、

、

、

、

，提取候选视频的特征向量

和所有历史视频的特征向量

，将所有历史视频的特征向量输入注意力层获得加权平均向量

，注意力权值

为历史视频j与候选视频的相似度值，然后利用现有技术计算两个向量的相似度，如基于欧式距离的相似度计算方法、基于夹角余弦的相似度计算方法、基于相关系数的相似度计算方法等，本发明不做具体限定，将候选视频特征向量

与该加权平均向量

拼接后作为所述基于注意力与门控循环单元的视频特征提取子网络的输出。

用户画像特征提取子网络采用多任务卷积神经网络识别用户基本信息，所述多任务卷积神经网络可以采用现有的MTCNN网络，或者CNN、ResNet、SSD等网络构成的级联网络等，用户基本信息中用户年龄为0-100之间的整数值，可分为8个年龄段1:0-2，2:4-6，3:8-12，4:15-20，5:25-32，6:38-43，7:48-53，8:60-100，年龄标签为1-8，用户性别标签为男0，女1，根据需求设置典型的用户身份，如学生、医生、警务人员、囚犯等，相应的身份标签设置为0，1，2…N，N为自然数，若无法识别身份，则标签为-1，此时置信度设定为较低的值，如0，用户画像特征提取子网络利用识别的用户信息的置信度对用户信息进行加权，使得置信度越高的用户信息在推荐时所起的作用越大，进一步提升了视频推荐的个性化程度。

环境特征提取单元可采用One-Hot编码方式将用户的物理位置信息归一化处理后得到环境特征。

在本发明的另一实施例中，所述视频的描述数据包括视频ID、视频标题、关键词 tag，将视频的描述数据输入到全连接多层感知器，输出所述视频的描述数据的特征向量，提取用户偏好的历史视频的描述数据的特征向量作为第一特征向量

，同时提取待推荐视频数据库中视频的特征向量作为第二特征向量

，计算所述第一特征向量与所述第二特征向量的余弦相似度，用以表征视频之间的相似程度，计算公式为：

（5）

在本发明的另一实施例中，所述多任务卷积神经网络为一个级联检测网络，第一级检测网络检测包含人脸和肢体的人体目标，将人体目标框高度方向15%的矩形区域作为人脸所在区域裁剪出来，输入第二级的年龄性别分类网络，目标框的剩余矩形区域为躯干所在区域，裁剪后输入第二级的身份分类网络，将包含人脸和肢体的人体图像输入到训练后的多任务卷积神经网络，由年龄性别分类网络提取人脸特征输出年龄、性别的分类结果及其对应的置信度，由身份分类网络提取服装特征输出身份的分类结果及其对应的置信度，将输出的用户年龄、性别和身份的分类结果归一化后与对应的置信度相乘，然后拼接形成用户画像特征，第一级检测网络和第二级年龄性别分类网络均可以采用卷积神经网络，第二级的身份分类网络可以采用细粒度分类网络，分类结果的归一化可采用Max-Min方法。

在本发明的另一实施例中，所述物理位置信息可由移动终端的GPS定位获取，或者根据移动终端连接的无线网络定位获取。

以上内容包含了若干具体实现细节，应理解为时结合具体的优选实施方式对本发明所作的进一步详细说明，而不能认定为对本发明保护范围的限制。对于本发明所述技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于注意力机制的多模融合视频推荐方法，包括如下步骤：

S2.从待推荐视频数据库中筛选候选视频，提取用户偏好的历史视频的描述数据的描述数据的第一特征向量，同时提取待推荐视频数据库中视频的第二特征向量，计算第一特征向量与第二特征向量的相似度，将相似度值大于预设阈值的待推荐视频数据库中的视频作为候选视频；

S4.获取视频推荐列表，实时采集用户图像及物理位置信息，将候选视频数据、用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型，依据输出的所述推荐概率从大到小对候选视频进行排序，输出前M个视频形成视频推荐列表。

2.根据权利要求1所述的方法，步骤S2还包括：所述视频的描述数据包括视频ID、视频标题、关键词tag，将视频的描述数据输入到全连接多层感知器，输出所述视频的描述数据的特征向量，计算所述第一特征向量与所述第二特征向量的余弦相似度，用以表征视频之间的相似程度。

3.根据权利要求1所述的方法，所述基于注意力与门控循环单元的视频特征提取子网络，首先提取视频关键帧，调整帧数量为固定值，形成视频帧序列，将该视频帧序列输入卷积神经网络提取空间特征，获得空间特征序列，将所述空间特征序列输入门控循环单元提取时序特征，获得时序特征序列，最后计算所述时序特征序列结果的平均值作为该视频的特征向量，提取候选视频和所有历史视频的特征向量，将所有历史视频的特征向量输入注意力层获得加权平均向量，将候选视频特征向量与该加权平均向量拼接后作为所述基于注意力与门控循环单元的视频特征提取子网络的输出，所述注意力层的注意力权值为历史视频与候选视频的相似度值。

4.根据权利要求1所述的方法，所述多任务卷积神经网络为一个级联检测网络，第一级检测网络检测包含人脸和肢体的人体目标，分别裁剪出人脸和躯干图像，分别输入第二级的年龄性别分类网络和身份分类网络，包含人脸和肢体的人体图像输入到训练后的多任务卷积神经网络，由年龄性别分类网络提取人脸特征输出年龄、性别的分类结果及其对应的置信度，由身份分类网络提取服装特征输出身份的分类结果及其对应的置信度，将输出的用户年龄、性别和身份的分类结果归一化后与对应的置信度相乘，然后拼接形成用户画像特征。

5.根据权利要求1所述的方法，所述物理位置信息可由移动终端的GPS或移动终端连接的无线网络获取。