CN115203471B - 一种基于注意力机制的多模融合视频推荐方法 - Google Patents

一种基于注意力机制的多模融合视频推荐方法 Download PDF

Info

Publication number
CN115203471B
CN115203471B CN202211119231.5A CN202211119231A CN115203471B CN 115203471 B CN115203471 B CN 115203471B CN 202211119231 A CN202211119231 A CN 202211119231A CN 115203471 B CN115203471 B CN 115203471B
Authority
CN
China
Prior art keywords
video
user
data
network
videos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211119231.5A
Other languages
English (en)
Other versions
CN115203471A (zh
Inventor
李燕燕
倪美芹
陈刚
张松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Baoshengxin Information Technology Co ltd
Original Assignee
Shandong Baoshengxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Baoshengxin Information Technology Co ltd filed Critical Shandong Baoshengxin Information Technology Co ltd
Priority to CN202211119231.5A priority Critical patent/CN115203471B/zh
Publication of CN115203471A publication Critical patent/CN115203471A/zh
Application granted granted Critical
Publication of CN115203471B publication Critical patent/CN115203471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

一种基于注意力机制的多模融合视频推荐方法,包括如下步骤:S1.从用户历史数据记录数据库中获取多模数据;S2.从待推荐视频数据库中筛选候选视频;S3.构造基于注意力机制的多模融合视频推荐模型;S4.获取视频推荐列表。相较于现有技术,本发明方法首先通过计算数据库中视频描述数据与用户偏好的历史视频描述数据的相似度,筛选获得候选视频,再将候选视频以及实时采集的用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型,获得视频推荐列表,在保证实时性的同时提高了视频推荐的准确性和个性化。

Description

一种基于注意力机制的多模融合视频推荐方法
技术领域
本发明属于特定人群视频推荐技术领域,尤其涉及一种基于注意力机制的多模融合视频推荐方法。
背景技术
随着互联网产业的飞速发展和移动终端的普及,各种信息资源的产生及传播规模呈指数级增长,但随之而来的信息过载问题却日益严重,能够实现感兴趣信息的高效分发的推荐系统是解决信息过载最有效的方式之一,大数据推荐系统已经逐渐成为信息领域的研究热点。
目前,视频的个性化推荐的方法包括基于协同过滤的推荐方法、基于内容的推荐方法、以及混合推荐方法等,传统的协同过滤推荐算法解决冷启动问题的性能不好,基于内容的推荐方法充分考虑了用户对视频的偏好历史行为,如播放、收藏、关注、推荐等,却未深入挖掘视频内容,在结合多模态数据进行推荐时,多模态数据在推荐模型中所起的作用等同,导致现有视频推荐技术存在推荐准确性和个性化不足的问题。
特别是针对特定人群,例如心理不健康人群,受矫正人群等也需要进行教育矫正,而视频矫正也是教育矫正的重要组成部分,如何推送、推荐合适的矫正内容,是目前急需解决的问题。
发明内容
针对以上问题,本发明提出一种基于注意力机制的多模融合视频推荐方法,解决现有视频推荐技术中存在的推荐准确性和个性化不足的问题。
为了达到上述目的,本发明采取了以下具体技术方案:
S1. 从用户历史数据记录数据库中获取多模数据,所述多模数据包括:用户偏好的历史视频数据、用户画像数据、环境数据,所述用户偏好的历史视频数据为:用户观看、收藏及分享过的视频数据,所述用户画像数据表征用户基本信息,包括:用户的年龄、性别、身份,所述环境数据为:用户的物理位置,所述视频数据包括视频及其描述数据;
S2. 从待推荐视频数据库中筛选候选视频,提取用户偏好的历史视频的描述数据的描述数据的第一特征向量,同时提取待推荐视频数据库中视频的第二特征向量,计算第一特征向量与第二特征向量的相似度,将相似度值大于预设阈值的待推荐视频数据库中的视频作为候选视频;
S3.构造基于注意力机制的多模融合视频推荐模型,利用多模数据对所述推荐模型进行训练,所述推荐模型包括基于注意力与门控循环单元的视频特征提取子网络、用户画像特征提取子网络、环境特征提取单元、多层感知器及激活函数层,通过所述基于注意力与门控循环单元的视频特征提取子网络提取视频内容特征,所述用户画像特征提取子网络采用多任务卷积神经网络识别用户基本信息,根据识别的用户基本信息及其对应的置信度得到用户画像特征,环境特征提取单元将用户的物理位置信息归一化处理后形成环境特征,将提取的视频内容特征、用户画像特征及环境特征进行拼接,输入多层感知器,最后利用激活函数获得推荐概率;
S4. 获取视频推荐列表,实时采集用户图像及物理位置信息,将候选视频数据、用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型,依据输出的所述推荐概率从大到小对候选视频进行排序,输出前M个视频形成视频推荐列表。
进一步地,步骤S2还包括:所述视频的描述数据包括视频ID、视频标题、关键词tag,将视频的描述数据输入到全连接多层感知器,输出所述视频的描述数据的特征向量,计算所述第一特征向量与所述第二特征向量的余弦相似度,用以表征视频之间的相似程度。
进一步地,步骤S3中基于注意力与门控循环单元的视频特征提取子网络,首先提取视频关键帧,调整帧数量为固定值,形成视频帧序列,将该视频帧序列输入卷积神经网络提取空间特征,获得空间特征序列,将所述空间特征序列输入门控循环单元提取时序特征,获得时序特征序列,最后计算所述时序特征序列结果的平均值作为该视频的特征向量,提取候选视频和所有历史视频的特征向量,将所有历史视频的特征向量输入注意力层获得加权平均向量,将候选视频特征向量与该加权平均向量拼接后作为所述基于注意力与门控循环单元的视频特征提取子网络的输出,所述注意力层的注意力权值为历史视频与候选视频的相似度值。
进一步地,步骤S3中所述多任务卷积神经网络为一个级联检测网络,第一级检测网络检测包含人脸和肢体的人体目标,分别裁剪出人脸和躯干图像,分别输入第二级的年龄性别分类网络和身份分类网络,包含人脸和肢体的人体图像输入到训练后的多任务卷积神经网络,由年龄性别分类网络提取人脸特征输出年龄、性别的分类结果及其对应的置信度,由身份分类网络提取服装特征输出身份的分类结果及其对应的置信度,将输出的用户年龄、性别和身份的分类结果归一化后与对应的置信度相乘,然后拼接形成用户画像特征。
进一步地,物理位置信息可由移动终端的GPS或移动终端连接的无线网络获取。
相较于现有技术,本发明方法首先通过计算数据库中视频描述数据与用户偏好的历史视频描述数据的相似度,筛选获得候选视频,再将候选视频以及实时采集的用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型,获得视频推荐列表,在保证实时性的同时提高了视频推荐的准确性和个性化,构建的推荐模型采用基于注意力与门控循环单元的视频特征提取子网络提取视频内容特征,注意力机制的引入使得模型考虑了用户对于历史视频内容的不同偏好程度,门控循环单元能够有效提取视频内容的时序特征,实现了视频内容的准确识别,同时,用户画像特征提取子网络利用识别的用户信息的置信度对用户信息进行加权,使得置信度越高的用户信息在推荐时所起的作用越大,进一步提升了视频推荐的个性化程度。
附图说明
图1为基于注意力机制的多模融合视频推荐方法流程示意图;
图2 为基于注意力与门控循环单元的视频特征提取子网络结构示意图。
具体实施方式
本发明提供一种基于注意力机制的多模融合视频推荐方法。为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明一实施例公开了一种基于注意力机制的多模融合视频推荐方法,包括以下步骤:
S1. 从用户历史数据记录数据库中获取多模数据,所述多模数据包括:用户偏好的历史视频数据、用户画像数据、环境数据,所述用户偏好的历史视频数据为:用户观看、收藏及分享过的视频数据,所述用户画像数据表征用户基本信息,包括:用户的年龄、性别、身份,所述环境数据为:用户的物理位置,所述视频数据包括视频及其描述数据;
具体地,用户历史数据记录数据库中记录了相互关联的及用户偏好的历史视频数据、用户画像数据、环境数据,其中,视频数据包括视频及其描述数据,用户的物理位置为不同的监区或监舍;
S2. 从待推荐视频数据库中筛选候选视频,提取用户偏好的历史视频的描述数据的第一特征向量,同时提取待推荐视频数据库中视频的第二特征向量,计算第一特征向量与第二特征向量的相似度,将相似度值大于预设阈值的待推荐视频数据库中的视频作为候选视频;
具体地,可以采用现有的word2vec、fastNLP等词嵌入模型分别将待推荐视频数据库中视频的描述数据及用户偏好的历史视频的描述数据转化为实向量,构成所述第一特征向量和第二特征向量,然后利用现有技术计算两个向量的相似度,如基于欧式距离的相似度计算方法、基于夹角余弦的相似度计算方法、基于相关系数的相似度计算方法等,本发明不做具体限定;
S3.构造基于注意力机制的多模融合视频推荐模型,利用多模数据对所述推荐模型进行训练,所述推荐模型包括基于注意力与门控循环单元的视频特征提取子网络、用户画像特征提取子网络、环境特征提取单元、多层感知器及激活函数层,通过所述基于注意力与门控循环单元的视频特征提取子网络提取视频内容特征,所述用户画像特征提取子网络采用多任务卷积神经网络识别用户基本信息,根据识别的用户基本信息及其对应的置信度得到用户画像特征,环境特征提取单元将用户的物理位置信息归一化处理后形成环境特征,将提取的视频内容特征、用户画像特征及环境特征进行拼接,输入多层感知器,最后利用激活函数获得推荐概率;
具体的,基于注意力与门控循环单元的视频特征提取子网络如图2所示,首先提取 视频关键帧,视频中的关键帧体现视频中各个镜头的显著特征,通过视频关键帧的提取能 够提高视频内容识别的效率和精度,关键帧的提取可采用现有的帧间差法、光流分析法、聚 类方法以及深度学习法等,本发明不做具体限定,然后根据待采样的视频帧数量增加或删 除关键帧之间的视频帧,获得视频帧序列X={x1 ,x2,… ,xn},n表示采样的视频帧数量,将 该视频帧序列输入卷积神经网络提取空间特征,获得空间特征序列V={v1 ,v2 ,… ,vn}, vi表示第i帧视频图像的特征向量(i=1,2,…,n),将所述空间特征序列输入门控循环单元 提取时序特征,获得时序特征序列H={h1 ,h2 ,… ,hn},hi表示第i帧视频图像的时序特征 向量(i=1,2,…,n),每个时序特征向量的维度为待识别动作类型的数量m,其中,门控循环 单元(Gated Recurrent Unit, GRU)根据当前的输入Vt和前一个节点传递的隐藏状态信息 ht-1,更新重置门r和更新门z状态,基于重置门计算隐藏状态信息
Figure DEST_PATH_IMAGE001
,最后基于更新门对隐 藏状态进行更新,具体公式如下:
Figure 867230DEST_PATH_IMAGE002
(1)
Figure DEST_PATH_IMAGE003
(2)
Figure 518791DEST_PATH_IMAGE004
(3)
Figure DEST_PATH_IMAGE005
(4)
其中,
Figure 377157DEST_PATH_IMAGE006
为sigmoid激活函数,
Figure DEST_PATH_IMAGE007
为Hadamard Product,即矩阵元素相乘,tanh为 双曲正切激活函数,
Figure 975628DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 993263DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 151144DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
均为带学习的权矩阵参数,最后计算所述时序特 征序列结果的平均值作为该视频的特征向量
Figure 887019DEST_PATH_IMAGE014
,在训练阶段,可以将视频的特 征向量经过softmax层全连接操作预测视频类别,将输出视频类别与类别标签的误差通过 反向传播不断迭代调整权重,获得模型参数
Figure 492444DEST_PATH_IMAGE008
Figure 958060DEST_PATH_IMAGE009
Figure 623528DEST_PATH_IMAGE010
Figure 784382DEST_PATH_IMAGE011
Figure 318131DEST_PATH_IMAGE012
Figure 513620DEST_PATH_IMAGE013
,提取候选视频的特征向 量
Figure DEST_PATH_IMAGE015
和所有历史视频的特征向量
Figure 146727DEST_PATH_IMAGE016
,将所有历史视频的特征向量输入注意力 层获得加权平均向量
Figure DEST_PATH_IMAGE017
,注意力权值
Figure 464051DEST_PATH_IMAGE018
为历史视频j与候选视频的相似度 值,然后利用现有技术计算两个向量的相似度,如基于欧式距离的相似度计算方法、基于夹 角余弦的相似度计算方法、基于相关系数的相似度计算方法等,本发明不做具体限定,将候 选视频特征向量
Figure 535913DEST_PATH_IMAGE015
与该加权平均向量
Figure DEST_PATH_IMAGE019
拼接后作为所述基于注意力与门控循环单元的视 频特征提取子网络的输出。
用户画像特征提取子网络采用多任务卷积神经网络识别用户基本信息,所述多任务卷积神经网络可以采用现有的MTCNN网络,或者CNN、ResNet、SSD等网络构成的级联网络等,用户基本信息中用户年龄为0-100之间的整数值,可分为8个年龄段1:0-2,2:4-6,3:8-12,4:15-20,5:25-32,6:38-43,7:48-53,8:60-100,年龄标签为1-8,用户性别标签为男0,女1,根据需求设置典型的用户身份,如学生、医生、警务人员、囚犯等,相应的身份标签设置为0,1,2…N,N为自然数,若无法识别身份,则标签为-1,此时置信度设定为较低的值,如0,用户画像特征提取子网络利用识别的用户信息的置信度对用户信息进行加权,使得置信度越高的用户信息在推荐时所起的作用越大,进一步提升了视频推荐的个性化程度。
环境特征提取单元可采用One-Hot编码方式将用户的物理位置信息归一化处理后得到环境特征。
S4. 获取视频推荐列表,实时采集用户图像及物理位置信息,将候选视频数据、用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型,依据输出的所述推荐概率从大到小对候选视频进行排序,输出前M个视频形成视频推荐列表。
在本发明的另一实施例中,所述视频的描述数据包括视频ID、视频标题、关键词 tag,将视频的描述数据输入到全连接多层感知器,输出所述视频的描述数据的特征向量, 提取用户偏好的历史视频的描述数据的特征向量作为第一特征向量
Figure 258012DEST_PATH_IMAGE020
,同时提取待推荐视 频数据库中视频的特征向量作为第二特征向量
Figure DEST_PATH_IMAGE021
,计算所述第一特征向量与所述第二特征 向量的余弦相似度,用以表征视频之间的相似程度,计算公式为:
Figure 62020DEST_PATH_IMAGE022
(5)
在本发明的另一实施例中,所述多任务卷积神经网络为一个级联检测网络,第一级检测网络检测包含人脸和肢体的人体目标,将人体目标框高度方向15%的矩形区域作为人脸所在区域裁剪出来,输入第二级的年龄性别分类网络,目标框的剩余矩形区域为躯干所在区域,裁剪后输入第二级的身份分类网络,将包含人脸和肢体的人体图像输入到训练后的多任务卷积神经网络,由年龄性别分类网络提取人脸特征输出年龄、性别的分类结果及其对应的置信度,由身份分类网络提取服装特征输出身份的分类结果及其对应的置信度,将输出的用户年龄、性别和身份的分类结果归一化后与对应的置信度相乘,然后拼接形成用户画像特征,第一级检测网络和第二级年龄性别分类网络均可以采用卷积神经网络,第二级的身份分类网络可以采用细粒度分类网络,分类结果的归一化可采用Max-Min方法。
在本发明的另一实施例中,所述物理位置信息可由移动终端的GPS定位获取,或者根据移动终端连接的无线网络定位获取。
以上内容包含了若干具体实现细节,应理解为时结合具体的优选实施方式对本发明所作的进一步详细说明,而不能认定为对本发明保护范围的限制。对于本发明所述技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (5)

1.一种基于注意力机制的多模融合视频推荐方法,包括如下步骤:
S1. 从用户历史数据记录数据库中获取多模数据,所述多模数据包括:用户偏好的历史视频数据、用户画像数据、环境数据,所述用户偏好的历史视频数据为:用户观看、收藏及分享过的视频数据,所述用户画像数据表征用户基本信息,包括:用户的年龄、性别、身份,所述环境数据为:用户的物理位置,所述视频数据包括视频及其描述数据;
S2.从待推荐视频数据库中筛选候选视频,提取用户偏好的历史视频的描述数据的描述数据的第一特征向量,同时提取待推荐视频数据库中视频的第二特征向量,计算第一特征向量与第二特征向量的相似度,将相似度值大于预设阈值的待推荐视频数据库中的视频作为候选视频;
S3.构造基于注意力机制的多模融合视频推荐模型,利用多模数据对所述推荐模型进行训练,所述推荐模型包括基于注意力与门控循环单元的视频特征提取子网络、用户画像特征提取子网络、环境特征提取单元、多层感知器及激活函数层,通过所述基于注意力与门控循环单元的视频特征提取子网络提取视频内容特征,所述用户画像特征提取子网络采用多任务卷积神经网络识别用户基本信息,根据识别的用户基本信息及其对应的置信度得到用户画像特征,环境特征提取单元将用户的物理位置信息归一化处理后形成环境特征,将提取的视频内容特征、用户画像特征及环境特征进行拼接,输入多层感知器,最后利用激活函数获得推荐概率;
S4.获取视频推荐列表,实时采集用户图像及物理位置信息,将候选视频数据、用户图像及物理位置信息输入到训练后的基于注意力机制的多模融合视频推荐模型,依据输出的所述推荐概率从大到小对候选视频进行排序,输出前M个视频形成视频推荐列表。
2.根据权利要求1所述的方法,步骤S2还包括:所述视频的描述数据包括视频ID、视频标题、关键词tag,将视频的描述数据输入到全连接多层感知器,输出所述视频的描述数据的特征向量,计算所述第一特征向量与所述第二特征向量的余弦相似度,用以表征视频之间的相似程度。
3.根据权利要求1所述的方法,所述基于注意力与门控循环单元的视频特征提取子网络,首先提取视频关键帧,调整帧数量为固定值,形成视频帧序列,将该视频帧序列输入卷积神经网络提取空间特征,获得空间特征序列,将所述空间特征序列输入门控循环单元提取时序特征,获得时序特征序列,最后计算所述时序特征序列结果的平均值作为该视频的特征向量,提取候选视频和所有历史视频的特征向量,将所有历史视频的特征向量输入注意力层获得加权平均向量,将候选视频特征向量与该加权平均向量拼接后作为所述基于注意力与门控循环单元的视频特征提取子网络的输出,所述注意力层的注意力权值为历史视频与候选视频的相似度值。
4.根据权利要求1所述的方法,所述多任务卷积神经网络为一个级联检测网络,第一级检测网络检测包含人脸和肢体的人体目标,分别裁剪出人脸和躯干图像,分别输入第二级的年龄性别分类网络和身份分类网络,包含人脸和肢体的人体图像输入到训练后的多任务卷积神经网络,由年龄性别分类网络提取人脸特征输出年龄、性别的分类结果及其对应的置信度,由身份分类网络提取服装特征输出身份的分类结果及其对应的置信度,将输出的用户年龄、性别和身份的分类结果归一化后与对应的置信度相乘,然后拼接形成用户画像特征。
5.根据权利要求1所述的方法,所述物理位置信息可由移动终端的GPS或移动终端连接的无线网络获取。
CN202211119231.5A 2022-09-15 2022-09-15 一种基于注意力机制的多模融合视频推荐方法 Active CN115203471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211119231.5A CN115203471B (zh) 2022-09-15 2022-09-15 一种基于注意力机制的多模融合视频推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211119231.5A CN115203471B (zh) 2022-09-15 2022-09-15 一种基于注意力机制的多模融合视频推荐方法

Publications (2)

Publication Number Publication Date
CN115203471A CN115203471A (zh) 2022-10-18
CN115203471B true CN115203471B (zh) 2022-11-18

Family

ID=83572125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211119231.5A Active CN115203471B (zh) 2022-09-15 2022-09-15 一种基于注意力机制的多模融合视频推荐方法

Country Status (1)

Country Link
CN (1) CN115203471B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117156184B (zh) * 2023-08-11 2024-05-17 魔人传媒(杭州)有限公司 智能投放视频播放方法、装置、设备及存储介质
CN117874351B (zh) * 2024-01-23 2024-06-18 中国电子科技集团公司第十五研究所 一种基于情境感知的战场态势信息个性化推荐方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2161668A1 (en) * 2008-09-08 2010-03-10 Apple Inc. System and method for playlist generation based on similarity data
CN113159449A (zh) * 2021-05-13 2021-07-23 北京理工大学 一种基于结构化数据的预测方法
CN114154060A (zh) * 2021-11-23 2022-03-08 浙江大学 融合信息年龄和动态图神经网络的内容推荐系统及方法
CN114491258A (zh) * 2022-01-25 2022-05-13 中国人民解放军海军工程大学 基于多模态内容的关键词推荐系统及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170188102A1 (en) * 2015-12-23 2017-06-29 Le Holdings (Beijing) Co., Ltd. Method and electronic device for video content recommendation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2161668A1 (en) * 2008-09-08 2010-03-10 Apple Inc. System and method for playlist generation based on similarity data
CN113159449A (zh) * 2021-05-13 2021-07-23 北京理工大学 一种基于结构化数据的预测方法
CN114154060A (zh) * 2021-11-23 2022-03-08 浙江大学 融合信息年龄和动态图神经网络的内容推荐系统及方法
CN114491258A (zh) * 2022-01-25 2022-05-13 中国人民解放军海军工程大学 基于多模态内容的关键词推荐系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Multimodal Sentiment Intensity Analysis in Videos: Facial Gestures and Verbal Messages;Amir Zadeh等;《 IEEE Intelligent Systems》;20161231;全文 *
基于多模态数据源的个性化推荐算法研究;吕军梅;《万方数据》;20200507;全文 *
基于注意力机制的特征融合-双向门控循环单元多模态情感分析;赖雪梅等;《万方数据》;20210602;全文 *

Also Published As

Publication number Publication date
CN115203471A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
Luo et al. Multiple object tracking: A literature review
Khan et al. Deep unified model for face recognition based on convolution neural network and edge computing
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN109447140B (zh) 一种基于神经网络深度学习的图像识别并推荐认知的方法
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
CN115203471B (zh) 一种基于注意力机制的多模融合视频推荐方法
CN109543714B (zh) 数据特征的获取方法、装置、电子设备及存储介质
WO2020177673A1 (zh) 一种视频序列选择的方法、计算机设备及存储介质
Nasfi et al. A novel approach for modeling positive vectors with inverted dirichlet-based hidden markov models
WO2020108396A1 (zh) 视频分类的方法以及服务器
CN110555428B (zh) 行人重识别方法、装置、服务器以及存储介质
CN113723166A (zh) 内容识别方法、装置、计算机设备和存储介质
Gao et al. Self-attention driven adversarial similarity learning network
CN111814817A (zh) 视频分类方法、装置、存储介质及电子设备
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN113033507B (zh) 场景识别方法、装置、计算机设备和存储介质
Werner et al. DeepMoVIPS: Visual indoor positioning using transfer learning
CN113515669A (zh) 基于人工智能的数据处理方法和相关设备
CN112560823B (zh) 基于分布学习的自适应方差和权重的人脸年龄估计方法
Wu et al. Self-learning and explainable deep learning network toward the security of artificial intelligence of things
Ding et al. A systematic survey of data mining and big data in human behavior analysis: Current datasets and models
Arif et al. Video representation by dense trajectories motion map applied to human activity recognition
Zhong A convolutional neural network based online teaching method using edge-cloud computing platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant