CN111274440A - 一种基于视觉和音频内容相关度挖掘的视频推荐方法 - Google Patents
一种基于视觉和音频内容相关度挖掘的视频推荐方法 Download PDFInfo
- Publication number
- CN111274440A CN111274440A CN202010060686.9A CN202010060686A CN111274440A CN 111274440 A CN111274440 A CN 111274440A CN 202010060686 A CN202010060686 A CN 202010060686A CN 111274440 A CN111274440 A CN 111274440A
- Authority
- CN
- China
- Prior art keywords
- video
- feature
- visual
- videos
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000005065 mining Methods 0.000 title claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013507 mapping Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims 1
- 230000003993 interaction Effects 0.000 abstract description 4
- 230000007246 mechanism Effects 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 12
- 238000001914 filtration Methods 0.000 description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000004576 sand Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/735—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于视觉和音频内容相关度挖掘的视频推荐方法,该方法通过分析视频的视觉和音频内容挖掘视频之间的相关度。考虑现有的视频特征表示不是专门针对推荐任务设定的,本发明提出级联多特征融合映射网络对现有视频特征进行映射,并通过负样本增强三元损失函数训练模型,最终得到更适合视频推荐任务的二级特征表示,从而更好的衡量视频之间的相关度。为了充分挖掘视频的内容特征,本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合,该模块通过类似注意力机制衡量不同特征之间的交互作用,通过权重来加强特征中的重要信息,剔除冗余信息。本发明方法可以有效地解决视频的冷启动问题,并能够有效提高视频推荐性能。
Description
技术领域
本发明属于视频推荐技术领域,特别涉及一种利用视频的视觉和音频内容计算视频间相关度以向用户进行推荐视频的方法。
背景技术
随着多媒体与信息技术的快速发展,视频已经逐渐成为人们分享日常生活、获取信息、和娱乐的重要媒介。以视频分享平台YouTube和快手为例,据统计,2018年YouTube平台上每分钟上传的视频总时长约为300小时;抖音平台每天产生的新视频数量就达到了1200万。面对海量的视频数据,用户如何快速从中获取其感兴趣的视频是一个巨大的挑战。视频推荐是缓解这一挑战的重要方法之一。
现有的视频推荐方法主要可以分成两大类,基于协同过滤的视频推荐和基于内容的视频推荐。基于协同过滤的视频推荐方法的主要思想是利用用户群的过去行为(视频评分,视频浏览记录等)预测目标用户可能感兴趣的视频。比如,基于用户行为寻找出与目标用户相似的群体,将这个群体感兴趣的视频推荐给目标用户。基于协同过滤的视频推荐的缺点之一是无法处理视频的冷启动问题。当一个新视频上传到系统时,该视频没有任何用户评价和浏览等信息,因此协同过滤推荐方法无法将该新视频推荐给用户。现有的视频分享平台每天都产生海量的视频,这使得视频的冷启动问题变得更为严重。而基于内容的视频推荐方法则建立在视频内容信息的基础上,它并不依赖于用户对于视频的评分、浏览等用户行为。现有基于内容的视频推荐方法主要利用视频的元数据(例如视频的题目,标签,类型等)找到与目标用户观看过的相似视频,并将其推荐给目标用户。例如,两部电影的类型相同,导演为同一个,主要演员也差不多,如果用户看过其中一部电影,也可将另一部电影推荐给用户。但是以这种元数据为驱动的基于内容的推荐也并不完善,因为视频的元数据并不总是可用,同时元数据的质量也不能保证。比如,在视频分享平台上很多视频是由用户上传的,可能不会有完整的元数据;另外,视频的标题也很容易更改,可能是为了吸引用户而与视频本身的内容并没有关系。这些都会影响基于内容的视频推荐方法的性能。
发明内容
针对现有技术的不足,本发明提出了一种基于视觉和音频内容相关度挖掘的视频推荐方法,该推荐方法通过分析视频的视觉和音频内容挖掘视频之间的相关度,并基于相关度为目标用户推荐其可能感兴趣的视频。为了充分挖掘视频的内容特征,本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合。此外,当视频被创建之后,视频的视觉和音频内容就可被使用,因此本发明提出的推荐方法可以有效地解决视频的冷启动问题。相比于视频的元数据,视频的视觉和音频内容一直可用也更加的可靠,因此能有效提高视频推荐的性能。
本发明的目的是通过以下技术方案实现的:一种基于视觉和音频内容相关度挖掘的视频推荐方法,该方法包括以下步骤:
(1)利用深度卷积神经网络(CNN)对视频的视觉信息和音频信息进行特征提取,分别得到它们的初始特征表示。
(2)对于步骤(1)中得到的初始特征,利用平均池化的方法获得视频级的视觉和音频特征。
(3)将步骤(2)中得到的视频级的视觉特征和音频特征输入到我们提出的级联多特征融合映射网络中,从而学习到更适合视频推荐任务的二级特征表示。
(4)利用我们提出的负样本增强三元损失函数(negative-enhanced tripletloss)来学习视频之间的相关度。
(5)在训练集上以端到端的方式训练模型。
(6)通过步骤(5)得到训练完成的模型后,我们根据新特征表示计算任何两个视频之间的相关度,并根据用户的视频浏览记录为其推荐视频。
进一步地,所述步骤(1)中分别提取视频和音频特征的方法包括如下步骤:
(1-1)视频可以看作由连续的帧级图像组成,因此我们从视频中采样帧级的视频图像,然后利用预训练的深度卷积神经网络对输入的视频帧进行视觉表观特征提取,获得视频的初始视觉特征。
(1-2)音频同样能够反映用户对视频的感兴趣程度,因此我们额外利用音频特征以实现更好的推荐效果。我们将视频划分为不重叠的视频片段,并获取每一个视频片段中的音频信息,再将其输入到预训练的音频神经网络,获得视频的初始音频特征。
进一步地,所述步骤(2)中使用平均池化处理步骤(1)中的初始特征,从而得到视频级的特征步骤如下:
(2-1)对于步骤(1-1)中得到的初始视觉特征,我们对其进行平均池化操作,得到视频级的视觉特征。该步骤可以降低特征的维度,提高计算效率。
(2-2)对于步骤(1-2)中得到的初始音频特征,与步骤(2-1)类似,我们同样地对其平均池化操作得到视频级的音频特征。
进一步地,所述步骤(3)中使用级联多特征融合映射网络的步骤如下:
(3-1)考虑到不同特征之间存在一定的信息冗余和互补性,我们提出特征交叉门控融合模块,该模块通过类似注意力机制的门控单元筛选掉一部分不重要的特征,而保留重要的特征。我们首先将步骤(2)中得到的视频级的音频和视觉特征输入到特征交叉门控融合模块进行特征融合得到第一级特征表示。
(3-2)将步骤(2)中得到的视频级的音频特征和视觉特征进行拼接,然后将其和步骤(3-1)中得到的一级特征表示一起再次输入到另一个特征交叉门控融合模块。该步骤将对特征进行进一步的提炼,从而得到视频的第二级特征表示。
进一步地,所述步骤(4)中的通过负样本增强三元损失函数学习视频之间的相关度的步骤如下:
(4-1)我们所提出的负样本增强三元损失函数是在三元排序损失(tripletranking loss)基础上进行的改进。由于三元排序损失仅关注样本之间的相对距离,而忽略样本之间的绝对距离(即相关视频对之间的接近程度和不相关视频之间的远离程度),这会在一定程度上影响其训练良好模型的有效性。我们在其基础上加入了对负样本对的强制性约束,我们添加额外的约束来控制视频对之间的绝对距离来改善三元排序损失,从而学习到更能反应视频相关度的特征表示。
(4-2)不同特征表示空间下特征所表示的含义及侧重点可能有所不同,因此该负样本增强三元损失函数会同时对步骤(3-1)和步骤(3-2)中的两个特征表示空间进行约束,并且根据不同特征表示空间下所含有的信息的重要程度给予权重,最终对这两个特征表示空间下的损失加权求和来作为训练整个模型的最终损失。
进一步地,所述步骤(5)中的具体训练细节如下:
(5-1)构建用于训练的视频三元组数据:在训练集上,对于每一个三元组,我们选定一个视频为锚样本,如果有多人同时观看过某视频与锚样本视频,则将该视频视为正样本,同时随机地从不是正样本的其他视频中挑选一个视频作为负样本。
(5-2)采用基于adam的批量数据随机梯度下降(Stochastic Gradient Descent)优化算法训练模型,在所构建的训练集上最小化负样本增强三元损失函数。
考虑到如果候选视频与目标用户观看的某些视频相关,则该用户很有可能对候选视频感兴趣。因此,我们根据候选视频与用户浏览历史中的视频的相关度来决定是否把候选视频推荐给目标用户,相关度高的候选视频被推荐给用户,反之则不被推荐。所述步骤(6)为针对两种不同情景设计的视频相关度计算方式及视频推荐过程:
(6-1)在第一种场景,假设指定候选视频与其他候选视频的相关关系是未知的,因此我们只通过种子视频和指定候选视频内容来预测它们的相关度。其中,种子视频是指目标用户浏览过的某个视频,候选视频是所有可被推荐的视频。
(6-2)在第二种场景,假设指定候选视频与其他候选视频的相关关系是已知的。因此,除了视频的内容信息外,我们额外利用指定候选视频与其他候选视频的相关关系来更好的衡量视频之间的相关度。
(6-3)已知用户的浏览历史,我们根据不同场景选择步骤(6-1)或步骤(6-2)中的方法计算用户浏览历史中的每个视频和候选视频的相关度,并将所有相关度的均值作为用户对候选视频感兴趣程度。
(6-4)通过步骤(6-3)我们可以计算出用户对所有候选视频的感兴趣概率,然后将感兴趣概率最高的前K个视频推荐给目标用户。
本发明的有益效果是:本发明方法通过分析视频的视觉和音频内容挖掘视频之间的相关度,并针对不同的推荐场景设计了两种不同的相关度计算方法。考虑现有的视频特征表示不是专门针对推荐任务设定的,本发明提出级联多特征融合映射网络对现有视频特征进行映射,并通过负样本增强三元损失函数训练模型,最终得到更适合视频推荐任务的二级特征表示,从而更好的衡量视频的相关度。此外,为了充分挖掘视频的内容特征,本发明还提出特征交叉门控融合模块有效地对视频视觉和音频特征进行融合,该模块通过类似注意力机制衡量不同特征之间的交互作用,通过权重来加强特征中的重要信息,剔除冗余信息。由于当视频被创建之后,其视觉和音频内容通常可被使用,因此本发明方法可以有效的解决视频的冷启动问题。此外,相比于易被篡改的元数据,视频的视觉和音频内容一直可用也更加的可靠,因此本发明能有效提高视频推荐的性能。
附图说明
图1为整体模型框架图;
图2为特征交叉门控融合模块的框架图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
本发明提出的一种基于视觉和音频内容相关度挖掘的视频推荐方法,该方法通过分析视频的视觉和音频内容挖掘视频之间的相关度,并根据用户的浏览记录为其推荐与其浏览过的视频相关度较高的视频。整个方法可以分为训练过程和测试过程。在训练过程中使用级联多特征融合映射网络将视频映射到两个统一的特征表示空间,使得相关度高(即两个视频被同一个用户观看)的视频在特征表示空间的距离小,反之则距离远。在测试时,根据视频在特征表示空间的距离来推测不同视频之间的相关度,然后根据用户的浏览历史,给目标用户推荐与浏览历史中的视频相关度较高的视频。本方法对视频本身的视觉和音频内容进行建模,当视频被创建之后,其视觉和音频内容就可被使用,因此不存在视频的冷启动问题;此外,相比于视频的元数据,视频的视觉和音频内容更加的可靠,因此能有效提高视频推荐的性能。本发明方法具体包括以下步骤:
(1)利用深度卷积神经网络分别提取视频帧的视觉特征和视频片段音频特征。
(1-1)抽取视频的视觉特征:给定的一个视频v,我们每隔0.5秒从视频中提取一个视频帧,共得到n个视频帧,然后使用训练好的卷积神经网络模型(在ImageNet数据集上训练好的ResNet152模型)提取视频每帧的深度视觉特征向量。这样,视频就由一系列视频帧级的视觉特征向量{v1,v2,...,vn}来描述,其中vt表示第t帧的视觉特征向量。
(1-2)除了视频的视觉特征外,音频同样能够反映用户对视频的感兴趣程度,因此我们额外利用音频特征以实现更好的推荐效果。对于视频的音频特征抽取,给定的一个视频v,我们将其分成不重叠的m个视频片段,然后我们根据梅尔频率倒谱系数(MFCC)从每个原始视频片段中提取初始音频特征,接着我们使用经过YouTube-8M预训练的VGG-inspired音频网络,从m个初始音频特征中提取其深度音频特征向量。同样地,视频音频就由一系列的音频特征向量{a1,a2,...,am}来描述,其中at表示第t个片段的音频特征向量。
(2)获取视频的全局视觉特征和音频特征,具体步骤如下:
(2-1)将视频帧级的原始视觉特征转换成视频级的视觉特征:对步骤(1)得到的视频帧级视觉特征用平均池化方法进行处理,也就是将每个特征向量求和然后取均值。具体地,我们使用来表示平均池化后得到的视频v的视频级视觉特征,计算公式为:
(3)由于步骤(2)得到的视频的视觉特征和音频特征是专门针对视频分类任务设定的,直接用该特征计算视频之间的相关度用于视频推荐任务不是最佳的。因此,我们提出级联多特征融合映射网络(如图1所示),将原始特征进行重新映射得到两个新的特征表示,使之更好的适用于视频推荐任务。
(3-1)考虑到不同特征之间存在一定的信息冗余和互补性,我们提出特征交叉门控融合模块,该模块将两种不同的特征作为输入,通过类似注意力机制的门控单元交叉地控制另一个特征,筛选掉一部分不重要的特征信息,而保留重要的特征信息。图2展示了特征交叉门控融合模块的框架图。假设输入的两种特征分别为x和y,我们先用特征y来控制x得到过滤后的特征x′。具体地,我们分别先对输入特征作一次线性变化,得到f1(x)和h1(y);由于不同的特征具有不同的特性,我们不共享两个特征的变化参数,分别用不同的线性变化对输入的特征进行操作。其次,我们通过sigmoid非线性激活函数将特征h1(y)输出大小映射到0到1之间,并将其与特征f1(x)进行哈达曼积操作(特征向量中每个对应元素进行乘法),得到过滤后的新特征x′。在这里,经过sigmoid非线性激活函数后的h1(y)相当于一个门控向量,来控制f1(x)特征,通过两个不同特征之间的交互引入不同特征维度之间的非线性作用,从而根据权重的大小调节特征维度的信息。x′的具体计算公式如下:
其中,W1和W2是线性变化的仿射矩阵参数,b1和b2是偏置项,σ表示sigmoid激活函数。同样地,我们互换两个特征的顺序,用特征x来控制y得到过滤后的特征y′,具体的计算公式为:
其中,W3和W4是线性变化的仿射矩阵参数,b3和b4是偏置项。之后,我们将经过门控单元过滤后的特征x′和y′进行拼接,并将其输入到一个新的线性层,最后得到融合的特征g(x,y):
g(x,y)=W5([x′,y′])+b5 (2-3)
其中,[,]代表特征拼接操作,W5和b5分别为线性层的仿射矩阵参数和偏置项。
(3-2)为了进一步挖掘融合后的特征与原始特征的关系,我们将融合后的特征与原始特征进行再一次的交互融合,得到视频的第二级特征表示。具体地,我们将步骤(2)中的视觉和音频全局特征和进行拼接,然后将拼接后的特征与步骤(3-1)中的输出一起输入到第二个特征交叉门控特征融合模块。第二个交叉门控融合模块的结构与步骤(3-1)中的结构类似,但两者是独立的且不共享任何参数。因此,视频的第二级特征表示为:
(4-1)三元排序损失(triplet ranking loss)是空间距离学习中常用的损失函数。其包括锚(Anchor)样本、正(Positive)样本、负(Negative)样本,通过优化锚样本与正样本的距离小于锚样本与负样本的距离,实现在特征表示空间上相关视频之间的距离小于不相关视频之间的距离。我们可以发现,三元排序损失仅关注样本之间的相对距离,而忽略样本之间的绝对距离(即相关视频对之间的接近程度和不相关视频之间的远离程度)。这会在一定程度上影响其训练良好模型的有效性。因此,我们通过添加额外的约束来控制视频对之间的绝对距离来改善三元排序损失。我们在三元排序损失的基础上添加不相关样本对的约束。该约束旨在让不相关视频对在新的特征表示空间中远离,因此我们强制不相关视频对的相似性小于给定的常数。注意,视频的特征相似性越小表明其在特征表示空间的距离越远。下面的描述以在特征表示空间为例,对于一个三元组(v,v+,v-),加入约束项的目标函数可以表示成:
其中,v,v+,v-分别表示锚样本、正样本、负样本,m1和m2代表常数阈值,其取值与相似度的度量方式有关。对于余弦相似度,m1的可选范围为0到2之间,我们设m1为0.2,m2的可选范围为-1到1之间,m2通常取一个较小值,使得不相关视频对的相关度较小,本实施例中m2取-0.5。在训练过程中,当不相关的视频在重新学习的特征表示空间中相似度大于m2时,约束项将对模型进行惩罚,以调整特征表示空间以使该视频对远离。代表视频v和v′在统一的特征表示空间的余弦相似度,其计算公式为:
其中,·表示向量点积,||||表示向量的模。为了便于优化,我们可以将公式(4)的目标函数转化为最小化下面的损失函数:
其中,α代表常数权重,用于调节新增加约束项的重要程度,α通常取0.1到1。
其中,θ表示模型中所有需要训练的参数,Γ={(v,v+,v-)}是包含锚样本、正样本、负样本的三元组训练集,γ为常数权重,本实施例中取1。
进一步地,所述步骤(5)中在训练集上以端到端的方式训练模型的具体步骤如下:
(5-1)训练三元组数据集的构建。给定数量为z的训练视频{va,vb...},对于其中任一视频vi,已知有c个视频{vi1,vi2...vic}与视频vi是相关的。我们将vi作为锚样本,{vi1,vi2...vic}中任取一个作为正样本,从整个数据集中除vi及vi1,vi2...vic外随机任取一个视频作为不相关的负样本,从而组成一个三元组(v,v+,v-)。如果已知一个视频有c个视频与其相关,我们可以得到c个不同的三元组。通过这种方法,我们最终得到用于训练的三元组集Γ={(v,v+,v-)}。
(5-2)我们采用基于adam的批量数据随机梯度下降(Stochastic GradientDescent)优化算法训练模型,在所构建的训练集上最小化负样本增强三元损失函数。我们将批量数据(mini-batch)的大小设为32,初始学习率为0.001,最大训练周期设为50。在训练过程中,如果验证集上的性能在两个连续的训练周期后没有提升,则将学习率除以2;如果连续10个训练周期验证集上的性能都没有提升,则停止训练。
(6)考虑到如果候选视频与目标用户观看的某些视频相关,则该用户很有可能对候选视频感兴趣。因此,我根据候选视频与用户浏览历史中的视频的相关度来决定是否把候选视频推荐给目标用户,相关度高的候选视频被推荐给用户,反之则不被推荐。通过步骤(5)将模型训练完成后,我们可以根据视频的视觉和音频内容计算视频之间的相关度。根据推荐场景的不同,我们分别采用两种不同的策略来计算视频之间的相关度。
(6-1)在第一种场景,假设指定候选视频与其他候选视频的相关关系是未知的,因此我们只能通过种子视频和指定候选视频内容来预测它们的相关度。其中,种子视频是指目标用户浏览过的某个视频,候选视频是所有可被推荐的视频。给定一个种子视频vs和指定候选视频vc,它们的相关度r(vs,vc)是分别在学习到的两个特征表示空间和特征表示空间的相关度加权和,具体计算如下:
(6-2)在第二种场景,我们假设指定候选视频与其他候选视频的相关关系是已知的。即如果在候选视频中有一些视频同时被大量人群所观看,则我们可以认为这些视频之间是相关的,如果我们已知了这种相关关系,则我们可以在计算相关度时引入这种相关关系。考虑到如果指定候选视频的相关视频与种子视频相关,则指定候选视频也很可能与种子视频相关。因此我们将与指定候选视频最相关的q个视频与种子视频相关度也引入到候选视频和种子视频相关度的衡量中,计算公式如下:
(6-3)给定用户历史浏览过e个视频Vu={vu1,vu2...,vue},计算用户对候选视频vs感兴趣的概率。如果候选视频与用户浏览历史中的视频的整体相关度越高,则用户对候选视频vs感兴趣的概率也越高,反之则概率越低。因此我们将用户浏览过的视频与候选视频vs的平均相关度作为视频vs被推荐的概率,具体计算公式如下:
根据指定候选视频与其他候选视频的相关关系的已知情况,R(vs,vui)可选择公式(8)或者(9)。如果相关关系未知则选择公式(8)的计算结果,反之则选择公式(9)。
(6-4)根据公式(10),给目标用户推荐若干其感兴趣概率最高的前K个视频。给定一组候选视频,用H表示,我们根据公式(10)按降序对候选视频进行排序。更正式地说,我们解决以下优化问题:
最终,我们将感兴趣概率最高的前K个视频推荐给目标用户。
以上所述仅是本发明的优选实施方式,虽然本发明已以较佳实施例披露如上,然而并非用以限定本发明。任何熟悉本领域的技术人员,在不脱离本发明技术方案范围情况下,都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰,或修改为等同变化的等效实施例。因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何的简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (10)
1.一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,该方法包括以下步骤:
(1)利用深度卷积神经网络对视频的视觉信息和音频信息进行特征提取,分别得到它们的初始特征表示。
(2)对于步骤(1)中得到的初始特征,利用平均池化的方法获得视频级的视觉和音频特征。
(3)将步骤(2)中得到的视频级的视觉特征和音频特征输入到级联多特征融合映射网络中,从而学习到更适合视频推荐任务的二级特征表示。
(4)利用负样本增强三元损失函数来学习视频之间的相关度。
(5)在训练集上以端到端的方式训练模型。
(6)通过训练完成的模型,根据新特征表示计算任何两个视频之间的相关度,并根据用户的视频浏览记录为其推荐视频。
2.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,所述步骤(1)中提取视频和音频特征的方法包括如下步骤:
(1-1)从视频中采样帧级的视频图像,然后利用预训练的深度卷积神经网络对输入的视频帧进行视觉表观特征提取,获得视频的初始视觉特征。
(1-2)将视频划分为不重叠的视频片段,并获取每一个视频片段中的音频信息,再将其输入到预训练的音频神经网络,获得视频的初始音频特征。
3.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,所述步骤(3)中使用级联多特征融合映射网络的步骤如下:
(3-1)将步骤(2)中得到的视频级的音频和视觉特征输入到特征交叉门控融合模块进行特征融合得到视频的第一级特征表示。
(3-2)将步骤(2)中得到的视频级的音频特征和视觉特征进行拼接,然后将其和步骤(3-1)中得到的一级特征表示一起再次输入到另一个特征交叉门控融合模块进行特征融合得到视频的第二级特征表示。
4.根据权利要求3所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,所述步骤(3)中特征交叉门控融合模块将两种不同的特征作为输入,通过门控单元交叉地控制另一个特征;假设输入的两种特征分别为x和y,首先用特征y来控制x得到过滤后的特征x′,包括:分别先对输入特征作一次线性变化,得到f1(x)和h1(y);不共享两个特征的变化参数,分别用不同的线性变化对输入的特征进行操作;通过sigmoid非线性激活函数将特征h1(y)输出大小映射到0到1之间,并将其与特征f1(x)进行哈达曼积操作,得到过滤后的新特征x′;然后用特征x来控制y得到过滤后的特征y';之后,将经过门控单元过滤后的特征x′和y′进行拼接,并将其输入到一个新的线性层,最后得到融合的特征g(x,y)。
7.根据权利要求3所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,所述步骤(4)中的通过负样本增强三元损失函数学习视频之间的相关度的步骤如下:
(4-1)负样本增强三元损失函数在三元排序损失基础上加入了对负样本对的强制性约束,添加额外的约束来控制视频对之间的绝对距离来改善三元排序损失,从而学习到更能反应视频相关度的特征表示。
(4-2)负样本增强三元损失函数会同时对步骤(3-1)和步骤(3-2)中的两个特征表示空间进行约束,并且根据不同特征表示空间下所含有的信息的重要程度给予权重,最终对这两个特征表示空间下的损失加权求和来作为训练整个模型的最终损失。
9.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,所述步骤(5)中的具体训练细节如下:
(5-1)构建用于训练的视频三元组数据:在训练集上,对于每一个三元组,选定一个视频为锚样本,如果有多人同时观看过某视频与锚样本视频,则将该视频视为正样本,同时随机地从不是正样本的其他视频中挑选一个视频作为负样本。
(5-2)采用基于adam的批量数据随机梯度下降优化算法训练模型,在所构建的训练集上最小化负样本增强三元损失函数。
10.根据权利要求1所述的一种基于视觉和音频内容相关度挖掘的视频推荐方法,其特征在于,所述步骤(6)针对两种不同情景设计的视频相关度计算方式及视频推荐过程:
(6-1)在第一种场景,假设指定候选视频与其他候选视频的相关关系是未知的,因此只通过种子视频和指定候选视频内容来预测它们的相关度。
(6-2)在第二种场景,假设指定候选视频与其他候选视频的相关关系是已知的;因此除了视频的内容信息外,额外利用指定候选视频与其他候选视频的相关关系来更好的衡量视频之间的相关度。
(6-3)已知用户的浏览历史,根据不同场景选择步骤(6-1)或步骤(6-2)中的方法计算用户浏览历史中的每个视频和候选视频的相关度,并将所有相关度的均值作为用户对候选视频感兴趣程度。
(6-4)通过步骤(6-3)计算出用户对所有候选视频的感兴趣概率,然后将感兴趣概率最高的前K个视频推荐给目标用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060686.9A CN111274440B (zh) | 2020-01-19 | 2020-01-19 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010060686.9A CN111274440B (zh) | 2020-01-19 | 2020-01-19 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274440A true CN111274440A (zh) | 2020-06-12 |
CN111274440B CN111274440B (zh) | 2022-03-25 |
Family
ID=70998909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010060686.9A Active CN111274440B (zh) | 2020-01-19 | 2020-01-19 | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274440B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882586A (zh) * | 2020-06-23 | 2020-11-03 | 浙江工商大学 | 一种面向剧场环境的多演员目标跟踪方法 |
CN112100464A (zh) * | 2020-10-14 | 2020-12-18 | 济南大学 | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 |
CN112149604A (zh) * | 2020-09-30 | 2020-12-29 | 网易传媒科技(北京)有限公司 | 视频特征提取模型的训练方法、视频推荐方法及装置 |
CN113011383A (zh) * | 2021-04-12 | 2021-06-22 | 北京明略软件系统有限公司 | 视频标签定义模型构建方法、系统、电子设备及存储介质 |
CN113099374A (zh) * | 2021-03-30 | 2021-07-09 | 四川省人工智能研究院(宜宾) | 一种基于多重注意力视听融合的音频立体化方法 |
CN113157965A (zh) * | 2021-05-07 | 2021-07-23 | 杭州网易云音乐科技有限公司 | 音频可视化模型训练及音频可视化方法、装置及设备 |
CN113450568A (zh) * | 2021-06-30 | 2021-09-28 | 兰州理工大学 | 一种基于时空注意力机制的卷积网络交通流预测方法 |
CN117132939A (zh) * | 2023-09-11 | 2023-11-28 | 深圳科腾飞宇科技有限公司 | 一种基于视频处理的对象分析方法及系统 |
CN117376634A (zh) * | 2023-12-08 | 2024-01-09 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种短视频配乐方法、装置、电子设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189572A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Modal Fusion Model |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN109874053A (zh) * | 2019-02-21 | 2019-06-11 | 南京航空航天大学 | 基于视频内容理解和用户动态兴趣的短视频推荐方法 |
CN110084266A (zh) * | 2019-03-11 | 2019-08-02 | 中国地质大学(武汉) | 一种基于视听特征深度融合的动态情感识别方法 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
-
2020
- 2020-01-19 CN CN202010060686.9A patent/CN111274440B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189572A1 (en) * | 2016-12-30 | 2018-07-05 | Mitsubishi Electric Research Laboratories, Inc. | Method and System for Multi-Modal Fusion Model |
CN109815903A (zh) * | 2019-01-24 | 2019-05-28 | 同济大学 | 一种基于自适应融合网络的视频情感分类方法 |
CN109874053A (zh) * | 2019-02-21 | 2019-06-11 | 南京航空航天大学 | 基于视频内容理解和用户动态兴趣的短视频推荐方法 |
CN110084266A (zh) * | 2019-03-11 | 2019-08-02 | 中国地质大学(武汉) | 一种基于视听特征深度融合的动态情感识别方法 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110647804A (zh) * | 2019-08-09 | 2020-01-03 | 中国传媒大学 | 一种暴力视频识别方法、计算机系统和存储介质 |
Non-Patent Citations (3)
Title |
---|
JIANFENG DONG等: "Cross-media Relevance Computation for Multimedia Retrieval", 《MM "17: PROCEEDINGS OF THE 25TH ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》 * |
林婉霞: "基于多模态融合和传播的跨模态信息检索算法", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
董建锋: "跨模态检索中的相关度计算研究", 《中国博士学位论文全文数据库信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111882586A (zh) * | 2020-06-23 | 2020-11-03 | 浙江工商大学 | 一种面向剧场环境的多演员目标跟踪方法 |
CN111882586B (zh) * | 2020-06-23 | 2022-09-13 | 浙江工商大学 | 一种面向剧场环境的多演员目标跟踪方法 |
CN112149604A (zh) * | 2020-09-30 | 2020-12-29 | 网易传媒科技(北京)有限公司 | 视频特征提取模型的训练方法、视频推荐方法及装置 |
CN112100464A (zh) * | 2020-10-14 | 2020-12-18 | 济南大学 | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 |
CN112100464B (zh) * | 2020-10-14 | 2022-09-02 | 济南大学 | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 |
CN113099374B (zh) * | 2021-03-30 | 2022-08-05 | 四川省人工智能研究院(宜宾) | 一种基于多重注意力视听融合的音频立体化方法 |
CN113099374A (zh) * | 2021-03-30 | 2021-07-09 | 四川省人工智能研究院(宜宾) | 一种基于多重注意力视听融合的音频立体化方法 |
CN113011383A (zh) * | 2021-04-12 | 2021-06-22 | 北京明略软件系统有限公司 | 视频标签定义模型构建方法、系统、电子设备及存储介质 |
CN113157965A (zh) * | 2021-05-07 | 2021-07-23 | 杭州网易云音乐科技有限公司 | 音频可视化模型训练及音频可视化方法、装置及设备 |
CN113450568A (zh) * | 2021-06-30 | 2021-09-28 | 兰州理工大学 | 一种基于时空注意力机制的卷积网络交通流预测方法 |
CN117132939A (zh) * | 2023-09-11 | 2023-11-28 | 深圳科腾飞宇科技有限公司 | 一种基于视频处理的对象分析方法及系统 |
CN117376634A (zh) * | 2023-12-08 | 2024-01-09 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种短视频配乐方法、装置、电子设备和存储介质 |
CN117376634B (zh) * | 2023-12-08 | 2024-03-08 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种短视频配乐方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111274440B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274440B (zh) | 一种基于视觉和音频内容相关度挖掘的视频推荐方法 | |
CN111581510B (zh) | 分享内容处理方法、装置、计算机设备和存储介质 | |
CN111797321B (zh) | 一种面向不同场景的个性化知识推荐方法及系统 | |
Liu et al. | Generalized zero-shot learning for action recognition with web-scale video data | |
CN108563755A (zh) | 一种基于双向循环神经网络的个性化推荐系统及方法 | |
US20180005077A1 (en) | Automated selection of subjectively best image frames from burst captured image sequences | |
Hii et al. | Multigap: Multi-pooled inception network with text augmentation for aesthetic prediction of photographs | |
CN111488524B (zh) | 一种面向注意力的语义敏感的标签推荐方法 | |
CN112100504B (zh) | 内容推荐方法、装置、电子设备及存储介质 | |
Celona et al. | Composition and style attributes guided image aesthetic assessment | |
CN112749330B (zh) | 信息推送方法、装置、计算机设备和存储介质 | |
Li et al. | Meta learning for task-driven video summarization | |
CN115048586B (zh) | 一种融合多特征的新闻推荐方法及系统 | |
CN112699310A (zh) | 基于深度神经网络的冷启动跨域混合推荐的方法及系统 | |
Fei et al. | Learning user interest with improved triplet deep ranking and web-image priors for topic-related video summarization | |
CN114417124A (zh) | 一种多任务强化学习推荐方法 | |
CN115640449A (zh) | 媒体对象推荐方法、装置、计算机设备和存储介质 | |
Lv et al. | Spatio-temporal attention model based on multi-view for social relation understanding | |
CN116361643A (zh) | 实现对象推荐的模型训练方法及对象推荐方法及相关装置 | |
Mohammad et al. | Movie recommender system using content-based and collaborative filtering | |
Leonardi et al. | Image memorability using diverse visual features and soft attention | |
CN114647787A (zh) | 一种基于多模态数据的用户个性化推荐方法 | |
Yang et al. | Learning the synthesizability of dynamic texture samples | |
CN114880550B (zh) | 一种融合多方面时域信息的序列推荐方法、设备和介质 | |
Chu et al. | Towards a sparse low-rank regression model for memorability prediction of images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |