CN112801076B - 基于自注意力机制的电子商务视频高光检测方法及系统 - Google Patents

基于自注意力机制的电子商务视频高光检测方法及系统 Download PDF

Info

Publication number
CN112801076B
CN112801076B CN202110403571.XA CN202110403571A CN112801076B CN 112801076 B CN112801076 B CN 112801076B CN 202110403571 A CN202110403571 A CN 202110403571A CN 112801076 B CN112801076 B CN 112801076B
Authority
CN
China
Prior art keywords
segment
frame
video
highlight
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110403571.XA
Other languages
English (en)
Other versions
CN112801076A (zh
Inventor
陈佳伟
赵洲
周楚程
刘瑞涛
汪达舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110403571.XA priority Critical patent/CN112801076B/zh
Publication of CN112801076A publication Critical patent/CN112801076A/zh
Application granted granted Critical
Publication of CN112801076B publication Critical patent/CN112801076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于自注意力机制的电子商务视频高光检测方法及系统,属于视频高光检测领域。整个检测过程分为两个阶段,在第一阶段将视频分成待检测片段和上下文片段,分别通过绝对时序编码和相对时序编码将其位置关系编码到整个视频中,通过加性注意力机制和自注意力机制将得出候选分数较高的若干候选片段;在第二阶段,从生成的若干候选片段中选择最好的得分最高的片段作为最后的高光片段输出。本发明基于自注意机制,利用绝对位置编码和相对位置编码,能够综合考虑片段与上下文以及片段和整体的关系,在高光检测中所取得的效果相比于传统的方法更好,精度更高。

Description

基于自注意力机制的电子商务视频高光检测方法及系统
技术领域
本发明涉及视频高光检测领域,尤其涉及一种基于自注意力机制的电子商务视频高光检测方法及系统。
背景技术
在电子商务中,介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中,通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者,从而提高产品的点击率。然而,目前的研究方法应用于实际场景的效果并不令人满意,与其他视频理解任务相比,视频高光检测相对抽象和主观。
以往关于普通视频高光检测任务的方法在电子商务场景中存在一些缺陷。例如,Mrigank Rochan提出的方法计算每个采样帧的分数,而不考虑整个高光片段,而作为整体的视频片段对电子商务产品显示有时至关重要。Yingying Zhang使用图神经网络(GNN)建立模型,但没有利用时间信息,这可能包含电子商务想要销售的服务的信息。同时,使用GNN进行大型数据集的训练和推理消耗大量时间。Yifan Jiao使用3D注意力卷积跨越不同片段,但忽略了长期的片段间关系。Kaiyang Zhou将LSTM应用于时间关系的建模,但正如Ashish Vaswani指出的,基于RNN的模型排除了并行化训练的可能性,并存在长期依赖问题。
本发明提出了一种电子商务场景下的视频高光检测方法及系统,将第一阶段输出的候选片段进行下一阶段的比较,整体算法模仿人类遇到这样的问题时的情景,其首先选择少量的比较可能的候选对象,然后仔细考虑这些选择对象,以确定最终的正确答案。
发明内容
本发明提供了一种基于自注意力机制的电子商务视频高光检测方法及系统,解决了现有的高光检测算法无法很好应用于电子商务场景下的问题,提高了针对电子商务场景下的视频高光检测的表现。
为了实现上述目的,本发明采用如下技术方案:
一种基于自注意力机制的电子商务视频高光检测方法,包括以下步骤:
1)对视频进行均匀采样获取帧集合
Figure 441082DEST_PATH_IMAGE001
,其中T是视频中的总帧 数,
Figure 889381DEST_PATH_IMAGE002
表示视频中的第t帧;通过一个预先训练的特征提取器来获得帧特征
Figure 951009DEST_PATH_IMAGE003
,其中
Figure 877377DEST_PATH_IMAGE004
表示视频中的第t帧的帧特征;
2)帧特征与绝对时序编码相加,将帧间位置关系编码到整个视频中,得到包含绝对时序信息的帧特征;
3)创建视频编码器处理包含绝对时序信息的帧特征,得到编码后的帧特征;
4)将视频划分为视频片段,将每个视频片段对应的帧特征划分为两个部分:片段内帧特征和片段外帧特征;所述的片段外帧特征包括片段前帧特征和片段后帧特征;
在片段内帧特征中引入绝对时序编码,得到编码后的片段内帧特征;在片段前帧特征和片段后帧特征中分别引入相对编码,得到编码后的片段前帧特征和编码后的片段后帧特征;将编码后的片段前帧特征和编码后的片段后帧特征相结合,作为初始上下文特征;
5)将编码后的片段内帧特征传递给片段编码器生成初始片段特征
Figure 222907DEST_PATH_IMAGE005
,然后利用 池化层获得中间片段特征
Figure 576528DEST_PATH_IMAGE006
;将中间片段特征
Figure 125453DEST_PATH_IMAGE006
和初始上下文特征作为加性注意力模块 的输入,得到上下文特征
Figure 652249DEST_PATH_IMAGE007
;将上下文特征
Figure 852286DEST_PATH_IMAGE008
和中间片段特征
Figure 127541DEST_PATH_IMAGE009
相结合,得到结合了上 下文信息的最终片段特征,通过MLP模型获得视频片段的高光分数
Figure 616291DEST_PATH_IMAGE010
6)选择高光分数最高的k个视频片段作为候选片段,使用自注意力模块和MLP模型 生成每个候选片段的高光分数变化量,将步骤5)生成的高光分数与高光分数变化量之和作 为候选片段的最终分数
Figure 884461DEST_PATH_IMAGE011
,将最终分数最高的候选片段作为高光片段输出。
与现有技术相比,本发明的优势在于:
本发明提出了一种适用于电子商务场景下的视频高光检测方法,分为两个阶段,在第一阶段将视频分成待检测片段和上下文片段,分别通过绝对时序编码和相对时序编码将其位置关系编码到整个视频中,通过加性注意力机制和自注意力机制将得出候选分数较高的若干候选片段;在第二阶段,从生成的若干候选片段中选择最好的得分最高的片段作为最后的高光片段输出。
其中,在第一阶段中基于自注意机制,利用绝对位置编码和相对位置编码,能够综合考虑片段与上下文以及片段和整体的关系,在第二阶段中引入新的比较模块来选择高光片段,将高光检测视做一个多选择问题,在概率最高的候选片段中选择出正确的高光片段,使高光检测适合于工业环境,在高光检测中所取得的效果相比于传统的方法精度更高,最终获得的高光片段有助于客户高效的浏览商品,节约选择商品的时间。
附图说明
图1为本发明方法的模型框架设计图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案做更进一步地描述。此外,本发明中所描述的实施例仅仅是作为一部分的实施例,而不是全部的实施例。
如图1所示,本发明提出的基于自注意力机制的电子商务视频高光检测方法,可以分为两个阶段,第一阶段基于注意力机制生成候选片段的高光分数,第二阶段基于比较模块实现对候选片段的进一步筛选。
第一阶段主要包括以下步骤:
步骤1:对视频进行均匀采样获取帧集合
Figure 939005DEST_PATH_IMAGE001
,其中T是视频中的 总帧数,
Figure 900008DEST_PATH_IMAGE002
表示视频中的第t帧;通过一个预先训练的特征提取器来获得帧特征
Figure 420594DEST_PATH_IMAGE003
,其中
Figure 226876DEST_PATH_IMAGE004
表示视频中的第t帧的帧特征。
步骤2:帧特征与绝对时序编码相加,将帧间位置关系编码到整个视频中,得到包含绝对时序信息的帧特征。
步骤3:创建视频编码器处理包含绝对时序信息的帧特征,得到编码后的帧特征。
步骤4:将视频划分为视频片段,将每个视频片段对应的帧特征划分为两个部分:片段内帧特征和片段外帧特征;所述的片段外帧特征包括片段前帧特征和片段后帧特征。
在片段内帧特征中引入绝对时序编码,得到编码后的片段内帧特征;在片段前帧特征和片段后帧特征中分别引入相对编码,得到编码后的片段前帧特征和编码后的片段后帧特征;将编码后的片段前帧特征和编码后的片段后帧特征相结合,作为初始上下文特征。
步骤5:将编码后的片段内帧特征传递给片段编码器生成初始片段特征
Figure 667085DEST_PATH_IMAGE012
,然后 利用池化层获得中间片段特征
Figure 533410DEST_PATH_IMAGE013
;将中间片段特征
Figure 419588DEST_PATH_IMAGE013
和初始上下文特征作为加性注意 力模块的输入,使得该片段关注上下文帧信息,得到上下文特征
Figure 29561DEST_PATH_IMAGE014
;该上下文特征表示片 段上下文的信息。
将上下文特征
Figure 58697DEST_PATH_IMAGE015
和中间片段特征
Figure 377814DEST_PATH_IMAGE016
相结合,得到结合了上下文信息的最终片段 特征,通过MLP模型获得视频片段的高光分数
Figure 859611DEST_PATH_IMAGE017
;本实施例中,通过构建加权成对排序损失 L来优化MLP模型,使正片段的分数更高,负片段分数更低。
第二阶段主要包括以下步骤:
步骤6:选择高光分数最高的k个视频片段作为候选片段,使用自注意力模块和MLP 模型生成每个候选片段的高光分数变化量,高光分数变化量被视为第一阶段产生的分数的 变化,将步骤5)生成的高光分数与高光分数变化量之和作为候选片段的最终分数
Figure 273275DEST_PATH_IMAGE018
,将最 终分数最高的片段作为高光片段输出。
在本发明的具体实施中,步骤1为视频的预处理过程,在预处理过程中使用的预先 训练的特征提取器选自多层Transformer编码器,其中自注意结构是其关键组成部分。在自 然语言处理的许多子领域中Transformer已经证明了它在捕获长依赖关系方面的强大能 力,本发明将其用于视频高光检测中。将特征提取器输出的帧特征表示为
Figure 156917DEST_PATH_IMAGE019
,其中
Figure 378427DEST_PATH_IMAGE020
,其中d是帧特征的维度。
由于自注意机制在被传递到视频编码器之前并不能明确地捕捉序列关系,步骤2 中对由预先训练的特征提取器获得的帧特征进行了绝对时序编码,将帧特征
Figure 878678DEST_PATH_IMAGE021
与视频帧的绝对时序编码相加,获得包含绝对时序信息的帧特征
Figure 830454DEST_PATH_IMAGE022
,将帧间位置关系编码到了整个视频中,公式为:
Figure 584914DEST_PATH_IMAGE023
其中,
Figure 495101DEST_PATH_IMAGE024
表示第t帧的绝对时序编码;
Figure 951490DEST_PATH_IMAGE025
,该绝对时序编码与 片段编码器的绝对时序编码不同,
Figure 706957DEST_PATH_IMAGE026
为帧特征
Figure 50345DEST_PATH_IMAGE027
中的第t个元素,对应 于第t帧的帧特征,最终得到的包含绝对时序信息的帧特征表示为
Figure 600275DEST_PATH_IMAGE028
, 与帧特征X中的元素一一对应。
步骤3中采用的视频编码器用于对包含绝对时序信息的帧特征进行处理,优选自 注意力模块作为视频编码器,由于自注意模块是Transformer编码器的关键组成部分,此处 也可采用Transformer编码器。本实施例中,将自注意力模块的输出表示为
Figure 543960DEST_PATH_IMAGE029
,即编码后的帧特征,其中
Figure 103117DEST_PATH_IMAGE030
表示第t帧编码后的帧特征。计算公式 为:
Figure 566591DEST_PATH_IMAGE031
其中
Figure 287422DEST_PATH_IMAGE032
Figure 983983DEST_PATH_IMAGE033
为包含绝对时序信息的帧特征。
步骤4针对于视频中的一个片段,将该片段包含的帧范围表示为
Figure 81252DEST_PATH_IMAGE034
,即从该视 频中的第m帧开始,到该视频中的第n-1帧截止。将该片段内的编码后的帧特征表示为
Figure 661881DEST_PATH_IMAGE035
。将包含的帧范围为
Figure 553614DEST_PATH_IMAGE036
的片段作为该片段的前片段,其编码 后的帧特征称为段前帧特征,表示为
Figure 471891DEST_PATH_IMAGE037
;将包含的帧范围为
Figure 372851DEST_PATH_IMAGE038
的 片段作为该片段的后片段,其编码后的帧特征称为段后帧特征,表示为
Figure 545338DEST_PATH_IMAGE039
对于片段内的帧,使用绝对时序编码来捕获它们在片段内的时间关系,其中第t帧 的时序编码是由片段
Figure 76813DEST_PATH_IMAGE040
的开始和t的偏移量计算得出的。对片段外的帧(即片段之前/ 之后的帧),使用相对时序编码来捕获它们各自与片段的相对时间关系。第t帧的时序编码 是由第t帧与片段
Figure 216807DEST_PATH_IMAGE041
的距离计算得出的:
Figure 921458DEST_PATH_IMAGE042
式中,
Figure 463298DEST_PATH_IMAGE043
表示在经视频编码后的视频特征中再次引入时序编码后的第t帧的帧 特征,
Figure 713145DEST_PATH_IMAGE044
时,表示片段内帧特征,
Figure 137173DEST_PATH_IMAGE045
Figure 379936DEST_PATH_IMAGE046
时,表示片段外帧特征;
将片段外帧特征相结合,表示为
Figure 979544DEST_PATH_IMAGE047
,为方便表 达,将
Figure 400292DEST_PATH_IMAGE048
表示为片段
Figure 514879DEST_PATH_IMAGE049
的初始上下文特征
Figure 295753DEST_PATH_IMAGE050
步骤5将片段内帧特征传递给片段编码器生成初始片段特征
Figure 812185DEST_PATH_IMAGE051
,此处的片段编码 器优选为注意力模块,可以与上述中的视频编码器结构相同。将片段内帧特征
Figure 400905DEST_PATH_IMAGE052
作为 自注意力模块的输入,将自注意力模块的输出表示为
Figure 268367DEST_PATH_IMAGE053
Figure 852932DEST_PATH_IMAGE054
为第m帧 对应的片段编码器的输出,计算公式为:
Figure 223870DEST_PATH_IMAGE055
其中
Figure 986421DEST_PATH_IMAGE056
然后利用池化层获得中间片段特征
Figure 810021DEST_PATH_IMAGE057
,计算公式为:
Figure 198277DEST_PATH_IMAGE058
将中间片段特征
Figure 626984DEST_PATH_IMAGE059
和初始上下文特征作为加性注意力模块的输入,得到上下文 特征
Figure 357174DEST_PATH_IMAGE060
;计算公式为:
Figure 933648DEST_PATH_IMAGE061
其中,W,U,wb是可学习参数,
Figure 860016DEST_PATH_IMAGE062
上角标T表 示转置;e为中间变量,
Figure 939968DEST_PATH_IMAGE063
为中间片段特征,
Figure 309900DEST_PATH_IMAGE064
为初始上下文特征,
Figure 108092DEST_PATH_IMAGE065
为中间变量e中的 第j个值,
Figure 838151DEST_PATH_IMAGE066
Figure 975871DEST_PATH_IMAGE067
的归一化值,
Figure 765972DEST_PATH_IMAGE068
为初始上下文特征中的第j个值。
将上下文特征
Figure 799263DEST_PATH_IMAGE069
和中间片段特征
Figure 67433DEST_PATH_IMAGE070
相结合,得到结合了上下文信息的最终片段 特征,通过MLP模型获得片段的高光分数
Figure 121977DEST_PATH_IMAGE071
;计算公式为:
Figure 348559DEST_PATH_IMAGE072
上述MLP模型的损失函数采用加权成对排序损失,计算公式为:
Figure 606496DEST_PATH_IMAGE073
其中,
Figure 678357DEST_PATH_IMAGE074
为防止模型过拟合的参数,
Figure 852987DEST_PATH_IMAGE075
;正片段是采样片段与数据集中高 光片段重合度大于50%的,负片段是采样片段与数据集中高光片段重合度小于50%的,当重 合片段刚好为50%时随机标记,
Figure 719311DEST_PATH_IMAGE076
是正负片段对组成的集合,
Figure 730124DEST_PATH_IMAGE077
表示片段对的数量;
Figure 543359DEST_PATH_IMAGE078
表示正负片段的重合参数,
Figure 572495DEST_PATH_IMAGE079
表示正片段的高光预测分数,
Figure 609721DEST_PATH_IMAGE080
表示负片段的 高光预测分数,
Figure 357097DEST_PATH_IMAGE081
为加权成对排序损失。
步骤6设计了一种比较模块来实现上述功能。
设计比较模块的动机是,当一个人面对一个有很多选项的多项选择题时,她/他最有可能会首先选一些最大概率的候选选项,然后仔细考虑最终候选,从多个候选中选择一个作为问题的最终答案。受此启发,本申请设计了一个新颖的模块,称为比较模块,用于模拟做多项选择题的过程。
比较模块的输入是三元组
Figure 521493DEST_PATH_IMAGE082
,其中
Figure 201873DEST_PATH_IMAGE083
是片段的索引变量,
Figure 675580DEST_PATH_IMAGE084
分 别是片段的高光分数和中间片段特征。
比较模块的主要组成部分是自注意力模块,它涉及查询和键之间的成对交互,把 自我注意的过程看作比较。由比较模块筛选出高光分数最高的k个片段,其中片段的索引
Figure 392476DEST_PATH_IMAGE085
。将k个候选片段的中间片段特征组合成候选中间片段特征集合
Figure 344251DEST_PATH_IMAGE086
,其中
Figure 347979DEST_PATH_IMAGE087
表示第i个候选片段的中间片段特征;
Figure 930271DEST_PATH_IMAGE088
。通过 包含查询和键之间的成对交互的自注意力模块获得自注意力向量
Figure 386660DEST_PATH_IMAGE089
,其 中
Figure 892859DEST_PATH_IMAGE090
第i个候选片段对应的自注意力模块的输出;
Figure 751093DEST_PATH_IMAGE091
其中,
Figure 566602DEST_PATH_IMAGE092
T表示转置。
利用MLP模型获得每个候选片段的高光分数变化量:
Figure 775867DEST_PATH_IMAGE093
其中,
Figure 820177DEST_PATH_IMAGE094
为高光分数变化量;
计算得到每一个候选片段的最终分数
Figure 532918DEST_PATH_IMAGE095
Figure 519329DEST_PATH_IMAGE096
为权重参数。将得分 最高的片段作为高光片段输出。
与前述的基于自注意力机制的电子商务视频高光检测方法的实施例相对应,本申请还提供了一种基于自注意力机制的电子商务视频高光检测系统的实施例,其包括:
视频预处理模块,其用于对视频进行均匀采样获取帧集合,通过一个预先训练的特征提取器来获得帧特征;
绝对时序编码模块,其用于将帧特征与绝对时序编码相加,将帧间位置关系编码到整个视频中,得到包含绝对时序信息的帧特征;
视频编码器,其用于处理包含绝对时序信息的帧特征,得到编码后的帧特征;
视频片段划分模块,其用于将视频划分为视频片段,将每个视频片段对应的帧特征划分为两个部分:片段内帧特征和片段外帧特征;所述的片段外帧特征包括片段前帧特征和片段后帧特征;在片段内帧特征中引入绝对时序编码,得到编码后的片段内帧特征;在片段前帧特征和片段后帧特征中分别引入相对编码,得到编码后的片段前帧特征和编码后的片段后帧特征;将编码后的片段前帧特征和编码后的片段后帧特征相结合,作为初始上下文特征;
初步筛选模块,其首先将编码后的片段内帧特征传递给片段编码器生成初始片段特征,然后利用池化层获得中间片段特征;将中间片段特征和初始上下文特征作为加性注意力模块的输入,得到上下文特征;将上下文特征和中间片段特征相结合,得到结合了上下文信息的最终片段特征,通过MLP模型获得视频片段的高光分数;
二次筛选模块,其用于选择高光分数最高的k个视频片段作为候选片段,使用自注意力模块和MLP模型生成每个候选片段的高光分数变化量,将初步筛选模块生成的高光分数与高光分数变化量之和作为候选片段的最终分数,将最终分数最高的候选片段作为高光片段输出。
关于上述实施例中的系统,其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于系统实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为初步筛选模块,可以是或者也可以不是物理上分开的。另外,在本发明中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现,以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。
实施例
本发明在淘宝数据集和YouTube高光视频集进行了对比实验。具体实施步骤同上,不再赘述。
淘宝数据集:
该数据集包括约十万条视频作为训练集,5863个视频作为验证集。每一个视频包括五秒的高光片段,数据以<原视频,高光片段>的形式给出。这些数据从淘宝平台获得,由淘宝达人制作,有着较高的质量。利用pHash*算法定位出高光片段在原始视频中的位置。随机选择五秒钟和高光片段不重合的视频作为非高光片段。最终获得实验所需数据,其中每一天数据的格式为<原始视频,高光片段起始时刻,非高光片段起始时刻>,将所有高光片段起始时间早于视频开始前三秒的数据剔除,因为这些数据很可能是用户随意选择的,缺乏可靠性。该数据集大多数视频的时长在200秒以下,所以在训练模型时只使用时长小于两百秒的视频。
YouTube高光视频集:
该数据集包含体操、跑酷、滑冰、滑雪、冲浪和狗这六个视频种类,每一个视频分成若干个片段,每个片段有一个标签,标签根据视频内容可能是高光、非高光和普通中的一种,在模型训练中,只关注高光片段和非高光片段,每一个片段大约包含100帧。
评价指标:
对于淘宝数据集,使用pairwise accuracy来作为评价指标:
Figure 950310DEST_PATH_IMAGE097
对于YouTube数据集,采用mean average accuracy (mAP)作为评价指标。
实施细节:
使用Inception v4来获取视频帧中的特征,特征向量的维度为1536。视频编码器 和片段编码器分别有4层和6层,变化器有8个头。
Figure 250842DEST_PATH_IMAGE098
分别被设置为1536、2048、 2048、2048。损失权重
Figure 568822DEST_PATH_IMAGE099
设置为0.5,全局丢弃率设置为0.2。使用Adam优化器,将学习率设置 为1e-5,权重衰减设置为1e-7
在YouTube数据集的验证效果如下述表格所示:
Figure 726133DEST_PATH_IMAGE100
从YouTube数据集上的比较结果可以看出,本发明效果高于平均基线,并且在体操、滑雪和冲浪等项目上表现得尤为突出。
在淘宝数据集的验证效果如下述表格所示:
Figure 644411DEST_PATH_IMAGE101
从淘宝数据集上的比较结果可以看出,本发明的效果有了显著的提升,即使从本发明中删除第二阶段的比较模块,直接将第一阶段得分最高的片段作为最终结果,也仍高于传统模型Pairwise-C3D。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

Claims (8)

1.一种基于自注意力机制的电子商务视频高光检测方法,其特征在于,包括以下步骤:
1)对视频进行均匀采样获取帧集合,通过一个预先训练的特征提取器来获得帧特征;
2)帧特征与绝对时序编码相加,将帧间位置关系编码到整个视频中,得到包含绝对时序信息的帧特征;
3)创建视频编码器处理包含绝对时序信息的帧特征,得到编码后的帧特征;
4)将视频划分为视频片段,将每个视频片段对应的帧特征划分为两个部分:片段内帧特征和片段外帧特征;所述的片段外帧特征包括片段前帧特征和片段后帧特征;
在片段内帧特征中引入绝对时序编码,得到编码后的片段内帧特征;在片段前帧特征和片段后帧特征中分别引入相对编码,得到编码后的片段前帧特征和编码后的片段后帧特征;将编码后的片段前帧特征和编码后的片段后帧特征相结合,作为初始上下文特征;
5)将编码后的片段内帧特征传递给片段编码器生成初始片段特征Xw,然后利用池化层获得中间片段特征zw;将中间片段特征zw和初始上下文特征作为加性注意力模块的输入,得到上下文特征zc;将上下文特征zc和中间片段特征zw相结合,得到结合了上下文信息的最终片段特征,通过MLP模型获得视频片段的高光分数sw;所述MLP模型的损失函数采用加权成对排序损失,计算公式为:
Figure FDA0003083709650000011
Figure FDA0003083709650000012
其中,λ为防止模型过拟合的参数;正片段是采样片段与训练集中高光片段重合度大于50%的片段,负片段是采样片段与训练集中高光片段重合度小于50%的片段,当重合片段刚好为50%时随机标记;
Figure FDA0003083709650000013
是由正负片段对组成的集合,
Figure FDA0003083709650000014
表示片段对的数量;w(pos,neg)表示正负片段的重合参数,spos表示正片段的高光预测分数,sneg表示负片段的高光预测分数,
Figure FDA0003083709650000021
为加权成对排序损失;
6)选择高光分数最高的k个视频片段作为候选片段,使用自注意力模块和MLP模型生成每个候选片段的高光分数变化量,将步骤5)生成的高光分数与高光分数变化量之和作为候选片段的最终分数s′w,将最终分数最高的候选片段作为高光片段输出。
2.根据权利要求1所述的基于自注意力机制的电子商务视频高光检测方法,其特征在于,所述的步骤2)具体为:
将步骤1)获取的帧特征X={x(0),...,x(T-1)}与视频帧的绝对时序编码相加,获得包含绝对时序信息的帧特征
Figure FDA0003083709650000022
计算公式为:
Figure FDA0003083709650000023
其中,
Figure FDA0003083709650000024
表示包含绝对时序信息的第t帧的帧特征,TempEmbed(t)表示第t帧的绝对时序编码,x(t)表示视频中的第t帧的帧特征,T是视频中的总帧数。
3.根据权利要求1所述的基于自注意力机制的电子商务视频高光检测方法,其特征在于,步骤3)所述的视频编码器采用自注意力模型。
4.根据权利要求1所述的基于自注意力机制的电子商务视频高光检测方法,其特征在于,所述的步骤4)具体为:
将视频划分为视频片段,针对于一段帧范围为[m,n)的视频片段,片段内帧特征为
Figure FDA0003083709650000025
片段前帧特征为
Figure FDA0003083709650000026
片段后帧特征为
Figure FDA0003083709650000027
对于片段内的帧,使用绝对时序编码来捕获它们在片段内的时间关系,其中第t帧的绝对时序编码是由片段[m,n)的开始和t的偏移量计算得出的;对片段外的帧,使用相对时序编码来捕获它们各自与片段的相对时间关系,第t帧的相对时序编码是由第t帧与片段[m,n)的距离计算得出的,计算公式为:
Figure FDA0003083709650000028
式中,TempEmbed()表示绝对时序编码或相对时序编码,
Figure FDA0003083709650000031
表示在经视频编码后的视频特征中再次引入绝对时序编码或相对时序编码之后的第t帧的帧特征,当m≤t<n时,表示片段内帧特征,当t<m和t≥n时,表示片段外帧特征;
将编码后的片段外帧特征相结合,表示为
Figure FDA0003083709650000032
为方便表达,将
Figure FDA0003083709650000033
表示为片段[m,n)的初始上下文特征
Figure FDA0003083709650000034
5.根据权利要求1所述的一种基于自注意力机制的电子商务视频高光检测方法,其特征在于,步骤5)所述的片段编码器采用自注意力模型。
6.根据权利要求1所述的一种基于自注意力机制的电子商务视频高光检测方法,其特征在于,步骤5)所述的上下文特征zc的计算公式为:
e=wTtanh(Wzw+UXc+b)=[e1,...,eT-n+m]T
βj=softmax(ej)
Figure FDA0003083709650000035
其中,W,U,w和b是可学习参数,上角标T表示转置;e为中间变量,zw为中间片段特征,Xc为初始上下文特征,ej为中间变量e中的第j个值,βj为ej的归一化值,
Figure FDA0003083709650000036
为初始上下文特征中的第j个值。
7.根据权利要求1所述的一种基于自注意力机制的电子商务视频高光检测方法,其特征在于,所述步骤6)具体为:
选择高光分数最高的k个片段作为候选片段,将k个候选片段的中间片段特征组合成候选中间片段特征集合
Figure FDA0003083709650000037
其中
Figure FDA0003083709650000038
表示第i个候选片段的中间片段特征;将Zk作为自注意力模块的输入,得到输出的自注意力向量
Figure FDA0003083709650000039
其中
Figure FDA00030837096500000310
第i个候选片段对应的自注意力模块的输出;
利用MLP模型获得每个候选片段的高光分数变化量:
Figure FDA00030837096500000311
其中,Δsw为高光分数变化量;
计算得到每一个候选片段的最终分数s′w=sw+α·Δsw,α为权重参数。
8.一种基于权利要求1所述的自注意力机制的电子商务视频高光检测方法的检测系统,其特征在于,包括:
视频预处理模块,其用于对视频进行均匀采样获取帧集合,通过一个预先训练的特征提取器来获得帧特征;
绝对时序编码模块,其用于将帧特征与绝对时序编码相加,将帧间位置关系编码到整个视频中,得到包含绝对时序信息的帧特征;
视频编码器,其用于处理包含绝对时序信息的帧特征,得到编码后的帧特征;
视频片段划分模块,其用于将视频划分为视频片段,将每个视频片段对应的帧特征划分为两个部分:片段内帧特征和片段外帧特征;所述的片段外帧特征包括片段前帧特征和片段后帧特征;在片段内帧特征中引入绝对时序编码,得到编码后的片段内帧特征;在片段前帧特征和片段后帧特征中分别引入相对编码,得到编码后的片段前帧特征和编码后的片段后帧特征;将编码后的片段前帧特征和编码后的片段后帧特征相结合,作为初始上下文特征;
初步筛选模块,其首先将编码后的片段内帧特征传递给片段编码器生成初始片段特征,然后利用池化层获得中间片段特征;将中间片段特征和初始上下文特征作为加性注意力模块的输入,得到上下文特征;将上下文特征和中间片段特征相结合,得到结合了上下文信息的最终片段特征,通过MLP模型获得视频片段的高光分数;
二次筛选模块,其用于选择高光分数最高的k个视频片段作为候选片段,使用自注意力模块和MLP模型生成每个候选片段的高光分数变化量,将初步筛选模块生成的高光分数与高光分数变化量之和作为候选片段的最终分数,将最终分数最高的候选片段作为高光片段输出。
CN202110403571.XA 2021-04-15 2021-04-15 基于自注意力机制的电子商务视频高光检测方法及系统 Active CN112801076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110403571.XA CN112801076B (zh) 2021-04-15 2021-04-15 基于自注意力机制的电子商务视频高光检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110403571.XA CN112801076B (zh) 2021-04-15 2021-04-15 基于自注意力机制的电子商务视频高光检测方法及系统

Publications (2)

Publication Number Publication Date
CN112801076A CN112801076A (zh) 2021-05-14
CN112801076B true CN112801076B (zh) 2021-08-03

Family

ID=75811452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403571.XA Active CN112801076B (zh) 2021-04-15 2021-04-15 基于自注意力机制的电子商务视频高光检测方法及系统

Country Status (1)

Country Link
CN (1) CN112801076B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177940A (zh) * 2021-05-26 2021-07-27 复旦大学附属中山医院 基于Transformer的胃镜视频部位识别网络结构

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276767A (zh) * 2019-06-28 2019-09-24 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110458192A (zh) * 2019-07-05 2019-11-15 中国地质大学(武汉) 基于视觉显著性的高光谱遥感图像分类方法及系统
CN110473185A (zh) * 2019-08-07 2019-11-19 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222010A (zh) * 2020-01-14 2020-06-02 浙江大学 一种使用语义补全神经网络来解决视频时序定位问题的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276767A (zh) * 2019-06-28 2019-09-24 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN110458192A (zh) * 2019-07-05 2019-11-15 中国地质大学(武汉) 基于视觉显著性的高光谱遥感图像分类方法及系统
CN110473185A (zh) * 2019-08-07 2019-11-19 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种简单的单幅灰度图像高光检测与恢复方法;尹芳等;《哈尔滨理工大学学报》;20180430;第23卷(第2期);全文 *

Also Published As

Publication number Publication date
CN112801076A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Yoon et al. Data valuation using reinforcement learning
Wu et al. Session-based recommendation with graph neural networks
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
Lin et al. Deep hierarchical LSTM networks with attention for video summarization
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN112364976B (zh) 基于会话推荐系统的用户偏好预测方法
CN109871736B (zh) 自然语言描述信息的生成方法及装置
CN114493755B (zh) 一种融合时序信息的自注意力序列推荐方法
CN110019943A (zh) 视频推荐方法、装置、电子设备和存储介质
CN111581520A (zh) 基于会话中物品重要性的物品推荐方法和系统
CN110738314B (zh) 一种基于深度迁移网络的点击率预测方法及装置
CN111259243A (zh) 基于会话的并行推荐方法及系统
CN112258262A (zh) 一种基于卷积自注意力网络的会话推荐方法
CN110781401A (zh) 一种基于协同自回归流实现的Top-n项目推荐方法
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN107506479B (zh) 一种对象推荐方法和装置
CN112801076B (zh) 基于自注意力机制的电子商务视频高光检测方法及系统
CN115471771A (zh) 一种基于语义级时序关联建模的视频时序动作定位方法
CN116703857A (zh) 一种基于时空域感知的视频动作质量评价方法
CN114925270A (zh) 一种会话推荐方法和模型
CN115129829A (zh) 问答计算方法、服务器及存储介质
Gui et al. Training recurrent neural network on distributed representation space for session-based recommendation
CN117036783A (zh) 低延时纵向联邦学习的信息分类系统、方法及应用
CN113868466B (zh) 视频推荐的方法、装置、设备和存储介质
CN115293812A (zh) 一种基于长短期兴趣的电商平台会话感知推荐预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant