CN112801076B

CN112801076B - 基于自注意力机制的电子商务视频高光检测方法及系统

Info

Publication number: CN112801076B
Application number: CN202110403571.XA
Authority: CN
Inventors: 陈佳伟; 赵洲; 周楚程; 刘瑞涛; 汪达舟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-04-15
Filing date: 2021-04-15
Publication date: 2021-08-03
Anticipated expiration: 2041-04-15
Also published as: CN112801076A

Abstract

本发明公开了一种基于自注意力机制的电子商务视频高光检测方法及系统，属于视频高光检测领域。整个检测过程分为两个阶段，在第一阶段将视频分成待检测片段和上下文片段，分别通过绝对时序编码和相对时序编码将其位置关系编码到整个视频中，通过加性注意力机制和自注意力机制将得出候选分数较高的若干候选片段；在第二阶段，从生成的若干候选片段中选择最好的得分最高的片段作为最后的高光片段输出。本发明基于自注意机制，利用绝对位置编码和相对位置编码，能够综合考虑片段与上下文以及片段和整体的关系，在高光检测中所取得的效果相比于传统的方法更好，精度更高。

Description

基于自注意力机制的电子商务视频高光检测方法及系统

技术领域

本发明涉及视频高光检测领域，尤其涉及一种基于自注意力机制的电子商务视频高光检测方法及系统。

背景技术

在电子商务中，介绍视频是展示产品特点和使用情况的重要媒介。在产品推荐流中，通常采用视频高光检测方法捕捉最吸引人的片段并展示给消费者，从而提高产品的点击率。然而，目前的研究方法应用于实际场景的效果并不令人满意，与其他视频理解任务相比，视频高光检测相对抽象和主观。

以往关于普通视频高光检测任务的方法在电子商务场景中存在一些缺陷。例如，Mrigank Rochan提出的方法计算每个采样帧的分数，而不考虑整个高光片段，而作为整体的视频片段对电子商务产品显示有时至关重要。Yingying Zhang使用图神经网络(GNN)建立模型，但没有利用时间信息，这可能包含电子商务想要销售的服务的信息。同时，使用GNN进行大型数据集的训练和推理消耗大量时间。Yifan Jiao使用3D注意力卷积跨越不同片段，但忽略了长期的片段间关系。Kaiyang Zhou将LSTM应用于时间关系的建模，但正如Ashish Vaswani指出的，基于RNN的模型排除了并行化训练的可能性，并存在长期依赖问题。

本发明提出了一种电子商务场景下的视频高光检测方法及系统，将第一阶段输出的候选片段进行下一阶段的比较，整体算法模仿人类遇到这样的问题时的情景，其首先选择少量的比较可能的候选对象，然后仔细考虑这些选择对象，以确定最终的正确答案。

发明内容

本发明提供了一种基于自注意力机制的电子商务视频高光检测方法及系统，解决了现有的高光检测算法无法很好应用于电子商务场景下的问题，提高了针对电子商务场景下的视频高光检测的表现。

为了实现上述目的，本发明采用如下技术方案：

一种基于自注意力机制的电子商务视频高光检测方法，包括以下步骤：

1）对视频进行均匀采样获取帧集合

，其中T是视频中的总帧数，

表示视频中的第t帧；通过一个预先训练的特征提取器来获得帧特征

，其中

表示视频中的第t帧的帧特征；

2）帧特征与绝对时序编码相加，将帧间位置关系编码到整个视频中，得到包含绝对时序信息的帧特征；

3）创建视频编码器处理包含绝对时序信息的帧特征，得到编码后的帧特征；

4）将视频划分为视频片段，将每个视频片段对应的帧特征划分为两个部分：片段内帧特征和片段外帧特征；所述的片段外帧特征包括片段前帧特征和片段后帧特征；

在片段内帧特征中引入绝对时序编码，得到编码后的片段内帧特征；在片段前帧特征和片段后帧特征中分别引入相对编码，得到编码后的片段前帧特征和编码后的片段后帧特征；将编码后的片段前帧特征和编码后的片段后帧特征相结合，作为初始上下文特征；

5）将编码后的片段内帧特征传递给片段编码器生成初始片段特征

，然后利用池化层获得中间片段特征

；将中间片段特征

和初始上下文特征作为加性注意力模块的输入，得到上下文特征

；将上下文特征

和中间片段特征

相结合，得到结合了上下文信息的最终片段特征，通过MLP模型获得视频片段的高光分数

；

6）选择高光分数最高的k个视频片段作为候选片段，使用自注意力模块和MLP模型生成每个候选片段的高光分数变化量，将步骤5）生成的高光分数与高光分数变化量之和作为候选片段的最终分数

，将最终分数最高的候选片段作为高光片段输出。

与现有技术相比，本发明的优势在于：

本发明提出了一种适用于电子商务场景下的视频高光检测方法，分为两个阶段，在第一阶段将视频分成待检测片段和上下文片段，分别通过绝对时序编码和相对时序编码将其位置关系编码到整个视频中，通过加性注意力机制和自注意力机制将得出候选分数较高的若干候选片段；在第二阶段，从生成的若干候选片段中选择最好的得分最高的片段作为最后的高光片段输出。

其中，在第一阶段中基于自注意机制，利用绝对位置编码和相对位置编码，能够综合考虑片段与上下文以及片段和整体的关系，在第二阶段中引入新的比较模块来选择高光片段，将高光检测视做一个多选择问题，在概率最高的候选片段中选择出正确的高光片段，使高光检测适合于工业环境，在高光检测中所取得的效果相比于传统的方法精度更高，最终获得的高光片段有助于客户高效的浏览商品，节约选择商品的时间。

附图说明

图1为本发明方法的模型框架设计图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案做更进一步地描述。此外，本发明中所描述的实施例仅仅是作为一部分的实施例，而不是全部的实施例。

如图1所示，本发明提出的基于自注意力机制的电子商务视频高光检测方法，可以分为两个阶段，第一阶段基于注意力机制生成候选片段的高光分数，第二阶段基于比较模块实现对候选片段的进一步筛选。

第一阶段主要包括以下步骤：

步骤1：对视频进行均匀采样获取帧集合

，其中T是视频中的总帧数，

，其中

表示视频中的第t帧的帧特征。

步骤2：帧特征与绝对时序编码相加，将帧间位置关系编码到整个视频中，得到包含绝对时序信息的帧特征。

步骤3：创建视频编码器处理包含绝对时序信息的帧特征，得到编码后的帧特征。

步骤4：将视频划分为视频片段，将每个视频片段对应的帧特征划分为两个部分：片段内帧特征和片段外帧特征；所述的片段外帧特征包括片段前帧特征和片段后帧特征。

在片段内帧特征中引入绝对时序编码，得到编码后的片段内帧特征；在片段前帧特征和片段后帧特征中分别引入相对编码，得到编码后的片段前帧特征和编码后的片段后帧特征；将编码后的片段前帧特征和编码后的片段后帧特征相结合，作为初始上下文特征。

步骤5：将编码后的片段内帧特征传递给片段编码器生成初始片段特征

，然后利用池化层获得中间片段特征

；将中间片段特征

和初始上下文特征作为加性注意力模块的输入，使得该片段关注上下文帧信息，得到上下文特征

；该上下文特征表示片段上下文的信息。

将上下文特征

和中间片段特征

；本实施例中，通过构建加权成对排序损失 L来优化MLP模型，使正片段的分数更高，负片段分数更低。

第二阶段主要包括以下步骤：

步骤6：选择高光分数最高的k个视频片段作为候选片段，使用自注意力模块和MLP 模型生成每个候选片段的高光分数变化量，高光分数变化量被视为第一阶段产生的分数的变化，将步骤5）生成的高光分数与高光分数变化量之和作为候选片段的最终分数

，将最终分数最高的片段作为高光片段输出。

在本发明的具体实施中，步骤1为视频的预处理过程，在预处理过程中使用的预先训练的特征提取器选自多层Transformer编码器，其中自注意结构是其关键组成部分。在自然语言处理的许多子领域中Transformer已经证明了它在捕获长依赖关系方面的强大能力，本发明将其用于视频高光检测中。将特征提取器输出的帧特征表示为

，其中

，其中d是帧特征的维度。

由于自注意机制在被传递到视频编码器之前并不能明确地捕捉序列关系，步骤2 中对由预先训练的特征提取器获得的帧特征进行了绝对时序编码，将帧特征

与视频帧的绝对时序编码相加，获得包含绝对时序信息的帧特征

，将帧间位置关系编码到了整个视频中，公式为：

其中，

表示第t帧的绝对时序编码；

，该绝对时序编码与片段编码器的绝对时序编码不同，

为帧特征

中的第t个元素，对应于第t帧的帧特征，最终得到的包含绝对时序信息的帧特征表示为

，与帧特征X中的元素一一对应。

步骤3中采用的视频编码器用于对包含绝对时序信息的帧特征进行处理，优选自注意力模块作为视频编码器，由于自注意模块是Transformer编码器的关键组成部分，此处也可采用Transformer编码器。本实施例中，将自注意力模块的输出表示为

，即编码后的帧特征，其中

表示第t帧编码后的帧特征。计算公式为：

其中

，

为包含绝对时序信息的帧特征。

步骤4针对于视频中的一个片段，将该片段包含的帧范围表示为

，即从该视频中的第m帧开始，到该视频中的第n-1帧截止。将该片段内的编码后的帧特征表示为

。将包含的帧范围为

的片段作为该片段的前片段，其编码后的帧特征称为段前帧特征，表示为

；将包含的帧范围为

的片段作为该片段的后片段，其编码后的帧特征称为段后帧特征，表示为

。

对于片段内的帧，使用绝对时序编码来捕获它们在片段内的时间关系，其中第t帧的时序编码是由片段

的开始和t的偏移量计算得出的。对片段外的帧(即片段之前/ 之后的帧)，使用相对时序编码来捕获它们各自与片段的相对时间关系。第t帧的时序编码是由第t帧与片段

的距离计算得出的：

式中，

表示在经视频编码后的视频特征中再次引入时序编码后的第t帧的帧特征，

时，表示片段内帧特征，

和

时，表示片段外帧特征；

将片段外帧特征相结合，表示为

，为方便表达，将

表示为片段

的初始上下文特征

。

步骤5将片段内帧特征传递给片段编码器生成初始片段特征

，此处的片段编码器优选为注意力模块，可以与上述中的视频编码器结构相同。将片段内帧特征

作为自注意力模块的输入，将自注意力模块的输出表示为

，

为第m帧对应的片段编码器的输出，计算公式为：

其中

。

然后利用池化层获得中间片段特征

，计算公式为：

将中间片段特征

；计算公式为：

其中，W，U，w和b是可学习参数，

上角标T表示转置；e为中间变量，

为中间片段特征，

为初始上下文特征，

为中间变量e中的第j个值，

为

的归一化值，

为初始上下文特征中的第j个值。

将上下文特征

和中间片段特征

相结合，得到结合了上下文信息的最终片段特征，通过MLP模型获得片段的高光分数

；计算公式为：

上述MLP模型的损失函数采用加权成对排序损失，计算公式为：

其中，

为防止模型过拟合的参数，

；正片段是采样片段与数据集中高光片段重合度大于50%的，负片段是采样片段与数据集中高光片段重合度小于50%的，当重合片段刚好为50%时随机标记，

是正负片段对组成的集合，

表示片段对的数量；

表示正负片段的重合参数，

表示正片段的高光预测分数，

表示负片段的高光预测分数，

为加权成对排序损失。

步骤6设计了一种比较模块来实现上述功能。

设计比较模块的动机是，当一个人面对一个有很多选项的多项选择题时，她/他最有可能会首先选一些最大概率的候选选项，然后仔细考虑最终候选，从多个候选中选择一个作为问题的最终答案。受此启发，本申请设计了一个新颖的模块，称为比较模块，用于模拟做多项选择题的过程。

比较模块的输入是三元组

，其中

是片段的索引变量，

分别是片段的高光分数和中间片段特征。

比较模块的主要组成部分是自注意力模块，它涉及查询和键之间的成对交互，把自我注意的过程看作比较。由比较模块筛选出高光分数最高的k个片段，其中片段的索引

。将k个候选片段的中间片段特征组合成候选中间片段特征集合

，其中

表示第i个候选片段的中间片段特征；

。通过包含查询和键之间的成对交互的自注意力模块获得自注意力向量

，其中

第i个候选片段对应的自注意力模块的输出；

其中，

，T表示转置。

利用MLP模型获得每个候选片段的高光分数变化量：

其中，

为高光分数变化量；

计算得到每一个候选片段的最终分数

，

为权重参数。将得分最高的片段作为高光片段输出。

与前述的基于自注意力机制的电子商务视频高光检测方法的实施例相对应，本申请还提供了一种基于自注意力机制的电子商务视频高光检测系统的实施例，其包括：

视频预处理模块，其用于对视频进行均匀采样获取帧集合，通过一个预先训练的特征提取器来获得帧特征；

绝对时序编码模块，其用于将帧特征与绝对时序编码相加，将帧间位置关系编码到整个视频中，得到包含绝对时序信息的帧特征；

视频编码器，其用于处理包含绝对时序信息的帧特征，得到编码后的帧特征；

视频片段划分模块，其用于将视频划分为视频片段，将每个视频片段对应的帧特征划分为两个部分：片段内帧特征和片段外帧特征；所述的片段外帧特征包括片段前帧特征和片段后帧特征；在片段内帧特征中引入绝对时序编码，得到编码后的片段内帧特征；在片段前帧特征和片段后帧特征中分别引入相对编码，得到编码后的片段前帧特征和编码后的片段后帧特征；将编码后的片段前帧特征和编码后的片段后帧特征相结合，作为初始上下文特征；

初步筛选模块，其首先将编码后的片段内帧特征传递给片段编码器生成初始片段特征，然后利用池化层获得中间片段特征；将中间片段特征和初始上下文特征作为加性注意力模块的输入，得到上下文特征；将上下文特征和中间片段特征相结合，得到结合了上下文信息的最终片段特征，通过MLP模型获得视频片段的高光分数；

二次筛选模块，其用于选择高光分数最高的k个视频片段作为候选片段，使用自注意力模块和MLP模型生成每个候选片段的高光分数变化量，将初步筛选模块生成的高光分数与高光分数变化量之和作为候选片段的最终分数，将最终分数最高的候选片段作为高光片段输出。

关于上述实施例中的系统，其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为初步筛选模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

实施例

本发明在淘宝数据集和YouTube高光视频集进行了对比实验。具体实施步骤同上，不再赘述。

淘宝数据集：

该数据集包括约十万条视频作为训练集，5863个视频作为验证集。每一个视频包括五秒的高光片段，数据以<原视频，高光片段>的形式给出。这些数据从淘宝平台获得，由淘宝达人制作，有着较高的质量。利用pHash*算法定位出高光片段在原始视频中的位置。随机选择五秒钟和高光片段不重合的视频作为非高光片段。最终获得实验所需数据，其中每一天数据的格式为<原始视频，高光片段起始时刻，非高光片段起始时刻>，将所有高光片段起始时间早于视频开始前三秒的数据剔除，因为这些数据很可能是用户随意选择的，缺乏可靠性。该数据集大多数视频的时长在200秒以下，所以在训练模型时只使用时长小于两百秒的视频。

YouTube高光视频集：

该数据集包含体操、跑酷、滑冰、滑雪、冲浪和狗这六个视频种类，每一个视频分成若干个片段，每个片段有一个标签，标签根据视频内容可能是高光、非高光和普通中的一种，在模型训练中，只关注高光片段和非高光片段，每一个片段大约包含100帧。

评价指标：

对于淘宝数据集，使用pairwise accuracy来作为评价指标：

对于YouTube数据集，采用mean average accuracy (mAP)作为评价指标。

实施细节：

使用Inception v4来获取视频帧中的特征，特征向量的维度为1536。视频编码器和片段编码器分别有4层和6层，变化器有8个头。

分别被设置为1536、2048、 2048、2048。损失权重

设置为0.5，全局丢弃率设置为0.2。使用Adam优化器，将学习率设置为1e^-5，权重衰减设置为1e^-7。

在YouTube数据集的验证效果如下述表格所示：

从YouTube数据集上的比较结果可以看出，本发明效果高于平均基线，并且在体操、滑雪和冲浪等项目上表现得尤为突出。

在淘宝数据集的验证效果如下述表格所示：

从淘宝数据集上的比较结果可以看出，本发明的效果有了显著的提升，即使从本发明中删除第二阶段的比较模块，直接将第一阶段得分最高的片段作为最终结果，也仍高于传统模型Pairwise-C3D。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于自注意力机制的电子商务视频高光检测方法，其特征在于，包括以下步骤：

1)对视频进行均匀采样获取帧集合，通过一个预先训练的特征提取器来获得帧特征；

2)帧特征与绝对时序编码相加，将帧间位置关系编码到整个视频中，得到包含绝对时序信息的帧特征；

3)创建视频编码器处理包含绝对时序信息的帧特征，得到编码后的帧特征；

4)将视频划分为视频片段，将每个视频片段对应的帧特征划分为两个部分：片段内帧特征和片段外帧特征；所述的片段外帧特征包括片段前帧特征和片段后帧特征；

5)将编码后的片段内帧特征传递给片段编码器生成初始片段特征X_w，然后利用池化层获得中间片段特征z_w；将中间片段特征z_w和初始上下文特征作为加性注意力模块的输入，得到上下文特征z_c；将上下文特征z_c和中间片段特征z_w相结合，得到结合了上下文信息的最终片段特征，通过MLP模型获得视频片段的高光分数s_w；所述MLP模型的损失函数采用加权成对排序损失，计算公式为：