CN115190357A

CN115190357A - 一种视频摘要生成方法和装置

Info

Publication number: CN115190357A
Application number: CN202210790685.9A
Authority: CN
Inventors: 唐兰林; 俞江; 葛玲玲; 丁琳
Original assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Current assignee: Samsung Electronics China R&D Center; Samsung Electronics Co Ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-10-14
Anticipated expiration: 2042-07-05
Also published as: US20240015372A1; CN115190357B

Abstract

本申请公开了一种视频摘要生成方法和装置，其中方法包括：基于用户的行为数据，采用自注意力计算方式，生成所述用户的注意力编码参数；基于所述用户的注意力编码参数，确定目标视频的每个片段是否为所述用户的兴趣片段，并从所述兴趣片段中提取出兴趣帧；采用注意力计算方式，对所述兴趣帧进行融合处理，得到所述目标视频的视频摘要。采用本申请，可以提高视频摘要的生成效率，降低应用成本，并且有利于提高视频观看率。

Description

一种视频摘要生成方法和装置

技术领域

本发明涉及计算机视觉技术，特别是涉及一种视频摘要生成方法和装置。

背景技术

目前，很多视频平台为用户提供了视频相关的多种服务。例如，视频观看服务、视频上传服务和付费视频服务等。

面对大量的视频数据和冗长的视频内容，为了提高视频观看率，视频制作方和视频平台通常会对视频进行剪辑，从视频中提取出部分帧合成新的视频(即视频摘要)，以帮助用户快速浏览和理解内容。

发明人在实现本发明的过程中发现：现有的视频摘要生成方案存在效率低、成本高、提升视频观看率的效果差等问题。具体原因分析如下：

现有的视频摘要生成方案中，视频剪辑主要还是依靠人工浏览视频，将包含重要信息的帧组合在一起获得视频摘要，这样，需要人工浏览大量的视频，导致生成视频摘要的成本高且效率低。

另外，人工提取视频关键帧或关键片段时主要是基于预设的规则，包括屏幕变化、音频变化或匹配预定义的屏幕标签等。由于这些规则具有普适性，只能迎合大多数用户的喜好。而在实际应用中，不同用户可能具有不同的偏好，相应地，在同一个视频中不同用户喜欢的视频内容也会不同。这样，所提取的视频关键帧或关键片段并不能与每个用户的兴趣相匹配，即视频中用户感兴趣的内容可能不会呈现在视频摘要中，如此，则无法有效吸引用户选择观看该视频，从而无法有效提升视频观看率。

发明内容

有鉴于此，本发明的主要目的在于提供一种视频摘要生成方法和装置，可以提高视频摘要的生成效率、降低应用成本、且有利于提高视频观看率。

为了达到上述目的，本发明实施例提出的技术方案为：

一种视频摘要生成方法，包括：

基于用户的行为数据，采用自注意力计算方式，生成所述用户的注意力编码参数；

基于所述用户的注意力编码参数，确定目标视频的每个片段是否为所述用户的兴趣片段，并从所述兴趣片段中提取出兴趣帧；

采用注意力计算方式，对所述兴趣帧进行融合处理，得到所述目标视频的视频摘要。

本发明实施例还提出一种视频摘要生成装置，包括：

用户注意力参数生成单元，用于基于用户的行为数据，采用自注意力计算方式，生成所述用户的注意力编码参数；

兴趣帧提取单元，用于基于所述用户的注意力编码参数，确定目标视频的每个片段是否为所述用户的兴趣片段，并从所述兴趣片段中提取出兴趣帧；

融合处理单元，用于采用注意力计算方式，对所述兴趣帧进行融合处理，得到所述目标视频的视频摘要。

本发明实施例还提出一种视频摘要生成设备，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述视频摘要生成方法。

本发明实施例还提出一种计算机可读存储介质，其中存储有计算机可读指令，该计算机可读指令用于执行如上所述视频摘要生成方法。

本发明实施例还提出一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现如上所述视频摘要生成方法的步骤。

综上所述，本发明实施例提出的视频摘要生成方案中，基于用户的行为数据，获取用户的注意力编码参数，利用用户的注意力编码参数，从目标视频中筛选出用户感兴趣的视频帧，即兴趣帧，最后，基于这些兴趣帧生成最终展示给该用户的视频摘要。如此，可以使得所生成的视频摘要能够与当前浏览用户的观看喜好相匹配，确保将目标视频中用户可能感兴趣的内容通过视频摘要展示给用户，从而有利于提高视频观看率。并且，由于视频摘要的生成过程不需要人工参与，因此，相比于现有依赖人工实现的视频摘要生成方案，有效提高了视频摘要的生成效率，降低了应用成本。

附图说明

图1为本发明实施例的视频摘要生成方法流程示意图；

图2为本发明实施例中生成用户注意力编码参数的示意图；

图3为本发明实施例的用户注意力编码参数生成示例图；

图4为本发明实施例中兴趣片段的选择示意图；

图5为本发明实施例中当兴趣片段不是目标视频中的首个兴趣片段时的帧融合示例图；

图6为本发明实施例中将兴趣片段输入至预先训练的第三注意力计算模型进行处理得到相应注意力矩阵的示例图；

图7为场景一中本发明实施例的应用示例图；

图8为场景二中本发明实施例的应用示例图；

图9为本发明实施例的视频摘要生成装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

为了实现本申请的发明目的，本申请实施例中在视频摘要生成过程中，将考虑用户的个性化观看需求，为每个用户，基于其行为数据，生成能够反映用户个性特征的兴趣数据，并基于该用户的兴趣数据，进行视频剪辑，得到视频摘要。如此，通过基于用户的个性特征自动为其生成视频摘要，一方面，可以使得视频中用户感兴趣的内容尽可能地呈现在为其展示的视频摘要中，从而可以最大程度地吸引用户选择观看该视频，有效提升视频观看率，另一方面可以有效解决现有方案人工生成视频摘要存在的效率低、成本高的问题。

图1为本发明实施例的视频摘要生成方法流程示意图，如图1所示，该实施例主要包括：

步骤101、基于用户的行为数据，采用自注意力计算方式，生成所述用户的注意力编码参数。

本步骤，用于基于用户的行为数据，获取能够反映用户观看喜好的注意力编码参数，以在后续步骤中，基于用户的注意力编码参数，从目标视频中提取出用于生成视频摘要的兴趣帧，以使视频摘要可以最大程度地全面展示用户可能喜好的内容，从而有利于用户基于视频摘要，准确选择其喜欢的视频观看，进而有利于提高视频观看率。

一种实施方式中，所述行为数据具体可以包括所述用户在当前统计窗口内的输入相关信息和观看行为记录。

其中，所述输入相关信息为用户在视频平台中执行信息输入操作的相关信息，具体可以包括输入的内容信息、执行输入操作的时间、执行输入操作的地点和/或设备等，但不限于此。

所述观看行为记录为用户在视频平台观看视频的历史记录，该观看行为记录用以提高进行自我注意力计算时所使用的自注意力计算模型的准确性，具体可以包括用户选择观看过的视频、观看时长、次数等，但不限于此。

所述统计窗口，用于限定用于生成用户注意力编码参数的数据时间范围，具体可由本领域技术人员根据实际需要设置合适取值。

一种实施方式中，如图2所示，具体可以采用下述步骤1011和1012，生成所述用户的注意力编码参数：

步骤1011、对所述用户的行为数据进行编码，得到所述行为数据的向量表示。

这里，通过编码可以得到固定维度的行为数据的向量表示。

本步骤的具体实现为本领域技术人员所掌握，在此不再赘述。

步骤1012、将所述向量表示输入至预设的第一自注意力计算模型进行处理，得到所述用户的注意力编码参数。

本步骤，将利用预先训练的自注意力计算模型，基于步骤1011得到的用户行为数据的向量表示，生成用户的注意力编码参数。自注意力计算模型的具体自注意力计算处理方法同现有技术，即模型的参数矩阵，得到三个张量(Query,Key,Value)，将Query和Key相乘得到相似度矩阵(Weight)，将Weight和Value相乘得到用户的注意力编码参数。

需要说明的是，这里用于获取用户的注意力编码参数的输入数据为用户最近时间段内的行为数据，而该数据是用户最新的行为数据，相应地，基于其所生成的用户的注意力编码参数也可以反映用户最新的观看喜好，因此，所生成的用户注意力编码参数能够始终与动态变化的用户观看喜好相匹配。

图3给出了用户注意力编码参数的生成示例图。如图3所示，同一用户在不同时刻输入相同信息，所生成的用户注意力编码参数也会不同。如图所示，当用户在早上搜索詹姆斯时，所生的用户注意力编码参数所表征的是詹姆斯-综艺节目，当用户在晚上搜索詹姆斯时，所生的用户注意力编码参数所表征的是詹姆斯-电影。

步骤102、基于所述用户的注意力编码参数，确定目标视频的每个片段是否为所述用户的兴趣片段，并从所述兴趣片段中提取出兴趣帧。

这里，考虑到如果展示的视频片段与用户兴趣相关联，那么用户选择观看该视频的概率就会更高。为此，本步骤中将在目标视频中，选择出用户感兴趣的兴趣片段，进而从中选择出用户感兴趣的视频帧，以便在后续步骤中基于所选择的视频帧，生成与用户喜好相匹配的视频摘要。

在实际应用中，可以采用现有方法，将目标视频切分为若干片段，在此不再赘述。

一种实施方式中，如图4所示，步骤102具体可以采用下述方法实现：

对于每个所述片段，对该片段中的每个视频帧进行编码，并将编码得到的所有视频帧向量表示，输入至预设的第二自注意力计算模型进行自注意力处理，得到该片段中每个视频帧的注意力；将该片段对应的所有所述注意力与所述用户的注意力编码参数进行匹配，得到该片段与所述用户之间的匹配值，基于所述匹配值，判断该片段是否为兴趣片段，如果是，则基于所述自注意力处理过程中获得的每个所述注意力对应的帧间权重，从该片段中选择所述帧间权重大于预设兴趣阈值的帧，作为兴趣帧。

上述方法中，对于每个片段，以帧为单位进行编码，计算每个视频帧的注意力，视频帧的注意力与用户的注意力编码参数的维度相同，将每个视频帧的注意力与用户的注意力编码参数分别进行匹配，得到该视频帧的匹配值，然后基于一个片段的所有视频帧的匹配值，得到该片段的匹配值。

上述第二自注意力计算模型进行自注意力处理的具体方法同现有技术，具体按照下述公式，得到一个视频帧的注意力：

Q＝w_qx

K＝w_kx

V＝w_Vx

Weight＝Q*K

Attention＝Weight*V

其中，x表示视频帧的向量表示，w_q为第二自注意力计算模型的Query注意力权重，w_k为第二自注意力计算模型的Key注意力权重；w_v为第二自注意力计算模型的Value注意力权重。Weight为视频注意力的帧间权重，基于该帧间权重，可以提取出权重大的视频帧为兴趣帧。Attention为视频帧的注意力。

上述兴趣阈值用于提取用户感兴趣的视频帧，具体可由本领域技术人员根据实际需要设置合适取值。

在实际应用中，为进一步提高处理效率，步骤102中可以对视频片段进行并行处理。

步骤103、采用注意力计算方式，对所述兴趣帧进行融合处理，得到所述目标视频的视频摘要。

这里，由于基于步骤102提取出的兴趣帧，生成视频摘要，因此，可以使得所生成的视频摘要能够与用户的观看喜好相匹配，确保视频摘要可以最大程度地包含用户可能感兴趣的内容，这样，用户通过观看视频摘要，即可准确判断是否有兴趣观看目标视频，避免由于目标视频中用户感兴趣的内容未在视频摘要中展示，而导致用户错过观看其喜欢的目标视频的问题，从而有利于提高视频观看率。

一种实施方式中，步骤103中具体可以采用下述方法对所述兴趣帧进行融合处理：

依次遍历每个所述兴趣片段C_i，基于该兴趣片段C_i中的兴趣帧进行融合处理。

其中，对于每个兴趣片段C_i，需要区分其是否为首个兴趣片段，采用不同的融合处理方法，具体如下：

如果兴趣片段C_i为目标视频中的首个兴趣片段，则将该兴趣片段C_i中的所有兴趣帧，按照时间顺序进行拼接融合，将拼接融合结果作为当前的视频摘要。

如果兴趣片段C_i不是目标视频中的首个兴趣片段，则将该兴趣片段C_i中的所述兴趣帧、当前的视频摘要以及相应的摘要时长，输入至预设的第三注意力计算模型进行处理，得到该兴趣片段C_i中的每个所述兴趣帧与当前视频摘要中的每个视频帧之间的关系类型；基于所述关系类型，将该兴趣片段C_i中的每个所述兴趣帧与当前的视频摘要进行拼接融合，如果该兴趣片段C_i为所述目标视频中的最后一个兴趣片段，则将当前所述拼接融合的结果作为所述目标视频的视频摘要，否则，将当前的视频摘要更新为当前所述拼接融合的结果。

一种实施方式中，所述关系类型包括附加帧、替换帧、融合帧和丢弃帧。

图5给出了兴趣片段C_i不是目标视频中的首个兴趣片段时的融合示例图。如图5所示，将兴趣片段C_i输入至预先训练的第三注意力计算模型进行处理后，将得到相应的注意力矩阵(如图6中示例所示)，基于该注意力矩阵，即可获知该兴趣片段C_i中的每个所述兴趣帧与当前视频摘要中的每个视频帧之间的关系类型。基于这些关系类型进行融合，可以确保更好的融合效果。如图6所示，在将兴趣片段C_i中的兴趣帧与当前已生成的视频摘要融合时，兴趣片段C_i中的兴趣帧F2需要和C2融合才能得到更好的效果，Cn需要用F3代替才能得到更好的效果，Fm应该加在Cn之后。当关系类型为丢弃时，意味着忽略它们即可。

具体地，上述方法中，可以采用现有方法实现帧间融合，在此不再赘述。另外，为了与当前的播放场景要求相匹配，在生成目标视频的视频摘要时，可以按照当前场景的展示尺寸，对视频摘要的尺寸进行设置，以确保目标视频的视频摘要可以在当前场景中获得更好的展示效果。

通过上述方法实施例可以看出，采用上述方案，可以自动生成个性化的视频摘要，并且上述方案可以适应不同的展示场景，自动化生成符合展示尺寸和展示时间的短片，降低了专业人员处理视频的成本，提高剪辑生成的效率，克服了固定参数剪辑视频的局限性。对于用户来说，通过个性化的视频摘要，可以更高效地筛选出他们感兴趣的视频，在电视浏览时提供更好的用户体验。对于视频制作方来说，为用户生成各自偏好的视频摘要，可以提高用户的观看率；尤其针对付费视频来说，当剪辑生成的视频预告具有更多与他们兴趣相关联的内容时，用户购买的机率也将更高。另外，上述方案基于用户在设备上的累积操作记录所获得的用户偏好，是一个长期的状态，并且在不断优化，所获得的用户兴趣点也将更加准确。在实际应用中，上述方案可以处理任意长度的视频，并且可以根据用户需要被触发执行，随时根据需要随时中断，输出视频摘要。上述方法中，还可以对视频片段进行并行处理，有效提高了处理效率。

下面结合两个具体应用示例，进一步说明上述方案方法的具体实现。

图7给出了场景一中上述方案的实现示例图，如图所示，用户每次查看新上线/单片付费影片都会看到不同的视频摘要。

图8给出了场景二中上述方案的实现示例图，如图所示，采用上述方案，可以在一个目标视频中提取个性化视频摘要给用户。

基于上述方法实施例，本发明实施例还提出相应的视频摘要生成装置，如图9所示，包括：

用户注意力参数生成单元901，用于基于用户的行为数据，采用自注意力计算方式，生成所述用户的注意力编码参数；

兴趣帧提取单元902，用于基于所述用户的注意力编码参数，确定目标视频的每个片段是否为所述用户的兴趣片段，并从所述兴趣片段中提取出兴趣帧；

融合处理单元903，用于采用注意力计算方式，对所述兴趣帧进行融合处理，得到所述目标视频的视频摘要。

需要说明的是，上述方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此，装置和方法的实施可以相互参见，重复之处不再赘述。

基于上述方法实施例，本发明实施例还提出一种视频摘要生成设备，包括处理器和存储器；所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上所述视频摘要生成方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述视频摘要生成方法实施方式中任一实施方式的功能。

其中，存储器具体可以实施为电可擦可编程只读存储器(EEPROM)、快闪存储器(Flash memory)、可编程程序只读存储器(PROM)等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为CPU或MCU。

本申请实施例实现了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上所述视频摘要生成方法的步骤。

需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。

各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件(如专用处理器，如FPGA或ASIC)用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路(如包括通用处理器或其它可编程处理器)用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路(如由软件进行配置)来实现硬件模块，可以根据成本和时间上的考虑来决定。

在本文中，“示意性”表示“充当实例、例子或说明”，不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。为使图面简洁，各图中的只示意性地表示出了与本发明相关部分，而并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”并不表示将本发明相关部分的数量限制为“仅此一个”，并且“一个”不表示排除本发明相关部分的数量“多于一个”的情形。在本文中，“上”、“下”、“前”、“后”、“左”、“右”、“内”、“外”等仅用于表示相关部分之间的相对位置关系，而非限定这些相关部分的绝对位置。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述行为数据为所述用户在当前统计窗口内的输入相关信息和观看行为记录；所述输入相关信息包括输入的内容信息、执行输入操作的时间和/或执行输入操作的地点。

3.根据权利要求1所述的方法，其特征在于，所述生成所述用户的注意力编码参数包括：

对所述用户的行为数据进行编码，得到所述行为数据的向量表示；

将所述向量表示输入至预设的第一自注意力计算模型进行处理，得到所述用户的注意力编码参数。

4.根据权利要求1所述的方法，其特征在于，所述确定目标视频的每个片段是否为所述用户的兴趣片段，并从所述兴趣片段中提取出兴趣帧包括：

5.根据权利要求1所述的方法，其特征在于，所述对所述兴趣帧进行融合处理包括：

依次遍历每个所述兴趣片段C_i，如果该兴趣片段C_i为所述目标视频中的第一个兴趣片段，则将该兴趣片段C_i中的所有兴趣帧，按照时间顺序进行拼接融合，将拼接融合结果作为当前的视频摘要；否则，将该兴趣片段C_i中的所述兴趣帧、当前的视频摘要以及相应的摘要时长，输入至预设的第三注意力计算模型进行处理，得到该兴趣片段C_i中的每个所述兴趣帧与当前视频摘要中的每个视频帧之间的关系类型；基于所述关系类型，将该兴趣片段C_i中的每个所述兴趣帧与当前的视频摘要进行拼接融合，如果该兴趣片段C_i为所述目标视频中的最后一个兴趣片段，则将当前所述拼接融合的结果作为所述目标视频的视频摘要，否则，将当前的视频摘要更新为当前所述拼接融合的结果。

6.根据权利要求5所述的方法，其特征在于，所述关系类型包括附加帧、替换帧、融合帧和丢弃帧。

7.一种视频摘要生成装置，其特征在于，包括：

8.一种视频摘要生成设备，其特征在于，包括处理器和存储器；

所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至6中任一项所述视频摘要生成方法。

9.一种计算机可读存储介质，其特征在于，其中存储有计算机可读指令，该计算机可读指令用于执行如权利要求1至6中任一项所述视频摘要生成方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1至6中任一项所述视频摘要生成方法的步骤。