CN114363673A

CN114363673A - 视频裁剪方法、模型训练方法及装置

Info

Publication number: CN114363673A
Application number: CN202210023573.0A
Authority: CN
Inventors: 魏承东; 丁杰超; 高睿
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-04-15
Anticipated expiration: 2042-01-10
Also published as: CN114363673B; EP4210334A2; US20230224556A1; EP4210334A3

Abstract

本公开提供了一种用于视频裁剪方法、模型训练方法及装置，涉及视频技术领域，尤其涉及短视频技术领域。其中视频裁剪方法包括：获取针对原始视频文件的互动行为数据；根据该互动行为数据，确定原始视频文件的各个时刻点的互动热度；选取N个互动热度最高的时刻点，将选取的时刻点作为该原始视频文件的兴趣点，N为正整数；分别以各个兴趣点为基准对该原始视频文件进行裁剪，得到N个裁剪后的视频文件。本公开能够生成高质量的短视频文件。

Description

视频裁剪方法、模型训练方法及装置

技术领域

本公开涉及视频技术领域，尤其涉及短视频技术领域，具体涉及一种视频裁剪方法、模型训练方法及装置。

背景技术

随着视频技术的发展和短视频平台的普及，大量的信息都通过的短视频方式传播。如何创建或生成短视频，成为需要解决的技术问题。

发明内容

本公开提供了一种视频裁剪方法、模型训练方法及装置。

根据本公开的一方面，提供了一种视频裁剪方法，包括：

获取针对原始视频文件的互动行为数据；

根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度；

选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，所述N为正整数；

分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件。

根据本公开的另一方面，提供了一种神经网络模型的训练方法，包括：

获取多个样本数据，每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值；

针对各个所述样本数据，将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型，由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；

采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数；

利用所述损失函数调整所述初始神经网络模型的参数，直至所述损失函数收敛，得到训练完成的神经网络模型。

根据本公开的另一方面，提供了一种视频裁剪装置，包括：

数据获取模块，用于获取针对原始视频文件的互动行为数据；

互动热度确定模块，用于根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度；

选取模块，用于选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，所述N为正整数；

初步裁剪模块，用于分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件。

根据本公开的另一方面，提供了一种神经网络模型的训练装置，包括：

样本获取模块，用于获取多个样本数据，每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值；

输入模块，用于针对各个所述样本数据，将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型，由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；

损失函数确定模块，用于采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数；

调整模块，用于利用所述损失函数调整所述初始神经网络模型的参数，直至所述损失函数收敛，得到训练完成的神经网络模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述任一项所述的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据上述任一项所述的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据上述任一项所述的方法。

采用本公开，能够根据用户对原始视频文件的互动行为数据确定原始视频文件中的兴趣点，并以兴趣点为基准对原始视频文件进行裁剪，得到多个裁剪后的视频文件，即短视频。由于裁剪后得到的短视频中包含了原始视频文件中用户最感兴趣的部分，因此这种方式得到的短视频质量较高，更能够符合用户的喜好，具有极高的应用价值。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开一实施例的视频裁剪方法的示意性流程图；

图2是根据本公开另一实施例的视频裁剪方法的示意性流程图；

图3是根据本公开一实施例的视频裁剪方案的流程框图；

图4是根据本公开一实施例的视频裁剪方法中，确定各个时刻点互动热度的方式示意图；

图5是根据本公开一实施例的视频裁剪方法中，确定兴趣点的方式示意图；

图6是根据本公开一实施例的视频裁剪方法中，针对一个兴趣点进行视频裁剪的方式示意图；

图7是根据本公开一实施例的视频裁剪方法中使用的一种神经网络模型架构示意图；

图8是根据本公开一实施例的视频裁剪方法中，根据音量最小的点进行裁剪的方式示意图；

图9是根据本公开一实施例的视频裁剪方法中，确定弹幕对应的文本向量中的中心向量的实现方式示意图；

图10根据本公开一实施例的一种神经网络模型的训练方法的示意性流程图；

图11是根据本公开一实施例的视频裁剪装置的示意性结构图；

图12是根据本公开另一实施例的视频裁剪装置的示意性结构图；

图13是根据本公开一实施例的神经网络模型的训练装置的示意性结构图；

图14是用来实现本公开实施例的视频裁剪方法或神经网络模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的实施例提出一种视频裁剪方法，图1是根据本公开一实施例的视频裁剪方法的示意性流程图，包括：

S110：获取针对原始视频文件的互动行为数据；

S120：根据该互动行为数据，确定该原始视频文件的各个时刻点的互动热度；

S130：选取N个互动热度最高的时刻点，将选取的时刻点作为所该原始视频文件的兴趣点，N为正整数；

S140：分别以各个兴趣点为基准对该原始视频文件进行裁剪，得到N个裁剪后的视频文件。

在一些实施方式中，上述原始视频文件可以包括长度为数小时、数十分钟或近似长度的视频文件，这类视频文件可以称为长视频；裁剪后的视频文件可以为长度为数分钟、数十秒或近似长度的视频文件，这类视频文件可以称为短视频。

以原始视频文件为长视频、裁剪后的视频文件为短视频为例，上述步骤S140中以各个兴趣点为基准对该原始视频文件进行裁剪，得到N个裁剪后的视频文件，可以指对长视频进行裁剪，得到N个短视频，其中每个短视频包含一个上述兴趣点。由于互动热度能够反映用户对视频片段的喜好程度，因此以互动热度最高的时刻点作为兴趣点，能够裁剪出用户感兴趣的多个视频片段作为短视频。

在上述裁剪之后，本公开还可以对裁剪后的视频文件进一步进行裁剪，本次裁剪可以称为二次裁剪，相应地，步骤S140中的裁剪可以称为初步裁剪。图2是根据本公开另一实施例的视频裁剪方法的示意性流程图，如图2所示，在上述步骤S140之后，可以进一步包括：

S250：根据裁剪后的视频文件中的音量信息，对裁剪后的视频文件(也就是初步裁剪后的视频文件)进行二次裁剪。

在上述二次裁剪之后，本公开还可以确定二次裁剪之后的视频文件的标题，以图2所示的方式为例，上述S250之后还可以进一步包括：

S260：根据二次裁剪后的视频文件中的弹幕，确定该二次裁剪后的视频文件的标题。

或者，在一些可能的实施方式中，本公开还可以在上述步骤S140之后，为初步裁剪后的视频文件生成标题，如根据上述初步裁剪后的视频文件中的弹幕，确定初步裁剪后的视频文件的标题。

以下参照附图，对上述各个流程进行详细说明。

图3是根据本公开一实施例的视频裁剪方案的流程框图，如图3所示，本公开提出的一种视频裁剪方案主要包括以下步骤：从视频播放终端(如用户端播放器)收集用户互动行为数据；根据互动行为数据确定互动热度最高的N个时刻点，将互动热度最高的N个时刻点作为N个兴趣点(TopN兴趣点)；针对每个兴趣点确定裁剪的起止时刻点，并采用该起止时刻点进行初步裁剪；针对每个初步裁剪后的视频文件，根据音量信息进行二次裁剪；为裁剪后的视频文件生成标题。

在一些实施方案中，上述获取针对原始视频文件的互动行为数据，包括：

从用户行为数据库中获取针对原始视频文件的互动行为数据；

其中，该用户行为数据库记录来自视频播放终端的多个视频文件的互动行为数据，该多个视频文件的互动行为数据包括各个视频文件的标识、总时长、互动行为及互动行为在该视频文件中的时刻点中的至少一项。

例如，上述视频文件的标识可以包括视频编号(ID)，视频编号可以是视频文件的唯一标号，云端及云端的用户行为数据库能够根据该视频编号唯一地确定一个具体的视频文件。

上述总时长可以包括视频文件总时长。

上述互动行为可以包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。

上述互动行为在视频文件中的时刻点可以包括用户发生该互动行为时在该视频文件播放时长中的时刻点。

例如，一段视频文件的ID为001，总时长为2小时，用户A在播放至第15分钟时点击收藏，在播放至第20分钟时发送弹幕，视频播放终端可以向云端上报用户A的针对该视频文件的互动行为数据，该互动行为数据至少可以包括以下信息：

【视频文件ID＝001；

总时长＝2小时；

互动行为：收藏，对应时刻点：第15分钟；

互动行为：弹幕，对应时刻点：第20分钟。】

针对该视频文件，用户B在播放至第18分钟时点击分享，在播放至第25分钟时发送评论，视频播放终端可以向云端上报用户B的针对该视频文件的互动行为数据，该互动行为数据至少可以包括以下信息：

【视频文件ID＝001；

总时长＝2小时；

互动行为：分享，对应时刻点：第18分钟；

互动行为：评论，对应时刻点：第25分钟。】

云端的用户行为数据库可以统计并保存各个视频播放终端所上报的互动行为数据，如针对前述ID为001的视频文件，用户行为数据库统计用户A和用户B通过视频播放终端上报的互动行为数据可以包括以下信息：

【视频文件ID＝001；

总时长＝2小时；

互动行为：收藏，对应时刻点：第15分钟；

互动行为：分享，对应时刻点：第18分钟；

互动行为：弹幕，对应时刻点：第20分钟。

互动行为：评论，对应时刻点：第25分钟。】

随着视频播放终端上报的互动行为数据的逐渐增多，云端的用户行为数据库统计的针对各个视频文件的互动行为数据也逐渐丰富，因此从云端数据库获取的互动行为数据能够代表大多数用户对视频文件的兴趣。互动行为数据中包括收藏、分享、弹幕、评论、打赏及点赞等多种互动行为，从而能够全方位地体现用户对视频文件的兴趣。

利用用户行为数据库统计并保存的原始视频文件的互动行为数据，可以确定原始视频文件的各个时刻点的互动热度。本公开可以采用滑动窗口确定各个时刻点的互动热度，图4是根据本公开一实施例的视频裁剪方法中，确定各个时刻点互动热度的方式示意图。

如图4所示，本公开实施例可以采用滑动窗口在原始视频文件的时间轴上滑动，该滑动窗口的长度可以为预先设定的时间长度，该滑动窗口滑动的步长为可以原始视频文件中相邻时刻点之间的时间距离；

利用互动行为数据，统计该滑动窗口滑动至各个位置时，滑动窗口范围内的各种互动行为的数量；

将在各个位置统计得到的各种互动行为的数量，分别作为各个时刻点的各种互动行为的数量；

利用上述各个时刻点的各种互动行为的数量，确定各个时刻点的互动热度。

以视频文件X的长度为T、每1秒设置为一个时刻点为例，滑动窗口的长度设置为w(单位为秒)，滑动窗口滑动的步长为1秒。如图4所示，当滑动窗口的起点位于视频文件X的第0秒时，统计滑动窗口范围内(即从第0秒到第w秒范围内)针对视频文件X的各种互动行为的数量，将其作为第0秒这一时刻点的各种互动行为的数量；再计算第0秒的各种互动行为的数量的算术和或加权和，将该算术和或加权和作为第0秒这一时刻点的互动热度。

按照上述步移动滑动窗口，即将滑动窗口的起点滑动至视频文件X的第1秒，统计此时滑动窗口范围内(即从第1秒到第w+1秒范围内)针对视频文件X的各种互动行为的数量，将其作为第1秒这一时刻点的各种互动行为的数量；再计算第1秒的各种互动行为的数量的算术和或加权和，将该算术和或加权和作为第1秒这一时刻点的互动热度。

以此继续，直至滑动窗口滑动至视频文件X的末尾，确定视频文件X的各个时刻点的互动热度。

上述计算互动热度的方式可以为：

互动热度＝收藏数+分享数+弹幕数+评论数+打赏数+点赞数；或者，

互动热度＝A*收藏数+B*分享数+C*弹幕数+D*评论数+E*打赏数+F*点赞数；其中，A、B、C、D、E、F分别为上述各种互动次数的权重，该权重可以根据实际情况或经验值确定。

上述互动热度的计算方式能够兼顾用户的各种互动方式，并且能够根据需要调整用户的不同互动方式在互动热度计算中的权重，从而更精确地体现出各个时刻点的互动热度。

需要说明的是，上述示例仅为举例，本公开实施例并不限制滑动窗口所在位置与计算互动热度的时刻点的对应关系。例如，当滑动窗口的起点位于视频文件X的第0秒时，可以将该滑动窗口范围内针对视频文件X的各种互动行为的数量作为第w/2秒这一时刻点的各种互动行为的数量，并以此计算第w/2秒这一时刻点的互动热度；当滑动窗口的起点位于视频文件X的第1秒时，可以将该滑动窗口范围内针对视频文件X的各种互动行为的数量作为第(1+w/2)秒这一时刻点的各种互动行为的数量，并以此计算第(1+w/2)秒这一时刻点的互动热度。

由于时刻点是一个点、而不是一段时间，统计某个时刻的互动热度意义不大。因此本公开实施方式采用滑动窗口将一个时刻点前后一段时间内的互动热度作为该时刻点的互动热度，这种方式更为合理，也更容易统计。

在一些实施方式中，选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点的方式可以包括：

根据各个时刻点的互动热度，确定互动热度曲线，该互动热度曲线表征各个时刻点的互动热度；

确定互动热度曲线上的多个峰值；

从上述多个峰值中选取N个互动热度最高的时刻点，将选取的时刻点作为原始视频文件的兴趣点。

图5是根据本公开一实施例的视频裁剪方法中，确定兴趣点的方式示意图。如图5所示，根据原始视频文件中各个时刻点的互动热度确定互动热度曲线。在图5所示的互动热度曲线中，横轴表示时间，横轴上的每个点表示一个时刻点；纵轴表示各个时刻点对应的互动热度。在互动热度曲线上确定峰值，如果一个时刻点的互动热度高于其相邻时刻点的互动热度，则该时刻点可以认为是对应一个峰值；之后，从确定出的多个峰值中选取互动热度最高的N个时刻点，将选择的N个时刻点作为TopN兴趣点。图5的示例中确定出了4个兴趣点。

从峰值中选择兴趣点，避免了最终确定的兴趣点集中于某个或少数几个区域，从而最终裁剪得到的短视频能够分布于长视频的多个区域。

例如，按照互动热度降序排序，取互动热度最高的N个时刻点作为兴趣点，将N个兴趣点记作topN＝[t(1),t(2),t(3),...,t(i),...,t(n)]。在实际的应用场景中N的取值可以根据业务需要，至少存在以下两种方法：

1)根据预先设置确定兴趣点的个数N。例如，设定具体的兴趣点个数，比如设定N＝5，意思为取互动热度最高的5个点为兴趣点；

2)根据原始视频文件的长度及预定比例，确定兴趣点的个数N。

例如，假定预定比例为3％，原始视频文件长度为T，设定N＝int(T*3％)，意思为取原始视频文件长度的3％求整数作为兴趣点个数。

在确定出N个兴趣点之后，可以以各个兴趣点为基准对原始视频文件进行裁剪，得到N个裁剪后的视频文件，每个裁剪后的视频文件中均包含一个兴趣点。

上述实施方式提供了两种不同的确定兴趣点数量的方式，实现了按照需要确定最终生成的短视频数量。

在一些实施方式中，针对各个兴趣点，可以执行采用以下方式进行裁剪：

确定兴趣点前后的多个时刻点的各种互动行为的数量；

将该兴趣点前后的多个时刻点的各种互动行为的数量、以及该兴趣点的各种互动行为的数量输入预先训练的神经网络模型，得到该兴趣点与裁剪起点之间的第一时间距离预测值、以及该兴趣点与裁剪终点之间的第二时间距离预测值；

根据兴趣点、第一时间距离预测值和第二时间距离预测值，确定裁剪起点和所述裁剪终点；

在该裁剪起点和裁剪终点对原始视频文件进行裁剪，得到裁剪后的视频文件。

对各个兴趣点均采用上述方式进行裁剪，最终可以得到N个裁剪后的是文件，每个裁剪后的视频文件中包含一个上述兴趣点。

图6是根据本公开一实施例的视频裁剪方法中，针对一个兴趣点进行视频裁剪的方式示意图。

如图6所示，在确定topN兴趣点后，对其中任何一个兴趣点t(i)，确定该兴趣点t(i)前后的m个时刻点的各种互动行为的数量；以相邻时刻点的时间间隔为1s为例，即确定t(i))i时间长度范围内各种互动行为的数量。将t(i))i时间长度范围各个时刻点(包括兴趣点，兴趣点是一个特殊的时刻点)内各种互动行为的数量作为神经网络模型的输入X，如下表1所示：

表1

神经网络模型的输出Y可以包括该兴趣点t(i)与裁剪起点之间(如图6中的a(i))的第一时间距离预测值(如记为p’(i))、以及该兴趣点t(i)与裁剪终点(如图6中的b(i))之间的第二时间距离预测值(如记为q’(i))。

根据兴趣点t(i)、第一时间距离预测值p’(i)、第二时间距离预测值q’(i)，可以确定出裁剪起点和裁剪终点的位置，即：

a(i)＝t(i)-p’(i)；

b(i)＝t(i)+q’(i)。

在裁剪起点a(i)和裁剪终点b(i)对原始视频文件进行初步裁剪，可以得到初步裁剪后的视频文件，该初步裁剪后的视频文件中包含兴趣点t(i)。

上述方式中，兴趣点前后的多个时刻点的范围(如图6中m的长度)可以采用预定条件确定。例如，根据裁剪后的视频文件的期望长度确定，和/或，根据原始视频文件的长度确定。确定了兴趣点前后的多个时刻点的范围，也就确定了裁剪的范围，从而能够影响裁剪后短视频的长度。

上述神经网络模型可以包括长短期记忆网络(LSTM，Long Short-Term Memory)或LSTM的相关变体。LSTM是一种循环神经网络(RNN，Recurrent Neural Network)的特殊类型，可以有效地解决序列数据的预测问题。图7是根据本公开一实施例的视频裁剪方法中使用的一种神经网络模型架构示意图，包括：输入层(Input Layer)、LSTM层、稠密(Dense)网络、丢弃(Dropout)层等结构，具体各层结构在此不再赘述。

采用预先训练的神经网络模型进行视频裁剪，能够实现快速准确地自动裁剪，完全不需要人工干预，从而大大提高了短视频裁剪的效果和效率，节约人力资源，并且提高用户体验。

本公开还提出上述神经网络模型的训练方式，该训练方式将在后续实施例中详细介绍。

上述采用神经网络模型的裁剪可以认为是对原始视频文件的初步裁剪。由于初步裁剪的边界线处可能正在出现人物对话或者背景声音，这可能会影响裁剪效果，为了改善裁剪效果，本公开可以进一步对初步裁剪后的视频文件进行二次裁剪，即进行微调，从而避免最终得到的短视频开始或终止于一句话的中间，影响观看感受。例如：

在裁剪后的视频文件的边界范围内，确定裁剪后的视频文件中音量最小的时刻点，在该音量最小的时刻点对裁剪后的视频文件进行二次裁剪；

其中，该边界范围包括与裁剪后的视频文件的起点的时间距离不超过第一时间长度的范围、和/或与裁剪后的视频文件的终点的时间距离不超过第二范围的范围。

以初步裁剪后范围为[t(i)-p’(i)，t(i)+q’(i)]的视频文件为例，本公开实施例可以确定该视频文件的声纹信息，利用该声纹信息，在[t(i)-p’(i)，t(i)-p’(i)+++1]和[t(i)+q’(i)---2，t(i)+q’(i)]两个小范围内分别选择音量最小的时刻作为微调时间点。可见，Δ个小和Δt2确定了进行二次裁剪的边界范围，即可以在与起点t(i)-p’(i)的距离不超过Δt1的范围内、以及与终点t(i)+q’(i)的距离不超过Δt2的范围内进行微调。其中，Δt1和Δt2可以根据经验值设置，Δt1和Δt2可以相同或不同，如将Δt1和Δt2均设置为2秒。图8是根据本公开一实施例的视频裁剪方法中，根据音量最小的点进行裁剪的方式示意图。如图8所示，根据声纹特征，在允许的范围内确定音量最小的点，将该音量最小的点作为二次裁剪的点。

以上完成了对长视频进行裁剪以得到短视频的过程。上述裁剪过程中，首先确定用户感兴趣的多个兴趣点；之后以每个兴趣点为基准、采用预先训练的神经网络模型确定初步裁剪的点，并进行初步裁剪；初步裁剪之后，再根据音量信息对各个初步裁剪后的视频文件进行二次裁剪，从而得到裁剪效果更佳的短视频。

在裁剪出短视频之后，本公开还可以根据短视频中的弹幕信息确定短视频的标题。

例如，根据初步裁剪后的视频文件中的弹幕，确定该裁剪后的视频文件的标题。

或者，根据二次裁剪后的视频文件中的弹幕，确定该二次裁剪后的视频文件的标题。

由于弹幕中包含了用户对短视频内容的评论等信息，既能够体现出短视频内容、又能够体现出用户的喜好、关注点等信息，因此基于已有的弹幕生成标题的成本更低，并且命名效果更好。

以根据二次裁剪后的视频文件中的弹幕，确定该二次裁剪后的视频文件的标题为例，包括：

将在二次裁剪后的视频文件中出现的各个弹幕分别转换为对应的文本向量；

针对各个文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；

将该距离之和最小的文本向量对应的弹幕作为该二次裁剪后的视频文件的标题。

本公开实施方式中，采用文本形式的弹幕生成视频文件的标题。在本公开实施例中所述的弹幕一般指文本弹幕、或者包含文本内容的弹幕。

在一些可能的实施方式中，具体包括以下过程：

第一步，提取二次裁剪后的视频文件中包含的弹幕信息(或称为弹幕文本、弹幕文本信息)，记为：

txt＝[txt(1)，txt(2),...,txt(i),...,txt(n)]

如上例中提取出n个弹幕信息，分别为txt(1)、txt(2)至txt(n)。

第二步，分别将各个弹幕信息转换为文本向量，转换完毕之后，得到n个对应的文本向量，记为：

vec＝[vec(1)，vec(2),...,vec(i),...,vec(n)]

如上例中转换出n个对应的文本向量，分别为vec(1)、vec(2)至vec(n)。

文本向量的转换方式可以采用基于转换器的双向编码器表示(BERT，Bidirectional Encoder Representations from Transformers)模型、使用信息实体的增强语言表示(ERNIE，Enhanced Language Representation with Informative Entities)模型等神经网络模型实现。

第三步，针对各个文本向量，确定该文本向量到其他各个文本向量之间的距离之和。

如，针对上例中每一个文本向量vec(i),求解vec(i)到其他文本向量的距离并加和，记作sum(i).

其中，距离的计算方法可采用夹角余弦(cosine)公式：

在上述夹角余弦(cosine)公式中，X_i和Y_i分别表示两个文本向量(文本向量X和文本向量Y)中的第i个元素；

n表示文本向量X或文本向量Y中元素的个数；

cos(θ)表示文本向量X和文本向量Y的夹角余弦，该夹角余弦能够表示出文本向量X与文本向量Y之间的距离。

在距离计算方式不限于上述方法，也可以采用欧氏距离(Euclidean Distance)等方式，本公开在此不再赘述。

计算完毕后，每一个文本向量到其他文本向量的距离和可以记作：

sum＝[sum(1)，sum(2),...,sum(i),...,sum(n)]

第四步，基于上述步骤中确定的各个文本向量到其他文本向量的距离和列表，确定距离和最小的文本向量对应的弹幕，将确定出的弹幕作为该短视频的标题。

上述过程可以认为是在确定弹幕中心向量。图9是根据本公开一实施例的视频裁剪方法中，确定弹幕对应的文本向量中的中心向量的实现方式示意图，图9示出了多个弹幕对应的文本向量，采用上述方式，确定出弹幕中心向量(如图9中的弹幕N)，即距离其他文本向量的距离之和最小的文本向量。将该文本向量对应的弹幕作为短视频的标题，该弹幕能够代表系统中用户群体针对这段短视频发表的认可度最高的评论信息，因此能够很好地代表短视频的内容或用户对该短视频的观点等，非常适合于作为该短视频的标题。

本公开实施方式还提出其它生成标题的方式，例如，将二次裁剪后的视频文件中的各个弹幕分别进行分词处理，得到多个分词，并统计各个分词在该二次裁剪后的视频文件的所有弹幕中出现的次数；

从多个分词中选取出现次数最多的L个分词，作为重要分词，并根据重要分词出现的次数为该重要分词设定分词分值；其中，L为正整数；

针对二次裁剪后的视频文件中的各个弹幕，确定该弹幕中包含的重要分词，并根据重要分词的分词分值确定所弹幕的弹幕分值；

将弹幕分值最高的弹幕作为二次裁剪后的视频文件的标题。

上述分词之后，可以去除语气词、终止词等不携带实际含义的分词，从剩余的分词中确定出现次数最多的分词作为重要分词。

例如，分词及统计之后，确定出现次数最多的p个分词作为重要分词，包括W1、W2、…Wp；

其中，W1出现次数为100次，W2出现次数为80次，…Wp出现次数为20次，根据出现次数为各个重要分词确定分词分值，如确定W1、W2、…Wp的分词分值分别为100、80、20；

之后，针对各个弹幕，可以确定各个弹幕包含的重要分词，根据重要分词的分词分值作为弹幕的弹幕分值。例如，可以将弹幕中包含的重要分词的分数相加，得到整个弹幕的弹幕分值。

可见，弹幕分值最高的弹幕中包含了系统中用户群体针对短视频发表的最重要的评论词，因此能够体现出短视频的内容或用户对该短视频的观点等，非常适合于作为该短视频的标题。

需要说明的是，上述实施方式是以根据二次裁剪后的视频文件中的弹幕，确定该二次裁剪后的视频文件的标题为例进行说明的，本公开还可以采用同样的方式根据初次裁剪后的视频文件中的弹幕，确定初次裁剪后的视频文件的标题。具体实现方式与上述过程相同，在此不再赘述。

本公开还提出一种神经网络模型的训练方法，如图10所示，包括：

S1010：获取多个样本数据，每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值；

S1020：针对各个所述样本数据，将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型，由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；

S1030：采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数；

S1040：利用所述损失函数调整所述初始神经网络模型的参数，直至所述损失函数收敛，得到训练完成的神经网络模型。

在一些可能的实现方式中，视频文件中包含兴趣点的时间范围内的互动行为数据包括：

包含兴趣点的时间范围内的各个时刻点的各种互动行为的数量、以及该兴趣点的各种互动行为的数量。

在一些可能的实现方式中，上述采用多个样本数据的第一时间距离标记值、第二时间距离标记值、第一时间距离预测值以及第二时间距离预测值确定损失函数，包括：

针对多个样本，确定样本的第一时间距离标记值与第一时间距离预测值的差值的平方，作为第一平方值；并确定样本的第二时间距离标记值与第二时间距离预测值的差值的平方，作为第二平方值；

确定多个样本的第一平方值和第二平方值的均值，将该均值作为损失函数。

例如，采用下式计算损失函数：

其中，LOSS表示损失函数；

p(i)表示第i个样本对应的第一时间距离标记值；

p’(i)表示第i个样本对应的第一时间距离预测值；

q(i)表示第i个样本对应的第二时间距离标记值；

q’(i)表示第i个样本对应的第二时间距离预测值；

n表示样本的数量。

在一些可能的实现方式中，上述互动行为包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。

在一些可能的实现方式中，上述获取多个样本数据之前，还包括：

获取针对视频文件的互动行为数据；

根据所述互动行为数据，确定所述视频文件的各个时刻点的互动热度；

选取M个互动热度最高的时刻点，将选取的时刻点作为所述视频文件的兴趣点，所述M为正整数。

在一些可能的实现方式中，上述根据所述互动行为数据，确定所述视频文件的各个时刻点的互动热度，包括：

采用滑动窗口在所述视频文件的时间轴上滑动，所述滑动窗口的长度为预先设定的时间长度，所述滑动窗口滑动的步长为所述视频文件中相邻时刻点之间的时间距离；

利用所述互动行为数据，统计所述滑动窗口滑动至各个位置时，所述滑动窗口范围内的互动行为的数量；

将在所述各个位置统计得到的互动行为的数量，分别作为所述各个时刻点的互动行为的数量；

利用所述各个时刻点的互动行为的数量，确定所述各个时刻点的互动热度。

在一些可能的实现方式中，上述选取M个互动热度最高的时刻点，将选取的时刻点作为所述视频文件的兴趣点，包括：

根据所述各个时刻点的互动热度确定互动热度曲线，所述互动热度曲线表征所述各个时刻点的互动热度；

确定所述互动热度曲线上的多个峰值；

从所述多个峰值中选取M个互动热度最高的时刻点，将选取的时刻点作为所述视频文件的兴趣点。

在一些可能的实现方式中，上述视频文件中包含兴趣点的时间范围内的互动行为数据包括：

所述时间范围内的兴趣点的各种互动行为的数量、以及所述兴趣点前后的多个时刻点的互动行为数量。

在一些可能的实现方式中，上述神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。

以上确定各个时刻点的互动行为数量的方式在前述实施方式中已有介绍，在此不再赘述。

本公开还提出一种视频裁剪装置，如图11所示，包括：

数据获取模块1110，用于获取针对原始视频文件的互动行为数据；

互动热度确定模块1120，用于根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度；

选取模块1130，用于选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，所述N为正整数；

初步裁剪模块1140，用于分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件。

在一些实施方式中，本公开还提出一种视频裁剪装置，如图12所示，所述视频裁剪装置还包括：

二次裁剪模块1210，用于根据所述裁剪后的视频文件中的音量信息，对所述裁剪后的视频文件进行二次裁剪。

在一些实施方式中，上述数据获取模块1110用于：

从用户行为数据库中获取所述针对原始视频文件的互动行为数据；

其中，所述用户行为数据库记录来自视频播放终端的多个视频文件的互动行为数据，所述多个视频文件的互动行为数据包括各个视频文件的标识、总时长、互动行为及互动行为在所述视频文件中的时刻点中的至少一项。

在一些实施方式中，所述互动行为包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。

在一些实施方式中，上述互动热度确定模块1120用于：

采用滑动窗口在所述原始视频文件的时间轴上滑动，所述滑动窗口的长度为预先设定的时间长度，所述滑动窗口滑动的步长为所述原始视频文件中相邻时刻点之间的时间距离；

在一些实施方式中，上述互动热度确定模块1120用于：

针对每个所述时刻点，确定所述时刻点的各种互动行为的数量的算术和或加权和；

将所述算术和或加权和作为所述时刻点的互动热度。

在一些实施方式中，上述选取模块1130用于：

根据各个时刻点的互动热度确定互动热度曲线，所述互动热度曲线表征所述各个时刻点的互动热度；

确定所述互动热度曲线上的多个峰值；

从所述多个峰值中选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点。

在一些实施方式中，上述选取模块1130还用于：根据预先设置确定所述兴趣点的个数N。

或者，在一些实施方式中，上述选取模块1130还用于：根据所述原始视频文件的长度及预定比例，确定所述兴趣点的个数N。

在一些实施方式中，上述初步裁剪模块1140用于：

针对各个所述兴趣点，确定所述兴趣点前后的多个时刻点的互动行为的数量；

将所述兴趣点前后的多个时刻点的互动行为的数量、以及所述兴趣点的互动行为的数量输入预先训练的神经网络模型，得到所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；

根据所述兴趣点、所述第一时间距离预测值和所述第二时间距离预测值，确定所述裁剪起点和所述裁剪终点；

在所述裁剪起点和所述裁剪终点对所述原始视频文件进行裁剪，得到裁剪后的视频文件。

在一些实施方式中，上述初步裁剪模块1140还用于：根据预定条件确定所述兴趣点前后的多个时刻点的范围。

在一些实施方式中，所述预先训练的神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。

在一些实施方式中，上述二次裁剪模块1210用于，在所述裁剪后的视频文件的边界范围内，确定所述裁剪后的视频文件中音量最小的时刻点，在所述音量最小的时刻点对所述裁剪后的视频文件进行二次裁剪；

其中，所述边界范围包括与所述裁剪后的视频文件的起点的时间距离不超过第一时间长度的范围、和/或与所述裁剪后的视频文件的终点的时间距离不超过第二范围的范围。

在一些实施方式中，所述视频裁剪装置还包括：

标题生成模块1220，用于根据所述裁剪后的视频文件中的弹幕，确定所述裁剪后的视频文件的标题。

或者，上述标题生成模块1220用于，根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题。

在一些实施方式中，上述标题生成模块1220用于：

将在所述二次裁剪后的视频文件中出现的各个弹幕分别转换为对应的文本向量；

针对各个所述文本向量，分别确定每个文本向量与其他各个文本向量之间的距离之和；

将所述距离之和最小的文本向量对应的弹幕作为所述二次裁剪后的视频文件的标题。

在一些实施方式中，确定文本向量与其他文本向量之间的距离的方式包括：

计算所述文本向量与所述其他文本向量之间的夹角余弦，将所述夹角余弦作为所述文本向量与所述其他文本向量之间的距离；或者，

计算所述文本向量与所述其他文本向量之间的欧氏距离，将所述欧氏距离作为所述文本向量与所述其他文本向量之间的距离。

在一些实施方式中，上述标题生成模块1220用于：

将所述二次裁剪后的视频文件中的各个弹幕分别进行分词处理，得到多个分词，并统计各个分词在所述二次裁剪后的视频文件的所有弹幕中出现的次数；

从所述多个分词中选取出现次数最多的L个分词，作为重要分词，并根据所述重要分词出现的次数为所述重要分词设定分词分值；所述L为正整数；

针对所述二次裁剪后的视频文件中的各个弹幕，确定所述弹幕中包含的重要分词，并根据重要分词的分词分值确定所述弹幕的弹幕分值；

将所述弹幕分值最高的弹幕作为所述二次裁剪后的视频文件的标题。

本公开还提出一种神经网络模型的训练装置，如图13所示，包括：

样本获取模块1310，用于获取多个样本数据，每个所述样本数据包括视频文件中包含兴趣点的时间范围内的互动行为数据、所述兴趣点与裁剪起点的第一时间距离标记值以及所述兴趣点与裁剪终点的第二时间距离标记值；

输入模块1320，用于针对各个所述样本数据，将所述视频文件中包含兴趣点的时间范围内的互动行为数据输入初始神经网络模型，由所述初始神经网络模型输出所述兴趣点与裁剪起点之间的第一时间距离预测值、以及所述兴趣点与裁剪终点之间的第二时间距离预测值；

损失函数确定模块1330，用于采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数；

调整模块1340，用于利用所述损失函数调整所述初始神经网络模型的参数，直至所述损失函数收敛，得到训练完成的神经网络模型。

在一些实施方式中，所述视频文件中包含兴趣点的时间范围内的互动行为数据包括：

所述时间范围内的各个时刻点的各种互动行为的数量、以及所述兴趣点的各种互动行为的数量。

在一些实施方式中，上述损失函数确定模块1330用于：

针对多个样本，确定所述样本的所述第一时间距离标记值与所述第一时间距离预测值的差值的平方，作为第一平方值；并确定所述样本的所述第二时间距离标记值与所述第二时间距离预测值的差值的平方，作为第二平方值；

确定所述多个样本的所述第一平方值和所述第二平方值的均值，将所述均值作为所述损失函数。

在一些实施方式中，上述样本获取模块1310还用于：

获取针对视频文件的互动行为数据；

在一些实施方式中，上述样本获取模块1310用于：

确定所述互动热度曲线上的多个峰值；

在一些实施方式中，所述神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图14所示，设备1400包括计算单元1401，其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序，来执行各种适当的动作和处理。在RAM 1403中，还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。

设备1400中的多个部件连接至I/O接口1405，包括：输入单元1406，例如键盘、鼠标等；输出单元1407，例如各种类型的显示器、扬声器等；存储单元1408，例如磁盘、光盘等；以及通信单元1409，例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理，例如视频裁剪方法或神经网络模型的训练方法。例如，在一些实施例中，视频裁剪方法或神经网络模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时，可以执行上文描述的视频裁剪方法或神经网络模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行视频裁剪方法或神经网络模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频裁剪方法，包括：

获取针对原始视频文件的互动行为数据；

2.根据权利要求1所述的方法，还包括：

根据所述裁剪后的视频文件中的音量信息，对所述裁剪后的视频文件进行二次裁剪。

3.根据权利要求1或2所述的方法，其中，所述获取针对原始视频文件的互动行为数据，包括：

4.根据权利要求3所述的方法，其中，所述互动行为包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。

5.根据权利要求1至4中任一所述的方法，其中，所述根据所述互动行为数据，确定所述原始视频文件的各个时刻点的互动热度，包括：

6.根据权利要求5所述的方法，其中，所述利用所述各个时刻点的互动行为的数量，确定所述各个时刻点的互动热度，包括：

将所述算术和或加权和作为所述时刻点的互动热度。

7.根据权利要求6所述的方法，其中，所述选取N个互动热度最高的时刻点，将选取的时刻点作为所述原始视频文件的兴趣点，包括：

确定所述互动热度曲线上的多个峰值；

8.根据权利要求7所述的方法，所述从所述多个峰值中选取N个互动热度最高的时刻点之前，还包括：

根据预先设置确定所述兴趣点的个数N。

9.根据权利要求7所述的方法，所述从所述多个峰值中选取N个互动热度最高的时刻点之前，还包括：

根据所述原始视频文件的长度及预定比例，确定所述兴趣点的个数N。

10.根据权利要求6至9中任一所述的方法，其中，所述分别以各个所述兴趣点为基准对所述原始视频文件进行裁剪，得到N个裁剪后的视频文件，包括：

11.根据权利要求10所述的方法，还包括：根据预定条件确定所述兴趣点前后的多个时刻点的范围。

12.根据权利要求10或11所述的方法，其中，所述预先训练的神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。

13.根据权利要求2所述的方法，其中，所述根据所述裁剪后的视频文件中的音量信息，对所述裁剪后的视频文件进行二次裁剪，包括：

在所述裁剪后的视频文件的边界范围内，确定所述裁剪后的视频文件中音量最小的时刻点，在所述音量最小的时刻点对所述裁剪后的视频文件进行二次裁剪；

14.根据权利要求1至13中任一所述的方法，还包括：根据所述裁剪后的视频文件中的弹幕，确定所述裁剪后的视频文件的标题。

15.根据权利要求2所述的方法，还包括：根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题。

16.根据权利要求15所述的方法，其中，所述根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题，包括：

17.根据权利要求16所述的方法，其中，确定文本向量与其他文本向量之间的距离的方式包括：

18.根据权利要求15所述的方法，其中，所述根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题，包括：

19.一种神经网络模型的训练方法，包括：

20.根据权利要求19所述的方法，其中，所述视频文件中包含兴趣点的时间范围内的互动行为数据包括：

21.根据权利要求19或20所述的方法，其中，所述采用所述多个样本数据的所述第一时间距离标记值、所述第二时间距离标记值、所述第一时间距离预测值以及所述第二时间距离预测值确定损失函数，包括：

22.根据权利要求19至21中任一所述的方法，所述互动行为包括收藏、分享、弹幕、评论、打赏及点赞中的至少一项。

23.根据权利要求22所述的方法，所述获取多个样本数据之前，还包括：

获取针对视频文件的互动行为数据；

24.根据权利要求23所述的方法，其中，所述根据所述互动行为数据，确定所述视频文件的各个时刻点的互动热度，包括：

25.根据权利要求24所述的方法，其中，所述选取M个互动热度最高的时刻点，将选取的时刻点作为所述视频文件的兴趣点，包括：

确定所述互动热度曲线上的多个峰值；

26.根据权利要求23至25中任一所述的方法，其中，所述视频文件中包含兴趣点的时间范围内的互动行为数据包括：

27.根据权利要求19至26中任一所述的方法，其中，所述神经网络模型包括长短期记忆网络LSTM或LSTM的相关变体。

28.一种视频裁剪装置，包括：

29.根据权利要求28所述的装置，还包括：

二次裁剪模块，用于根据所述裁剪后的视频文件中的音量信息，对所述裁剪后的视频文件进行二次裁剪。

30.根据权利要求29所述的装置，还包括：

标题生成模块，用于根据二次裁剪后的视频文件中的弹幕，确定所述二次裁剪后的视频文件的标题。

31.一种神经网络模型的训练装置，包括：

32.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-27中任一项所述的方法。

33.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-27中任一项所述的方法。

34.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-27中任一项所述的方法。