CN113301386B

CN113301386B - 视频处理方法、装置、服务器以及存储介质

Info

Publication number: CN113301386B
Application number: CN202110560266.1A
Authority: CN
Inventors: 张梦馨; 刘旭东; 周伟浩; 郭晓锋; 张德兵; 王厚志; 梅晓茸; 叶小瑜; 张辰怡; 金梦
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2023-04-07
Anticipated expiration: 2041-05-21
Also published as: CN113301386A

Abstract

本公开关于一种视频处理方法、装置、服务器以及存储介质，属于互联网技术领域，该方法包括：响应于对至少一个视频的发布请求，获取该至少一个视频中每个视频片段的第一分类结果，基于该第一分类结果，确定属于目标类型的多个目标视频片段，对多个目标视频片段进行拼接，得到目标视频，对目标视频进行发布。本公开实施例中，响应于对视频的发布请求，确定视频中的目标视频片段，进而将所确定的目标视频片段拼接，能够生成一个新的视频，再对新生成的视频进行发布，在上述过程中，提供了一种自动生成并发布视频的方法，能够自动生成视频，无需用户的手动参与，提高了生成视频的效率。

Description

视频处理方法、装置、服务器以及存储介质

技术领域

本公开涉及互联网技术领域，尤其涉及一种视频处理方法、装置、服务器以及存储介质。

背景技术

随着移动互联网的飞速发展，视频播放类应用程序中的视频资源也越来越丰富。为了在视频播放类应用程序中持续发布视频，视频发布者需要不断拍摄新的视频，以提供新的视频素材。如此，需要耗费较多的时间，降低了生成视频的效率。

发明内容

本公开提供一种视频处理方法、装置、服务器以及存储介质，无需用户的手动参与，提高了生成视频的效率。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种视频处理方法，由服务器执行，该方法包括：

响应于对至少一个视频的发布请求，获取该至少一个视频中每个视频片段的第一分类结果，该第一分类结果用于指示该视频片段是否属于目标类型；

基于该第一分类结果，确定多个目标视频片段，该目标视频片段为该至少一个视频中属于目标类型的视频片段；

对该多个目标视频片段进行拼接，得到目标视频；

对该目标视频进行发布。

本公开实施例中，响应于对视频的发布请求，确定视频中的目标视频片段，进而将所确定的目标视频片段拼接，能够生成一个新的视频，再对新生成的视频进行发布，在上述过程中，提供了一种自动生成并发布视频的方法，能够自动生成视频，无需用户的手动参与，提高了生成视频的效率。

在一些实施例中，获取该至少一个视频中每个视频片段的第一分类结果包括：

将该视频片段的多个视频帧输入分类网络模型，通过该分类网络模型对该多个视频帧进行处理，得到该多个视频帧的第二分类结果，该分类网络模型用于确定对应的视频帧是否属于该目标类型，该第二分类结果用于指示对应的视频帧是否属于该目标类型；

基于该多个视频帧的第二分类结果，确定该视频片段的第一分类结果。

本公开实施例中，通过分类网络模型，确定视频片段中的视频帧是否属于目标类型，得到视频帧的第二分类结果，再基于视频帧的第二分类结果，来确定视频片段是否属于目标类型，从而得到视频片段的第一分类结果，在提高确定第一分类结果的效率的同时，还提高了确定第一分类结果的准确性。

在一些实施例中，基于该多个视频帧的第二分类结果，确定该视频片段的第一分类结果包括：

在该多个视频帧中，基于该多个视频帧的第二分类结果，确定属于该目标类型的视频帧的第一数量，以及不属于该目标类型的视频帧的第二数量；

响应于该第一数量大于该第二数量，将该视频片段确定为属于该目标类型的视频片段，响应于该第一数量小于该第二数量，将该视频片段确定为不属于该目标类型的视频片段。

本公开实施例中，根据视频帧属于目标类型或不属于目标类型的数量，选取多数的分类结果作为视频片段的第一分类结果，能够快速确定出视频片段的第一分类结果，提高了确定第一分类结果的效率。

在一些实施例中，将该视频片段的多个视频帧输入分类网络模型，通过该分类网络模型对该多个视频帧进行处理，得到该多个视频帧的第二分类结果之前，该方法还包括：

在该视频片段中选取第三数量的视频帧，确定为该多个视频帧。

本公开实施例中，选取部分视频帧输入分类网络模型进行后续的分类运算，能够降低服务器的运算量，提高了服务器的运算速度，进而提高了视频处理的效率。

在一些实施例中，对该多个目标视频片段进行拼接，得到目标视频包括：

按照该多个目标视频片段所属视频的多种排列组合方式，对该多个目标视频片段进行拼接，得到该多种排列组合方式对应的目标视频。

本公开实施例中，基于不同的排列组合方式进行拼接，能够拼接得到多个不同的目标视频，增加了所生成目标视频的多样性。

对于同属一个视频的多个目标视频片段，按照起始时间戳由前到后的顺序，对该多个目标视频片段进行拼接，得到该视频对应的拼接视频；

对该至少一个视频对应的拼接视频进行拼接，得到该目标视频。

本公开实施例中，考虑到每个视频片段在原视频中的起始时间戳，进而将属于同一个原视频的视频片段，按照起始时间戳的先后顺序进行拼接，确保了视频画面的连续性，进而确保了生成视频的效果。

在一些实施例中，获取该至少一个视频中每个视频片段的第一分类结果之前，该方法还包括：

响应于对该至少一个视频的发布请求，确定该至少一个视频中相邻视频帧的相似度；

基于该相邻视频帧的相似度，对该至少一个视频进行划分，得到多个视频片段，该多个视频片段中的视频帧的相似度大于或等于第一阈值。

本公开实施例中，按照相邻视频帧的相似度，来对视频进行划分，使划分得到的视频片段由多个相似的视频帧组成，确保了视频片段中视频画面的连续性，便于后续视频片段的处理过程。

在一些实施例中，对该多个目标视频片段进行拼接，得到目标视频之前，该方法还包括：

基于该多个目标视频片段的片段特征，确定每两个目标视频片段之间的相似度；

响应于任意两个目标视频片段之间的相似度大于或等于第二阈值，删除该任意两个目标视频片段中的任一目标视频片段。

本公开实施例中，通过确定相似度大于或等于第二阈值的任意两个目标视频片段，能够快速确定出相同的任意两个目标视频片段，进而删除其中任一个目标视频片段，起到了视频去重的效果，避免视频重复的问题，确保了生成视频的效果。

响应于任意两个目标视频片段之间的相似度大于或等于第三阈值且小于该第二阈值，对该任意两个目标视频片段进行拼接，得到该目标视频。

本公开实施例中，通过确定相似度大于或等于第三阈值，且小于该第二阈值的任意两个目标视频片段，能够快速确定出相似的任意两个目标视频片段，进而对该任意两个目标视频片段进行拼接，使所生成的目标视频是多个相似的目标视频片段组成，确保了目标视频中视频画面的连续性，进而确保了生成视频的效果。

在一些实施例中，多个目标视频片段的片段特征的确定过程包括：

对于任一目标视频片段，提取该目标视频片段中多个视频帧的图像特征；

将该多个视频帧的图像特征的平均值，确定为该目标视频片段的片段特征。

本公开实施例中，通过提取视频帧的图像特征，再取平均值，从而得到目标视频片段的片段特征，能够快速确定出片段特征，提高了确定片段特征的效率，进而提高了生成视频的效率。

在一些实施例中，对于任一目标视频片段，提取该目标视频片段中多个视频帧的图像特征之前，该方法还包括：

在该目标视频片段中选取第四数量的视频帧，确定为该多个视频帧。

本公开实施例中，选取部分视频帧来提取图像特征，能够降低服务器的运算量，提高了服务器的运算速度，进而提高了视频处理的效率。

在一些实施例中，对该多个目标视频片段进行拼接之后，该方法还包括：

对于任一目标视频片段，基于目标音频的节奏点时间戳，对该目标视频片段的播放速度进行调整，得到调整后的目标视频片段，其中，该调整后的目标视频片段的起始时间戳与第一节奏点的时间戳重合，且该调整后的目标视频片段的结束时间戳与第二节奏点的时间戳重合，该第一节奏点的时间戳在该第二节奏点的时间戳之前。

本公开实施例中，通过将目标音频的节奏点，与目标视频片段的起始时间戳和结束时间戳重合，使得后续开始播放或结束播放目标视频片段时，均与目标音频的节奏点同步播放，确保了目标视频的效果以及后续的播放效果。

在一些实施例中，对该多个目标视频片段进行拼接，得到目标视频之后，该方法还包括：

对该至少一个视频进行发布。

本公开实施例中，还对原视频进行发布，丰富了所发布视频的信息量，为用户提供了多种视频选择，以便用户根据实际需求选择查看对应的视频，且通过查看原视频，使得用户能够查看到内容更加详细的视频，提升了用户的观看体验。

根据本公开实施例的第二方面，提供一种视频处理装置，该装置包括：

获取单元，被配置为执行响应于对至少一个视频的发布请求，获取该至少一个视频中每个视频片段的第一分类结果，该第一分类结果用于指示该视频片段是否属于目标类型；

确定单元，被配置为执行基于该第一分类结果，确定多个目标视频片段，该目标视频片段为该至少一个视频中属于目标类型的视频片段；

拼接单元，被配置为执行对该多个目标视频片段进行拼接，得到目标视频；

发布单元，被配置为执行对该目标视频进行发布。

在一些实施例中，该获取单元，包括：

网络模型处理子单元，被配置为执行将该视频片段的多个视频帧输入分类网络模型，通过该分类网络模型对该多个视频帧进行处理，得到该多个视频帧的第二分类结果，该分类网络模型用于确定对应的视频帧是否属于该目标类型，该第二分类结果用于指示对应的视频帧是否属于该目标类型；

分类结果确定子单元，被配置为执行基于该多个视频帧的第二分类结果，确定该视频片段的第一分类结果。

在一些实施例中，该分类结果确定子单元，被配置为执行：

在一些实施例中，该装置还包括：

选取单元，被配置为执行在该视频片段中选取第三数量的视频帧，确定为该多个视频帧。

在一些实施例中，该拼接单元，被配置为执行：

在一些实施例中，该拼接单元，包括：

第一拼接子单元，被配置为执行对于同属一个视频的多个目标视频片段，按照起始时间戳由前到后的顺序，对该多个目标视频片段进行拼接，得到该视频对应的拼接视频；

第二拼接子单元，被配置为执行对该至少一个视频对应的拼接视频进行拼接，得到该目标视频。

在一些实施例中，该确定单元，还被配置为执行响应于对该至少一个视频的发布请求，确定该至少一个视频中相邻视频帧的相似度；

该装置还包括划分单元，被配置为执行：

在一些实施例中，该确定单元，还被配置为执行基于该多个目标视频片段的片段特征，确定每两个目标视频片段之间的相似度；

该装置还包括删除单元，被配置为执行：

在一些实施例中，该拼接单元，被配置为执行：

在一些实施例中，该确定单元，还包括：

提取子单元，被配置为执行对于任一目标视频片段，提取该目标视频片段中多个视频帧的图像特征；

确定子单元，被配置为执行将该多个视频帧的图像特征的平均值，确定为该目标视频片段的片段特征。

在一些实施例中，该装置还包括：

选取单元，被配置为执行在该目标视频片段中选取第四数量的视频帧，确定为该多个视频帧。

在一些实施例中，该装置还包括调整单元，被配置为执行：

在一些实施例中，该发布单元，还被配置为执行：

对该至少一个视频进行发布。

根据本公开实施例的第三方面，提供一种服务器，该服务器包括：

一个或多个处理器；

用于存储该处理器可执行程序代码的存储器；

其中，该处理器被配置为执行该程序代码，以实现上述的视频处理方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，该计算机可读存储介质包括：当该计算机可读存储介质中的程序代码由服务器的处理器执行时，使得服务器能够执行上述的视频处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现上述的视频处理方法。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种视频处理方法的实施环境示意图；

图2是根据一示例性实施例示出的一种视频处理方法的流程图；

图3是根据一示例性实施例示出的一种视频处理方法的流程图；

图4是根据一示例性实施例示出的一种视频处理的流程示意图；

图5是根据一示例性实施例示出的一种视频处理装置的框图；

图6是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的数据可以为经用户授权或者经过各方充分授权的数据。

图1是本公开实施例提供的一种视频处理方法的实施环境示意图，参见图1，该实施环境中包括：终端101和服务器102。

终端101可以为智能手机、智能手表、台式电脑、手提电脑、虚拟现实终端、增强现实终端、无线终端和膝上型便携计算机等设备中的至少一种，终端101具有通信功能，可以接入有线网络或无线网络。终端101可以泛指多个终端中的一个，本实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量可以更多或更少。终端101可以运行有视频播放类应用程序，用户通过在终端101上进行操作，能够在该视频播放类应用程序中发布视频。

服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式文件系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102与终端101可以通过有线或无线通信方式进行直接或间接的连接，本公开实施例对此不作限定。可选地，上述服务器102的数量可以更多或更少，本公开实施例对此不加以限定。当然，服务器102还可以包括其他功能服务器，以便提供更全面且多样化的服务。服务器102可以为视频播放类应用程序的后台服务器。本公开实施例中，服务器102用于响应于对至少一个视频的发布请求，确定该至少一个视频中的多个目标视频片段，对该多个目标视频片段进行拼接，得到目标视频，进而对该至少一个视频和该目标视频进行发布。

本公开实施例提供的视频处理方法，可以应用于发布广告视频的场景，例如，发布游戏广告视频的场景，相应过程可以为：当用户(也即是广告主)想要在视频播放类应用程序中，发布广告视频时，可以在终端101上进行操作，输入至少一个待发布的广告视频，并触发终端101向服务器发送对该至少一个广告视频的发布请求，则服务器102响应于对该至少一个广告视频的发布请求，执行本公开实施例所提供的视频处理方法，从而生成新的广告视频，再对服务器102生成的广告视频进行发布。

图2是根据一示例性实施例示出的一种视频处理方法的流程图，如图2所示，该方法由服务器执行，包括以下步骤：

在步骤201中，服务器响应于对至少一个视频的发布请求，获取该至少一个视频中每个视频片段的第一分类结果，该第一分类结果用于指示该视频片段是否属于目标类型。

在步骤202中，服务器基于该第一分类结果，确定多个目标视频片段，该目标视频片段为该至少一个视频中属于目标类型的视频片段。

在步骤203中，服务器对该多个目标视频片段进行拼接，得到目标视频。

在步骤204中，服务器对该目标视频进行发布。

对该至少一个视频进行发布。

上述图2至图3所示仅为本公开的基本流程，下面基于一种具体实施方式，来对本公开提供的方案进行进一步阐述，图3是根据一示例性实施例示出的一种视频处理方法的流程图，参见图3，该方法包括：

在步骤301中，服务器响应于对至少一个视频的发布请求，确定该至少一个视频中相邻视频帧的相似度。

在一些实施例中，该至少一个视频可以是广告视频。发布请求携带该至少一个视频的视频数据。本公开实施例中，发布请求用于触发服务器对该至少一个视频进行视频处理，以生成新的视频再进行发布。相邻视频帧的相似度用于表示两个视频帧的图像特征之间的相似程度。可选地，相邻视频帧的相似度采用相邻视频帧的图像特征之间的距离来表示，例如，余弦距离、欧氏距离、曼哈顿距离、切比雪夫距离、卡方距离及汉明距离等，本公开实施例对选择何种距离计算相似度不作限定。应理解地，距离越小，则相似度越大，距离越大，则相似度越小。其中，图像特征是一幅图像与另一幅图像之间能够进行相似度度量的特征。可选地，图像特征为颜色特征、纹理特征、形状特征中的任一项。可选地，图像特征采用向量形式表示。

在一些实施例中，当用户想要在视频播放类应用程序中发布视频时，可以在终端上进行操作，输入至少一个视频，并触发终端向服务器发送对该至少一个视频的发布请求，则服务器接收该发布请求后，获取该发布请求携带的该至少一个视频的视频数据，基于该至少一个视频的视频数据，确定该至少一个视频中相邻视频帧的相似度。

在一些实施例中，服务器确定相邻视频帧的相似度的过程包括：对于任一视频，获取该视频中多个视频帧的图像特征，计算该视频中相邻视频帧的图像特征之间的距离，将该相邻视频帧对应的距离，确定为该相邻视频帧的相似度。

在步骤302中，服务器基于该相邻视频帧的相似度，对该至少一个视频进行划分，得到多个视频片段，该多个视频片段中的视频帧的相似度大于或等于第一阈值。

其中，第一阈值为预先设定的固定阈值，如60％。第一阈值为用于确定两个视频帧是否相似的阈值。本公开实施例中，若两个视频帧的相似度大于或等于第一阈值，则表明该两个视频帧相似，若两个视频帧的相似度小于第一阈值，则表明该两个视频帧不相似。

在一些实施例中，服务器确定出该至少一个视频中相邻视频帧的相似度后，确定相似度小于第一阈值的相邻视频帧，也即是确定不相似的相邻视频帧，以该不相似的相邻视频帧的中点为分割点，对该至少一个视频进行划分，得到多个视频片段。

例如，若视频包括5个视频帧，则相邻视频帧可以是1-2、2-3、3-4、4-5，假设该多个视频帧分别对应的相似度为80％、60％、50％、70％，以第一阈值为60％为例，可以发现，不相似的相邻视频帧为3-4，则将视频帧3和视频帧4划分开，能够得到视频片段(1，3)和视频片段(4，5)。

上述步骤301至步骤302是服务器基于相邻视频帧之间的差异，对视频进行划分的过程，这样，使划分得到的视频片段由多个相似的视频帧组成，确保了视频片段中视频画面的连续性，便于后续视频片段的处理过程。在另一些实施例中，服务器还能够基于其他划分方式，划分得到多个视频片段。例如，服务器基于该至少一个视频的视频时长和视频片段的划分时长，对该至少一个视频进行均匀划分，得到多个视频片段。例如，以视频时长为15分钟，划分时长为3分钟为例，对该15分钟的视频进行划分，得到5个3分钟的视频片段。

在步骤303中，服务器获取该至少一个视频中每个视频片段的第一分类结果，该第一分类结果用于指示该视频片段是否属于目标类型。

其中，目标类型可以是游戏类型、直播类型、综艺类型、电影类型等类型中的任一项。相应地，若目标类型为游戏类型，则目标视频片段也即是游戏片段，例如包括游戏画面的视频片段，若目标类型为直播类型，则目标视频片段也即是直播片段，例如包括直播画面的视频片段，其他类型同理，不再赘述。需要说明的是，目标类型与用户所输入的视频相关。例如，若用户输入的视频为游戏广告视频，则目标类型为游戏类型。本公开实施例后续以游戏类型为例对方案进行说明。

在一些实施例中，服务器获取第一分类结果的过程包括：对于任一视频片段，将该视频片段的多个视频帧输入分类网络模型，通过该分类网络模型对该多个视频帧进行处理，得到该多个视频帧的第二分类结果，该第二分类结果用于指示对应的视频帧是否属于该目标类型，基于该多个视频帧的第二分类结果，确定该视频片段的第一分类结果。在该实施例中，通过分类网络模型，确定视频片段中的视频帧是否属于目标类型，得到视频帧的第二分类结果，再基于视频帧的第二分类结果，来确定视频片段是否属于目标类型，从而得到视频片段的第一分类结果，在提高确定第一分类结果的效率的同时，还提高了确定第一分类结果的准确性。

其中，分类网络模型为二分类的神经网络模型，分类网络模型用于确定对应的视频帧是否属于该目标类型。分类网络模型的输出可以是分值的形式，相应地，第二分类结果是分值的形式，分值是指属于目标类型的分值。应理解地，视频帧对应的分值达到某一阈值，则表明该视频帧属于目标类型。可选地，服务器确定第二分类结果的具体过程为：对于任一视频帧，服务器将该视频帧输入分类网络模型，通过该分类网络模型的特征提取层，提取该视频帧的图像特征，再将该图像特征输入全连接层，通过该全连接层对该图像特征进行处理，得到该视频帧的第二分类结果。在上述实施例中，通过分类网络模型，来确定视频帧是否属于该目标类型，在提升分类效率的同时，还提升了分类的准确性。

可选地，分类网络模型基于多个样本图片和对应的样本标签训练得到，该样本标签用于指示样本图片是否属于目标类型。相应的训练过程包括：在一次迭代过程中，服务器将该多个样本图片输入初始模型，得到该多个样本图片的分类结果，基于该多个样本图片的分类结果和多个样本图片的样本标签，对初始模型中的模型参数进行调整，将调整后的模型参数作为下一次迭代的模型参数，继续迭代，直至训练满足训练条件，则将满足训练条件的模型作为分类网络模型。

在一些实施例中，服务器基于该多个视频帧的第二分类结果，确定该视频片段的第一分类结果的过程包括：在该多个视频帧中，基于该多个视频帧的第二分类结果，确定属于该目标类型的视频帧的第一数量，以及不属于该目标类型的视频帧的第二数量，响应于该第一数量大于该第二数量，将该视频片段确定为属于该目标类型的视频片段，响应于该第一数量小于该第二数量，将该视频片段确定为不属于该目标类型的视频片段。在该实施例中，根据视频帧属于目标类型或不属于目标类型的数量，选取多数的分类结果作为视频片段的第一分类结果，能够快速确定出视频片段的第一分类结果，提高了确定第一分类结果的效率。

上述过程是基于视频片段中的多个视频帧，来确定视频片段是否属于目标类型的过程。在另一些实施例中，服务器在将该视频片段的多个视频帧输入分类网络模型之前，在该视频片段中选取第三数量的视频帧，确定为该多个视频帧，进而将该第三数量的视频帧输入分类网络模型，进行后续的分类运算。其中，第三数量为预先设定的固定数量，如9。在该实施例中，选取部分视频帧输入分类网络模型进行后续的分类运算，能够降低服务器的运算量，提高了服务器的运算速度，进而提高了视频处理的效率。

可选地，选取第三数量的视频帧的过程包括下述任一项：

在一种可选的实施例中，服务器在该视频片段中，随机抽取第三数量的视频帧，将抽取到的视频帧确定为该多个视频帧。如此，通过随机抽取的方式，能够快速地抽取到多个视频帧，提高了选取视频帧的效率。

在又一种可选的实施例中，服务器在该视频片段中，每间隔一定数量的视频帧，抽取一个视频帧，直至抽取到第三数量的视频帧，将抽取到的视频帧确定为该多个视频帧。例如，以第三数量为9为例，服务器在该视频片段中，每间隔5个视频帧，抽取一个视频帧，直至抽取得到9个视频帧。如此，通过间隔一定帧抽取的方式，使得抽取到的任意两个视频帧之间存在区别，也即是抽取到了具有一定代表性的视频帧，这样，也就提升了后续分类的准确性。

在另一种可选的实施例中，服务器在该视频片段中，基于关键帧提取算法，提取第三数量的视频帧，将提取到的视频帧确定为该多个视频帧。可选地，关键帧提取算法包括聚类算法、帧间差分算法等算法中的任一项。如此，利用关键帧提取算法，能够提取到视频片段中的关键视频帧，由于关键视频帧与对应视频片段的相关性较高，因此能够抽取得到具有代表性的视频帧，这样，能够进一步提升后续分类的准确性。

例如，以目标类型为游戏类型、目标视频片段为游戏片段为例，分类网络模型可以为游戏片段分类模型，通过该游戏片段分类模型，识别多个视频片段中的多个视频帧是否为游戏画面，进而基于多个视频帧的分类结果，能够确定出视频片段的分类结果，从而能够获知视频片段是否为游戏片段。

在步骤304中，服务器基于该第一分类结果，确定多个目标视频片段，该目标视频片段为该至少一个视频中属于目标类型的视频片段。

在一些实施例中，对于每个视频片段，服务器响应于该视频片段的第一分类结果指示该视频片段属于该目标类型，将该视频片段确定为该目标视频片段，从而能够确定出多个目标视频片段。在上述实施例中，通过获取视频中视频片段的第一分类结果，再基于该第一分类结果所指示的内容，来确定视频片段是否属于该目标类型，能够快速确定出目标视频片段，提高了确定目标视频片段的效率。

服务器基于上述步骤得到多个目标视频片段后，丢弃其他视频片段，基于该多个目标视频片段进行拼接，从而生成目标视频。在一些实施例中，服务器基于多个目标视频片段之间的相似度，来进行视频片段拼接的过程。相应的拼接过程参见步骤305至步骤307。

在步骤305中，服务器基于该多个目标视频片段的片段特征，确定每两个目标视频片段之间的相似度。

在一些实施例中，服务器得到多个目标视频片段后，对于该多个目标视频片段中的任意两个目标视频片段，基于该任意两个目标视频片段的片段特征，计算该任意两个目标视频片段的片段特征之间的距离，将该任意两个目标视频片段对应的距离，确定为该任意两个目标视频片段的相似度。

在一些实施例中，服务器确定片段特征的过程包括：对于任一目标视频片段，提取该目标视频片段中多个视频帧的图像特征，将该多个视频帧的图像特征的平均值，确定为该目标视频片段的片段特征。可选地，服务器基于卷积神经网络(Convolution NeuralNetwork，CNN)，来提取多个视频帧的图像特征。在该实施例中，通过提取视频帧的图像特征，再取平均值，从而得到目标视频片段的片段特征，能够快速确定出片段特征，提高了确定片段特征的效率，进而提高了生成视频的效率。

上述过程是基于目标视频片段中的多个视频帧，来确定视频片段的片段特征的过程。在另一些实施例中，服务器提取该多个视频帧的图像特征之前，在该目标视频片段中选取第四数量的视频帧，确定为该多个视频帧，进而基于该第四数量的视频帧来提取图像特征。其中，第四数量为预先设定的固定数量，如8。在该实施例中，选取部分视频帧来提取图像特征，能够降低服务器的运算量，提高了服务器的运算速度，进而提高了视频处理的效率。

在步骤306中，服务器响应于任意两个目标视频片段之间的相似度大于或等于第二阈值，删除该任意两个目标视频片段中的任一目标视频片段。

其中，第二阈值为预先设定的固定阈值，如90％。第二阈值为用于确定两个视频片段是否相同的阈值。本公开实施例中，若两个视频片段的相似度大于或等于第二阈值，则表明该两个视频片段相同，若两个视频帧的相似度小于第二阈值，则表明该两个视频帧不同。

在一些实施例中，服务器确定出任意两个目标视频片段之间的相似度后，确定相似度大于或等于第二阈值的两个视频片段，删除该两个视频片段中的任一个目标视频片段。在该实施例中，通过确定相似度大于或等于第二阈值的任意两个目标视频片段，能够快速确定出相同的任意两个目标视频片段，进而删除其中任一个目标视频片段，起到了视频去重的效果，避免视频重复的问题，确保了生成视频的效果。

在步骤307中，服务器响应于任意两个目标视频片段之间的相似度大于或等于第三阈值且小于该第二阈值，对该任意两个目标视频片段进行拼接，得到该目标视频。

其中，第三阈值为预先设定的固定阈值，如70％。第三阈值为用于确定两个视频片段是否相似的阈值。需要说明的是，第一阈值和第二阈值可以相同，也可以不同。本公开实施例中，若两个视频片段的相似度大于或等于第三阈值且小于该第二阈值，则表明该两个视频片段相似，若两个视频片段的相似度小于第三阈值，则表明该两个视频片段不相似。例如，以第二阈值为90％、第三阈值为70％为例，若视频片段1和视频片段2之间的相似度为65％，则表明视频片段1和视频片段2不相似，若视频片段1和视频片段2之间的相似度为85％，则表明视频片段1和视频片段2相似；若视频片段1和视频片段2之间的相似度为95％，则表明视频片段1和视频片段2相同。

在一些实施例中，服务器在该多个目标视频片段中，确定相似度大于或等于第三阈值，且小于该第二阈值的任意两个目标视频片段，能够确定出相似的多个目标视频片段，进而对该多个目标视频片段进行拼接，得到目标视频。在该实施例中，通过确定相似度大于或等于第三阈值，且小于该第二阈值的任意两个目标视频片段，能够快速确定出相似的任意两个目标视频片段，进而对该任意两个目标视频片段进行拼接，使所生成的目标视频是多个相似的目标视频片段组成，确保了目标视频中视频画面的连续性，进而确保了生成视频的效果。

在另一些实施例中，服务器确定出相似的多个目标视频片段后，对该多个目标视频片段进行优先拼接，得到拼接后的视频，再基于拼接后的视频和其他目标视频片段进行拼接，从而得到目标视频。在该实施例中，优先拼接相似的视频片段，确保目标视频的视频画面的连续性，使得目标视频的观感较好。

上述步骤306至步骤307是先基于相似度去重，再基于相似度拼接的过程。在另一些实施例中，服务器先基于相似度拼接，再基于相似度去重，或者，服务器同时执行相似度去重和基于相似度拼接的过程。本公开实施例对步骤306和步骤307的执行次序不作限定。

需要说明的是，步骤305、步骤306以及步骤307中基于相似度拼接的内容均为可选步骤。在另一些实施例中，服务器在执行步骤304后，无需执行确定相似度、基于相似度去重、基于相似度拼接的过程。

在一些实施例中，服务器按照该多个目标视频片段所属视频的多种排列组合方式，对该多个目标视频片段进行拼接，得到该多种排列组合方式对应的目标视频。示例地，假设视频包括a视频、b视频、c视频，a视频对应的目标视频片段包括a1、a2、a3，b视频对应的目标视频片段包括b1、b2、b3，c视频对应的目标视频片段包括c1、c2、c3，对于视频a、b、c，多种排列组合方式可以包括：(a+b)、(a+c)、(b+c)、(b+a)、(c+a)、(c+b)、(a+b+c)、(a+c+b)、(b+a+c)、(b+c+a)、(c+a+b)、(c+b+a)，进而，基于该多种排列组合方式，分别对视频对应的目标视频片段进行拼接，从而得到拼接后的多个目标视频。以(a+b+c)为例，拼接得到的目标视频可以是(a1、a2、a3、b1、b2、b3、c1、c2、c3)，其他排列组合方式类似，不再赘述。在该实施例中，基于不同的排列组合方式进行拼接，能够拼接得到多个不同的目标视频，增加了所生成目标视频的多样性。

在一些实施例中，服务器先对同属一个视频的多个目标视频片段进行拼接，再基于拼接后的视频片段，进行拼接，从而得到目标视频。相应过程为：对于同属一个视频的多个目标视频片段，服务器按照起始时间戳由前到后的顺序，对该多个目标视频片段进行拼接，得到该视频对应的拼接视频，对该至少一个视频对应的拼接视频进行拼接，得到该目标视频。在该实施例中，考虑到每个视频片段在原视频中的起始时间戳，进而将属于同一个原视频的视频片段，按照起始时间戳的先后顺序进行拼接，确保了视频画面的连续性，进而确保了生成视频的效果。应理解地，以目标视频片段为游戏片段为例，目标视频的首个视频片段为某原视频的首个游戏片段，且目标视频的末尾片段为某原视频的末尾游戏片段。

可选地，服务器对同属一个视频的多个目标视频片段进行拼接后，再按照多个拼接视频所属视频的多种排列组合方式，对该至少一个视频对应的拼接视频进行拼接，得到该多种排列组合方式对应的目标视频。或者，服务器还可以在对同属一个视频的多个目标视频片段进行拼接后，基于拼接得到的视频片段，执行步骤305至步骤307中基于相似度拼接，以及基于相似度去重的过程。

示例地，图4是根据一示例性实施例示出的一种视频处理的流程示意图，参见图4，以视频a、视频b和视频c为例，以目标视频片段为游戏片段为例，分别对该三个视频进行划分，得到401所示的各个视频的视频片段，在所划分得到的多个视频片段中，识别出402所示的游戏片段，进而识别出的多个游戏片段进行组合，从而生成403所示的目标视频。图4以一种组合方式为例对方案进行说明，应理解地，还可以有多种其他的组合方式。

在一些实施例中，服务器对多个目标视频片段进行拼接之后，还基于目标音频，对拼接后的多个目标视频片段进行合成处理，得到目标视频。

可选地，服务器进行合成处理的过程包括下述任一项：一些实施例中，对于任一目标视频片段，基于目标音频的节奏点时间戳，对该目标视频片段的播放速度进行调整，得到调整后的目标视频片段，其中，该调整后的目标视频片段的起始时间戳与第一节奏点的时间戳重合，且该调整后的目标视频片段的结束时间戳与第二节奏点的时间戳重合，该第一节奏点的时间戳在该第二节奏点的时间戳之前。又一些实施例中，对于任一目标视频片段，基于目标音频的节奏点时间戳，对该目标视频片段进行裁剪，得到裁剪后的目标视频片段，其中，该裁剪后的目标视频片段的起始时间戳与第一节奏点的时间戳重合，且该裁剪后的目标视频片段的结束时间戳与第二节奏点的时间戳重合，该第一节奏点的时间戳在该第二节奏点的时间戳之前。其中，起始时间戳与第一节奏点的时间戳重合，且结束时间戳与第二节奏点的时间戳重合，也即是目标视频片段的长度与节奏点之间的间距相同。在该实施例中，通过将目标音频的节奏点，与目标视频片段的起始时间戳和结束时间戳重合，使得后续开始播放或结束播放目标视频片段时，均与目标音频的节奏点同步播放，确保了目标视频的效果以及后续的播放效果。

在步骤308中，服务器对该目标视频进行发布。

在一些实施例中，服务器生成目标视频后，将该至少一个视频和该目标视频发布在视频播放类应用程序中，则其他用户在使用该视频播放类应用程序的过程中，能够观看到目标视频。

在另一些实施例中，终端还对该至少一个视频进行发布。在该实施例中，服务器还对原视频进行发布，丰富了所发布视频的信息量，为用户提供了多种视频选择，以便根据实际需求选择查看对应的视频，且通过查看原视频，使得用户能够查看到内容更加详细的视频，提升了用户的观看体验。

图5是根据一示例性实施例示出的一种视频处理装置的框图。参见图5，该装置包括获取单元501、确定单元502、拼接单元503和发布单元504。

获取单元501，被配置为执行响应于对至少一个视频的发布请求，获取该至少一个视频中每个视频片段的第一分类结果，该第一分类结果用于指示该视频片段是否属于目标类型；

确定单元502，被配置为执行基于该第一分类结果，确定多个目标视频片段，该目标视频片段为该至少一个视频中属于目标类型的视频片段；

拼接单元503，被配置为执行对该多个目标视频片段进行拼接，得到目标视频；

发布单元504，被配置为执行对该目标视频进行发布。

在一些实施例中，该获取单元，包括：

在一些实施例中，该分类结果确定子单元，被配置为执行：

在一些实施例中，该装置还包括：

在一些实施例中，该拼接单元503，被配置为执行：

在一些实施例中，该拼接单元503，包括：

在一些实施例中，该确定单元502，还被配置为执行响应于对该至少一个视频的发布请求，确定该至少一个视频中相邻视频帧的相似度；

该装置还包括划分单元，被配置为执行：

在一些实施例中，该确定单元502，还被配置为执行基于该多个目标视频片段的片段特征，确定每两个目标视频片段之间的相似度；

该装置还包括删除单元，被配置为执行：

在一些实施例中，该拼接单元503，被配置为执行：

在一些实施例中，该确定单元502，还包括：

在一些实施例中，该装置还包括：

在一些实施例中，该装置还包括调整单元，被配置为执行：

在一些实施例中，该发布单元504，还被配置为执行：

对该至少一个视频进行发布。

需要说明的是：上述实施例提供的视频处理装置在处理视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是根据一示例性实施例示出的一种服务器的框图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)601和一个或多个的存储器602，其中，该一个或多个存储器602中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器601加载并执行以实现上述各个方法实施例提供的视频处理方法中服务器执行的过程。当然，该服务器600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器600还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种包括程序代码的计算机可读存储介质，例如包括程序代码的存储器602，上述程序代码可由服务器600的处理器601执行以完成上述视频处理方法。可选地，计算机可读存储介质可以是只读内存(read-only memory，ROM)、随机存取存储器(random access memory)，RAM)、只读光盘(compact-disc read-only memory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的视频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

响应于对至少一个视频的发布请求，确定所述至少一个视频中相邻视频帧的相似度；

确定相似度小于第一阈值的相邻视频帧，以所述相似度小于第一阈值的相邻视频帧的中点为分割点，对所述至少一个视频进行划分，得到多个视频片段，每个视频片段中的视频帧的相似度大于或等于所述第一阈值；

将每个视频片段的多个视频帧输入分类网络模型，通过所述分类网络模型对所述多个视频帧进行处理，得到所述多个视频帧的第二分类结果，所述分类网络模型用于确定对应的视频帧是否属于目标类型，所述第二分类结果是分值的形式，所述分值是指对应的视频帧属于所述目标类型的分值，所述第二分类结果用于指示对应的视频帧是否属于所述目标类型；

基于所述多个视频帧的第二分类结果，确定所述视频片段的第一分类结果，所述第一分类结果用于指示所述视频片段是否属于所述目标类型；

基于所述第一分类结果，确定多个目标视频片段，所述目标视频片段为所述至少一个视频中属于所述目标类型的视频片段；

对所述多个目标视频片段进行拼接，得到目标视频；

对所述目标视频进行发布。

2.根据权利要求1所述的视频处理方法，其特征在于，所述基于所述多个视频帧的第二分类结果，确定所述视频片段的第一分类结果包括：

在所述多个视频帧中，基于所述多个视频帧的第二分类结果，确定属于所述目标类型的视频帧的第一数量，以及不属于所述目标类型的视频帧的第二数量；

响应于所述第一数量大于所述第二数量，将所述视频片段确定为属于所述目标类型的视频片段，响应于所述第一数量小于所述第二数量，将所述视频片段确定为不属于所述目标类型的视频片段。

3.根据权利要求1所述的视频处理方法，其特征在于，所述将每个视频片段的多个视频帧输入分类网络模型，通过所述分类网络模型对所述多个视频帧进行处理，得到所述多个视频帧的第二分类结果之前，所述方法还包括：

在所述视频片段中选取第三数量的视频帧，确定为所述多个视频帧。

4.根据权利要求1所述的视频处理方法，其特征在于，所述对所述多个目标视频片段进行拼接，得到目标视频包括：

按照所述多个目标视频片段所属视频的多种排列组合方式，对所述多个目标视频片段进行拼接，得到所述多种排列组合方式对应的目标视频。

5.根据权利要求1所述的视频处理方法，其特征在于，所述对所述多个目标视频片段进行拼接，得到目标视频包括：

对于同属一个视频的多个目标视频片段，按照起始时间戳由前到后的顺序，对所述多个目标视频片段进行拼接，得到所述视频对应的拼接视频；

对所述至少一个视频对应的拼接视频进行拼接，得到所述目标视频。

6.根据权利要求1所述的视频处理方法，其特征在于，所述对所述多个目标视频片段进行拼接，得到目标视频之前，所述方法还包括：

基于所述多个目标视频片段的片段特征，确定每两个目标视频片段之间的相似度；

响应于任意两个目标视频片段之间的相似度大于或等于第二阈值，删除所述任意两个目标视频片段中的任一目标视频片段。

7.根据权利要求6所述的视频处理方法，其特征在于，所述对所述多个目标视频片段进行拼接，得到目标视频包括：

响应于任意两个目标视频片段之间的相似度大于或等于第三阈值且小于所述第二阈值，对所述任意两个目标视频片段进行拼接，得到所述目标视频。

8.根据权利要求6所述的视频处理方法，其特征在于，所述多个目标视频片段的片段特征的确定过程包括：

对于任一目标视频片段，提取所述目标视频片段中多个视频帧的图像特征；

将所述多个视频帧的图像特征的平均值，确定为所述目标视频片段的片段特征。

9.根据权利要求8所述的视频处理方法，其特征在于，所述对于任一目标视频片段，提取所述目标视频片段中多个视频帧的图像特征之前，所述方法还包括：

在所述目标视频片段中选取第四数量的视频帧，确定为所述多个视频帧。

10.根据权利要求1所述的视频处理方法，其特征在于，所述对所述多个目标视频片段进行拼接之后，所述方法还包括：

对于任一目标视频片段，基于目标音频的节奏点时间戳，对所述目标视频片段的播放速度进行调整，得到调整后的目标视频片段，其中，所述调整后的目标视频片段的起始时间戳与第一节奏点的时间戳重合，且所述调整后的目标视频片段的结束时间戳与第二节奏点的时间戳重合，所述第一节奏点的时间戳在所述第二节奏点的时间戳之前。

11.根据权利要求1所述的视频处理方法，其特征在于，所述对所述多个目标视频片段进行拼接，得到目标视频之后，所述方法还包括：

对所述至少一个视频进行发布。

12.一种视频处理装置，其特征在于，所述装置包括：

确定单元，被配置为执行响应于对至少一个视频的发布请求，确定所述至少一个视频中相邻视频帧的相似度；

划分单元，被配置为执行确定相似度小于第一阈值的相邻视频帧，以所述相似度小于第一阈值的相邻视频帧的中点为分割点，对所述至少一个视频进行划分，得到多个视频片段，每个视频片段中的视频帧的相似度大于或等于所述第一阈值；

获取单元，包括网络模型处理子单元和分类结果确定子单元，所述网络模型处理子单元，被配置为执行将每个视频片段的多个视频帧输入分类网络模型，通过所述分类网络模型对所述多个视频帧进行处理，得到所述多个视频帧的第二分类结果，所述分类网络模型用于确定对应的视频帧是否属于目标类型，所述第二分类结果是分值的形式，所述分值是指对应的视频帧属于所述目标类型的分值，所述第二分类结果用于指示对应的视频帧是否属于所述目标类型；

所述分类结果确定子单元，被配置为执行基于所述多个视频帧的第二分类结果，确定所述视频片段的第一分类结果，所述第一分类结果用于指示所述视频片段是否属于所述目标类型；

所述确定单元，还被配置为执行基于所述第一分类结果，确定多个目标视频片段，所述目标视频片段为所述至少一个视频中属于所述目标类型的视频片段；

拼接单元，被配置为执行对所述多个目标视频片段进行拼接，得到目标视频；

发布单元，被配置为执行对所述目标视频进行发布。

13.根据权利要求12所述的视频处理装置，其特征在于，所述分类结果确定子单元，被配置为执行：

14.根据权利要求12所述的视频处理装置，其特征在于，所述装置还包括：

选取单元，被配置为执行在所述视频片段中选取第三数量的视频帧，确定为所述多个视频帧。

15.根据权利要求12所述的视频处理装置，其特征在于，所述拼接单元，被配置为执行：

16.根据权利要求12所述的视频处理装置，其特征在于，所述拼接单元，包括：

第一拼接子单元，被配置为执行对于同属一个视频的多个目标视频片段，按照起始时间戳由前到后的顺序，对所述多个目标视频片段进行拼接，得到所述视频对应的拼接视频；

第二拼接子单元，被配置为执行对所述至少一个视频对应的拼接视频进行拼接，得到所述目标视频。

17.根据权利要求12所述的视频处理装置，其特征在于，所述确定单元，还被配置为执行基于所述多个目标视频片段的片段特征，确定每两个目标视频片段之间的相似度；

所述装置还包括删除单元，被配置为执行：

18.根据权利要求17所述的视频处理装置，其特征在于，所述拼接单元，被配置为执行：

19.根据权利要求17所述的视频处理装置，其特征在于，所述确定单元，还包括：

提取子单元，被配置为执行对于任一目标视频片段，提取所述目标视频片段中多个视频帧的图像特征；

确定子单元，被配置为执行将所述多个视频帧的图像特征的平均值，确定为所述目标视频片段的片段特征。

20.根据权利要求19所述的视频处理装置，其特征在于，所述装置还包括：

选取单元，被配置为执行在所述目标视频片段中选取第四数量的视频帧，确定为所述多个视频帧。

21.根据权利要求12所述的视频处理装置，其特征在于，所述装置还包括调整单元，被配置为执行：

22.根据权利要求12所述的视频处理装置，其特征在于，所述发布单元，还被配置为执行：

对所述至少一个视频进行发布。

23.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

用于存储所述处理器可执行程序代码的存储器；

其中，所述处理器被配置为执行所述程序代码，以实现如权利要求1至11中任一项所述的视频处理方法。

24.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的程序代码由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至11中任一项所述的视频处理方法。