CN108521612B

CN108521612B - 视频摘要的生成方法、装置、服务器及存储介质

Info

Publication number: CN108521612B
Application number: CN201810379758.9A
Authority: CN
Inventors: 刘笑江; 王文; 王丰; 李俊; 郑萌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2021-02-09
Anticipated expiration: 2038-04-25
Also published as: CN108521612A

Abstract

本申请公开了一种视频摘要的生成方法、装置、服务器及存储介质，属于多媒体技术领域。所述方法包括：获取待处理的目标视频；对目标视频进行解析得到M个采样窗口各自对应的响度特征值，获取响度特征值大于响度阈值的m个采样窗口，将m个采样窗口各自对应的视频精彩片段进行合并，生成目标视频的视频摘要。本申请实施例通过在目标视频中获取响度特征值大于响度阈值的视频精彩片段，对于高清且内容复杂的目标视频来说，获取该目标视频对应的响度特征值的计算量远远小于相关技术中通过计算机视觉算法和剪辑规则确定视频摘要的计算量，进而加快了目标视频生成视频摘要的处理速度。

Description

视频摘要的生成方法、装置、服务器及存储介质

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种视频摘要的生成方法、装置、服务器及存储介质。

背景技术

随着互联网技术的发展，网络视频越来越受到用户的欢迎。为了实现更好的用户体验，视频网站通常提供视频摘要提示的功能，以引导用户观看。目标视频的视频摘要用于指示该目标视频中的视频精彩片段。

相关技术中，视频网站对应的服务器获取待处理的目标视频，基于预设的计算机视觉算法确定该目标视频对应的场景信息，获取与该场景信息对应的剪辑规则，根据剪辑规则对目标视频进行视频剪辑生成视频摘要。

在上述方法中，视频摘要的生成过程需要经过获取计算机视觉算法、确定场景信息、获取剪辑规则等步骤，计算复杂度较高，若目标视频为高清且内容复杂的视频则生成对应的视频摘要的处理速度较慢。

发明内容

本申请实施例提供了一种视频摘要的生成方法、装置、服务器及存储介质，可以用于解决相关技术中为目标视频生成视频摘要的处理速度较慢的问题。所述技术方案如下：

第一方面，提供了一种视频摘要的生成方法，所述方法包括：

获取待处理的目标视频；

对所述目标视频进行解析得到M个采样窗口各自对应的响度特征值，所述响度特征值用于指示所述目标视频在所述采样窗口内的音频响度；

获取所述响度特征值大于响度阈值的m个所述采样窗口，所述m小于所述M，所述M和所述m均为正整数；

将m个所述采样窗口各自对应的视频精彩片段进行合并，生成所述目标视频的视频摘要。

第二方面，提供了一种视频摘要的生成方法，所述方法包括：

接收通过命令行工具输入的视频获取指令；

根据所述视频获取指令，获取待处理的目标视频；

对所述目标视频进行处理，生成所述目标视频的视频摘要，所述视频摘要包括m个视频精彩片段，所述视频精彩片段为响度特征值大于响度阈值的视频片段，所述响度特征值用于指示所述视频精彩片段对应的音频响度；

通过视频客户端播放所述目标视频的所述视频摘要。

第三方面，提供了一种视频摘要的生成装置，所述装置包括：

第一获取模块，用于获取待处理的目标视频；

解析模块，用于对所述目标视频进行解析得到M个采样窗口各自对应的响度特征值，所述响度特征值用于指示所述目标视频在所述采样窗口内的音频响度；

第二获取模块，用于获取所述响度特征值大于响度阈值的m个所述采样窗口，所述m小于所述M，所述M和所述m均为正整数；

生成模块，用于将m个所述采样窗口各自对应的视频精彩片段进行合并，生成所述目标视频的视频摘要。

第四方面，提供了一种视频摘要的生成装置，所述装置包括：

接收模块，用于接收通过命令行工具输入的视频获取指令；

获取模块，用于根据所述视频获取指令，获取待处理的目标视频；

生成模块，用于对所述目标视频进行处理，生成所述目标视频的视频摘要，所述视频摘要包括m个视频精彩片段，所述视频精彩片段为响度特征值大于响度阈值的视频精彩片段，所述响度特征值用于指示所述视频精彩片段对应的音频响度；

播放模块，用于通过视频客户端播放所述目标视频的所述视频摘要。

第五方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面或第二方面所提供的视频摘要的生成方法。

第六方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面或第二方面所提供的视频摘要的生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过获取待处理的目标视频，对目标视频进行解析得到M个采样窗口各自对应的响度特征值，响度特征值用于指示目标视频在采样窗口内的音频响度；获取响度特征值大于响度阈值的m个采样窗口，将m个采样窗口各自对应的视频精彩片段进行合并，生成目标视频的视频摘要；使得服务器能够基于响度特征值在目标视频中获取响度特征值大于响度阈值的视频精彩片段，对于高清且内容复杂的目标视频来说，获取该目标视频对应的响度特征值的计算量远远小于相关技术中通过计算机视觉算法和剪辑规则确定视频摘要的计算量，进而加快了为目标视频生成视频摘要的处理速度，提高了视频摘要的生成效率。

附图说明

图1是本申请实施例提供的视频处理系统的结构示意图；

图2是本申请一个实施例提供的视频摘要的生成方法的流程图；

图3是本申请另一个实施例提供的视频摘要的生成方法的流程图；

图4是本申请另一个实施例提供的视频摘要的生成方法的流程图；

图5是本申请另一个实施例提供的视频摘要的生成方法涉及的曲线图；

图6是本申请另一个实施例提供的视频摘要的生成方法的原理示意图；

图7是本申请另一个实施例提供的视频摘要的生成方法的流程图；

图8是本申请一个实施例提供的视频摘要的生成装置的结构示意图；

图9是本申请一个实施例提供的视频摘要的生成装置的结构示意图；

图10是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及到的一些名词进行解释：

目标视频：是待生成视频摘要的视频。目标视频可以是离线视频，也可以是在线视频。按照视频内容的不同进行分类，目标视频包括游戏视频、赛事视频和电竞视频中的至少一种。

目标视频中的视频精彩片段具有音频能量高的特征。在本申请实施例中以音频响度来表示音频能量。

需要说明的是，本申请实施例仅以目标视频的数量为一个为例进行说明，目标视频的数量还可以是两个或两个以上，对于每个目标视频，服务器均可以采用本申请实施例提供的方法，执行生成目标视频的视频摘要的步骤，在此不再赘述。

视频摘要：用于指示目标视频中的视频精彩片段。视频摘要的视频时长小于目标视频的视频时长。

相关技术中，视频网站对应的服务器获取待处理的目标视频，基于计算机视觉算法获取该目标视频的视频内容(比如：场景或者物体)，获取与视频内容对应的剪辑规则，根据剪辑规则对目标视频进行视频剪辑生成视频摘要。但是，由于目前的视频网站中存在大量视频，这些视频通常具有视频内容不确定的特征，因此使用上述方法难以准确地生成视频摘要。并且，上述方法的计算复杂度较高，对于高清且内容复杂的目标视频的处理速度较慢。为此，本申请实施例提供了一种视频摘要的生成方法、装置、服务器及存储介质。通过获取待处理的目标视频，对目标视频进行解析得到M个采样窗口各自对应的响度特征值，响度特征值用于指示目标视频在采样窗口内的音频响度；获取响度特征值大于响度阈值的m个采样窗口，将m个采样窗口各自对应的视频精彩片段进行合并，生成目标视频的视频摘要；使得服务器能够基于响度特征值快速地生成目标视频的视频摘要，避免了相关技术中为目标视频生成视频摘要的处理速度较慢的问题，进而使得处理速度大大提高。

请参考图1，其示出了本申请实施例提供的视频处理系统的结构示意图。该视频处理系统包括服务器110和终端120。

服务器110是一台服务器，或者由若干台服务器，或者是一个虚拟化平台，或者是一个云计算服务中心。

可选的，服务器110包括提供在线视频服务的后台服务器；可选的，服务器110包括提供在线视频增值服务的后台服务器。

服务器110，用于为待处理的目标视频生成视频摘要，将生成的视频摘要发送至终端120。

可选的，服务器中运行有视频客户端，该视频客户端用于播放目标视频和/或目标视频的视频摘要。

服务器110与终端120之间通过通信网络相连。可选的，通信网络是有线网络或无线网络。

终端120可以是手机、平板电脑、膝上型便携计算机和台式计算机等等。

可选的，终端120中也运行有视频客户端，该视频客户端用于播放从服务器110中获取到的目标视频的视频摘要。

请参考图2，其示出了本申请一个实施例提供的视频摘要的生成方法的流程图，本实施例以该视频摘要的生成方法用于图1所示的服务器中来举例说明。如图2所示，该视频摘要的生成方法可以包括：

步骤201，获取待处理的目标视频。

可选的，服务器接收通过命令行工具输入的视频获取指令，根据视频获取指令获取待处理的目标视频。其中，视频获取指令用于指示获取待处理的目标视频。

示意性的，服务器为视频网站的后台服务器，视频网站的维护人员通过命令行工具输入视频获取指令：“python3clip.py input.mp4output.mp4”。对应的，服务器根据该视频获取指令获取到待处理的目标视频即input.mp4文件。

服务器实时获取或者每隔预定时间间隔获取一个视频，将该视频确定为待处理的目标视频。

预定时间间隔是默认设置的时间间隔，或者是用户自定义设置的时间间隔。本实施例对此不加以限定。

步骤202，对目标视频进行解析得到M个采样窗口各自对应的响度特征值，响度特征值用于指示目标视频在采样窗口内的音频响度。

采样窗口为预设窗口长度的时间窗口。预设窗口长度为默认设置的，或者是用户自定义设置的。本实施例对此不加以限定。

第i个采样窗口对应的响度特征值用于指示目标视频在第i个采样窗口内的音频响度。

可选的，响度特征值与音频响度呈正相关关系，响度特征值越大，表示该目标视频在该采样窗口内的音频响度越大，即该采样窗口对应的视频精彩片段为视频精彩片段的可能性越高。

示意性的，响度特征值是目标视频在采样窗口内的音频响度的均方根值，或者是与该均方根值呈正比例关系的数值。本实施例对此不加以限定。

可选的，响度特制值用分贝值表示，分贝值的单位为分贝(decibel，dB)。

需要说明的是，服务器对目标视频进行解析得到M个采样窗口各自对应的响度特征值的过程，可参考下面实施例中的相关细节，在此先不介绍。

步骤203，获取响度特征值大于响度阈值的m个采样窗口，m小于M，M和m均为正整数。

服务器在M个响度特征值中查找大于响度阈值的响度特征值；当查找到m个大于响度阈值的响度特征值时，获取m个响度特征值各自对应的采样窗口。

响度阈值为默认设置的，或者是用户自定义设置的。本实施例对此不加以限定。比如，响度阈值为-50dB。

步骤204，将m个采样窗口各自对应的视频精彩片段进行合并，生成目标视频的视频摘要。

服务器获取m个采样窗口各自对应的视频精彩片段，将m个采样窗口各自对应的视频精彩片段进行合并，生成目标视频的视频摘要。

可选的，服务器获取m个采样窗口各自对应的视频精彩片段包括但不限于以下两种可能的实现方式。

第一种可能的实现方式中，对于m个采样窗口中的每个采样窗口，服务器根据第二对应关系获取与该采样窗口对应的视频精彩片段。

其中，服务器中存储有第二对应关系，该第二对应关系包括采样窗口与视频精彩片段之间的对应关系。

第二种可能的实现方式中，对于m个采样窗口中的每个采样窗口，服务器获取采样窗口的采样起始时刻，根据获取到的采样起始时刻基于预设计算规则确定该采样窗口对应的视频精彩片段。下面仅以第二种可能的实现方式为例进行说明，第二种可能的实现方式的相关细节可参考下面实施例中的相关步骤，在此先不介绍。

目标视频的视频摘要包括m个视频精彩片段。

其中，m个视频精彩片段之间均不存在交集，或者m个视频精彩片段中存在至少两个视频精彩片段之间存在交集。

可选的，服务器在接收通过命令行工具输入的视频获取指令，根据视频获取指令获取到待处理的目标视频之后，对目标视频进行处理，生成目标视频的视频摘要，该视频摘要包括m个视频精彩片段，视频精彩片段为响度特征值大于响度阈值的视频片段，响度特征值用于指示视频精彩片段对应的音频响度；通过视频客户端播放目标视频的视频摘要。

在一个示意性的例子中，视频获取指令为“python3clip.pyinput.mp4output.mp4”，服务器根据接收到的视频获取指令获取待处理的目标视频即input.mp4文件，对该目标视频进行处理得到对应的视频摘要即output.mp4文件，通过服务器中的视频客户端播放output.mp4文件。

综上所述，本申请实施例通过获取待处理的目标视频，对目标视频进行解析得到M个采样窗口各自对应的响度特征值，响度特征值用于指示目标视频在采样窗口内的音频响度；获取响度特征值大于响度阈值的m个采样窗口，将m个采样窗口各自对应的视频精彩片段进行合并，生成目标视频的视频摘要；使得服务器能够基于响度特征值在目标视频中获取响度特征值大于响度阈值的视频精彩片段，对于高清且内容复杂的目标视频来说，获取该目标视频对应的响度特征值的计算量远远小于相关技术中通过计算机视觉算法和剪辑规则确定视频摘要的计算量，进而加快了为目标视频生成视频摘要的处理速度，提高了视频摘要的生成效率。

请参考图3，其示出了本申请另一个实施例提供的视频摘要的生成方法的流程图，本实施例以该视频摘要的生成方法用于图1所示的服务器中来举例说明。如图3所示，该视频摘要的生成方法可以包括：

步骤301，获取待处理的目标视频。

服务器获取待处理的目标视频。下面仅以目标视频的数量为一个为例进行说明。

可选的，目标视频是按照预设采集帧率进行采集、编码和合成得到的视频。该预设采集帧率是默认设置的，或者是用户自定义设置的；比如，预设采集频率为24帧每秒或30帧每秒。本申请实施例对此不加以限定。

步骤302，获取目标视频对应的目标音频轨道，目标音频轨道包括N个音频帧。

目标音频轨道用于指示目标视频的音频属性，音频属性包括声音的音色、音调、响度和音轨数中的至少一种。

可选的，服务器中存储有目标视频对应的目标音频轨道，服务器读取存储的目标视频对应的目标音频轨道。其中，目标视频对应的目标音频轨道包括N个音频帧，N为正整数。

需要说明的是，服务器读取目标音频轨道的过程可参考下面实施例中的相关细节，在此先不介绍。

步骤303，对目标音频轨道进行解析得到N个音频帧各自对应的响度数据。

服务器调用预设接口，对目标音频轨道进行解析得到N个音频帧各自对应的响度数据。可选的，预设接口为波形音频(英文：wave)接口。

第j个音频帧对应的响度数据用于指示目标视频在第j个音频帧上的音频响度，j为小于或者等于N的整数。

步骤304，将N个响度数据存入第一响度数组。

当服务器解析得到N个响度数据时，将这N个响度数据存入第一响度数组。

第一响度数组包括N个音频帧各自对应的响度数据。示意性的，第一响度数组包括18万个音频帧各自对应的响度数据。

步骤305，对于第一响度数组，计算M个采样窗口各自对应的响度特征值，响度特征值为采样窗口内n个响度数据的特征值，N＝n*M，N和n均为正整数。

可选的，对于第一响度数组，服务器计算M个采样窗口各自对应的响度特征值，包括但不限于如下几个步骤，如图4所示：

步骤401，对于第一响度数组，获取第i个采样窗口的采样起始时刻和窗口长度。

其中，i的初始值为0，i为小于或者等于M的整数。

第i个采样窗口的采样起始时刻为使用第i个采样窗口开始采样时该目标视频的播放时刻，采样起始时刻的取值范围为00分00秒至最终采样时刻，最终采样时刻为该目标视频的总时长与窗口长度的差值，该采样起始时刻并非是实际生活中的时间点。

采样窗口的窗口长度也称为预设窗口长度，窗口长度用于指示该采样窗口的采样步长。

示意性的，以w表示采样窗口的采样起始时刻，以s表示采样窗口的窗口长度，第i个采样窗口的采样起始时刻w＝s*i。即第0个采样窗口的采样起始时刻为0，第1个采样窗口的采样起始时刻为s，第2个采样窗口的采样起始时刻为2s，依次类推。

步骤402，根据第i个采样窗口的采样起始时刻和窗口长度，计算第i个采样窗口对应的响度特征值。

可选的，对于第一响度数组，服务器根据第i个采样窗口的采样起始时刻和窗口长度，计算第i个采样窗口对应的响度特征值，包括：

采用如下公式计算第i个采样窗口对应的响度特征值Prms：

Prms＝20*log₁₀(sqrt(mean(square(a[w,w+s]))))

其中，w为第i个采样窗口的采样起始时刻，s为第i个采样窗口的窗口长度，数组a为第一响度数组。

其中，sqrt(mean(square(a[w,w+s])))的取值范围为(0，1)，log₁₀(sqrt(mean(square(a[w,w+s]))))为小于0的数值。

步骤403，将第i个采样窗口对应的响度特征值存入第二响度数组，将i加1。

可选的，服务器新建第二响度数组，将计算得到的第i个采样窗口对应的响度特征值存入第二响度数组。在存入第二响度数组之后，移动采样窗口，即将i加1。

步骤404，判断第i个采样窗口是否在第一响度数组内。

服务器判断第i个采样窗口是否在第一响度数组内，若第i个采样窗口在第一响度数组内，则继续执行根据第i个采样窗口的采样起始时刻和窗口长度，计算第i个采样窗口对应的响度特征值的步骤，即步骤402；若第i个采样窗口不在第一响度数组内，则执行步骤405。

步骤405，当第i个采样窗口不在第一响度数组内时，获取第二响度数组，该第二响度数组包括M个响度特征值。

当第i个采样窗口不在第一响度数组内时，即此时i等于M+1，服务器获取第二响度数组，该第二响度数组包括M个响度特征值。

在一个示意性的例子中，以视频时长为3分钟的目标视频XX，采样窗口的窗口长度为1秒为例，服务器获取目标视频XX的目标音频轨道，目标音频轨道包括5400个音频帧，对目标音频轨道进行解析得到3600个音频帧各自对应的响度数据，将5400个响度数据存入第一响度数组A。对于第一响度数组A，根据第0个采样窗口的采样起始时刻00分00秒(即00：00)，计算第0个采样窗口内30个响度数据对应的响度特征值为-120dB，根据第1个采样窗口的采样起始时刻00分01秒(即00：01)，计算第1个采样窗口内30个响度数据对应的响度特征值为-100dB，依次类推得到如图5所示的曲线图。该曲线图的x轴表示采样窗口的采样起始时刻，y轴表示采样窗口对应的响度特征值。

步骤306，获取响度特征值大于响度阈值的m个采样窗口。

可选的，服务器在第二响度数组中查找大于响度阈值的响度特征值，当查找到m个大于响度阈值的响度特征值时，获取m个响度特征值各自对应的采样窗口。

步骤307，获取m个采样窗口各自对应的采样起始时刻。

示意性的，基于图5所示的曲线图，若响度阈值为-50dB，则确定出存在2个大于-50dB的响度特征值，确定这2个响度特征值各自对应的采样窗口，即第155个采样窗口(采样起始时刻为02：35)和第160个采样窗口(采样起始时刻为02：40)。

步骤308，对于m个采样起始时刻中的每个采样起始时刻，根据第一对应关系获取采样起始时刻对应的视频精彩片段，第一对应关系包括采样起始时刻与视频精彩片段之间的对应关系。

可选的，对于m个采样起始时刻中的每个采样起始时刻，服务器将采样起始时刻与第一时长阈值相减得到目标起始时刻，将采样起始时刻与第二时长阈值相加得到目标结束时刻，将目标起始时刻和目标结束时刻对应的播放区域确定为采样窗口对应的视频精彩片段。

其中，第一时长阈值和第二时长阈值是预先设置的时长阈值，可以是默认设置的，也可以是用户自定义设置。比如，第一时长阈值为30秒，第二时长阈值为15秒。

示意性的，服务器获取响度特征值大于响度阈值“-50dB”的2个采样窗口，即第155个采样窗口(采样起始时刻为02：35)和第160个采样窗口(采样起始时刻为02：40)，对于第155个采样窗口，将采样起始时刻“02：35”与第一时长阈值“30秒”相减得到目标起始时刻“02：05”，将采样起始时刻“02：35”与第二时长阈值“15秒”相加得到目标结束时刻“02：50”，将目标起始时刻“02：05”和目标结束时刻“02：50”对应的播放区域确定为第155个采样窗口对应的视频精彩片段，即[02：05，02：50]；对于第160个采样窗口，采用上述方法确定出该采样窗口对应的视频精彩片段为[02：10，02：55]。

步骤309，将m个采样起始时刻各自对应的视频精彩片段进行合并，生成目标视频的视频摘要。

服务器将m个采样起始时刻各自对应的视频精彩片段合并为目标视频的视频摘要。

在一个示意性的例子中，服务器将上述2个视频精彩片段进行合并，生成目标视频的视频摘要，该视频摘要包括[02：05，02：50]的视频精彩片段和[02：10，02：55]的视频精彩片段。

在另一个示意性的例子中，如图6所示，服务器获取待处理的目标视频，获取响度特征值大于响度阈值的4个采样窗口各自对应的视频精彩片段，分别为视频精彩片段1、视频精彩片段2、视频精彩片段3和视频精彩片段4。服务器将这4个视频精彩片段进行合并，得到目标视频的视频摘要S，该视频摘要S包括视频精彩片段1、视频精彩片段2、视频精彩片段3和视频精彩片段4。

可选的，服务器在生成目标视频的视频摘要之后，根据目标视频的视频摘要为目标视频提供播放增强服务，播放增强服务包括：视频摘要提示服务和/或视频摘要播放服务。

示意性的，视频摘要提示服务用于提示该目标视频是具有视频摘要的视频，视频摘要提示服务为以预设方式进行提示的服务。该预设方式包括文字形式、图像形式、音频形式和视频形式中的至少一种。

视频摘要播放服务为对目标视频的视频摘要进行播放的服务。

综上所述，本申请实施例还通过视频摘要所包括的m个视频精彩片段对应的响度特征值均大于响度阈值，即m个视频精彩片段具有音频响度较高的特征，使得m个视频精彩片段为视频精彩片段的可能性较高，进而使得生成的视频摘要更加准确。

本申请实施例还通过获取目标视频对应的目标音频轨道，目标音频轨道包括N个音频帧；对目标音频轨道进行解析得到N个音频帧各自对应的响度数据；将N个响度数据存入第一响度数组；对于第一响度数组，计算M个采样窗口各自对应的响度特征值；由于每个采样窗口对应的响度特征值为该采样窗口内n个响度数据的特征值，使得每个采样窗口对应的响度特征值能够更加准确地表示目标视频在该采样窗口内的音频响度，进一步保证了基于响度特征值生成的视频摘要的准确率。

音频轨道的类型包括单声道音轨和多声道音轨，为了方便对目标视频的音频轨道进行解析，通常需要服务器预先对目标视频的原始音频轨道进行处理得到目标音频轨道，目标音频轨道的类型为单声道音轨，以便后续对目标音频轨道进行解析。在一种可能的实现方式中，在步骤302之前还包括如下几个步骤，如图7所示：

步骤701，从目标视频中提取原始音频轨道。

服务器在获取到待处理的目标视频之后，从该目标视频中提取原始音频轨道。原始音频轨道的类型包括单声道音轨和多声道音轨。

单声道音轨为一个音频轨道，多声道音轨为至少两个音频轨道。

步骤702，判断原始音频轨道的类型为是否为单声道音轨。

当原始音频轨道的类型为单声道音轨时，执行步骤703；当原始音频轨道的类型不是单声道音轨，即为多声道音轨时，执行步骤704。

步骤703，当原始音频轨道的类型为单声道音轨时，将原始音频轨道确定为目标音频轨道。

当原始音频轨道的类型为单声道音轨时，服务器无需对该原始音频轨道进行处理，将原始音频轨道确定为目标音频轨道，执行步骤705。

步骤704，当原始音频轨道的类型为多声道音轨时，将原始音频轨道进行合并得到目标音频轨道，目标音频轨道的类型为单声道轨道。

当原始音频轨道的类型为多声道音轨时，服务器将原始音频轨道按照取均值的方式进行合并得到目标音频轨道。

步骤705，以单声道声音资源文件格式存储目标音频轨道。

服务器以单声道声音资源文件格式存储目标音频轨道。示意性的，单声道声音资源文件格式为WAV格式。

综上所述，本申请实施例还通过从目标视频中提取原始音频轨道；当原始音频轨道的类型为单声道音轨时，将原始音频轨道确定为目标音频轨道；或者，当原始音频轨道的类型为多声道音轨时，将原始音频轨道进行合并得到目标音频轨道，目标音频轨道的类型为单声道轨道；以单声道声音资源文件格式存储目标音频轨道；使得服务器预先对目标视频的原始音频轨道进行处理得到类型为单声道音轨的目标音频轨道，以便后续对目标音频轨道进行解析。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图8，其示出了本申请一个实施例提供的视频摘要的生成装置的结构示意图。该视频摘要的生成装置可以通过专用硬件电路，或者，软硬件的结合实现成为图1所示的服务器的全部或一部分，该视频摘要的生成装置包括：第一获取模块810、解析模块820、第二获取模块830和生成模块840。

第一获取模块810，用于实现上述步骤201和/或步骤301。

解析模块820，用于实现上述步骤202。

第二获取模块830，用于实现上述步骤203和/或步骤306。

生成模块840，用于实现上述步骤204。

可选的，解析模块820，包括：第一获取单元、解析单元、存储单元和计算单元。

第一获取单元，用于实现上述步骤302。

解析单元，用于实现上述步骤303。

存储单元，用于实现上述步骤304。

计算单元，用于实现上述步骤305。

可选的，计算单元，还用于上述步骤401至步骤405。

可选的，计算单元，还用于采用如下公式计算第i个采样窗口对应的响度特征值Prms：

Prms＝20*log(sqrt(mean(square(a[w,w+s]))))

可选的，生成模块840，包括：第二获取单元、第三获取单元和生成单元。

第二获取单元，用于获取m个采样窗口各自对应的采样起始时刻；

第三获取单元，用于对于m个采样起始时刻中的每个采样起始时刻，根据第一对应关系获取采样起始时刻对应的视频精彩片段，第一对应关系包括采样起始时刻与视频精彩片段之间的对应关系；

生成单元，用于将m个采样起始时刻各自对应的视频精彩片段进行合并，生成目标视频的视频摘要。

可选的，第三获取单元，还用于对于m个采样起始时刻中的每个采样起始时刻，将采样起始时刻与第一时长阈值相减得到目标起始时刻，将采样起始时刻与第二时长阈值相加得到目标结束时刻；将目标起始时刻和目标结束时刻对应的播放区域确定为采样窗口对应的视频精彩片段。

可选的，该装置，还包括：提取模块、确定模块和存储模块。

提取模块，用于实现上述步骤701。

确定模块，用于实现上述步骤702至704中的至少一个步骤。

存储模块，用于实现上述步骤705。

可选的，该装置，还包括：服务提供模块。

该服务提供模块，用于根据目标视频的视频摘要为目标视频提供播放增强服务，播放增强服务包括：视频摘要提示服务和/或视频摘要播放服务。

可选的，当视频摘要的生成装置应用于在线视频领域时，目标视频包括游戏视频、赛事视频和电竞视频中的至少一种。

相关细节可结合参考图2至图7所示的方法实施例。其中，第一获取模块810和第二获取模块830还用于实现上述方法实施例中其他任意隐含或公开的与获取步骤相关的功能；解析模块820还用于实现上述方法实施例中其他任意隐含或公开的与解析步骤相关的功能；生成模块840还用于实现上述方法实施例中其他任意隐含或公开的与生成步骤相关的功能。

请参考图9，其示出了本申请另一个实施例提供的视频摘要的生成装置的结构示意图。该视频摘要的生成装置可以通过专用硬件电路，或者，软硬件的结合实现成为图1所示的服务器的全部或一部分，该视频摘要的生成装置包括：接收模块910、获取模块920、生成模块930和播放模块940。

接收模块910，用于接收通过命令行工具输入的视频获取指令；

获取模块920，用于根据视频获取指令，获取待处理的目标视频；

生成模块930，用于对目标视频进行处理，生成目标视频的视频摘要，视频摘要包括m个视频精彩片段，视频精彩片段为响度特征值大于响度阈值的视频精彩片段，响度特征值用于指示视频精彩片段对应的音频响度；

播放模块940，用于通过视频客户端播放目标视频的视频摘要。

相关细节可结合参考图2至图7所示的方法实施例。其中，接收模块910还用于实现上述方法实施例中其他任意隐含或公开的与接收步骤相关的功能；获取模块920还用于实现上述方法实施例中其他任意隐含或公开的与获取步骤相关的功能；生成模块930还用于实现上述方法实施例中其他任意隐含或公开的与生成步骤相关的功能；播放模块940还用于实现上述方法实施例中其他任意隐含或公开的与播放步骤相关的功能。

需要说明的是，上述实施例提供的装置，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1000可以是图1所示出的服务器，具体来讲：所述服务器1000包括中央处理单元(CPU)1001、包括随机存取存储器(RAM)1002和只读存储器(ROM)1003的系统存储器1004，以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述服务器1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1006，和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为服务器1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者CD-ROI驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。

根据本申请的各种实施例，所述服务器1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。

可选的，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各个方法实施例所提供的视频摘要的生成方法。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的视频摘要的生成方法中全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频摘要的生成方法，其特征在于，所述方法包括：

获取待处理的目标视频；

对所述目标视频进行解析得到M个采样窗口各自对应的响度特征值，所述响度特征值用于指示所述目标视频在所述采样窗口内的音频响度，所述响度特征值是所述目标视频在所述采样窗口内的音频响度的均方根值，或，所述响度特征值是与所述均方根值呈正比例关系的数值；

获取m个所述采样窗口各自对应的采样起始时刻；

对于m个所述采样起始时刻中的每个所述采样起始时刻，将所述采样起始时刻与第一时长阈值相减得到目标起始时刻，将所述采样起始时刻与第二时长阈值相加得到目标结束时刻，所述第一时长阈值和所述第二时长阈值是预先设置的时长阈值，所述第一时长阈值大于所述第二时长阈值；

将所述目标起始时刻和所述目标结束时刻对应的播放区域确定为所述采样窗口对应的视频精彩片段；

将m个所述采样起始时刻各自对应的视频精彩片段进行合并，生成所述目标视频的所述视频摘要。

2.根据权利要求1所述的方法，其特征在于，所述对所述目标视频进行解析得到M个采样窗口各自对应的响度特征值，包括：

获取所述目标视频对应的目标音频轨道，所述目标音频轨道包括N个音频帧；

对所述目标音频轨道进行解析得到所述N个音频帧各自对应的响度数据；

将N个所述响度数据存入第一响度数组；

对于所述第一响度数组，计算所述M个采样窗口各自对应的响度特征值，所述响度特征值为所述采样窗口内n个所述响度数据的特征值，所述N＝n*M，所述N和n均为正整数。

3.根据权利要求2所述的方法，其特征在于，所述对于所述第一响度数组，计算所述M个采样窗口各自对应的响度特征值，包括：

对于所述第一响度数组，根据第i个所述采样窗口的采样起始时刻和窗口长度，计算第i个所述采样窗口对应的所述响度特征值，所述i的初始值为0，i为小于或者等于M的整数；

将所述第i个所述采样窗口对应的所述响度特征值存入第二响度数组，将所述i加1；

当所述第i个所述采样窗口在所述第一响度数组内时，继续执行根据第i个所述采样窗口的采样起始时刻和窗口长度，计算第i个所述采样窗口对应的所述响度特征值的步骤；

当所述第i个所述采样窗口不在所述第一响度数组内时，获取所述第二响度数组，所述第二响度数组包括M个所述响度特征值。

4.根据权利要求3所述的方法，其特征在于，所述对于所述第一响度数组，根据第i个所述采样窗口的采样起始时刻和窗口长度，计算第i个所述采样窗口对应的所述响度特征值，包括：

采用如下公式计算第i个所述采样窗口对应的所述响度特征值Prms：

Prms＝20*log(sqrt(mean(square(a[w,w+s]))))

其中，所述w为第i个所述采样窗口的所述采样起始时刻，所述s为第i个所述采样窗口的所述窗口长度，所述数组a为所述第一响度数组。

5.根据权利要求2所述的方法，其特征在于，所述获取所述目标视频对应的目标音频轨道之前，还包括：

从所述目标视频中提取原始音频轨道；

当所述原始音频轨道的类型为单声道音轨时，将所述原始音频轨道确定为目标音频轨道；或者，当所述原始音频轨道的类型为多声道音轨时，将所述原始音频轨道进行合并得到目标音频轨道，所述目标音频轨道的类型为所述单声道音轨；

以单声道声音资源文件格式存储所述目标音频轨道。

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法，还包括：

根据所述目标视频的所述视频摘要为所述目标视频提供播放增强服务，所述播放增强服务包括：视频摘要提示服务和/或视频摘要播放服务。

7.根据权利要求1至5任一所述的方法，其特征在于，

当所述视频摘要的生成方法应用于在线视频领域时，所述目标视频包括游戏视频、赛事视频和电竞视频中的至少一种。

8.一种视频摘要的生成装置，其特征在于，所述装置包括：

第一获取模块，用于获取待处理的目标视频；

解析模块，用于对所述目标视频进行解析得到M个采样窗口各自对应的响度特征值，所述响度特征值用于指示所述目标视频在所述采样窗口内的音频响度，所述响度特征值是所述目标视频在所述采样窗口内的音频响度的均方根值，或，所述响度特征值是与所述均方根值呈正比例关系的数值；

生成模块，用于获取m个所述采样窗口各自对应的采样起始时刻；对于m个所述采样起始时刻中的每个所述采样起始时刻，将所述采样起始时刻与第一时长阈值相减得到目标起始时刻，将所述采样起始时刻与第二时长阈值相加得到目标结束时刻，所述第一时长阈值和所述第二时长阈值是预先设置的时长阈值，所述第一时长阈值大于所述第二时长阈值；将所述目标起始时刻和所述目标结束时刻对应的播放区域确定为所述采样窗口对应的视频精彩片段；将m个所述采样起始时刻各自对应的视频精彩片段进行合并，生成所述目标视频的所述视频摘要。

9.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至7任一所述的视频摘要的生成方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至7任一所述的视频摘要的生成方法。