CN113992970A

CN113992970A - 视频数据处理方法、装置、电子设备及计算机存储介质

Info

Publication number: CN113992970A
Application number: CN202010732654.9A
Authority: CN
Inventors: 杨斐然; 祝航程; 杨锋
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-07-27
Filing date: 2020-07-27
Publication date: 2022-01-28

Abstract

本发明实施例提供了一种视频数据处理方法、装置、电子设备及计算机存储介质，其中，视频数据处理方法包括：在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。因为根据视频数据中提取的音频数据对视频数据进行分割，并且根据音频数据的特征信息筛选出视频片段，对音频数据的运算量小于视频数据，减少了运算量，并且提高了效率。

Description

视频数据处理方法、装置、电子设备及计算机存储介质

技术领域

本发明实施例涉及图像处理技术领域，尤其涉及一种视频数据处理方法、装置、电子设备及计算机存储介质。

背景技术

因为视频传播信息更加直观，视频在越来越多的领域被用来传输信息。多媒体资源中，视频资源也越来越多。在一些应用场景中，媒体工作者可以在视频资源库中选择视频资源，将时间长度较长的视频分割为时间长度较短的视频，然后进行视频编辑。但是，这都需要对视频进行分割得到短视频，并从中筛选出需要的短视频资源，这耗费了大量人力资源，而且效率很低。在相关技术中，利用视频中展现的图像元素、弹幕等对视频进行分割和筛选，以减少人力资源的投入，并且提高效率。但是，利用视频中的图像元素或者弹幕进行分割和筛选，运算量较大，效率较低。

发明内容

有鉴于此，本发明实施例提供一种视频数据处理方法、装置、电子设备及计算机存储介质，以解决上述部分或全部问题。

根据本发明实施例的第一方面，提供了一种视频数据处理方法，包括：在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。

根据本发明实施例的第二方面，提供了一种视频数据处理装置，包括：提取模块，用于在视频数据中提取音频数据；特征模块，用于获取音频数据的特征信息；分割模块，用于根据音频数据对视频数据进行分割得到至少一个视频片段；视频处理模块，用于根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。

根据本发明实施例的第三方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，处理器、存储器和通信接口通过通信总线完成相互间的通信；存储器用于存放至少一可执行指令，可执行指令使处理器执行如第一方面的视频数据处理方法对应的操作。

根据本发明实施例的第四方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面的视频数据处理方法。

本发明实施例提供的视频数据处理方法、装置、电子设备及计算机存储介质，在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。因为根据视频数据中提取的音频数据对视频数据进行分割，并且根据音频数据的特征信息筛选出视频片段，对音频数据的运算量小于视频数据，减少了运算量，并且提高了效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的一种视频数据处理方法的场景示意图；

图2为本申请实施例一提供的一种视频数据处理方法的流程图；

图2A为本申请实施例一提供的一种视频数据处理方法的效果示意图；

图2B为本申请实施例一提供的一种目标视频片段示意图；

图2C为本申请实施例一提供的一种视频数据处理方法的场景示意图；

图2D为本申请实施例一提供的一种视频数据处理方法的场景示意图；

图2E为本申请实施例一提供的一种视频数据处理方法的场景示意图；

图3为本申请实施例二提供的一种计算能量密度的流程图；

图4为本申请实施例二提供的一种计算能量密度的示意图；

图5为本申请实施例三提供的一种分割视频数据的流程图；

图6A为本申请实施例三提供的一种预设神经网络的结构图；

图6B为本申请实施例三提供的一种预设神经网络的结构图；

图7为本申请实施例四提供的一种视频数据处理装置的结构框图；

图8为本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

实施例一

本申请实施例一提供一种视频数据处理方法，应用于电子设备，为了便于理解，对本申请实施例一所提供的视频数据处理方法的应用场景进行说明，参照图1所示，图1为本申请实施例一提供的一种视频数据处理方法的场景示意图。图1所示的场景中包括电子设备101和云端102；执行本申请实施例一提供的视频数据处理方法的设备可以是电子设备101，也可以是云端102中包含的设备，本申请对此不做限制。

电子设备101可以是智能音箱、智能手机、平板电脑、笔记本电脑等，也可以是网络中的服务器、中继设备、端到端(英文：Device-to-Device，D2D)设备等。

需要说明的是，电子设备101可以接入网络，通过网络与云端102连接，并进行数据交互，本申请中，网络包括局域网(英文：Local Area Network，LAN)、广域网(英文：WideArea Network，WAN)、移动通信网络；如万维网(英文：World Wide Web，WWW)、长期演进(英文：Long Term Evolution，LTE)网络、2G网络(英文：2th Generation Mobile Network)、3G网络(英文：3th Generation Mobile Network)，5G网络(英文：5th Generation MobileNetwork)等。当然，此处只是示例性说明，并不代表本申请局限于此。云端103可以包括通过网络连接的各种设备，例如，服务器、中继设备、端到端设备等。

电子设备101可以通过云端102获取视频数据，提取视频数据中的音频数据，根据音频数据对视频数据进行分割得到至少一个视频片段，然后根据音频数据的特征信息在至少一个视频片段中确定出目标视频片段并上传至云端102，云端102可以在视频资源库中存储目标视频片段，也可以将目标视频片段传输至其他终端设备，目标视频片段的数量可以是一个或多个。

结合图1所示的场景，详细说明本申请实施例一提供的视频数据处理方法，该方法可以应用于图1所示的场景，需要说明的是，图1只是本申请实施例一提供的视频数据处理方法的一种应用场景，并不代表该视频数据处理方法必须应用于图1所示的场景，可选地，本申请实施例一提供的视频数据处理方法可以应用于电子设备，该电子设备可以是如智能手机、平板电脑、笔记本等终端设备，也可以是如服务器等网络设备，本申请对此不做限制，参照图2所示，图2为本申请实施例一提供的一种视频数据处理方法的流程图，该方法包括以下步骤：

步骤201、在视频数据中提取音频数据。

在本申请中，视频数据可以是待分割的视频数据，示例性的，视频数据可以是如电影视频、电视剧视频、综艺视频、动漫视频等各种影视剧视频，视频数据也可以是用户自拍视频。

音频数据是视频数据中的一部分数据。例如，MP4格式的视频数据，可以包含图像，音频数据，字幕等。MP4格式的视频数据中包含的音频数据的格式可以是高级音频编码(英文：Advanced Audio Coding，ACC)格式，对MP4格式的视频数据进行解析，可以得到ACC格式的音频数据。可以将ACC格式的音频数据转换为其他格式的音频数据，例如，转换为WAV格式的音频数据。当然，也可以不进行格式转换，利用ACC格式的音频数据执行后续步骤。

可选地，在一种实现方式中，在视频数据中提取音频数据，包括：获取视频数据，在视频数据中提取初始音频；按照预设采样率对初始音频进行采样得到音频数据。对初始音频进行采样得到音频数据，可以减少音频数据的数据量，提高处理效率，而且人耳能够分辨的音频的频率是有限的，适当的采样率依然可以保证用户听起来不失真。例如，预设采样率可以大于或等于16000Hz，因为人能敏感区分的音频是8000Hz以下的，两倍采样率可以保证音频数据不失真。当然，此处只是示例性说明，并不代表本申请局限于此。

步骤202、获取音频数据的特征信息。

音频数据的特征信息可以用于指示声音的特征，例如，声音的特征可以包括声音的音高、声音的响度、声音的内容等。示例性的，音频数据的特征信息可以用于指示不同时刻声音的激烈程度。当然，此处只是示例性说明，并不代表本申请局限于此。

可选地，在一种实现方式中，获取音频数据的特征信息，包括：获取音频数据的能量密度，特征信息包括能量密度。能量密度可以指示声音的激烈程度，示例性的，能量密度可以是单位时间内通过单位面积的声音的能量。可以通过计算单位时间内声音强度的积分来表示能量密度，例如，对单位时间内声音的响度进行积分，表示能量密度；又如，对单位时间内声音的频率进行积分，表示能量密度；再如，对单位时间内声音的梅尔频率倒谱系数进行积分，表示能量密度。当然，此处只是示例性说明，并不代表本申请局限于此。

可选地，在一种实现方式中，获取音频数据的能量密度，包括：根据音频数据的时域信息获取音频数据的频域信息；根据音频数据的频域信息确定音频数据的至少一个梅尔频率倒谱系数；根据音频数据的至少一个梅尔频率倒谱系数确定音频数据的能量密度。

进一步可选地，可以根据梅尔频率转换公式将普通频率转换为梅尔频率，例如，根据音频数据的频域信息确定音频数据的至少一个梅尔频率倒谱系数，包括：根据梅尔频率转换公式，将频域信息中包含的普通频率转换为梅尔频率并得到梅尔频谱；根据梅尔频谱进行倒谱分析得到至少一个梅尔频率倒谱系数。

因为人的听觉系统是特殊的非线性系统，梅尔频谱是基于听觉感知的非线性频率，更接近人类的听觉特性，因此，通过梅尔频率倒谱系数计算的能量密度，更符合人类听觉特性，具有更好的识别性能和抗噪能力。

步骤203、根据音频数据对视频数据进行分割得到至少一个视频片段。

将视频数据分割为至少一个视频片段，可以方便用户进行组合编辑，示例性的，视频数据的时间长度可以大于或等于第一预设时长，视频片段的时间长度可以小于第二预设时长，第一预设时长大于或等于第二预设时长。

需要说明的是，音频数据和视频数据在时序上具有对应关系，例如，相同单位时间内的音频数据单元与视频数据单元对应，根据音频数据可以将音频数据分为至少一个音频片段，根据时序对应关系，即可将视频数据按照至少一个音频片段的分割方式分割为至少一个视频片段。

可选地，在一个具体的应用场景中，可以利用预设神经网络对音频数据进行识别，根据预设神经网络的输出结果对视频数据进行分割，例如，根据音频数据对视频数据进行分割得到至少一个视频片段，包括：

将音频数据输入预设神经网络，并根据预设神经网络的输出结果对视频数据进行分割得到至少一个视频片段。

进一步可选地，将音频数据输入预设神经网络，并根据预设神经网络的输出结果对视频数据进行分割得到至少一个视频片段，包括：

将音频数据包含的至少一个音频数据单元输入预设神经网络，并得到输出结果，输出结果用于指示至少一个音频数据单元的类型；按照输出结果指示的至少一个音频数据单元的类型，对视频数据进行分割得到至少一个视频片段。

利用预设神经网络对音频数据进行识别，在对视频数据进行分割时，考虑了音频数据的连续性，使得在音频激烈程度或者在音频内容上连续的音频数据单元对应的视频数据单元被分割到一个视频片段中，保证了视频片段中各个视频数据单元连续性和完整性较好。

基于上述应用场景，此处，列举一个具体示例说明神经网络的功能。可选地，将音频数据输入预设神经网络，并根据预设神经网络的输出结果对视频数据进行分割得到至少一个视频片段，包括：

将至少一个音频数据单元输入预设神经网络；通过预设神经网络对音频数据单元进行识别，确定音频数据单元包含的声音的类型；根据音频数据单元包含的声音的类型确定音频数据单元的类型；并得到输出结果。

需要说明的是，音频数据单元可以是单位时间长度内的音频数据，例如，音频数据单元可以是一个音频数据帧，此处，列举两种示例说明音频数据单元的类型，当然，此处只是示例性说明，并不代表本申请局限于此。

可选地，在第一个示例中，根据音频数据单元包含的声音的类型确定音频数据单元的类型，包括：如果音频数据单元包含的声音为环境音，则确定音频数据单元的类型为环境音类型；如果音频数据单元包含的声音为人声，则确定音频数据单元的类型为人声类型。

可选地，在第二个示例中，根据音频数据单元包含的声音的类型确定音频数据单元的类型，包括：如果音频数据单元包含的声音包括掌声或欢笑声，则确定音频数据单元的类型为精彩片段类型；如果音频数据单元包含的声音不包括掌声或欢笑声，则确定音频数据单元的类型为普通类型。

需要说明的是，步骤202和步骤203没有先后顺序，可以同时执行，也可以一前一后执行，本申请对此不做限制，步骤202和步骤203之后，还包括：

步骤204、根据音频数据的特征信息在至少一个视频片段中，确定目标视频片段。

根据音频数据的特征信息确定目标视频片段，进一步减少了运算量，而且对至少一个视频片段进行了筛选，在用户选择短视频资源时更加便捷。需要说明的是，目标视频片段的数量可以是一个或多个，本申请对此不做限制。此处，以音频数据的特征信息包括能量密度为例，对确定目标视频片段的过程进行说明。

可选地，根据音频数据的特征信息在至少一个视频片段中确定目标视频片段，包括：将能量密度在预设范围的音频数据对应的视频片段，确定为目标视频片段。

此处，从两个方面说明如何确定目标视频片段：

可选地，在第一方面的一种应用场景下，音频数据的能量密度包括至少一个音频数据单元的能量密度，将能量密度在预设范围的音频数据对应的视频片段，确定为目标视频片段，包括：如果视频片段对应的至少一个音频数据单元的能量密度均在预设范围内，则将视频片段确定为目标视频片段。在另一种应用场景下，如果视频片段对应的至少一个音频数据单元的能量密度的平均值在预设范围内，则将视频片段确定为目标视频片段。当然，此处只是示例性说明，并不代表本申请局限于此。

可选地，在第二方面的一种应用场景下，预设范围包括大于或等于第一阈值的范围，将能量密度在预设范围的音频数据对应的视频片段，确定为目标视频片段，包括：将能量密度大于或等于第一阈值的音频数据对应视频片段，确定为目标视频片段。在另一种应用场景下，预设范围包括小于或等于第二阈值的范围；在又一种应用场景下，预设范围可以包括大于第二阈值且小于第一阈值的范围。其中，第二阈值小于第一阈值，当然，此处只是示例性说明，能量密度大于或等于第一阈值，说明声音激烈程度较强，很可能是视频中的关键片段，因此，可以确定为目标视频片段；能量密度小于或等于第二阈值，说明声音激烈程度较弱，对于有些用户，可能需要一些音频较为舒缓的视频片段；能量密度大于第二阈值且小于第一阈值，剔除了声音激烈程度较强和较弱的两种情况，确定的目标视频片段的声音激烈程度不会太强也不会太弱，满足一些用户的个性化需求。当然，此处只是示例性说明，并不代表本申请局限于此。

示例性的，如图2A所示，图2A为本申请实施例一提供的一种视频数据处理方法的效果示意图，如图2A所示，在视频数据中提取出音频数据后，对音频数据进行识别，并将音频数据分割为音频片段，包含环境音片段和人声片段，根据音频数据与视频数据在时序上的对应关系，可以将视频数据分割为至少一个视频片段。将能量密度大于或等于第一阈值的视频片段确定为目标片段。

结合上述图2A所示的效果，图2B为本申请实施例一提供的一种目标视频片段示意图，图2B中，在视频数据下方示意了至少一个视频片段的能量密度变化情况，将能量密度大于或等于第一阈值的片段确定为目标视频片段后，右边显示了目标视频片段的片段信息，片段信息可以包括目标视频片段的时间长度、能量密度等信息，当然，此处只是示例性说明，并不代表本申请局限于此。例如，以动作类电影为例，根据音频数据的激烈程度，可以筛选出惊险的打斗视频片段；又如，以歌唱类综艺节目为例，可以按照音频数据中有音乐和没有音乐的分类筛选出歌手唱歌的视频片段；再如，以搞笑类视频为例，可以按照音频数据中有笑声和没有笑声，筛选出关键的爆笑视频片段。

可选地，在另一种实现方式中，可以根据用户需求提取对应的目标视频片段，例如，根据音频数据的特征信息在至少一个视频片段中，确定目标视频片段，包括：获取搜索指令，根据搜索指令获取目标音频数据的特征信息；搜索指令用于指示搜索目标音频数据对应的视频片段；根据目标音频数据的特征信息在至少一个视频片段中，确定目标视频片段。搜索指令可以包括目标音频数据的相关信息，例如，搜索指令可以包括目标音频数据的内容、目标音频数据的标签、目标音频数据的时段(目标音频数据在视频数据中播放的时间段)等，通过用户输入的搜索指令，可以确定目标音频数据，然后根据音频数据的特征信息确定出目标视频片段。具体可选地，可以将特征信息与目标音频数据一致的音频数据所对应的视频片段确定为目标视频片段。用户可以通过音频数据提取对应的目标视频片段，可以满足更多用户的需求。

可选地，根据所述音频数据的特征信息在至少一个视频片段中确定目标视频片段之后，可以存储目标视频片段，也可以将目标视频片段推荐给用户，例如，电子设备可以是网络设备，该方法还可以包括：向至少一个终端设备发送推荐信息，推荐信息用于指示推荐目标视频片段。对视频数据进行分割和筛选确定出目标视频片段，自动推送给用户，可以更加智能化地满足用户需求。又如，电子设备可以是终端设备，该方法还包括：在视频素材显示界面展示目标视频片段。直接向用户展示目标视频片段，便于用户进一步操作。此处，列举三个具体示例分别说明目标视频片段的的用途，当然，此处只是示例性说明，并不代表本申请局限于此。

可选地，在第一个示例中，如图2C所示，根据音频数据的特征信息在至少一个视频片段中确定目标视频片段之后，还包括：接收终端设备发送的视频素材访问请求，视频素材访问请求用于请求访问视频素材；根据视频素材访问请求向至少一个终端设备发送推荐信息，以便终端设备展示推荐信息所指示的视频素材，视频素材包括目标视频片段。对于有访问视频素材需求的终端设备，发送推荐信息，可以向终端设备及时提供最新推荐的视频片段。

可选地，在第二个示例中，如图2D所示，在视频数据中提取音频数据之前，还包括：接收终端设备发送的视频数据和视频处理指令，视频处理指令用于指示在视频数据中提取目标视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段之后，还包括：向终端设备发送目标视频片段，以便终端设备展示目标视频片段。在提取目标视频片段时，根据用户的视频处理指令进行提取，用户可以针对一个视频提取需要的目标视频片段，更好地满足了用户的个性化需求。

可选地，在第三个示例中，如图2E所示，根据音频数据的特征信息在至少一个视频片段中确定目标视频片段之后，还包括：接收视频编辑指令，根据视频编辑指令在视频素材库中获取至少一个视频素材，至少一个视频素材包括目标视频片段；对至少一个视频素材进行合成得到合成视频。按照步骤201-204的描述，对于多个视频可以得到多个目标视频片段，将所有的目标视频片段形成视频素材库，当然，视频素材库也可以包含不通过步骤201-204形成的视频片段，视频素材库可以在云端，也可以在电子设备本地，图2E以视频素材库在云端为例进行示意，在用户需要制作视频时，可以从视频素材库直接获取经过筛选的精彩视频片段，提高了用户制作、编辑视频的效率。

本发明实施例提供的视频数据处理方法，在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。因为根据视频数据中提取的音频数据对视频数据进行分割，并且根据音频数据的特征信息筛选出视频片段，对音频数据的运算量小于视频数据，减少了运算量，并且提高了效率。

实施例二

基于上述实施例一所描述的视频数据处理方法，本申请实施例二以特征信息包括能量密度为例，详细说明计算能量密度的过程，对实施例一中的步骤202进一步详细说明，参照图3所示，图3为本申请实施例二提供的一种计算能量密度的流程图，该方法包括以下步骤：

步骤2021、根据音频数据的时域信息获取音频数据的频域信息。

音频数据的时域信息用于指示音频数据中声音的能量随时间变化的关系，音频数据的频域信息用于指示音频数据中声音的能量随频率变化的关系。可选地，可以利用傅里叶变换将时域信息转换为频域信息，需要说明的是可以是一个音频数据帧对应一个频谱，即确定每一个音频数据帧的频谱。

步骤2022、根据梅尔频率转换公式，将频域信息中包含的普通频率转换为梅尔频率并得到梅尔频谱。

梅尔频率转换公式如下：

mel(f)＝2595×log₁₀(1+f/700)，梅尔频率转换公式；

其中，mel mel(f)表示梅尔频率，f表示普通频率。

步骤2023、根据梅尔频谱进行倒谱分析得到至少一个梅尔频率倒谱系数。

可选地，对梅尔频谱所表示的信号表达式取对数，进行傅里叶逆变换，然后进行离散预余弦变换，即可得到梅尔频率倒谱系数。

步骤2024、根据音频数据的至少一个梅尔频率倒谱系数确定音频数据的能量密度。

结合上述步骤2021-2024，此处，列举一个具体的场景进行说明，如图4所示，图4为本申请实施例二提供的一种计算能量密度的示意图。图4中，a)表示声谱图，表示声音的能量与时间之间的关系，其中，纵轴表示声音的能量，也可以称为响度，横轴表示时间；b)表示利用傅里叶变换将音频数据的时域信息转换为频域信息之后得到的频谱图，一个频谱图一个音频数据帧中声音的能量与频率之间的关系，其中，横轴表示频率，纵轴表示声音的能量，多个音频数据帧对应多个频谱图；c)表示利用梅尔频率转换公式将普通频率转换为梅尔频率之后得到的梅尔频谱图，表示声音的能量与梅尔频率之间的关系，其中，横轴表示梅尔频率，纵轴表示声音的能量；d)表示根据梅尔频谱进行倒谱分析得到的梅尔频率倒谱图，其中，横轴表示时间，也可以说是表示音频数据帧序列，纵轴表示梅尔频率倒谱系数，在一个音频数据帧序列中，曲线的横坐标表示声音的能量。对一个音频数据帧序列中的曲线进行积分计算曲线与纵轴所围成的面积，即可表示能量密度，当然，此处只是示例性说明，并不代表本申请局限于此。

实施例三

基于上述实施例一所描述的视频数据处理方法，本申请实施例三以预设神经网络为例，详细说明对视频数据进行分割的过程，对实施例一中的步骤203进一步详细说明，参照图5所示，图5为本申请实施例三提供的一种分割视频数据的流程图，该方法包括以下步骤：

步骤2031、将音频数据包含的至少一个音频数据单元输入预设神经网络。

预设神经网络可以包括二分类模型，或者包括多分类模型。例如，二分类模型可以对至少一个音频数据单元进行识别，将至少一个音频数据单元分为环境音类型或者人声类型；又如，多分类模型可以对至少一个音频数据单元进行识别，将至少一个音频数据单元分为包含掌声的类型、包含欢笑声的类型、包含恐怖声音的类型等。当然，此处只是示例性说明，并不代表本申请局限于此。

步骤2032、通过预设神经网络对音频数据单元进行识别，确定音频数据单元包含的声音的类型。

步骤2033、根据音频数据单元包含的声音的类型确定音频数据单元的类型，并得到输出结果。

输出结果用于指示至少一个音频数据单元的类型。结合步骤2032和步骤2033，可以对至少一个音频数据单元进行识别并确定类型。此处，示例性的，结合步骤2031中的示例，以二分类模型和多分类模型为例说明预设神经网络的结构。

如图6A所示，图6A为本申请实施例三提供的一种预设神经网络的结构图，将至少一个音频数据单元输入预设神经网络后，可以进行批处理(batch)，批处理可以应用于预设神经网络训练过程中，对多个样本一起训练，可以加速神经网络训练，加速收敛速度及稳定性，在利用预设神经网络进行识别分类的过程中，可以不执行批处理过程；然后利用多个卷积层进行卷积运算，如图6A所示，一个卷积层可以包括二维卷积运算(Conv2d)，正则化运算(batch_normalization)以及池化运算(pooling)；多层卷积运算之后，进行降维运算(flatten)，然后利用多个全连接层进行运算，如图6A所示，一个全连接层可以包括拼接处理(dense)，正则化运算以及随机丢弃(dropout)，随即丢弃可以在训练预设神经网络的过程中方式过拟合，提高训练效果，在利用预设神经网络进行识别分类的过程中，可以不执行随即丢弃；多层全连接层处理之后，进行批处理输出结果。图6A所示的预设神经网络模型可以进行二分类，例如，分为环境音类型或者人声类型；又如，分为声音激烈的类型和声音平缓的类型；再如，分为声音高昂的类型和声音低沉的类型。本申请对此不做限制。

如图6B所示，图6B为本申请实施例三提供的一种预设神经网络的结构图，将至少一个音频数据单元输入预设神经网络后，利用多层神经网络单元进行运算，每一个神经网络单元中，可以进行拼接处理，正则化运算以及激活函数(Relu)运算，在训练过程中，还以执行随即丢弃；经过多层神经网络单元运算之后，可以利用门循环单元(英文：GateRecurrent Unit，GRU)进行序列化连接，然后对音频数据单元添加分类标签(labels)。图6B所示的预设神经网络，可以进行多分类，例如，分为包含掌声的类型、包含欢笑声的类型、包含恐怖声音的类型等。

步骤2034、按照输出结果指示的至少一个音频数据单元的类型，对视频数据进行分割得到至少一个视频片段。

可选地，可以将连续的，类型相同的音频数据单元对应的视频数据单元划分为一个视频片段。需要说明的是，本申请中，音频数据单元对应的视频数据单元指的是，与音频数据单元在时间上相同的视频数据单元。例如，以1秒为一个时间单位，则第n秒的音频数据单元对应第n秒的视频数据单元。

例如，10个音频数据单元中，第1-5个音频数据单元为环境音类型，第6-8个音频数据单元为人声类型，第9-10个音频数据单元为环境因类型，则第1-5个音频数据单元对应的视频数据单元为一个视频片段，第6-8个音频数据单元对应的视频数据单元为一个视频片段，第9-10个音频数据单元对应的视频数据单元为一个视频片段。当然，此处只是示例性说明，并不代表本申请局限于此。

实施例四

基于上述实施例一至实施例三所描述的方法，本申请实施例四提供一种视频数据处理装置，用于执行上述实施例一至实施例三所描述的方法，参照图7所示，该视频数据处理装置70包括：提取模块701、特征模块702、分割模块703和视频处理模块704。

提取模块701，用于在视频数据中提取音频数据；

特征模块702，用于获取音频数据的特征信息；

分割模块703，用于根据音频数据对视频数据进行分割得到至少一个视频片段；

视频处理模块704，用于根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。

可选地，分割模块703，用于将音频数据输入预设神经网络，并根据预设神经网络的输出结果对视频数据进行分割得到至少一个视频片段。

可选地，分割模块703，用于将音频数据包含的至少一个音频数据单元输入预设神经网络，并得到输出结果，输出结果用于指示至少一个音频数据单元的类型；按照输出结果指示的至少一个音频数据单元的类型，对视频数据进行分割得到至少一个视频片段。

可选地，分割模块703，用于将至少一个音频数据单元输入预设神经网络；通过预设神经网络对音频数据单元进行识别，确定音频数据单元包含的声音的类型；根据音频数据单元包含的声音的类型确定音频数据单元的类型；并得到输出结果。

可选地，分割模块703，用于在音频数据单元包含的声音为环境音时，确定音频数据单元的类型为环境音类型；如果音频数据单元包含的声音为人声，则确定音频数据单元的类型为人声类型。

可选地，分割模块703，用于在音频数据单元包含的声音包括掌声或欢笑声时，确定音频数据单元的类型为精彩片段类型；如果音频数据单元包含的声音不包括掌声或欢笑声，则确定音频数据单元的类型为普通类型。

可选地，特征模块702，用于获取音频数据的能量密度，特征信息包括能量密度。

可选地，视频处理模块704，用于将能量密度在预设范围的音频数据对应的视频片段，确定为目标视频片段。

可选地，音频数据的能量密度包括至少一个音频数据单元的能量密度，视频处理模块704，用于在视频片段对应的至少一个音频数据单元的能量密度均在预设范围内时，将视频片段确定为目标视频片段。

可选地，预设范围包括大于或等于第一阈值的范围，视频处理模块704，用于将能量密度大于或等于第一阈值的音频数据对应视频片段，确定为目标视频片段。

可选地，特征模块702，用于根据音频数据的时域信息获取音频数据的频域信息；根据音频数据的频域信息确定音频数据的至少一个梅尔频率倒谱系数；根据音频数据的至少一个梅尔频率倒谱系数确定音频数据的能量密度。

可选地，特征模块702，用于根据梅尔频率转换公式，将频域信息中包含的普通频率转换为梅尔频率并得到梅尔频谱；根据梅尔频谱进行倒谱分析得到至少一个梅尔频率倒谱系数。

可选地，提取模块701，用于获取视频数据，在视频数据中提取初始音频；按照预设采样率对初始音频进行采样得到音频数据。

视频处理模块704，用于获取搜索指令，根据搜索指令获取目标音频数据的特征信息；搜索指令用于指示搜索目标音频数据对应的视频片段；根据目标音频数据的特征信息在至少一个视频片段中，确定目标视频片段。

视频处理模块704，还用于在视频素材显示界面展示目标视频片段。

视频处理模块704，还用于接收终端设备发送的视频素材访问请求，视频素材访问请求用于请求访问视频素材；根据视频素材访问请求向至少一个终端设备发送推荐信息，以便终端设备展示推荐信息所指示的视频素材，视频素材包括目标视频片段。

提取模块701，还用于接收终端设备发送的视频数据和视频处理指令，视频处理指令用于指示在视频数据中提取目标视频片段；

视频处理模块704，还用于向终端设备发送目标视频片段，以便终端设备展示目标视频片段。

视频处理模块704，还用于接收视频编辑指令，根据视频编辑指令在视频素材库中获取至少一个视频素材，至少一个视频素材包括目标视频片段；对至少一个视频素材进行合成得到合成视频。

本发明实施例提供的视频数据处理装置，在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。因为根据视频数据中提取的音频数据对视频数据进行分割，并且根据音频数据的特征信息筛选出视频片段，对音频数据的运算量小于视频数据，减少了运算量，并且提高了效率。

实施例五

基于上述实施例一至实施例三所描述的方法，本申请实施例五提供一种电子设备，用于执行上述实施例一至实施例三所描述的方法，参照图8所示，图8为本申请实施例五提供的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图8所示，该电子设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：

处理器802、通信接口804、以及存储器806通过通信总线808完成相

互间的通信。

通信接口804，用于与其它电子设备如终端设备或服务器进行通信。

处理器802，用于执行程序810，具体可以执行上述方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序810具体可以用于使得处理器802执行前述实施例一至三中任一方法。

程序810中各步骤的具体实现可以参见上述视频数据处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本发明实施例提供的电子设备，在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。因为根据视频数据中提取的音频数据对视频数据进行分割，并且根据音频数据的特征信息筛选出视频片段，对音频数据的运算量小于视频数据，减少了运算量，并且提高了效率。

实施例六

基于上述实施例一至实施例三所描述的方法，本申请实施例六提供一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如实施例一至实施例三所描述的方法。

本发明实施例提供的计算机存储介质，在视频数据中提取音频数据；获取音频数据的特征信息；根据音频数据对视频数据进行分割得到至少一个视频片段；根据音频数据的特征信息在至少一个视频片段中确定目标视频片段。因为根据视频数据中提取的音频数据对视频数据进行分割，并且根据音频数据的特征信息筛选出视频片段，对音频数据的运算量小于视频数据，减少了运算量，并且提高了效率。

需要指出，根据实施的需要，可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本发明实施例的目的。

上述根据本发明实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的视频数据处理方法。此外，当通用计算机访问用于实现在此示出的视频数据处理方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的视频数据处理方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明实施例的范围。

以上实施方式仅用于说明本发明实施例，而并非对本发明实施例的限制，有关技术领域的普通技术人员，在不脱离本发明实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明实施例的范畴，本发明实施例的专利保护范围应由权利要求限定。

Claims

1.一种视频数据处理方法，其包括：

在视频数据中提取音频数据；

获取所述音频数据的特征信息；

根据所述音频数据对所述视频数据进行分割得到至少一个视频片段；

根据所述音频数据的特征信息在所述至少一个视频片段中，确定目标视频片段。

2.根据权利要求1所述的方法，其中，所述获取所述音频数据的特征信息，包括：

获取所述音频数据的能量密度，所述特征信息包括所述能量密度。

3.根据权利要求2所述的方法，其中，所述根据所述音频数据的特征信息在所述至少一个视频片段中确定目标视频片段，包括：

将能量密度在预设范围的音频数据对应的视频片段，确定为所述目标视频片段。

4.根据权利要求3所述的方法，其中，所述音频数据的能量密度包括至少一个音频数据单元的能量密度，所述将能量密度在预设范围的音频数据对应的视频片段，确定为所述目标视频片段，包括：

如果视频片段对应的至少一个音频数据单元的能量密度均在所述预设范围内，则将所述视频片段确定为所述目标视频片段。

5.根据权利要求3所述的方法，其中，所述预设范围包括大于或等于第一阈值的范围，所述将能量密度在预设范围的音频数据对应的视频片段，确定为所述目标视频片段，包括：

将能量密度大于或等于所述第一阈值的音频数据对应视频片段，确定为所述目标视频片段。

6.根据权利要求2所述的方法，其中，所述获取所述音频数据的能量密度，包括：

根据所述音频数据的时域信息获取所述音频数据的频域信息；

根据所述音频数据的频域信息确定所述音频数据的至少一个梅尔频率倒谱系数；

根据所述音频数据的至少一个梅尔频率倒谱系数确定所述音频数据的能量密度。

7.根据权利要求6所述的方法，其中，所述根据所述音频数据的频域信息确定所述音频数据的至少一个梅尔频率倒谱系数，包括：

根据梅尔频率转换公式，将所述频域信息中包含的普通频率转换为梅尔频率并得到梅尔频谱；

根据所述梅尔频谱进行倒谱分析得到所述至少一个梅尔频率倒谱系数。

8.根据权利要求1所述的方法，其中，所述根据所述音频数据对所述视频数据进行分割得到至少一个视频片段，包括：

将所述音频数据输入预设神经网络，并根据所述预设神经网络的输出结果对所述视频数据进行分割得到所述至少一个视频片段。

9.根据权利要求8所述的方法，其中，所述将所述音频数据输入预设神经网络，并根据所述预设神经网络的输出结果对所述视频数据进行分割得到所述至少一个视频片段，包括：

将所述音频数据包含的至少一个音频数据单元输入所述预设神经网络，并得到所述输出结果，所述输出结果用于指示至少一个所述音频数据单元的类型；

按照所述输出结果指示的至少一个所述音频数据单元的类型，对所述视频数据进行分割得到所述至少一个视频片段。

10.根据权利要求9所述的方法，其中，所述将所述音频数据包含的至少一个音频数据单元输入所述预设神经网络，并得到所述输出结果，包括：

将所述至少一个音频数据单元输入所述预设神经网络；

通过所述预设神经网络对所述音频数据单元进行识别，确定所述音频数据单元中包含的声音的类型；

根据所述音频数据单元包含的声音的类型确定所述音频数据单元的类型；并得到所述输出结果。

11.根据权利要求10所述的方法，其中，所述根据所述音频数据单元包含的声音的类型确定所述音频数据单元的类型，包括：

如果所述音频数据单元包含的声音为环境音，则确定所述音频数据单元的类型为环境音类型；

如果所述音频数据单元包含的声音为人声，则确定所述音频数据单元的类型为人声类型。

12.根据权利要求10所述的方法，其中，所述根据所述音频数据单元包含的声音的类型确定所述音频数据单元的类型，包括：

如果所述音频数据单元包含的声音包括掌声或欢笑声，则确定所述音频数据单元的类型为精彩片段类型；

如果所述音频数据单元包含的声音不包括掌声或欢笑声，则确定所述音频数据单元的类型为普通类型。

13.根据权利要求1所述的方法，其中，所述在视频数据中提取音频数据，包括：

获取所述视频数据，在所述视频数据中提取初始音频；

按照预设采样率对所述初始音频进行采样得到所述音频数据。

14.根据权利要求1所述的方法，其中，所述根据所述音频数据的特征信息在所述至少一个视频片段中，确定目标视频片段，包括：

获取搜索指令，根据所述搜索指令获取所述目标音频数据的特征信息；所述搜索指令用于指示搜索目标音频数据对应的视频片段；

根据所述目标音频数据的特征信息在所述至少一个视频片段中，确定目标视频片段。

15.根据权利要求1所述的方法，其中，所述根据所述音频数据的特征信息在所述至少一个视频片段中确定目标视频片段之后，还包括：

在视频素材显示界面展示所述目标视频片段。

16.根据权利要求1所述的方法，其中，所述根据所述音频数据的特征信息在所述至少一个视频片段中确定目标视频片段之后，还包括：

接收终端设备发送的视频素材访问请求，所述视频素材访问请求用于请求访问视频素材；

根据所述视频素材访问请求向所述终端设备发送推荐信息，以便所述终端设备展示所述推荐信息所指示的视频素材，所述视频素材包括所述目标视频片段。

17.根据权利要求1所述的方法，其中，所述在视频数据中提取音频数据之前，还包括：

接收终端设备发送的所述视频数据和视频处理指令，所述视频处理指令用于指示在所述视频数据中提取所述目标视频片段；

所述根据所述音频数据的特征信息在所述至少一个视频片段中确定目标视频片段之后，还包括：

向所述终端设备发送所述目标视频片段，以便所述终端设备展示所述目标视频片段。

18.根据权利要求1所述的方法，其中，所述根据所述音频数据的特征信息在所述至少一个视频片段中确定目标视频片段之后，还包括：

接收视频编辑指令，根据视频编辑指令在视频素材库中获取至少一个视频素材，所述至少一个视频素材包括所述目标视频片段；

对所述至少一个视频素材进行合成得到合成视频。

19.一种视频数据处理装置，包括：

提取模块，用于在视频数据中提取音频数据；

特征模块，用于获取所述音频数据的特征信息；

分割模块，用于根据所述音频数据对所述视频数据进行分割得到至少一个视频片段；

视频处理模块，用于根据所述音频数据的特征信息在所述至少一个视频片段中确定目标视频片段。

20.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-18中任一项所述的视频数据处理方法对应的操作。

21.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-18中任一项所述的视频数据处理方法。