CN113347491A

CN113347491A - 一种视频剪辑方法、装置、电子设备和计算机存储介质

Info

Publication number: CN113347491A
Application number: CN202110563768.XA
Authority: CN
Inventors: 赵勇; 夏鹏飞
Original assignee: Beijing Gelingshentong Information Technology Co ltd
Current assignee: Beijing Gelingshentong Information Technology Co ltd
Priority date: 2021-05-24
Filing date: 2021-05-24
Publication date: 2021-09-03

Abstract

本申请实施例中提供了一种视频剪辑方法、装置、电子设备和计算机存储介质。该方法包括：从音视频数据中分别提取出音频数据和视频数据；获取音频数据中的多个情感信息；其中，每个情感信息包括类别信息和时间信息，时间信息用于表征情感信息对应的音频数据的时间段，类别信息用于表征情感信息对应的情感类别；依据类别信息和时间信息对视频数据进行剪辑，得到剪辑视频数据。通过音频数据中的情感信息，对视频数据进行剪辑，可以自动剪辑出剪辑视频数据。能够实现对海量音视频的自动分析剪辑，不仅节省了人力资源，还提高了剪辑效率。

Description

一种视频剪辑方法、装置、电子设备和计算机存储介质

技术领域

本申请涉及视频技术领域，具体地，涉及一种视频剪辑方法、装置、电子设备和计算机存储介质。

背景技术

视频剪辑是对视频源进行非线性编辑，对视频源进行切割、合并，通过二次编码，生成具有不同表现力的新视频。

现有技术中存在的问题：

目前在进行视频剪辑的过程中，主要依赖于人工剪辑，这种方式存在着耗费人力资源和效率低下的问题。

发明内容

本申请实施例中提供了一种视频剪辑方法、装置、电子设备和计算机存储介质，以解决现有技术存在的耗费人力资源和效率低下的问题。

根据本申请实施例的第一个方面，提供了一种视频剪辑方法，所述方法包括：

从音视频数据中分别提取出音频数据和视频数据；

获取所述音频数据中的多个情感信息；其中，每个所述情感信息包括类别信息和时间信息，所述时间信息用于表征所述情感信息对应的音频数据的时间段，所述类别信息用于表征所述情感信息对应的情感类别；

依据所述类别信息和所述时间信息对所述视频数据进行剪辑，得到剪辑视频数据。

根据本申请实施例的第二个方面，提供了视频剪辑装置，所述装置包括：

提取模块，用于从音视频数据中分别提取出音频数据和视频数据；

获取模块，用于获取所述音频数据中的多个情感信息；其中，每个所述情感信息包括类别信息和时间信息，所述时间信息用于表征所述情感信息对应的音频数据的时间段，所述类别信息用于表征所述情感信息对应的情感类别；

剪辑模块，用于依据所述类别信息和所述时间信息对所述视频数据进行剪辑，得到剪辑视频数据。

根据本申请实施例的第三个方面，提供了一种电子设备，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如上所述视频剪辑方法的步骤。

根据本申请实施例的第四个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述视频剪辑方法的步骤。

采用本申请实施例中提供的视频剪辑方法、装置、电子设备和计算机存储介质，通过音频数据中的情感信息，对视频数据进行剪辑，可以自动剪辑出剪辑视频数据。能够实现对海量音视频的自动分析剪辑，不仅节省了人力资源，还提高了剪辑效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种电子设备的结构示意图；

图2为本申请实施例提供的一种视频剪辑方法的流程示意图；

图3为本申请实施例提供的另一种视频剪辑方法的流程示意图；

图4为本申请实施例提供的又一种视频剪辑方法的流程示意图；

图5为本申请实施例提供的一种视频剪辑方法的处理流程示意图；

图6为本申请实施例提供的一种视频剪辑装置的结构示意图。

具体实施方式

在实现本申请的过程中，发明人发现，目前在进行视频剪辑的过程中，主要依赖于人工剪辑，这种方式存在着耗费人力资源和效率低下的问题。

针对上述问题，本申请实施例中提供了一种视频剪辑方法、装置、电子设备和计算机存储介质，通过音频数据中的情感信息，对视频数据进行剪辑，可以自动剪辑出剪辑视频数据。能够实现对海量音视频的自动分析剪辑，不仅节省了人力资源，还提高了剪辑效率。

本申请实施例中的方案可以采用各种计算机语言实现，例如，面向对象的程序设计语言Java和直译式脚本语言JavaScript等。

为了使本申请实施例中的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示，为本申请实施例提供的一种电子设备100的结构示意图，该电子设备100包括存储器101、处理器102和通信接口103。该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器101可用于存储软件程序及模块，如本申请实施例所提供的视频剪辑方法对应的程序指令/模块，处理器102通过执行存储在存储器101内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口103可用于与其它节点设备进行信令或数据的通信。在本申请中该电子设备100可以具有多个通信接口103。

其中，存储器101可以是但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器102可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

下面在图1示出的电子设备100的基础上，本申请实施例提供一种视频剪辑方法，请参见图2，图2为本申请实施例提供的一种视频剪辑方法的流程示意图。该视频剪辑方法可以包括以下步骤：

S201，从音视频数据中分别提取出音频数据和视频数据。

应理解，音视频数据可以为体育比赛音视频数据、电视剧音视频数据以及新闻音视频数据等。为了便于描述，本申请以音视频数据为体育比赛音视频数据为例进行说明。该音频数据可以为评论员针对比赛的实况评论，视频数据可以为足球比赛视频。

S202，获取音频数据中的多个情感信息。

其中，每个情感信息包括类别信息和时间信息，时间信息用于表征情感信息对应的音频数据的时间段。

该情感信息可以理解为高兴激动、失望以及气愤等情感；类别信息则可以理解为用于表征情感信息对应的情感类别；若类别信息为a，可判定类型信息为a的情感信息为高兴激动；若类别信息为b，可以判定类型信息为b的情感信息为失望；若类别信息为c，可以判定类型信息为c的情感信息为失望。

应理解，多个情感信息中的部分情感信息为相同类别的情感，部分情感信息为不同类别的情感。换言之，具有相同类别信息的情感信息为相同类别的情感，类别信息不同的情感信息为不同类别的情感。

应理解，在一场体育比赛中，若出现了精彩的进球或精彩配合，评论员的感情才会是高兴激动的，对应的音频数据片段的情感信息为高兴激动；若出现了失误片段，评论员的感情会是失望的，对应的音频数据片段的情感信息为失望。所以，整场体育比赛的音频数据不会都对应有情感信息，某些片段的音频数据中才具有情感信息，故在获取情感信息时，还应获取该片段的音频数据的时间信息，以进行后续的视频剪辑。

S203，依据类别信息和时间信息对视频数据进行剪辑，得到剪辑视频数据。

应理解，音频数据和视频数据是同步的，音频数据的时间信息与视频数据的时间信息是对应的。

为了便于理解如何获取音频数据中的多个情感信息，请参照图3，上述的S202包括以下子步骤：

S202a，提取音频数据中的情感特征。

其中，情感特征包括韵律学特征、基于谱的相关特征和声音质量特征。

韵律学特征可以理解为基于韵律进行情感区分，韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化，是对语音流表达方式的一种结构性安排。韵律学特征包括时长特征、基频特征和能量特征，通过音频数据的时长特征、基频特征和能量特征能够提取出对应的韵律学特征。时长特征包括语速和短时平均过零率，基频特征包括基音频率及其均值、变化范围、变化率和均方差，能量特征包括短时平均能量、短时能量变化率、短时平均振幅、振幅平均变化率和短时最大振幅。

基于谱的相关特征可以理解为声道形状变化和发声运动之间相关性的体现，语音中的情感内容对频谱能量在各个频谱区间的分布有着明显的影响。例如，表达高兴情感的语音在高频段表现出高能量，而表达悲伤的语音在同样的频段却表现出差别明显的低能量。音频数据是时域信息，提取基于谱的相关特征时，可以先进行频谱分析，通过傅里叶变换算法将音频数据由时域信息变为频域信息。再通过LPCC(线性预测倒谱系数，linearpredictor cepstral coefficient)、OSALPCC(cepstral-based OSALPC)、MFCC(梅尔频率倒谱系数，Mel Frequency Cepstral Coefficent)或FBank(FilterBank)算法从频域信息中提取出基于谱的相关特征。

声音质量特征可以理解为是人们赋予语音的一种主观评价指标，用于衡量语音是否纯净、清晰以及容易辨识等。对语音质量产生影响的声学表现有喘息、颤音以及哽咽等,并且常常出现在说话者情绪激动和难以抑制的情形之下。可通过共振峰频率及其带宽(format frequency and bandwidth)、频率微扰和振幅微扰(jitter and shimmer)或声门参数(glottal parameter)从音频数据中提取情感特征。

在本申请所提供的实施例中，可以直接从整场比赛的音频数据中提取情感特征；也可以先将音频数据进行切分，得到多个音频段数据，再获取每个音频段数据中的情感特征。

S202b，将韵律学特征、基于谱的相关特征和声音质量特征输入至预先设置的情感识别模型，以获取多个情感信息。

情感识别模型可以理解为分类模型，该情感识别模型可以为隐马尔科夫模型(HHM)、高斯混合模型(GMM)、线性人工神经网络(Linear ANN)、非线性人工神经网络(Non-linear ANN)、线性支持向量机(Linear SVM)、非线性支持向量机(Non-linear SVM)、长短时记忆模型(LSTM)、卷积神经网络模型(CNN)以及注意力机制模型等。

其中，韵律学特征对应设置有第一权重信息，基于谱的相关特征对应设置有第二权重信息，声音质量特征对应设置有第三权重信息。将韵律学特征、第一权重信息、基于谱的相关特征、第二权重信息、声音质量特征和第三权重信息输入至情感识别模型，以获取多个情感信息。第一权重信息、第二权重信息和第三权重信息可以根据实际情况进行参数设置，在此并不作限制。

为了便于理解如何依据类别信息和时间信息对视频数据进行剪辑，请参照图4，上述的S203包括以下子步骤：

S203a，依据每个情感信息对应的时间信息对视频数据进行剪辑，得到多个视频段数据。

因为音频数据与视频数据同步，故音频数据的时间信息与视频数据的时间信息对应。将时间信息与每个情感信息的时间信息相同的视频段进行剪辑，可以得到多个视频段数据。

其中，视频段数据与类别信息对应。应理解，视频段数据是根据每个情感信息对应的时间信息剪辑得到，因为视频段数据的时间信息与情感信息对应的时间信息相同，情感信息对应的时间信息与类别信息是对应的。故可以根据视频段数据的时间信息，获知该视频段数据对应的类别信息。

例如，若在音频数据的第一时间信息为5-10s对应的第一情感信息的类别信息为高兴激动，在音频数据的第二时间信息为30-40s对应的第二情感信息的类别信息为失望，在音频数据的第三时间信息为60-70s对应的第三情感信息的类别信息为高兴激动；根据第一时间信息5-10s对视频数据进行剪辑，可以得到时间信息为5-10s的第一视频段数据；根据第二时间信息30-40s对视频数据进行剪辑，可以得到时间信息为30-40s的第二视频段数据；根据第三时间信息60-70s对视频数据进行剪辑，可以得到时间信息为60-70s的第三视频段数据。因为第一时间信息为5-10s的音频数据类别信息为高兴激动，那么可以确定时间信息为5-10s的第一视频段数据对应的类别信息为高兴激动；因为第二时间信息为30-40s的音频数据类别信息为失望，那么可以确定时间信息为30-40s的第二视频段数据对应的类别信息为失望；因为第三时间信息为60-70s的音频数据类别信息为高兴激动，那么可以确定时间信息为60-70s的第三视频段数据对应的类别信息为高兴激动。

S203b，将类别信息相同的视频段数据进行汇总，得到多个剪辑视频数据。

应理解，一个剪辑视频数据中包括一种类别的情感。换言之，可以将精彩配合和精彩进球的视频片段剪辑汇总为一个剪辑视频数据，也可以将失误的视频片段剪辑汇总为一个剪辑视频数据。

在一种可选的实施方式中，本申请还可以将类别信息相近的视频段数据进行汇总，得到多个剪辑视频数据；例如，可以将类别信息为失望和气愤的视频段数据进行汇总。还可以依据预设的类别信息和排列规则将对应的视频段数据进行汇总，得到多个剪辑视频数据；例如，可以预先设置需要进行剪辑的视频段数据对应的类别信息为高兴和失望，排列规则为先汇总类别信息为高兴的视频段数据，再汇总类别信息为失望的视频段数据；进行汇总时，先将类别信息为高兴的视频段数据进行汇总，再将类别信息为失望的视频段数据进行汇总。

在一种可选的实施方式中，本申请在进行视频段数据汇总时，还可以依据类别信息生成对应的辅助信息，并在将与类别信息对应的辅助信息插入至与类别信息对应的视频段数据中，得到插入有辅助信息的视频段数据，将类别信息相同的插入有辅助信息的视频段数据进行汇总，得到多个具有辅助信息的剪辑视频数据。其中，辅助信息可以为背景音乐，也可以为动画表情包，还可以为弹幕文字。

例如，类别信息为高兴，对应的辅助信息可以为一段节奏轻快的音乐，也可以为表示高兴的动画表情包，还可以为表示高兴的文字弹幕。

为了便于理解视频剪辑方法的工作原理，请参照图5，为本申请实施例提供的一种视频剪辑的处理流程示意图。电子设备100获取体育比赛音视频数据后，从体育比赛音视频数据中分别提取出音频数据和视频数据；其中，音频数据为评论员针对体育比赛的实况评论，视频数据为体育比赛视频。提取音频数据中的情感特征，情感特征包括韵律学特征、基于谱的相关特征和声音质量特征。将韵律学特征、基于谱的相关特征和声音质量特征输入至预先设置的情感识别模型，以获取多个情感信息。依据每个情感信息对应的时间信息对视频数据进行剪辑，得到多个视频段数据，其中，视频段数据与类别信息对应。将类别信息相同的视频段数据进行汇总，得到多个剪辑视频数据。

为了实现上述S201～S203及其可能的子步骤对应的视频剪辑方法，本申请实施例提供一种视频剪辑装置，请参见图6，图6为本申请实施例提供的一种视频剪辑装置300的方框示意图，该视频剪辑装置300包括：提取模块301、获取模块302和剪辑模块303。

提取模块301用于从音视频数据中分别提取出音频数据和视频数据。

获取模块302用于获取音频数据中的多个情感信息；其中，每个情感信息包括类别信息和时间信息，时间信息用于表征情感信息对应的音频数据的时间段。

在一种可选的实施例中，获取模块302还用于提取音频数据中的情感特征；其中，情感特征包括韵律学特征、基于谱的相关特征和声音质量特征；获取模块302还用于将韵律学特征、基于谱的相关特征和声音质量特征输入至预先设置的情感识别模型，以获取多个情感信息。

在一种可选的实施例中，获取模块302还用于将音频数据进行切分，得到多个音频段数据；并获取每个音频段数据中的情感特征。

剪辑模块303用于依据类别信息和时间信息对视频数据进行剪辑，得到剪辑视频数据。

在一种可选的实施例中，剪辑模块303还用于依据每个情感信息对应的时间信息对视频数据进行剪辑，得到多个视频段数据；其中，视频段数据与类别信息对应；剪辑模块303还用于将类别信息相同的视频段数据进行汇总，得到多个剪辑视频数据。

应理解，提取模块301、获取模块302和剪辑模块303可以协同实现上述S201～S203及其可能的子步骤。

综上，本申请提供了一种视频剪辑方法、装置、电子设备和计算机存储介质，通过音频数据中的情感信息，对视频数据进行剪辑，可以自动剪辑出剪辑视频数据。能够实现对海量音视频的自动分析剪辑，不仅节省了人力资源，还提高了剪辑效率。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种视频剪辑方法，其特征在于，所述方法包括：

从音视频数据中分别提取出音频数据和视频数据；

2.根据权利要求1所述的方法，其特征在于，获取所述音频数据中的多个情感信息的步骤包括：

提取所述音频数据中的情感特征；其中，所述情感特征包括韵律学特征、基于谱的相关特征和声音质量特征；

将所述韵律学特征、所述基于谱的相关特征和所述声音质量特征输入至预先设置的情感识别模型，以获取所述多个情感信息。

3.根据权利要求2所述的方法，其特征在于，所述提取所述音频数据中的情感特征的步骤包括：

将所述音频数据进行切分，得到多个音频段数据；

获取每个所述音频段数据中的情感特征。

4.根据权利要求1所述的方法，其特征在于，所述依据所述类别信息和所述时间信息对所述视频数据进行剪辑，得到剪辑视频数据的步骤包括；

依据每个情感信息对应的时间信息对所述视频数据进行剪辑，得到多个视频段数据；其中，所述视频段数据与所述类别信息对应；

将所述类别信息相同的视频段数据进行汇总，得到多个所述剪辑视频数据。

5.一种视频剪辑装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述获取模块，还用于提取所述音频数据中的情感特征；其中，所述情感特征包括韵律学特征、基于谱的相关特征和声音质量特征；

所述获取模块，还用于将所述韵律学特征、所述基于谱的相关特征和所述声音质量特征输入至预先设置的情感识别模型，以获取所述多个情感信息。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，还用于将所述音频数据进行切分，得到多个音频段数据；

所述获取模块，还用于获取每个所述音频段数据中的情感特征。

8.根据权利要求5所述的装置，其特征在于，所述剪辑模块，还用于依据每个情感信息对应的时间信息对所述视频数据进行剪辑，得到多个视频段数据；其中，所述视频段数据与所述类别信息对应；

所述剪辑模块，还用于将所述类别信息相同的视频段数据进行汇总，得到多个所述剪辑视频数据。

9.一种电子设备，其特征在于，包括存储器、以及一个或多个处理器，所述存储器用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器执行时，实现如权利要求1至4任意一项所述的方法。

10.一种计算机存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任意一项所述方法的步骤。